不知道你有沒(méi)有發(fā)現(xiàn),黑色背景+橙色文字的logo越來(lái)越多,無(wú)論你刷B站、微博、抖音,這種略帶西方神秘主義的圖像總讓人微微一笑。

直男吸鐵石半佛老師引人入勝的視頻封面
當(dāng)然,作為陽(yáng)光向上的SAS程序員,我們更多的時(shí)間當(dāng)然是在寬敞的工位上瀟灑地編程。有時(shí)領(lǐng)導(dǎo)悄悄走過(guò)你的身邊,拍拍你的肩膀跟你說(shuō):現(xiàn)在這個(gè)study的數(shù)據(jù)你拿Pinnacle 21跑一下。
不知道Pinnacle 21是啥的你,默默打開(kāi)搜索引擎,卻發(fā)現(xiàn)了一個(gè)讓人羞澀又心動(dòng)的頭像。

不開(kāi)玩笑,這真是Pinnacle 21在linkedIn上的官方頭像,不是PxxxHub 21+的縮寫(xiě)。

如果你沒(méi)聽(tīng)過(guò)Pinnacle 21這個(gè)工具,我們先來(lái)介紹一下它的地位。在醫(yī)藥公司和CRO里,SAS程序員打開(kāi)次數(shù)最多的軟件一定是SAS,第二名就可能是Pinnacle 21。
那么這個(gè)神奇的軟件是怎么來(lái)的呢?Pinnacle 21是一家2011年成立的公司,如果說(shuō)醫(yī)藥行業(yè)是一座金礦,那么藥廠就是在這座金礦的掘金者,眾多CRO就是為掘金者送外賣的小哥,但Pinnacle 21公司相當(dāng)于是賣鏟子和牛仔褲的商販。
Pinnacle 21在2016年前,它們開(kāi)發(fā)的產(chǎn)品不叫這個(gè)名字,而是一個(gè)更通俗易懂的名稱:OpenCDISC。

然而,強(qiáng)大的CDISC組織可不希望這家公司打著自己的名號(hào)四處招攬用戶,于是要求產(chǎn)品改名,公司于是將產(chǎn)品名稱改成了這個(gè)略帶中二的感覺(jué):巔峰21。
Pinnacle 21的界面極其簡(jiǎn)單,主要功能有兩個(gè):檢測(cè)CDISC數(shù)據(jù)和創(chuàng)建define文件。這篇文章我們來(lái)講講用Pinnacle 21的第一個(gè)功能。
實(shí)現(xiàn)這個(gè)功能有多簡(jiǎn)單呢?總共分三步:把數(shù)據(jù)集放進(jìn)去、點(diǎn)擊運(yùn)行按鈕、把結(jié)果文檔打開(kāi)。
Pinnacle 21無(wú)法接受SAS數(shù)據(jù)集,我們需要先把數(shù)據(jù)轉(zhuǎn)化為xpt文件,然后讀取到Pinnacle 21之中。

在點(diǎn)擊Validate按鈕之前,你還可以選擇所用的CDISC版本,Control Term的版本等等,確認(rèn)所有需要檢測(cè)的數(shù)據(jù)都上傳成功后就可以點(diǎn)擊Validate按鈕等待它產(chǎn)生結(jié)果了。
在運(yùn)行幾秒到幾十秒后,程序會(huì)顯示生成了一個(gè)Excel文件,現(xiàn)在我們打開(kāi)它:

放大來(lái)看,這個(gè)文件總共有5張表,分別是Validation Summary 、Dataset Summary、 Issue Summary 、Details 、Rules。我們需要注意的是其中的三個(gè)表格:
Dataset Summary-這個(gè)表中顯示被檢查的每個(gè)數(shù)據(jù)集名稱和錯(cuò)誤類型的數(shù)量,我們需要根據(jù)這些信息確定哪些數(shù)據(jù)中有錯(cuò)誤。
Issue Summary-如果你想了解每個(gè)數(shù)據(jù)中的具體錯(cuò)誤類型,就需要進(jìn)入Issue Summary這個(gè)表。它顯示了每個(gè)數(shù)據(jù)集里各種錯(cuò)誤的描述和數(shù)量。
Details-如果你想了解哪條數(shù)據(jù)有錯(cuò)誤,如何定位它們,就需要進(jìn)入Details表進(jìn)行查看。
說(shuō)到這里,我們可以發(fā)現(xiàn),三個(gè)重要的表是一個(gè)層層遞進(jìn)的過(guò)程。下面我們用一個(gè)具體的數(shù)據(jù)集來(lái)了解一下通過(guò)Pinnacle 21如何找出數(shù)據(jù)集的錯(cuò)誤。

進(jìn)入Dataset Summary表,發(fā)現(xiàn)ADEG數(shù)據(jù)集看上去一切完美,沒(méi)有任何Reject??墒聦?shí)是這樣嗎?

不要高興太早,我們進(jìn)入Issue Summary表,發(fā)現(xiàn)ADEG下有三條記錄。

第一條記錄說(shuō)明有變量的label與CDISC標(biāo)準(zhǔn)不相同,第二條記錄說(shuō)明COMPFL的值有問(wèn)題,應(yīng)該是Y或空,第三條則是ABLFL=Y的記錄中base不等于AVAL。這三個(gè)問(wèn)題明顯是都不符合CDISC標(biāo)準(zhǔn),那么我們?nèi)绾沃谰烤故悄臈l記錄有這種錯(cuò)誤呢?請(qǐng)打開(kāi)第三個(gè)表Details。

我們可以看到,Details表中包含了更多的數(shù)據(jù),從這些數(shù)據(jù)里我們可以得出以下信息:
1. 變量ADTM的label不正確
2. 變量COMPFL的值存在N,應(yīng)該改為缺失值
3. 很多記錄的基準(zhǔn)線值里base為缺失值而非AVAL
有了以上這些信息,我們就可以明確地修改數(shù)據(jù)集。
這就是Pinnacle 21這個(gè)軟件的重要功能之一,即讓我們可以快速地找出數(shù)據(jù)集與CDISC標(biāo)準(zhǔn)相左之處。如果說(shuō)SAS程序員是一個(gè)游戲高手,那么Pinnacle 21就相當(dāng)于開(kāi)圖外掛,你不需要對(duì)著CDISC標(biāo)準(zhǔn)一個(gè)變量一個(gè)記錄地看,用Pinnacle 21直接完成全圖掃描,然后告訴你敵人在哪里。
當(dāng)然,以上只是Pinnacle 21軟件的一個(gè)功能,它的另一個(gè)重要功能——?jiǎng)?chuàng)建define文件,我們將在后續(xù)逐步分享。