正確合理的統計分析方法可使診斷試驗準確性的比較結果更具有說服力。本文將試驗的診斷準確性按二分類結局和有序多分類/連續型2種結局變量,以靈敏度、特異度、ROC曲線和AUC值等診斷指標為切入點,結合實例,介紹如何通過參數估計和假設檢驗比較多個診斷試驗的診斷結果,以期為多個診斷試驗的準確性比較提供參考。
引用本文: 田晨, 楊秋玉, 賴鴻皓, 陸瑤, 田金徽, 李霓, 王慧琳, 鄭亞迪, 李江, 申希平, 葛龍. 診斷試驗準確性比較研究的統計分析. 中國循證醫學雜志, 2022, 22(12): 1474-1482. doi: 10.7507/1672-2531.202205162 復制
在同一診斷性試驗準確性比較研究中,以金標準或者參考標準作參照,比較2種及2種以上診斷試驗的準確性,即診斷性試驗準確性比較研究(comparative diagnosis test accuracy,CDTA),相對待評價試驗A而言,待評價試驗B的優勢或差距可通過計算兩者的差值或比值體現[1]。此時,還應確定有多大的信心可認為該結論是正確的。因此,通常可通過參數估計來推斷總體參數所在的范圍或者通過假設檢驗來推斷總體參數之間是否不同。本文旨在介紹靈敏度、特異度、似然比等診斷試驗中常見的準確性指標及通過參數估計和假設檢驗來比較多個不同診斷試驗的診斷準確性的方法。以期為國內學者開展高質量診斷試驗準確性比較研究提供指導。
1 常見診斷指標
診斷試驗的數據資料形式見表1,常見的指標包括靈敏度(sensitivity,Sen)、特異度(specificity,Spe)、似然比(likelihood ratio,LR)、診斷優勢比(diagnostic odds ratios,DOR)和預測值(predictive values,PV)和ROC曲線(receiver operating characteristic curve)及ROC曲線下方的面積(area under curve,AUC)[2-4]。

1.1 靈敏度
靈敏度表示真陽性率,即金標準/參考標準診斷結果為陽性時,診斷試驗結果也為陽性的研究對象的比例,反映了待評價的診斷試驗識別疾病的能力[2,4]。假陰性率(漏診率)與其互補[5]。靈敏度的計算公式為:Sen=TP/(TP+FN)=a/(a+c)。
1.2 特異度
特異度表示真陰性率,即金標準/參考標準診斷結果為陰性時,診斷試驗結果也為陰性研究對象的比例,反映了待評價的診斷試驗識別未患病者的能力[2,4]。假陽性率(誤診率)與其互補[5]。特異度的計算公式為:Spe=TN/(FP+TN)=d/(b+d)。
1.3 似然比
似然比即診斷的陽性或陰性結果在研究對象“有病”組或“無病”組中出現的概率比值,簡言之,就是研究對象患病和未患病的概率比值。似然比利用了診斷試驗的全部信息,不會受到患病率的影響,可用于估計單個患者的疾病概率[2,4,6]。似然比分為陽性似然比(LR+)和陰性似然比(LR?)。陽性似然比是指真陽性率和假陽性率的比值,計算公式為:LR+=Sen/(1?Spe)=[a/(a+c)]/[b/(b+d)]。陰性似然比是指假陰性率和真陰性率的比值,計算公式為:LR?=(1?Sen)/Spe=[c/(a+c)]/[d/(b+d)]。
1.4 診斷優勢比
診斷優勢比又稱診斷比值比,即陽性似然比與陰性似然比的比值,反映了診斷試驗結果與疾病的相關程度。當DOR>1時,值越大說明診斷試驗的判斷效果越好;當DOR=1時,說明該診斷試驗無法區分正常人與患者;當DOR<1時,正常人會比患者更容易被診斷為陽性,容易出現假陰性錯誤[7]。DOR的計算公式為:DOR=[Sen/(1?Sen)]/[(1?Spe)/Spe]=LR+/LR?=ad/bc。
1.5 預測值
預測值即應用診斷試驗的結果來估計研究對象有病或無病概率的大小。預測值可用來估計疾病的概率,但是會受到患病率的影響[3-4]。預測值分為陽性預測值(positive predictive values,PPV)和陰性預測值(negative predictive values,NPV)。陽性預測值是診斷結果為陽性者中真正患病者所占的概率,計算公式為:PPV=a/(a+b)。陰性預測值是診斷結果為陰性者中未患病者的概率,計算公式為:NPV=d/(c+d)。
1.6 ROC曲線和AUC值
當診斷試驗的結果為多分類或連續型資料時,根據不同的截點值可計算出診斷試驗的靈敏度和特異度,在一個二維坐標系里,以診斷試驗結果的靈敏度作為y軸,以(1?特異度)作為x軸,所對應的點連成曲線,即為受試者工作特征曲線(ROC)[3,8]。ROC曲線下方,x軸上方,左右由y軸及x=1時所對應的y軸平行線所包圍的面積,稱AUC,取值在0到1之間[8-9]。AUC值可綜合反應診斷試驗準確性。此外,ROC曲線越接近(0,1)點,說明試驗準確性越高。
2 CDTA中二分類結局的比較
在CDTA中,同一組研究對象至少接受2種待評價診斷試驗的設計稱為配對設計。當由于倫理問題等原因,所有研究對象只能接受1種診斷試驗時,該類研究稱為非配對設計[10-11]。在非配對設計中,待評價的診斷試驗在不同的研究人群中進行,在理想狀態下,研究對象應該被隨機分配到任一項待評價的診斷試驗中。配對設計的數據資料呈現形式與非配對設計的有所不同,詳見表2和表3。


2.1 非配對設計
2.1.1 靈敏度/特異度的比較
2.1.1.1 靈敏度/特異度的直接比較
非配對設計的診斷試驗準確性比較的靈敏度和特異度的直接比較可通過計算兩者之間的差值(difference,D)或比值(ratio,R)兩種方式實現,計算方式如下:
![]() |
![]() |
![]() |
![]() |
2.1.1.2 差值和比值的參數估計
一般來講,診斷的靈敏度、特異度的差異等同于兩個診斷比例之間的差異:
① 靈敏度差值的方差(variance,Var)估計值為:
![]() |
95%CI=D(Sen)±1.96[12];
② 特異度差值的方差估計值為:
![]() |
95%CI=D(Spe)±1.96[12];
③ 靈敏度比值的對數方差估計值為:
![]() |
95%CI=[12];
④ 特異度比值的對數方差估計值為:
![]() |
95%CI=[12]。
此處需要注意的是:由于相對值的特性,故計算相對比值的置信區間時應采用自然對數,即應求R(Sen)和R(Spe)的自然對數值log(R(Sen))和log(R(Spe))及它們的標準差Var[log(R(Sen))]和Var[log(R(Spe))]。當95%CI不包含1時,表明2種診斷試驗的靈敏度或特異度的差異有統計學意義;反之,當95%CI包含1時,差異無統計學意義。配對設計的診斷試驗參數估計比較方法同理。
2.1.1.3 靈敏度/特異度差異的假設檢驗
首先,建立檢驗假設,確定檢驗水準:
![]() |
![]() |
![]() |
其次,計算檢驗統計量為:
![]() |
最后,確定P值,作出統計推斷:
自由度v=1,根據v和χ2確定P值,判斷兩個診斷試驗靈敏度之間是否有統計學差異。對特異度的χ2檢驗同理。
2.1.2 相對似然比
診斷試驗的診斷準確性也可根據它們的相對似然比進行對比,相對似然比分為陽性相對似然比(rLR+)和陰性相對似然比(rLR?)。
![]() |
![]() |
當rLR+>1且rLR?<1時,說明與試驗B相比,試驗A陽性預測值和陰性預測值均比較好。但是當rLR+<1和/或rLR?>1時,必須對真假陽性事件的出現進行權衡[13]。
此外,還可對相對似然比進行置信區間估計:
① 陽性相對似然比的對數方差估計值為:
![]() |
95%CI=[12],
② 陰性相對似然比的對數方差估計值為:
![]() |
95%CI=[12]。
2.1.3 相對診斷優勢比
除相對似然比以外還可通過相對診斷優勢比來比較兩個試驗的診斷準確性。相對診斷優勢比計算方式如下:
![]() |
較高的診斷優勢比表明在區分患病和未患病個體的能力方面有較高的準確性,但是由于漏診率和誤診率在計算診斷優勢比的過程中發揮了同等重要的作用,所以在CDTA中不常使用[14]。
2.2 配對設計
配對設計的診斷試驗準確性估計方法與非配對設計的差值和比值計算相似,但是在參數估計和假設檢驗過程中要考慮數據資料的配對性質[12]。
2.2.1 靈敏度/特異度的差值和比值
配對設計的診斷試驗準確性比較的靈敏度和特異度的直接比較同樣可通過計算兩者之間的差值(D)或比值(R)兩種方式實現,計算方式如下:
![]() |
![]() |
![]() |
![]() |
2.2.1.1 差值和比值的參數估計
① 靈敏度差值的方差估計值為:
![]() |
95%CI=D(Sen)±1.96[12];
② 特異度差值的方差估計值為:
![]() |
③ 靈敏度比值的對數方差估計值為:
![]() |
95%CI=[12];
④ 特異度比值的對數方差估計值為:
![]() |
95%CI=。
2.2.1.2 靈敏度和特異度的假設檢驗
首先,建立檢驗假設,確定檢驗水準:
![]() |
![]() |
![]() |
其次,計算檢驗統計量:
![]() |
最后,確定P值,作出統計推斷:
自由度v=1,根據v和χ2確定P值,并判斷兩個診斷試驗靈敏度之間是否有統計學差異。
對特異度的χ2檢驗同理,只需把公式更換為:
![]() |
但是,在配對設計數據的χ2檢驗中需要注意:以上χ2檢驗的公式只可用于(s+t)或(x+w)≥40的情況下,若(s+t)或(x+w)<40,則需對以上公式進行連續性校正,校正公式為:
![]() |
2.2.2 相對似然比
配對設計的相對似然比計算方法與非配對設計相同,同樣為rLR+=LR+(A)/LR+(B),rLR?=LR?(A)/LR?(B),但是目前尚無明確公式計算其置信區間[12,19]。
2.3 實例
2.3.1 非配對設計
程勇謀等[20]通過直腸超聲引導,比較經直腸穿刺活檢與經會陰穿刺活檢診斷前列腺癌的準確性,以術后病理診斷作為金標準,采用隨機數字表法將120例研究對象分為經直腸組和經會陰組進行診斷。診斷結果見表4。

經直腸組的靈敏度為61.29%,特異度為79.31%;經會陰組的靈敏度為59.38%,特異度為85.71%。兩組之間靈敏度差值為1.92%[95%CI(?22.24%,25.68%)];兩組之間特異度差值為?6.40%[95%CI(?26.03%,13.23%)]。對靈敏度進行χ2檢驗(χ2=1.26,P>0.05),兩組診斷試驗靈敏度之間沒有統計學差異;對特異度進行χ2檢驗(χ2=0.41,P>0.05),兩組診斷試驗特異度之間沒有統計學差異。
2.3.2 配對設計
Houssami等[21]在比較X線與超聲診斷乳腺癌的診斷試驗中,對240例通過組織病理學確診為癌癥和233例非癌癥研究對象(共240例研究對象,其中233例接受了兩種方式診斷)進行兩種方式的診斷,符合配對設計。診斷結果如表5。

由表5資料可計算得出:X線診斷的靈敏度為75.83%,特異度為87.55%;超聲檢查的靈敏度為81.67%,特異度為87.98%。兩種診斷試驗的靈敏度差值為5.85%[95%CI(?1.52%,13.19%)];特異度差值為0.43%[95%CI(?4.96%,5.82%)]。對靈敏度進行χ2檢驗(χ2=2.39,P>0.05),兩組診斷試驗靈敏度之間沒有統計學差異;對特異度進行χ2檢驗(χ2=0.02,P>0.05),兩組診斷試驗特異度之間沒有統計學差異。
3 CDTA中有序多分類/連續型結局的比較
傳統的診斷試驗評價是將試驗結果分為兩類進行統計分析。而ROC曲線則可根據實際情況對試驗結果進行評價,試驗結果可呈現有序多分類變量(ordinal-scale data),一般為5個及以上的分類,例如疾病診斷結果為正常、可能正常、不確定、可能異常、異常,或連續型變量(continuous-scale data),例如量表篩查等主觀評估結果、影像學診斷結果和實驗室指標等客觀結果等,這種特性對于鑒別診斷更有意義[22]。ROC分析常用于醫學成像技術(例如檢測乳腺癌的乳房X線照片、用于檢測肺癌的低劑量CT)及非成像診斷檢測(例如糖尿病的空腹血糖測試、冠狀動脈疾病的運動壓力測試),能夠綜合評價診斷試驗的準確性,同時也可用來比較2個或2個以上獨立診斷試驗的準確性[23-24]。CDTA的ROC曲線如圖1所示,診斷試驗1的ROC曲線最靠近左上方的點對應的截點值大于診斷試驗2,此時診斷試驗1的靈敏度和特異度均相對優于診斷試驗2,且可看出診斷試驗1的AUC值也大于診斷試驗2的AUC值。

3.1 估計ROC曲線和相關指標的方法
3.1.1 非參數方法
當診斷結果不服從正態分布時,需要采用非參數方法對AUC值進行估計。對非參數方法的AUC值的估算可通過以下公式得出:
![]() |
公式中n1為表1中的a+c,n0為表1中的b+d,每個有目標疾病的研究對象i,它的方差分量為T1;每個沒有目標疾病的研究對象j,它的方差分量為T0:T1i=,T0j=
;ψ的取值可從以下3種情況考慮:如果患病研究對象的診斷試驗準確性低于未患病研究對象,則取值為0;如果患病研究對象的診斷試驗準確性等于未患病研究對象,則取值為0.5;如果患病研究對象的診斷準確性優于未患病研究對象,則取值為1[23-24]。在對AUC值進行估計時需要用置信區間來表示估計的精確度。AUC的方差計算及其95%置信區間的計算如下:
AUC的方差估計值為:
![]() |
95%CI=AUC±1.96 [24]。
![]() |
![]() |
3.1.2 參數方法
在診斷結果滿足正態分布的資料中,包含有目標疾病的研究對象和沒有目標疾病的研究對象兩個群體,所以通常存在兩個相互重疊的正態分布,即雙正態分布。ROC曲線可通過p和q兩個參數來描述其分布,p=(μ1?μ0)/σ0,q=σ1/σ0,其中,在正態分布的沒有目標疾病的研究對象中診斷試驗結果均數為μ0,方差為;在有目標疾病的研究對象中診斷試驗結果均數為μ1,方差為
。可通過公式ROC(t)=
繪制平滑的ROC曲線,其中
為累計正態分布。此時,AUC值可通過AUC=
計算得出[24]。
3.1.3 聚類數據
聚類數據在醫學文獻中非常常見,幾乎有將近一半的研究都涉及對同一受試者的多個器官、器官節段或病變位置進行測量[25]。聚類數據的特征是可在特定研究中將數據分類為多個不同組或“集群”,而且組內的觀察結果比組間的結果更具有“相似性”[26],例如在對冠狀動脈進行成像測試診斷準確性研究時,常需要對每個研究對象4支血管的17個片段進行檢測,每一個研究對象就是一個“集群”,所有研究對象的數據集合在一起即為聚類數據[27]。一個簡單的聚類數據分析方法是將每個診斷結果作為一個獨立的診斷結果,相當于每個診斷結果都來自不同的研究對象,但是這樣會導致標準誤太小、置信區間太窄及P值的意義具有誤導性[28]。所以在求聚類數據的AUC值時,可根據非參數方法中求T0和T1的方差分量與方差估計的公式得出。用Xik來表示有目標疾病的第k個研究對象的診斷結果,用Yik來表示沒有目標疾病的第k個單元的診斷結果,用n1i和n0j分別表示有目標疾病和沒有目標疾病“集群”的數量,用I0表示至少有一個器官/病變位置患有目標疾病的研究對象總數,用I1表示至少有一個部位未患有目標疾病的研究對象總數,則患有目標疾病的器官/病變位置的T1方差分量和未患有目標疾病的T0方差分量可通過以下公式得出:
![]() |
具有聚類數據的AUC值為:
![]() |
此時,可得出方差估計值和協方差分別為
![]() |
![]() |
![]() |
最后可得出AUC的方差估計值為:
Var(AUC)=[24]。
3.2 連續型變量診斷準確性比較的方法
對ROC曲線的比較主要通過以下3種方法:① 比較2條ROC曲線是否相同,即每一個假陽性率所對應的真陽性率是否相同;② 確定2條ROC曲線是否存在某一特定點值相同;③ 比較2條ROC曲線下面積是否相等。本文將主要介紹方法①和方法③來比較CDTA研究中的診斷準確性。其中AUCA表示新的診斷試驗的AUC值,AUCB表示現有診斷試驗的AUC值。
3.2.1 對兩條曲線AUC值的比較
首先,建立檢驗假設,確定檢驗水準:
H0 : AUCA=AUCB
H1 : AUCA ≠AUCB
α=0.05(雙側)
其次,計算檢驗統計量:
Z=
其中,Var(AUCA?AUCB)=;在非配對設計中,協方差為0,在配對設計中,必須對協方差進行估計。協方差估計公式為Cov(AUCA,AUCB)=
。T1i=
,表示每個有目標疾病研究對象i的方差分量,S10=
表示其方差估計值;T0j=
,表示每個沒有目標疾病研究對象j的方差分量,S01=
表示其方差估計值[24]。
最后,確定P值,作出統計推斷:
計算出Z值,將其與標準正態分布界值Z0.05=1.96進行比較,并判斷兩AUC之間是否有統計學差異。
3.2.2 比較兩條ROC曲線是否相同
在兩條ROC曲線相同的情況下,兩AUC值一定相等,但是在AUC值相等時,兩條ROC曲線并不一定相同,因此,方法①并不等同于方法③[28]。所以在兩個AUC值相等時,仍需對兩條ROC曲線是否相同進行假設檢驗。
首先,檢驗兩條ROC曲線是否相同,就是檢驗兩組參數是否相等,因此建立檢驗假設,確定檢驗水準為:
![]() |
![]() |
![]() |
其次,計算檢驗統計量:
![]() |
其中pAB=pA-pB,qAB=qA-qB[28]。當研究設計為非配對設計時
![]() |
![]() |
![]() |
是pi的方差估計值,
是qi的方差估計值,
是pi和qi的協方差估計值。當研究設計為配對設計時:
![]() |
![]() |
![]() |
最后,確定P值,作出統計推斷。
在雙正態參數相等的零假設條件下,配對和非配對設計的檢驗統計量近似服從自由度v=2的χ2分布,根據自由度和χ2值確定P值,并判斷兩條ROC曲線之間是否有統計學差異。
3.3 實例
以Hilton等[29]研究為例,在Venkatraman等[30]發表的文章中可獲取其全部原始數據(表6)。計算結果見表7。

根據計算結果顯示,診斷試驗A和診斷試驗B之間AUC值差值的參數估計為0.219[95%CI(0.060,0.378)],統計分析結果為Z=2.706,P<0.05,可認為兩個診斷試驗的差異有統計學意義。
4 小結
靈敏度和特異度作為診斷試驗準確性的判斷標準,在使用它們描述診斷試驗準確性時會受到一定程度的限制:① 必須同時考慮靈敏度和特異度,但是會存在待評價試驗A靈敏度優于試驗B,而試驗B特異度優于試驗A的情況;② 為評價靈敏度和特異度,診斷結果必須是二分類變量(陽性和陰性),然而與連續型變量相比,二分類變量往往包含的信息較少;③ 對于某些情況,待評價試驗有可能將研究對象分為兩個以上的類別,甚至是提供連續型變量。因此,在對多個診斷試驗的準確性進行比較時,需要綜合考慮各方面的因素,選擇恰當的綜合性指標,比如相對似然比,ROC曲線等。
在同一診斷性試驗準確性比較研究中,以金標準或者參考標準作參照,比較2種及2種以上診斷試驗的準確性,即診斷性試驗準確性比較研究(comparative diagnosis test accuracy,CDTA),相對待評價試驗A而言,待評價試驗B的優勢或差距可通過計算兩者的差值或比值體現[1]。此時,還應確定有多大的信心可認為該結論是正確的。因此,通常可通過參數估計來推斷總體參數所在的范圍或者通過假設檢驗來推斷總體參數之間是否不同。本文旨在介紹靈敏度、特異度、似然比等診斷試驗中常見的準確性指標及通過參數估計和假設檢驗來比較多個不同診斷試驗的診斷準確性的方法。以期為國內學者開展高質量診斷試驗準確性比較研究提供指導。
1 常見診斷指標
診斷試驗的數據資料形式見表1,常見的指標包括靈敏度(sensitivity,Sen)、特異度(specificity,Spe)、似然比(likelihood ratio,LR)、診斷優勢比(diagnostic odds ratios,DOR)和預測值(predictive values,PV)和ROC曲線(receiver operating characteristic curve)及ROC曲線下方的面積(area under curve,AUC)[2-4]。

1.1 靈敏度
靈敏度表示真陽性率,即金標準/參考標準診斷結果為陽性時,診斷試驗結果也為陽性的研究對象的比例,反映了待評價的診斷試驗識別疾病的能力[2,4]。假陰性率(漏診率)與其互補[5]。靈敏度的計算公式為:Sen=TP/(TP+FN)=a/(a+c)。
1.2 特異度
特異度表示真陰性率,即金標準/參考標準診斷結果為陰性時,診斷試驗結果也為陰性研究對象的比例,反映了待評價的診斷試驗識別未患病者的能力[2,4]。假陽性率(誤診率)與其互補[5]。特異度的計算公式為:Spe=TN/(FP+TN)=d/(b+d)。
1.3 似然比
似然比即診斷的陽性或陰性結果在研究對象“有病”組或“無病”組中出現的概率比值,簡言之,就是研究對象患病和未患病的概率比值。似然比利用了診斷試驗的全部信息,不會受到患病率的影響,可用于估計單個患者的疾病概率[2,4,6]。似然比分為陽性似然比(LR+)和陰性似然比(LR?)。陽性似然比是指真陽性率和假陽性率的比值,計算公式為:LR+=Sen/(1?Spe)=[a/(a+c)]/[b/(b+d)]。陰性似然比是指假陰性率和真陰性率的比值,計算公式為:LR?=(1?Sen)/Spe=[c/(a+c)]/[d/(b+d)]。
1.4 診斷優勢比
診斷優勢比又稱診斷比值比,即陽性似然比與陰性似然比的比值,反映了診斷試驗結果與疾病的相關程度。當DOR>1時,值越大說明診斷試驗的判斷效果越好;當DOR=1時,說明該診斷試驗無法區分正常人與患者;當DOR<1時,正常人會比患者更容易被診斷為陽性,容易出現假陰性錯誤[7]。DOR的計算公式為:DOR=[Sen/(1?Sen)]/[(1?Spe)/Spe]=LR+/LR?=ad/bc。
1.5 預測值
預測值即應用診斷試驗的結果來估計研究對象有病或無病概率的大小。預測值可用來估計疾病的概率,但是會受到患病率的影響[3-4]。預測值分為陽性預測值(positive predictive values,PPV)和陰性預測值(negative predictive values,NPV)。陽性預測值是診斷結果為陽性者中真正患病者所占的概率,計算公式為:PPV=a/(a+b)。陰性預測值是診斷結果為陰性者中未患病者的概率,計算公式為:NPV=d/(c+d)。
1.6 ROC曲線和AUC值
當診斷試驗的結果為多分類或連續型資料時,根據不同的截點值可計算出診斷試驗的靈敏度和特異度,在一個二維坐標系里,以診斷試驗結果的靈敏度作為y軸,以(1?特異度)作為x軸,所對應的點連成曲線,即為受試者工作特征曲線(ROC)[3,8]。ROC曲線下方,x軸上方,左右由y軸及x=1時所對應的y軸平行線所包圍的面積,稱AUC,取值在0到1之間[8-9]。AUC值可綜合反應診斷試驗準確性。此外,ROC曲線越接近(0,1)點,說明試驗準確性越高。
2 CDTA中二分類結局的比較
在CDTA中,同一組研究對象至少接受2種待評價診斷試驗的設計稱為配對設計。當由于倫理問題等原因,所有研究對象只能接受1種診斷試驗時,該類研究稱為非配對設計[10-11]。在非配對設計中,待評價的診斷試驗在不同的研究人群中進行,在理想狀態下,研究對象應該被隨機分配到任一項待評價的診斷試驗中。配對設計的數據資料呈現形式與非配對設計的有所不同,詳見表2和表3。


2.1 非配對設計
2.1.1 靈敏度/特異度的比較
2.1.1.1 靈敏度/特異度的直接比較
非配對設計的診斷試驗準確性比較的靈敏度和特異度的直接比較可通過計算兩者之間的差值(difference,D)或比值(ratio,R)兩種方式實現,計算方式如下:
![]() |
![]() |
![]() |
![]() |
2.1.1.2 差值和比值的參數估計
一般來講,診斷的靈敏度、特異度的差異等同于兩個診斷比例之間的差異:
① 靈敏度差值的方差(variance,Var)估計值為:
![]() |
95%CI=D(Sen)±1.96[12];
② 特異度差值的方差估計值為:
![]() |
95%CI=D(Spe)±1.96[12];
③ 靈敏度比值的對數方差估計值為:
![]() |
95%CI=[12];
④ 特異度比值的對數方差估計值為:
![]() |
95%CI=[12]。
此處需要注意的是:由于相對值的特性,故計算相對比值的置信區間時應采用自然對數,即應求R(Sen)和R(Spe)的自然對數值log(R(Sen))和log(R(Spe))及它們的標準差Var[log(R(Sen))]和Var[log(R(Spe))]。當95%CI不包含1時,表明2種診斷試驗的靈敏度或特異度的差異有統計學意義;反之,當95%CI包含1時,差異無統計學意義。配對設計的診斷試驗參數估計比較方法同理。
2.1.1.3 靈敏度/特異度差異的假設檢驗
首先,建立檢驗假設,確定檢驗水準:
![]() |
![]() |
![]() |
其次,計算檢驗統計量為:
![]() |
最后,確定P值,作出統計推斷:
自由度v=1,根據v和χ2確定P值,判斷兩個診斷試驗靈敏度之間是否有統計學差異。對特異度的χ2檢驗同理。
2.1.2 相對似然比
診斷試驗的診斷準確性也可根據它們的相對似然比進行對比,相對似然比分為陽性相對似然比(rLR+)和陰性相對似然比(rLR?)。
![]() |
![]() |
當rLR+>1且rLR?<1時,說明與試驗B相比,試驗A陽性預測值和陰性預測值均比較好。但是當rLR+<1和/或rLR?>1時,必須對真假陽性事件的出現進行權衡[13]。
此外,還可對相對似然比進行置信區間估計:
① 陽性相對似然比的對數方差估計值為:
![]() |
95%CI=[12],
② 陰性相對似然比的對數方差估計值為:
![]() |
95%CI=[12]。
2.1.3 相對診斷優勢比
除相對似然比以外還可通過相對診斷優勢比來比較兩個試驗的診斷準確性。相對診斷優勢比計算方式如下:
![]() |
較高的診斷優勢比表明在區分患病和未患病個體的能力方面有較高的準確性,但是由于漏診率和誤診率在計算診斷優勢比的過程中發揮了同等重要的作用,所以在CDTA中不常使用[14]。
2.2 配對設計
配對設計的診斷試驗準確性估計方法與非配對設計的差值和比值計算相似,但是在參數估計和假設檢驗過程中要考慮數據資料的配對性質[12]。
2.2.1 靈敏度/特異度的差值和比值
配對設計的診斷試驗準確性比較的靈敏度和特異度的直接比較同樣可通過計算兩者之間的差值(D)或比值(R)兩種方式實現,計算方式如下:
![]() |
![]() |
![]() |
![]() |
2.2.1.1 差值和比值的參數估計
① 靈敏度差值的方差估計值為:
![]() |
95%CI=D(Sen)±1.96[12];
② 特異度差值的方差估計值為:
![]() |
③ 靈敏度比值的對數方差估計值為:
![]() |
95%CI=[12];
④ 特異度比值的對數方差估計值為:
![]() |
95%CI=。
2.2.1.2 靈敏度和特異度的假設檢驗
首先,建立檢驗假設,確定檢驗水準:
![]() |
![]() |
![]() |
其次,計算檢驗統計量:
![]() |
最后,確定P值,作出統計推斷:
自由度v=1,根據v和χ2確定P值,并判斷兩個診斷試驗靈敏度之間是否有統計學差異。
對特異度的χ2檢驗同理,只需把公式更換為:
![]() |
但是,在配對設計數據的χ2檢驗中需要注意:以上χ2檢驗的公式只可用于(s+t)或(x+w)≥40的情況下,若(s+t)或(x+w)<40,則需對以上公式進行連續性校正,校正公式為:
![]() |
2.2.2 相對似然比
配對設計的相對似然比計算方法與非配對設計相同,同樣為rLR+=LR+(A)/LR+(B),rLR?=LR?(A)/LR?(B),但是目前尚無明確公式計算其置信區間[12,19]。
2.3 實例
2.3.1 非配對設計
程勇謀等[20]通過直腸超聲引導,比較經直腸穿刺活檢與經會陰穿刺活檢診斷前列腺癌的準確性,以術后病理診斷作為金標準,采用隨機數字表法將120例研究對象分為經直腸組和經會陰組進行診斷。診斷結果見表4。

經直腸組的靈敏度為61.29%,特異度為79.31%;經會陰組的靈敏度為59.38%,特異度為85.71%。兩組之間靈敏度差值為1.92%[95%CI(?22.24%,25.68%)];兩組之間特異度差值為?6.40%[95%CI(?26.03%,13.23%)]。對靈敏度進行χ2檢驗(χ2=1.26,P>0.05),兩組診斷試驗靈敏度之間沒有統計學差異;對特異度進行χ2檢驗(χ2=0.41,P>0.05),兩組診斷試驗特異度之間沒有統計學差異。
2.3.2 配對設計
Houssami等[21]在比較X線與超聲診斷乳腺癌的診斷試驗中,對240例通過組織病理學確診為癌癥和233例非癌癥研究對象(共240例研究對象,其中233例接受了兩種方式診斷)進行兩種方式的診斷,符合配對設計。診斷結果如表5。

由表5資料可計算得出:X線診斷的靈敏度為75.83%,特異度為87.55%;超聲檢查的靈敏度為81.67%,特異度為87.98%。兩種診斷試驗的靈敏度差值為5.85%[95%CI(?1.52%,13.19%)];特異度差值為0.43%[95%CI(?4.96%,5.82%)]。對靈敏度進行χ2檢驗(χ2=2.39,P>0.05),兩組診斷試驗靈敏度之間沒有統計學差異;對特異度進行χ2檢驗(χ2=0.02,P>0.05),兩組診斷試驗特異度之間沒有統計學差異。
3 CDTA中有序多分類/連續型結局的比較
傳統的診斷試驗評價是將試驗結果分為兩類進行統計分析。而ROC曲線則可根據實際情況對試驗結果進行評價,試驗結果可呈現有序多分類變量(ordinal-scale data),一般為5個及以上的分類,例如疾病診斷結果為正常、可能正常、不確定、可能異常、異常,或連續型變量(continuous-scale data),例如量表篩查等主觀評估結果、影像學診斷結果和實驗室指標等客觀結果等,這種特性對于鑒別診斷更有意義[22]。ROC分析常用于醫學成像技術(例如檢測乳腺癌的乳房X線照片、用于檢測肺癌的低劑量CT)及非成像診斷檢測(例如糖尿病的空腹血糖測試、冠狀動脈疾病的運動壓力測試),能夠綜合評價診斷試驗的準確性,同時也可用來比較2個或2個以上獨立診斷試驗的準確性[23-24]。CDTA的ROC曲線如圖1所示,診斷試驗1的ROC曲線最靠近左上方的點對應的截點值大于診斷試驗2,此時診斷試驗1的靈敏度和特異度均相對優于診斷試驗2,且可看出診斷試驗1的AUC值也大于診斷試驗2的AUC值。

3.1 估計ROC曲線和相關指標的方法
3.1.1 非參數方法
當診斷結果不服從正態分布時,需要采用非參數方法對AUC值進行估計。對非參數方法的AUC值的估算可通過以下公式得出:
![]() |
公式中n1為表1中的a+c,n0為表1中的b+d,每個有目標疾病的研究對象i,它的方差分量為T1;每個沒有目標疾病的研究對象j,它的方差分量為T0:T1i=,T0j=
;ψ的取值可從以下3種情況考慮:如果患病研究對象的診斷試驗準確性低于未患病研究對象,則取值為0;如果患病研究對象的診斷試驗準確性等于未患病研究對象,則取值為0.5;如果患病研究對象的診斷準確性優于未患病研究對象,則取值為1[23-24]。在對AUC值進行估計時需要用置信區間來表示估計的精確度。AUC的方差計算及其95%置信區間的計算如下:
AUC的方差估計值為:
![]() |
95%CI=AUC±1.96 [24]。
![]() |
![]() |
3.1.2 參數方法
在診斷結果滿足正態分布的資料中,包含有目標疾病的研究對象和沒有目標疾病的研究對象兩個群體,所以通常存在兩個相互重疊的正態分布,即雙正態分布。ROC曲線可通過p和q兩個參數來描述其分布,p=(μ1?μ0)/σ0,q=σ1/σ0,其中,在正態分布的沒有目標疾病的研究對象中診斷試驗結果均數為μ0,方差為;在有目標疾病的研究對象中診斷試驗結果均數為μ1,方差為
。可通過公式ROC(t)=
繪制平滑的ROC曲線,其中
為累計正態分布。此時,AUC值可通過AUC=
計算得出[24]。
3.1.3 聚類數據
聚類數據在醫學文獻中非常常見,幾乎有將近一半的研究都涉及對同一受試者的多個器官、器官節段或病變位置進行測量[25]。聚類數據的特征是可在特定研究中將數據分類為多個不同組或“集群”,而且組內的觀察結果比組間的結果更具有“相似性”[26],例如在對冠狀動脈進行成像測試診斷準確性研究時,常需要對每個研究對象4支血管的17個片段進行檢測,每一個研究對象就是一個“集群”,所有研究對象的數據集合在一起即為聚類數據[27]。一個簡單的聚類數據分析方法是將每個診斷結果作為一個獨立的診斷結果,相當于每個診斷結果都來自不同的研究對象,但是這樣會導致標準誤太小、置信區間太窄及P值的意義具有誤導性[28]。所以在求聚類數據的AUC值時,可根據非參數方法中求T0和T1的方差分量與方差估計的公式得出。用Xik來表示有目標疾病的第k個研究對象的診斷結果,用Yik來表示沒有目標疾病的第k個單元的診斷結果,用n1i和n0j分別表示有目標疾病和沒有目標疾病“集群”的數量,用I0表示至少有一個器官/病變位置患有目標疾病的研究對象總數,用I1表示至少有一個部位未患有目標疾病的研究對象總數,則患有目標疾病的器官/病變位置的T1方差分量和未患有目標疾病的T0方差分量可通過以下公式得出:
![]() |
具有聚類數據的AUC值為:
![]() |
此時,可得出方差估計值和協方差分別為
![]() |
![]() |
![]() |
最后可得出AUC的方差估計值為:
Var(AUC)=[24]。
3.2 連續型變量診斷準確性比較的方法
對ROC曲線的比較主要通過以下3種方法:① 比較2條ROC曲線是否相同,即每一個假陽性率所對應的真陽性率是否相同;② 確定2條ROC曲線是否存在某一特定點值相同;③ 比較2條ROC曲線下面積是否相等。本文將主要介紹方法①和方法③來比較CDTA研究中的診斷準確性。其中AUCA表示新的診斷試驗的AUC值,AUCB表示現有診斷試驗的AUC值。
3.2.1 對兩條曲線AUC值的比較
首先,建立檢驗假設,確定檢驗水準:
H0 : AUCA=AUCB
H1 : AUCA ≠AUCB
α=0.05(雙側)
其次,計算檢驗統計量:
Z=
其中,Var(AUCA?AUCB)=;在非配對設計中,協方差為0,在配對設計中,必須對協方差進行估計。協方差估計公式為Cov(AUCA,AUCB)=
。T1i=
,表示每個有目標疾病研究對象i的方差分量,S10=
表示其方差估計值;T0j=
,表示每個沒有目標疾病研究對象j的方差分量,S01=
表示其方差估計值[24]。
最后,確定P值,作出統計推斷:
計算出Z值,將其與標準正態分布界值Z0.05=1.96進行比較,并判斷兩AUC之間是否有統計學差異。
3.2.2 比較兩條ROC曲線是否相同
在兩條ROC曲線相同的情況下,兩AUC值一定相等,但是在AUC值相等時,兩條ROC曲線并不一定相同,因此,方法①并不等同于方法③[28]。所以在兩個AUC值相等時,仍需對兩條ROC曲線是否相同進行假設檢驗。
首先,檢驗兩條ROC曲線是否相同,就是檢驗兩組參數是否相等,因此建立檢驗假設,確定檢驗水準為:
![]() |
![]() |
![]() |
其次,計算檢驗統計量:
![]() |
其中pAB=pA-pB,qAB=qA-qB[28]。當研究設計為非配對設計時
![]() |
![]() |
![]() |
是pi的方差估計值,
是qi的方差估計值,
是pi和qi的協方差估計值。當研究設計為配對設計時:
![]() |
![]() |
![]() |
最后,確定P值,作出統計推斷。
在雙正態參數相等的零假設條件下,配對和非配對設計的檢驗統計量近似服從自由度v=2的χ2分布,根據自由度和χ2值確定P值,并判斷兩條ROC曲線之間是否有統計學差異。
3.3 實例
以Hilton等[29]研究為例,在Venkatraman等[30]發表的文章中可獲取其全部原始數據(表6)。計算結果見表7。

根據計算結果顯示,診斷試驗A和診斷試驗B之間AUC值差值的參數估計為0.219[95%CI(0.060,0.378)],統計分析結果為Z=2.706,P<0.05,可認為兩個診斷試驗的差異有統計學意義。
4 小結
靈敏度和特異度作為診斷試驗準確性的判斷標準,在使用它們描述診斷試驗準確性時會受到一定程度的限制:① 必須同時考慮靈敏度和特異度,但是會存在待評價試驗A靈敏度優于試驗B,而試驗B特異度優于試驗A的情況;② 為評價靈敏度和特異度,診斷結果必須是二分類變量(陽性和陰性),然而與連續型變量相比,二分類變量往往包含的信息較少;③ 對于某些情況,待評價試驗有可能將研究對象分為兩個以上的類別,甚至是提供連續型變量。因此,在對多個診斷試驗的準確性進行比較時,需要綜合考慮各方面的因素,選擇恰當的綜合性指標,比如相對似然比,ROC曲線等。