診斷試驗 Meta 分析需要獲取納入診斷性試驗的真陽性、假陽性、假陰性、真陰性的受試者例數。當原始文獻無法直接獲得這些指標,又無法取得原始數據時,可對數據進行深度提取。本文介紹 3 種對診斷試驗的數據進行深度提取的方法,并通過實例分析展示操作過程。
引用本文: 劉海寧, 吳昊, 張寧萍, 李煜, 曾于珍, 沈錫中, 劉韜韜. 診斷準確性試驗 Meta 分析四格表數據的提取方法. 中國循證醫學雜志, 2018, 18(9): 995-1000. doi: 10.7507/1672-2531.201805153 復制
診斷試驗 Meta 分析是針對診斷準確性研究的統計學合并方法,其提取數據和統計計算的過程與其他類型的 Meta 分析有明顯不同。診斷試驗 Meta 分析需提取納入文獻的真陽性(true positive,TP)、假陽性(false positive,FP)、假陰性(false negative,FN)、真陰性(true negative,TN)的受試者例數。根據“診斷準確性研究報告規范”(standards for reporting diagnostic accuracy studies,STARD)[1]及其 2015 年更新版[2],診斷試驗應報告診斷準確性的估計結果及其精確度(如 95% 可信區間)。然而,一些診斷準確性試驗沒有提供完整的四格表數據,并不能輕易得出 TP、FP、FN、TN 的具體數值。下面即針對多種無法直接獲得四格表數據的情況介紹如何對數據進行深度提取的方法。
1 方法介紹
1.1 由其他診斷指標計算
絕大多數文獻并不會直接給出 TP、FP、FN、TN 的數值。診斷試驗的數據四格表見表 1,常見的診斷指標及計算公式見表 2。通常,文獻中會給出靈敏度(Sen)、特異度(Spe)、病例數、對照數。此時,a=N1×Sen,d=N2×Spe,c=N1-TP,b=N2-TN。少數情況下,文獻中只給出其他診斷指標,如預測值、似然比等。從數學計算的角度來看,要求出 a、b、c、d,一共 4 個未知數,需要解一個四元一次方程組。表示例數的量有 a、b、c、d、N1、N2、N3、N4、N,表示比例的量有 Sen、Spe、PPV、NPV。任意給出其中 4 個量的數值,均可求出其他量的數值,但要滿足 2 個前提:一是 4 個數值中至少要有 1 個表示例數的量;二是 4 個量中某一個量不能由給出的其他幾個量直接算出,例如給出 Sen、a、c,而 Sen 可以由 a 和 c 直接算出,或是給出 a、c、N1,而 N1 可以由 a 和 c 直接算出。有兩個很特殊的量,即 PLR 和 NLR,其計算公式比較復雜。當同時知道 PLR、NLR、N1、N2 時,也可求出 a、b、c、d。


下面介紹如何用 RevMan 5.3 軟件中的“計算器”功能快速求出 TP、FP、FN、TN 的數值。安裝軟件并打開,點擊“File”選項卡→“New”,在新出現的對話框中選擇 Meta 分析的種類“Diagnostic test accuracy review”并點擊“Finish”。接下來要創建一個需納入的研究,具體步驟如圖 1:點擊左側欄的“Data and analyses”,再點擊右側面板的“Data and analyses”旁的“
”使之展開(默認為折疊狀態),再用同樣方法展開“Data tables by test”,進而點擊按鈕“Add Test”。新出現的對話框里直接點擊“Finish”,右側面板就會出現計算器的按鈕“
”,點擊后即可調出 RevMan 5.3 軟件內置的計算器(圖 2)。在計算器界面內直接輸入已知量的數值,便可計算出 TP、FP、FN、TN。


1.2 從 ROC 曲線中截取數據
當改變診斷試驗的診斷閾值(cut-off value)時,靈敏度和特異度會發生變化。診斷試驗 Meta 分析需要提取的靈敏度和特異度是二者的最佳組合。所謂“最佳組合”通常有三種,分別是使約登指數(Youden’s index)、product index、Euclidean’s index 三種指數達到最大值的組合[3],三者的計算公式分別是Sen+Spe-1,Sen×Spe,
。
一些文獻沒有給出最佳靈敏度、特異度的組合,而是給出了受試者工作特征曲線(receiver operating characteristic curve,ROC 曲線)。ROC 曲線是一系列以(1-特異度)為自變量,靈敏度為因變量畫出的曲線。ROC 曲線上某一個點(x1,y1)的約登指數是 y1-x1;而經過該點且斜率為 1 的直線為 y-y1=x-x1,其截距也是 y1-x1。因此,要使約登指數最大,只要使經過該點且斜率為 1 的直線的截距最大即可,這正是 ROC 曲線上距離直線 y=x 最遠的點。絕大部分文獻均以此方法計算最佳靈敏度和特異度。而在 ROC 曲線中使 Euclidean’s index 達到最大值的點是距離坐標(0,1)最近的點。大多數情況下,使三種指數達到最大值的點是同一個點。
另需注意,當患病率(即病例數除以受試者總數)極高或極低時,最佳靈敏度、特異度的組合并非是 ROC 曲線上使約登指數最大的點[4]。當患病率極高時,需要盡量提高診斷試驗的特異度,應選取 ROC 曲線上距離 x 軸近且距離直線 y=x 盡量遠的點;當患病率極低時,需要盡量提高診斷試驗的靈敏度,應選取 ROC 曲線上距離直線 y=1 近且距離直線 y=x 盡量遠的點。此外,Habibzadeh 等[5]還介紹了尋找最佳診斷閾值的其他幾種方法,這里不作詳細介紹。
瞿振等[6]介紹了如何利用 GetData Graph Digitizer 及 Origin 兩個軟件提取四格表數據。其原理是用 GetData Graph Digitizer 軟件把 ROC 曲線圖網格化,提取 ROC 曲線中每個關鍵點的位置信息,再導出到 Origin 軟件中輸出曲線下面積(area under curve,AUC)和每個點的坐標值。本文介紹如何利用 Photoshop CS5 軟件快速提取 ROC 曲線的 AUC 值和靈敏度、特異度。
用 Photoshop CS5 軟件打開圖片后,點擊“窗口”選項卡→“信息”,會彈出“信息”窗口,可以顯示鼠標所指的點在圖片中對應的位置坐標(圖 3)。用前文所述方法,找到 ROC 曲線上距離直線 y=x 最遠的點 A(m,n)、圖中坐標(0,1)的點 B、坐標(1,0)的點 C,假設三者在 Photoshop CS5 中的位置坐標分別是(xA,yA)、(xB,yB)、(xC,yC),可推知坐標原點(0,0)的位置坐標是(xB,yC)。

由
,可推得靈敏度
;
由
,可推得特異度
;
視線向左傾斜 45° 后,很容易憑肉眼找到 ROC 曲線上距離直線 y=x 最遠的點。有時有多個點,無法確認哪一個點距離直線 y=x 最遠,可先算出它們的靈敏度、特異度,再選出其中使約登指數最大的點。
AUC 值可以通過選中區域的像素值來計算。點擊“窗口”選項卡→“直方圖”。使用左側工具欄的“矩形選框工具”(“
”),選擇曲線圖中從原點(0,0)到坐標(1,1)的區域,記錄“直方圖”窗口顯示的像素值 p。如圖 3,再使用左側工具欄的“快速選擇工具”(“
”),快速選中 ROC 曲線與直線 y=x 合圍的淡灰色區域,記錄“直方圖”窗口顯示的像素值 q。則 AUC=q/p+0.5。若選中的是 ROC 曲線與直線 x=1 及 x 軸合圍的區域(即“曲線下面積”),記錄的像素值為 r,則 AUC=r/p。
1.3 合并多組數據
有些診斷試驗的受試者被分為篩選集(screening set)、訓練集(training set)、驗證集(validation set),即一篇文獻中含有多個數據集(亞組)。此時需要對多組數據進行合并。目前尚無方法學文獻給出合并多組數據的具體建議。我們提出三個方法:一是每個亞組算作一個獨立研究納入 Meta 分析;二是直接把各亞組的 TP、FP、FN、TN 的數值相加,再納入 Meta 分析;三是先對該文獻的各亞組進行 Meta 分析,算出靈敏度和特異度,繼而由總病例數和總對照數計算出 TP、FP、FN、TN 的數值,再納入 Meta 分析。
診斷試驗 Meta 分析中,靈敏度、特異度、陽性預測值和陰性預測值的計算實際上是進行“率”的 Meta 分析。因此,方法三先用 Meta 分析的方法合并各亞組,是在估算該文獻總體的“真陽性率”和“真陰性率”,具有理論依據和可行性。從理論上來說,方法三好于方法一,因為同一篇文獻的受試者的臨床異質性要遠小于不同文獻受試者間的臨床異質性。Cochrane 手冊中對于連續性數據的亞組也是建議先計算總的樣本量、均數、標準差,再納入 Meta 分析[7, 8]。當使用方法三對各亞組進行 Meta 分析時,亞組間的異質性也須同時檢驗。若 Q 檢驗 P<0.05 或I2 >75%,表明各亞組間存在異質性 [9],各數據集差異較大、診斷試驗結果不穩定,不宜作 Meta 分析定量合并數據。此時建議改用方法一;或是棄用篩選集與訓練集,僅保留受試者例數更多的驗證集。
當多個診斷數據集使用同一個診斷閾值時,方案二最優,因為其并非估算靈敏度和特異度,而是直接計算真實的總體 TP、FP、FN、TN 的數值。
現舉例來看三個合并方法的可靠性。PubMed 和 WanFang Data 數據庫中檢索“微小 RNA-223 對結直腸癌患者的診斷價值”,可納入 3 篇文獻[10-12],其中一篇文獻[7]可獲取原始數據(病例組 85 例和對照組 78 例)。將該原始數據分為兩個數據集,一個數據集包含 30 例病例及 30 例對照,另一個數據集包含 55 例病例及 48 例對照。3 篇原始文獻及用 3 種方法進行 Meta 分析的診斷指標詳見表 3。比較方法三與直接對 3 篇文獻進行 Meta 分析的約登指數、AUC,二者差距均在可接受范圍內。另外,使用多種方法調整數據集(增減病例數和對照數、改變靈敏度和特異度等),可發現方法一和方法三得出的約登指數和 AUC 均相差不大。

一些診斷試驗文獻同時給出 1 個病例組對多個對照組的診斷指標。例如,給出肝癌患者與肝硬化患者以及肝癌患者與健康對照者的甲胎蛋白濃度的診斷指標,需要對肝癌患者與非肝癌患者的甲胎蛋白濃度的診斷指標進行 Meta 分析。這時須將兩個亞組的數據合并后納入 Meta 分析。當兩個亞組使用同一診斷閾值時,與前述方法二類似,直接取用 TP 和 FN 的數值即可(兩個亞組相同),而 FP 和 TN 需要將兩個亞組的數值相加。當兩個亞組的診斷閾值不同時,采用前述方法一顯然是不合適的,因為同一病例組會被納入兩次。這種情況推薦方法三,即先用 Meta 分析的方法合并各亞組,計算出靈敏度和特異度。此時總對照例數為各亞組對照例數相加。
2 實例分析
陳玉琢等[13]研究了微小 RNA-767-3p 對結直腸癌患者的診斷價值,其診斷的 ROC 曲線圖見圖 3。該研究納入 85 例結直腸癌患者與 84 例健康對照者。用 Photoshop CS5 軟件打開圖片,調出“信息”窗口。找到 ROC 曲線上距離直線 y=x 最遠的點 A,其位置坐標為(3.06,1.36)。點 B(0,1)和點 C(1,0)的位置坐標分別為(1.47,0.37),(6.55,5.42)。接下來調出“直方圖”窗口,用“快速選擇工具”選中淺灰色區域,讀取該區域像素值為 87 606。選擇從原點(0,0)到坐標(1,1)的點的區域,讀取該區域像素值為 328 800。由此可計算:
靈敏度:
特異度:
AUC=87 606÷328 800+0.5=0.766
該文獻中報道,靈敏度 80%,特異度 68%,AUC 值為 0.770。可見圖片中提取的數據較精確。
再使用 RevMan 5.3 軟件調出計算器(圖 4),輸入病例數 85、對照數 84、靈敏度 0.804、特異度 0.687,可得出 TP、FP、FN、TN 分別為 68、26、17、58。

3 討論
Meta 分析提取數據的過程中常會遇到數據缺失的情況。此時最好的方法是向原始文獻的通訊作者發送電子郵件索要數據。然而,這種方式常常難以得到回應,仍需要自行對數據進行深度提取。
本文介紹了 3 種數據深度提取的方法。當原始文獻給出 Sen、Spe、PV、LR 及病例組、對照組、診斷試驗陽性、診斷試驗陰性的人數時,可通過簡單的四則運算或求解四元一次方程組獲得 TP、FP、FN、TN 的數值。瞿振等[14]介紹了通過 Microsoft Excel 宏的方法快速求解方程組獲取數據的方法,然而并未給出 Excel 宏的源代碼。本文介紹了如何使用 Revman 5.3 軟件快速求出 TP、FP、FN、TN 的數值,并給出示例。
當原始文獻只給出 ROC 曲線圖時,可以提取圖片中數據。本文探討了 ROC 曲線上約登指數最大的點是距離直線 y=x 最遠的點的原理,并介紹了如何使用 Photoshop CS5 軟件快速計算靈敏度、特異度、AUC 值。由于 TP、FP、FN、TN 的數值均為整數,因而根據圖片截取數據計算出的 TP、FP、FN、TN 可以與原始文獻的數據完全一致。本文的示例展示了從 ROC 曲線圖中提取數據的具體操作過程。
有時診斷實驗包含多個數據集,或者同時給出 1 個病例組對多個對照組的診斷指標。此前并沒有中英文文獻對這種情況給出具體建議。本文認為應分兩種情況討論。當多組數據共用一個診斷閾值時,各組 TP、FP、FN、TN 簡單相加,使 TP+FN、FP+TN 等于真實的病例組、對照組人數即可。當多組未用同一個診斷閾值時,先對各亞組數據進行 Meta 分析,再用估算出的靈敏度、特異度與總的病例組、對照組人數計算該原始文獻合并后的 TP、FP、FN、TN。由于 Meta 分析計算靈敏度、特異度采用“率”的計算方法,因此此種估計方法具有理論上的可行性。其后的示例亦表明此方法可靠。然而,使用各亞組數據進行 Meta 分析的同時,還需進行異質性檢驗,若各亞組間存在顯著異質性,不宜進行 Meta 分析。此時,可以把每個亞組算作一個獨立研究納入總的 Meta 分析;或是棄用篩選集與訓練集,僅保留受試者例數更多的驗證集。
診斷試驗 Meta 分析是針對診斷準確性研究的統計學合并方法,其提取數據和統計計算的過程與其他類型的 Meta 分析有明顯不同。診斷試驗 Meta 分析需提取納入文獻的真陽性(true positive,TP)、假陽性(false positive,FP)、假陰性(false negative,FN)、真陰性(true negative,TN)的受試者例數。根據“診斷準確性研究報告規范”(standards for reporting diagnostic accuracy studies,STARD)[1]及其 2015 年更新版[2],診斷試驗應報告診斷準確性的估計結果及其精確度(如 95% 可信區間)。然而,一些診斷準確性試驗沒有提供完整的四格表數據,并不能輕易得出 TP、FP、FN、TN 的具體數值。下面即針對多種無法直接獲得四格表數據的情況介紹如何對數據進行深度提取的方法。
1 方法介紹
1.1 由其他診斷指標計算
絕大多數文獻并不會直接給出 TP、FP、FN、TN 的數值。診斷試驗的數據四格表見表 1,常見的診斷指標及計算公式見表 2。通常,文獻中會給出靈敏度(Sen)、特異度(Spe)、病例數、對照數。此時,a=N1×Sen,d=N2×Spe,c=N1-TP,b=N2-TN。少數情況下,文獻中只給出其他診斷指標,如預測值、似然比等。從數學計算的角度來看,要求出 a、b、c、d,一共 4 個未知數,需要解一個四元一次方程組。表示例數的量有 a、b、c、d、N1、N2、N3、N4、N,表示比例的量有 Sen、Spe、PPV、NPV。任意給出其中 4 個量的數值,均可求出其他量的數值,但要滿足 2 個前提:一是 4 個數值中至少要有 1 個表示例數的量;二是 4 個量中某一個量不能由給出的其他幾個量直接算出,例如給出 Sen、a、c,而 Sen 可以由 a 和 c 直接算出,或是給出 a、c、N1,而 N1 可以由 a 和 c 直接算出。有兩個很特殊的量,即 PLR 和 NLR,其計算公式比較復雜。當同時知道 PLR、NLR、N1、N2 時,也可求出 a、b、c、d。


下面介紹如何用 RevMan 5.3 軟件中的“計算器”功能快速求出 TP、FP、FN、TN 的數值。安裝軟件并打開,點擊“File”選項卡→“New”,在新出現的對話框中選擇 Meta 分析的種類“Diagnostic test accuracy review”并點擊“Finish”。接下來要創建一個需納入的研究,具體步驟如圖 1:點擊左側欄的“Data and analyses”,再點擊右側面板的“Data and analyses”旁的“
”使之展開(默認為折疊狀態),再用同樣方法展開“Data tables by test”,進而點擊按鈕“Add Test”。新出現的對話框里直接點擊“Finish”,右側面板就會出現計算器的按鈕“
”,點擊后即可調出 RevMan 5.3 軟件內置的計算器(圖 2)。在計算器界面內直接輸入已知量的數值,便可計算出 TP、FP、FN、TN。


1.2 從 ROC 曲線中截取數據
當改變診斷試驗的診斷閾值(cut-off value)時,靈敏度和特異度會發生變化。診斷試驗 Meta 分析需要提取的靈敏度和特異度是二者的最佳組合。所謂“最佳組合”通常有三種,分別是使約登指數(Youden’s index)、product index、Euclidean’s index 三種指數達到最大值的組合[3],三者的計算公式分別是Sen+Spe-1,Sen×Spe,
。
一些文獻沒有給出最佳靈敏度、特異度的組合,而是給出了受試者工作特征曲線(receiver operating characteristic curve,ROC 曲線)。ROC 曲線是一系列以(1-特異度)為自變量,靈敏度為因變量畫出的曲線。ROC 曲線上某一個點(x1,y1)的約登指數是 y1-x1;而經過該點且斜率為 1 的直線為 y-y1=x-x1,其截距也是 y1-x1。因此,要使約登指數最大,只要使經過該點且斜率為 1 的直線的截距最大即可,這正是 ROC 曲線上距離直線 y=x 最遠的點。絕大部分文獻均以此方法計算最佳靈敏度和特異度。而在 ROC 曲線中使 Euclidean’s index 達到最大值的點是距離坐標(0,1)最近的點。大多數情況下,使三種指數達到最大值的點是同一個點。
另需注意,當患病率(即病例數除以受試者總數)極高或極低時,最佳靈敏度、特異度的組合并非是 ROC 曲線上使約登指數最大的點[4]。當患病率極高時,需要盡量提高診斷試驗的特異度,應選取 ROC 曲線上距離 x 軸近且距離直線 y=x 盡量遠的點;當患病率極低時,需要盡量提高診斷試驗的靈敏度,應選取 ROC 曲線上距離直線 y=1 近且距離直線 y=x 盡量遠的點。此外,Habibzadeh 等[5]還介紹了尋找最佳診斷閾值的其他幾種方法,這里不作詳細介紹。
瞿振等[6]介紹了如何利用 GetData Graph Digitizer 及 Origin 兩個軟件提取四格表數據。其原理是用 GetData Graph Digitizer 軟件把 ROC 曲線圖網格化,提取 ROC 曲線中每個關鍵點的位置信息,再導出到 Origin 軟件中輸出曲線下面積(area under curve,AUC)和每個點的坐標值。本文介紹如何利用 Photoshop CS5 軟件快速提取 ROC 曲線的 AUC 值和靈敏度、特異度。
用 Photoshop CS5 軟件打開圖片后,點擊“窗口”選項卡→“信息”,會彈出“信息”窗口,可以顯示鼠標所指的點在圖片中對應的位置坐標(圖 3)。用前文所述方法,找到 ROC 曲線上距離直線 y=x 最遠的點 A(m,n)、圖中坐標(0,1)的點 B、坐標(1,0)的點 C,假設三者在 Photoshop CS5 中的位置坐標分別是(xA,yA)、(xB,yB)、(xC,yC),可推知坐標原點(0,0)的位置坐標是(xB,yC)。

由
,可推得靈敏度
;
由
,可推得特異度
;
視線向左傾斜 45° 后,很容易憑肉眼找到 ROC 曲線上距離直線 y=x 最遠的點。有時有多個點,無法確認哪一個點距離直線 y=x 最遠,可先算出它們的靈敏度、特異度,再選出其中使約登指數最大的點。
AUC 值可以通過選中區域的像素值來計算。點擊“窗口”選項卡→“直方圖”。使用左側工具欄的“矩形選框工具”(“
”),選擇曲線圖中從原點(0,0)到坐標(1,1)的區域,記錄“直方圖”窗口顯示的像素值 p。如圖 3,再使用左側工具欄的“快速選擇工具”(“
”),快速選中 ROC 曲線與直線 y=x 合圍的淡灰色區域,記錄“直方圖”窗口顯示的像素值 q。則 AUC=q/p+0.5。若選中的是 ROC 曲線與直線 x=1 及 x 軸合圍的區域(即“曲線下面積”),記錄的像素值為 r,則 AUC=r/p。
1.3 合并多組數據
有些診斷試驗的受試者被分為篩選集(screening set)、訓練集(training set)、驗證集(validation set),即一篇文獻中含有多個數據集(亞組)。此時需要對多組數據進行合并。目前尚無方法學文獻給出合并多組數據的具體建議。我們提出三個方法:一是每個亞組算作一個獨立研究納入 Meta 分析;二是直接把各亞組的 TP、FP、FN、TN 的數值相加,再納入 Meta 分析;三是先對該文獻的各亞組進行 Meta 分析,算出靈敏度和特異度,繼而由總病例數和總對照數計算出 TP、FP、FN、TN 的數值,再納入 Meta 分析。
診斷試驗 Meta 分析中,靈敏度、特異度、陽性預測值和陰性預測值的計算實際上是進行“率”的 Meta 分析。因此,方法三先用 Meta 分析的方法合并各亞組,是在估算該文獻總體的“真陽性率”和“真陰性率”,具有理論依據和可行性。從理論上來說,方法三好于方法一,因為同一篇文獻的受試者的臨床異質性要遠小于不同文獻受試者間的臨床異質性。Cochrane 手冊中對于連續性數據的亞組也是建議先計算總的樣本量、均數、標準差,再納入 Meta 分析[7, 8]。當使用方法三對各亞組進行 Meta 分析時,亞組間的異質性也須同時檢驗。若 Q 檢驗 P<0.05 或I2 >75%,表明各亞組間存在異質性 [9],各數據集差異較大、診斷試驗結果不穩定,不宜作 Meta 分析定量合并數據。此時建議改用方法一;或是棄用篩選集與訓練集,僅保留受試者例數更多的驗證集。
當多個診斷數據集使用同一個診斷閾值時,方案二最優,因為其并非估算靈敏度和特異度,而是直接計算真實的總體 TP、FP、FN、TN 的數值。
現舉例來看三個合并方法的可靠性。PubMed 和 WanFang Data 數據庫中檢索“微小 RNA-223 對結直腸癌患者的診斷價值”,可納入 3 篇文獻[10-12],其中一篇文獻[7]可獲取原始數據(病例組 85 例和對照組 78 例)。將該原始數據分為兩個數據集,一個數據集包含 30 例病例及 30 例對照,另一個數據集包含 55 例病例及 48 例對照。3 篇原始文獻及用 3 種方法進行 Meta 分析的診斷指標詳見表 3。比較方法三與直接對 3 篇文獻進行 Meta 分析的約登指數、AUC,二者差距均在可接受范圍內。另外,使用多種方法調整數據集(增減病例數和對照數、改變靈敏度和特異度等),可發現方法一和方法三得出的約登指數和 AUC 均相差不大。

一些診斷試驗文獻同時給出 1 個病例組對多個對照組的診斷指標。例如,給出肝癌患者與肝硬化患者以及肝癌患者與健康對照者的甲胎蛋白濃度的診斷指標,需要對肝癌患者與非肝癌患者的甲胎蛋白濃度的診斷指標進行 Meta 分析。這時須將兩個亞組的數據合并后納入 Meta 分析。當兩個亞組使用同一診斷閾值時,與前述方法二類似,直接取用 TP 和 FN 的數值即可(兩個亞組相同),而 FP 和 TN 需要將兩個亞組的數值相加。當兩個亞組的診斷閾值不同時,采用前述方法一顯然是不合適的,因為同一病例組會被納入兩次。這種情況推薦方法三,即先用 Meta 分析的方法合并各亞組,計算出靈敏度和特異度。此時總對照例數為各亞組對照例數相加。
2 實例分析
陳玉琢等[13]研究了微小 RNA-767-3p 對結直腸癌患者的診斷價值,其診斷的 ROC 曲線圖見圖 3。該研究納入 85 例結直腸癌患者與 84 例健康對照者。用 Photoshop CS5 軟件打開圖片,調出“信息”窗口。找到 ROC 曲線上距離直線 y=x 最遠的點 A,其位置坐標為(3.06,1.36)。點 B(0,1)和點 C(1,0)的位置坐標分別為(1.47,0.37),(6.55,5.42)。接下來調出“直方圖”窗口,用“快速選擇工具”選中淺灰色區域,讀取該區域像素值為 87 606。選擇從原點(0,0)到坐標(1,1)的點的區域,讀取該區域像素值為 328 800。由此可計算:
靈敏度:
特異度:
AUC=87 606÷328 800+0.5=0.766
該文獻中報道,靈敏度 80%,特異度 68%,AUC 值為 0.770。可見圖片中提取的數據較精確。
再使用 RevMan 5.3 軟件調出計算器(圖 4),輸入病例數 85、對照數 84、靈敏度 0.804、特異度 0.687,可得出 TP、FP、FN、TN 分別為 68、26、17、58。

3 討論
Meta 分析提取數據的過程中常會遇到數據缺失的情況。此時最好的方法是向原始文獻的通訊作者發送電子郵件索要數據。然而,這種方式常常難以得到回應,仍需要自行對數據進行深度提取。
本文介紹了 3 種數據深度提取的方法。當原始文獻給出 Sen、Spe、PV、LR 及病例組、對照組、診斷試驗陽性、診斷試驗陰性的人數時,可通過簡單的四則運算或求解四元一次方程組獲得 TP、FP、FN、TN 的數值。瞿振等[14]介紹了通過 Microsoft Excel 宏的方法快速求解方程組獲取數據的方法,然而并未給出 Excel 宏的源代碼。本文介紹了如何使用 Revman 5.3 軟件快速求出 TP、FP、FN、TN 的數值,并給出示例。
當原始文獻只給出 ROC 曲線圖時,可以提取圖片中數據。本文探討了 ROC 曲線上約登指數最大的點是距離直線 y=x 最遠的點的原理,并介紹了如何使用 Photoshop CS5 軟件快速計算靈敏度、特異度、AUC 值。由于 TP、FP、FN、TN 的數值均為整數,因而根據圖片截取數據計算出的 TP、FP、FN、TN 可以與原始文獻的數據完全一致。本文的示例展示了從 ROC 曲線圖中提取數據的具體操作過程。
有時診斷實驗包含多個數據集,或者同時給出 1 個病例組對多個對照組的診斷指標。此前并沒有中英文文獻對這種情況給出具體建議。本文認為應分兩種情況討論。當多組數據共用一個診斷閾值時,各組 TP、FP、FN、TN 簡單相加,使 TP+FN、FP+TN 等于真實的病例組、對照組人數即可。當多組未用同一個診斷閾值時,先對各亞組數據進行 Meta 分析,再用估算出的靈敏度、特異度與總的病例組、對照組人數計算該原始文獻合并后的 TP、FP、FN、TN。由于 Meta 分析計算靈敏度、特異度采用“率”的計算方法,因此此種估計方法具有理論上的可行性。其后的示例亦表明此方法可靠。然而,使用各亞組數據進行 Meta 分析的同時,還需進行異質性檢驗,若各亞組間存在顯著異質性,不宜進行 Meta 分析。此時,可以把每個亞組算作一個獨立研究納入總的 Meta 分析;或是棄用篩選集與訓練集,僅保留受試者例數更多的驗證集。