科學嚴謹的研究設計可提高診斷試驗準確性比較研究的結果可信度。診斷試驗準確性比較研究設計包括構建臨床問題、確定金標準、選擇研究對象、估算樣本量、同步盲法比較待評價試驗的結果及確立診斷截斷值。本文介紹診斷試驗準確性比較研究的設計的5種類型:完全配對、隨機子集部分配對、非隨機子集部分配對、非配對隨機和非配對非隨機。
引用本文: 楊秋玉, 陸瑤, 田晨, 賴鴻皓, 謝欣玲, 田金徽, 李霓, 李江, 葛龍. 診斷試驗準確性比較研究:研究設計. 中國循證醫學雜志, 2022, 22(6): 739-744. doi: 10.7507/1672-2531.202203022 復制
診斷試驗可用于判斷是否患有某種疾病和疾病的嚴重程度,評估臨床療效和預后等,為疾病的正確診斷及其鑒別診斷提供了重要依據,是臨床實踐的基礎[1]。診斷試驗的研究設計主要分為兩種,一種是診斷性隨機對照試驗(diagnostic randomized controlled trial,D-RCT),另一種則是最常用到的診斷準確性試驗(diagnostic accuracy test,DAT)[2]。隨著對疾病認識的深入及醫療技術的發展,新的診斷試驗逐漸增多,臨床醫生和政策制定者需比較診斷試驗間的準確性,從而決定選擇使用哪種診斷試驗[3]。診斷試驗準確性比較研究可在同一診斷試驗研究中比較2個及以上診斷試驗準確性,在確定最佳診斷路徑和后續治療決策中具有獨特優勢[4-7]。清楚了解不同研究設計的特點,并根據研究者實際需要選擇合適的研究設計,是研究成功實施的基礎,也可確保研究結果的準確性[8]。近年來,國內外已有大量診斷試驗準確性比較的研究發表[4,6,9],但國內尚無系統全面的文章介紹診斷試驗準確性比較研究方法。因此,本團隊將撰寫系列研究論文,以期為國內學者開展高質量診斷試驗準確性比較研究提供指導,本文旨在介紹診斷試驗準確性比較研究的設計原則和5種常見研究設計類型。
1 診斷試驗準確性比較研究設計的基本原則
診斷試驗準確性比較研究設計原則包括構建臨床問題、確定金標準、選擇研究對象、估算樣本量、確定診斷截斷值和同步盲法比較待評價試驗結果。診斷試驗準確性比較研究是診斷試驗準確性研究的一種類型,因此,診斷試驗準確性研究設計原則也適用于診斷試驗準確性比較研究。但診斷試驗準確性比較研究有其特點,研究設計原則并不完全與診斷試驗準確性研究相同,本部分將介紹診斷試驗準確性比較研究的設計原則。
1.1 構建臨床問題
與DAT臨床問題的構建相似,診斷試驗準確性比較研究的臨床問題構建也可遵循PICOS原則(Patient or participant,Intervention,Comparison,Outcome,Study design)[10-11]。P指研究對象,為臨床某病的疑似病例;I指待評價試驗;C是作為比較的另一待評價試驗;O指診斷準確性指標的相對或絕對差異,例如診斷試驗間敏感度、特異度的差值[12];S指研究設計,診斷試驗準確性比較研究的理想的研究設計是完全配對和隨機設計,當這兩種設計無法實施時,也可考慮其他類型設計,本文第二部分將介紹診斷試驗準確性比較研究的研究設計類型[6]。
1.2 確定金標準
診斷金標準是目前醫學界公認且最為準確的診斷方法,可將疑似某病患者區分為“患病”和“無病”[10]。常用的金標準包括病理學檢查、病原學診斷、外科手術發現、特殊影像學檢查、長期隨訪所得結論、臨床綜合判斷、權威機構頒布或臨床專家共同制定的綜合診斷標準[10,13-14]。臨床研究中使用的診斷金標準并非一直不變,任何一個金標準只是特定時期下醫學發展的產物,具有相對穩定性但不具有永恒性,隨著對疾病認識和診斷技術的進步,金標準可能隨之變化[10,15-16]。在診斷試驗準確性比較研究中,各待評價試驗組的受試者應采用相同的金標準進行診斷,此外,金標準不應包含待評價試驗,否則試驗準確性的比較將存在偏倚[17]。
1.3 選擇研究對象
與單個診斷試驗準確性研究對象的選擇原則相同,為使診斷試驗的結果具有可靠性,應選擇具有代表性的研究對象,應包括目標疾病各種臨床類型的患者,如病情程度(輕、中、重)、疾病階段(早、中、晚)、癥狀和體征(典型、不典型)、病程長短、經治療和未經治療者及有無并發癥等;也應選擇易與目標疾病混淆而需鑒別診斷的其他疾病患者[10,13-14]。各臨床分型病例間的構成比例應恰當,若輕型病例占比偏低,則漏診率偏低;難鑒別病例占比偏高,則誤診率偏高[13]。
1.4 估計樣本量
為確保診斷試驗準確性比較研究結果的可靠性,需要一定樣本量。現介紹2個診斷試驗準確性比較研究的樣本量計算,可利用敏感度或特異度估算所需樣本量,計算公式[18]如下:
![]() |
其中,P1和P2分別是2個診斷試驗準確性的敏感度或特異度,是P1和P2的平均值,α和β分別是Ⅰ類、Ⅱ類錯誤發生的概率,Zα/2和Zβ是標準正態分布曲線的分位數,當α=0.05時,Zα/2=1.96,β=0.2時,Zβ=0.84。當研究設計為非配對研究時,以上公式計算所得樣本數為接受一種試驗的受試者樣本量,總樣本量需乘以2;當研究設計為配對研究時,以上公式所得樣本數為總樣本量。暫未查到部分配對研究樣本量計算的相關文獻。一般來講,病例組與對照組的受試者數量可按照總樣本量的1∶1比例分配。
假設在非配對診斷試驗準確性比較研究中,待評價試驗A的敏感度是0.8,待評價試驗B的敏感度是0.7,取α=0.05,β=0.2,則試驗A或試驗B估計所需樣本量均為293例,每個試驗的病例組和對照組的樣本量約為147例。
![]() |
目前尚無文獻介紹3個及以上試驗準確性比較研究的樣本量計算,建議當3個及以上試驗比較診斷準確性時,可先計算兩兩比較所需樣本量,最終每個試驗所需樣本量取最大值。例如,在非配對研究中比較3個試驗的診斷準確性時,根據以上公式,假設試驗A與試驗B所需樣本量均為250例,試驗A與試驗C比較所需樣本量均為270例,那么試驗A所需樣本量最終至少應為270例,試驗B與試驗C的樣本量計算方法同理。
1.5 確定診斷截斷值
評價診斷試驗準確性時,需預先設定診斷截斷值,從而對疑診患者的試驗結果按陽性和陰性進行分類。在臨床中,有些診斷試驗已有相對公認的診斷截斷值,但有些診斷試驗缺乏明確或公認的最佳診斷截斷值,則需通過多種方法確定診斷截斷值。當診斷試驗結果是分類變量,可根據臨床專業知識判斷診斷結果的分類[10,14]。而當診斷試驗的測量結果為連續性變量時,確定截斷值的方法包括:均數±標準差法,百分位數法和ROC曲線法[10]。其中ROC曲線法是確定診斷截斷值較為理想的方法[13]。根據不同截斷值可分別算出靈敏度和特異度,以1-特異度為橫坐標,靈敏度為縱坐標,繪制成連續曲線,即為ROC曲線(圖1);ROC曲線最靠近左上方的點對應的截斷值即為最佳截斷值,此時約登指數最大,即同時滿足診斷試驗靈敏度和特異度相對最優[10,14]。

1.6 同步盲法比較待評價試驗結果
所有待評價試驗的實施應盡可能同步進行,如果時間間隔過長,患者的疾病狀態可能發生變化,導致不同診斷性試驗間準確性比較的結果存在偏倚。此外,在接受多種試驗的受試者中,由于試驗結果解釋的主觀性程度和解釋順序可能影響試驗準確性,因此在評價某一試驗的診斷結果時,應在不知道金標準和其他試驗結果的情況下進行[17]。
2 診斷試驗準確性比較研究的類型
根據受試者是否接受多個待評價試驗和是否隨機分配到各試驗,診斷準確性比較研究的設計可分為5個類別:完全配對、隨機子集部分配對、非隨機子集部分配對、非配對隨機和非配對非隨機。假設研究中所有受試者的納入與排除標準相同,并且僅比較2個待評價試驗的準確性,研究設計的流程圖可設計為圖2所呈現的形式[6]。

2.1 完全配對設計
每位受試者接受所有待評價試驗的研究設計稱為“完全配對”。研究者根據預先制定的納入與排除標準,納入具有代表性的受試者,并使每位受試者接受全部待評價試驗和金標準檢查。完全配對設計的優點包括:① 由于參與者同時接受待評價試驗A和試驗B,因此試驗準確性的影響因素相同(即無混雜因素)。② 與非配對設計相比,完全配對設計研究的統計檢驗效能更好,因為受試者間的變異性被最小化。③ 完全配對設計研究可探究診斷策略(多個診斷試驗的聯合)的準確性。例如,在一個比較CT與MRI診斷準確性的完全配對研究中,可評估CT或MRI或CT與MRI聯合的診斷準確性。完全配對設計也存在缺點:① 讓每個參與者接受多個診斷試驗可能不可行或不道德。例如,診斷性試驗為侵入性操作。② 若一個試驗影響另一個隨后執行試驗的準確性,則二者準確性的比較可能存在偏倚。例如,若先使用活檢針A進行檢查,由于檢查后可能已破壞組織結構,那么使用活檢針B檢查的結果可能存在偏倚。③ 若結果解釋存在主觀性,則每個試驗的結果解釋應在不清楚其他試驗結果的情況下進行。
例如,在1個研究[19]中,比較人乳頭瘤病毒(human papillomavirus,HPV)和液基細胞學檢查(liquid based cytology,LBC)診斷2級及以上宮頸上皮內瘤變的準確性。該研究采取了完全配對的設計,共招募了4 009例女性,每位女性均接受LBC和HPV測試。檢測這2個試驗的人員均不知另一試驗的結果。HPV或LBC檢測陽性者接受陰道鏡檢查,隨機抽取106例HPV和LBC陰性者進行陰道鏡檢查。
2.2 隨機子集部分配對設計
若參與者均接受金標準檢查,其中部分參與者接受多個待評價試驗,其他參與者均僅接受一個待評價試驗的研究設計稱為“部分配對”;在部分配對設計中,若參與者隨機分配到待評價試驗,則稱為“隨機子集部分配對設計”。若隨機分配是恰當的(即分配序列隨機生成并隱藏分配方案),可假設接受單個試驗組和多個試驗組混雜因素相同,組間具有可比性。若并非所有患者都可接受多個試驗的情況下(例如,進行第2個試驗的費用較昂貴或對受試者造成侵入性傷害),可優先考慮該研究設計。但由于該設計的研究數量較少,尚未檢索到應用該研究設計的研究。
2.3 非隨機子集部分配對設計
在部分配對研究中,若參與者均接受金標準檢查但接受待評價試驗的分配過程并非隨機,則稱為“非隨機子集部分配對設計”。待評價試驗間是否具有可比性取決于配對參與者的比例及僅接受其中一個試驗參與者的分配過程。若配對參與者的比例越大,待評價試驗間更具可比性;若僅接受一個試驗的參與者的分配過程是非隨機的,試驗間準確性的比較則存在混雜偏倚。例如,假設在一個比較CT與MRI診斷準確性的研究中,100例參與者中60例均接受了CT和MRI檢查,40例僅接受了CT檢查,因為重癥患者需立即手術僅接受CT檢查,無法進一步接受MRI檢查,而病情較輕者同時接受CT和MRI檢查。因此,由于疾病嚴重程度不同,CT和MRI的診斷準確性比較產生了偏倚。由于部分參與者接受多種試驗,因此該研究設計也存在完全配對所提及的缺點。在該研究設計中,數據分析時可分析所有參與者的數據,或僅分析接受所有待評價試驗參與者的數據;前一種方法需考慮部分配對數據分析方法的選擇,但所得結果很可能存在偏倚風險;后一種方法雖降低了偏倚風險,但也減少了參與者樣本量,所得結果可能不能完全代表研究對象。
例如,一個研究[20]比較了MRI、超聲和乳房X線檢查在新輔助化療后檢測殘留乳腺癌的準確性。研究者采用非隨機部分配對研究設計,共納入150例化療后乳腺癌患者,全部患者均接受MRI和超聲檢查,其中131例患者因未知原因還接受了乳房X線檢查。隨后,所有患者接受了手術和組織病理學檢查(金標準),以確定是否存在殘留癌癥組織。
2.4 非配對隨機設計
每例參與者隨機接受某一個待評價試驗并同時接受金標準檢查的研究稱“非配對隨機設計”。若由于某些原因,實行配對設計不可行、不道德或不合適,研究者可將每例參與者隨機分配到每個待評價試驗中,類似于干預性措施的隨機試驗,分配順序應隨機生成并隱藏分配方案。在該研究設計中,如果樣本量足夠大,待評價試驗組間混雜因素具有可比性。與配對研究相比,該研究設計的統計檢驗效能較低,且無法探究診斷策略的準確性。除判斷試驗準確性,該研究設計還可用于評估試驗對受試者的影響,如試驗對受試者是否有害。
例如,在1個研究[21]中,比較兩種細針(25號和22號)用于內鏡超聲引導下細針抽吸胃腸道固體腫塊的準確性,研究者采用了非配對隨機研究設計,使用計算機生成的隨機序列將受試者以1∶1的比例分配到任一類型細針,即每位受試者只接受一種待評價試驗,診斷金標準是手術,如果無法手術則進行隨訪。
2.5 非配對非隨機設計
在非配對設計中,參與者非隨機地被分配到某一個待評價試驗,并同時接受金標準檢查的研究設計稱為“非配對非隨機”。與隨機設計研究相比,非配對非隨機研究更容易被實施者和受試者接受,因為研究開展難度和成本較低。但因未采用隨機分組的方法,不可控的混雜因素較多,試驗組間的可比性較低,所得結果缺乏可靠性。因此,只有在研究設計或數據分析階段解決混雜因素問題后,該研究設計的準確性比較才有意義。可使用有向非循環圖明確潛在因果結構的假設;在數據分析時可使用匹配、回歸分析、逆概率加權或其他方法減少混雜因素引起的偏倚。
例如,在1個比較MRI和磁共振關節造影(magnetic resonance arthrography,MRA)診斷肩關節上盂唇前后部病變準確性的研究中[22],研究者采用非配對非隨機的研究設計,通過回顧接受關節鏡檢查(金標準)并接受MRI或MRA檢查患者的相關數據,受試者接受試驗類型的過程并非隨機且僅接受其中一種待評價試驗。但在數據分析階段,研究者未考慮試驗間的混雜因素。
3 診斷試驗準確性比較研究的方法學質量評價
在診斷試驗引入臨床實踐前,對診斷試驗準確性比較研究的潛在偏倚進行評價,可減少由準確性評估錯誤導致的不良后果。可使用QUADAS-C(quality assessment of diagnostic accuracy studies–comparative)工具[12,17]評價診斷試驗準確性比較研究的方法學質量,評估領域包括病例選擇、待評價試驗、金標準、病例流程、待評價試驗與金標準之間的時間間隔,通過回答每個領域的標志性問題,可得出原始研究每個領域的偏倚風險為“高”、“低”和“不清楚”的結果。診斷試驗準確性比較研究可受多種因素的影響,在研究設計方面,配對或隨機研究設計可使組間差異最小化,因此是理想的研究設計,若采用其他類型的研究設計,所得結果很可能存在偏倚;在病例選擇方面,選擇具有代表性的研究對象是研究成功開展的重要一步,若選擇已患目標疾病或健康的人群,試驗的準確性分別偏高或偏低;在待評價試驗方面,某一試驗結果的解釋應在不知其他試驗結果且不受其他試驗影響的情況下進行;在金標準方面,每位參與者應接受同一金標準試驗,此外,金標準不應包括任一待評價試驗;待評價試驗與金標準之間的時間間隔應合適,若時間間隔過長,很可能因疾病惡化導致診斷性試驗結果差異較大。另外,在數據處理時,若有缺失病例,應選擇合適的統計學方法處理缺失數據并進行解釋。
4 總結
準確及時地診斷疾病,是臨床有效治療的基礎,而選擇準確性較高的診斷試驗是提高疾病診斷準確率的重要保障。診斷試驗準確性比較研究可比較多個待評價試驗的準確性,為臨床診斷方法的選擇提供依據。與其他類型的研究一樣,診斷試驗準確性比較研究易受到研究設計缺陷的影響,導致診斷準確性的比較存在偏倚,因此,科學嚴謹的研究設計是診斷試驗準確性比較研究正確開展的前提。根據研究需要選擇合適的研究設計,遵循研究設計原則,包括構建臨床問題、確定金標準、選擇研究對象、估算樣本量、確定診斷截斷值等。在研究實施過程中盡可能控制偏倚,包括盡可能采用配對或隨機的研究設計、選擇具有代表性的病例、試驗結果的解釋應對其他試驗結果實施盲法、選擇合理的金標準、試驗間的時間間隔應恰當、合理處理缺失數據等。然而,目前診斷試驗準確性比較研究的方法學多關注2個試驗診斷準確性的比較,例如樣本量的計算、數據分析。隨著診斷技術的發展,診斷疾病的方法會不斷增多,因此,未來的研究應深入探討3個及以上試驗準確性比較研究的實施方法,不斷完善研究設計。
總之,診斷試驗準確性比較研究是臨床研究的重要組成部分,選擇合適的研究設計并控制偏倚因素,才能確保研究結果可靠。
診斷試驗可用于判斷是否患有某種疾病和疾病的嚴重程度,評估臨床療效和預后等,為疾病的正確診斷及其鑒別診斷提供了重要依據,是臨床實踐的基礎[1]。診斷試驗的研究設計主要分為兩種,一種是診斷性隨機對照試驗(diagnostic randomized controlled trial,D-RCT),另一種則是最常用到的診斷準確性試驗(diagnostic accuracy test,DAT)[2]。隨著對疾病認識的深入及醫療技術的發展,新的診斷試驗逐漸增多,臨床醫生和政策制定者需比較診斷試驗間的準確性,從而決定選擇使用哪種診斷試驗[3]。診斷試驗準確性比較研究可在同一診斷試驗研究中比較2個及以上診斷試驗準確性,在確定最佳診斷路徑和后續治療決策中具有獨特優勢[4-7]。清楚了解不同研究設計的特點,并根據研究者實際需要選擇合適的研究設計,是研究成功實施的基礎,也可確保研究結果的準確性[8]。近年來,國內外已有大量診斷試驗準確性比較的研究發表[4,6,9],但國內尚無系統全面的文章介紹診斷試驗準確性比較研究方法。因此,本團隊將撰寫系列研究論文,以期為國內學者開展高質量診斷試驗準確性比較研究提供指導,本文旨在介紹診斷試驗準確性比較研究的設計原則和5種常見研究設計類型。
1 診斷試驗準確性比較研究設計的基本原則
診斷試驗準確性比較研究設計原則包括構建臨床問題、確定金標準、選擇研究對象、估算樣本量、確定診斷截斷值和同步盲法比較待評價試驗結果。診斷試驗準確性比較研究是診斷試驗準確性研究的一種類型,因此,診斷試驗準確性研究設計原則也適用于診斷試驗準確性比較研究。但診斷試驗準確性比較研究有其特點,研究設計原則并不完全與診斷試驗準確性研究相同,本部分將介紹診斷試驗準確性比較研究的設計原則。
1.1 構建臨床問題
與DAT臨床問題的構建相似,診斷試驗準確性比較研究的臨床問題構建也可遵循PICOS原則(Patient or participant,Intervention,Comparison,Outcome,Study design)[10-11]。P指研究對象,為臨床某病的疑似病例;I指待評價試驗;C是作為比較的另一待評價試驗;O指診斷準確性指標的相對或絕對差異,例如診斷試驗間敏感度、特異度的差值[12];S指研究設計,診斷試驗準確性比較研究的理想的研究設計是完全配對和隨機設計,當這兩種設計無法實施時,也可考慮其他類型設計,本文第二部分將介紹診斷試驗準確性比較研究的研究設計類型[6]。
1.2 確定金標準
診斷金標準是目前醫學界公認且最為準確的診斷方法,可將疑似某病患者區分為“患病”和“無病”[10]。常用的金標準包括病理學檢查、病原學診斷、外科手術發現、特殊影像學檢查、長期隨訪所得結論、臨床綜合判斷、權威機構頒布或臨床專家共同制定的綜合診斷標準[10,13-14]。臨床研究中使用的診斷金標準并非一直不變,任何一個金標準只是特定時期下醫學發展的產物,具有相對穩定性但不具有永恒性,隨著對疾病認識和診斷技術的進步,金標準可能隨之變化[10,15-16]。在診斷試驗準確性比較研究中,各待評價試驗組的受試者應采用相同的金標準進行診斷,此外,金標準不應包含待評價試驗,否則試驗準確性的比較將存在偏倚[17]。
1.3 選擇研究對象
與單個診斷試驗準確性研究對象的選擇原則相同,為使診斷試驗的結果具有可靠性,應選擇具有代表性的研究對象,應包括目標疾病各種臨床類型的患者,如病情程度(輕、中、重)、疾病階段(早、中、晚)、癥狀和體征(典型、不典型)、病程長短、經治療和未經治療者及有無并發癥等;也應選擇易與目標疾病混淆而需鑒別診斷的其他疾病患者[10,13-14]。各臨床分型病例間的構成比例應恰當,若輕型病例占比偏低,則漏診率偏低;難鑒別病例占比偏高,則誤診率偏高[13]。
1.4 估計樣本量
為確保診斷試驗準確性比較研究結果的可靠性,需要一定樣本量。現介紹2個診斷試驗準確性比較研究的樣本量計算,可利用敏感度或特異度估算所需樣本量,計算公式[18]如下:
![]() |
其中,P1和P2分別是2個診斷試驗準確性的敏感度或特異度,是P1和P2的平均值,α和β分別是Ⅰ類、Ⅱ類錯誤發生的概率,Zα/2和Zβ是標準正態分布曲線的分位數,當α=0.05時,Zα/2=1.96,β=0.2時,Zβ=0.84。當研究設計為非配對研究時,以上公式計算所得樣本數為接受一種試驗的受試者樣本量,總樣本量需乘以2;當研究設計為配對研究時,以上公式所得樣本數為總樣本量。暫未查到部分配對研究樣本量計算的相關文獻。一般來講,病例組與對照組的受試者數量可按照總樣本量的1∶1比例分配。
假設在非配對診斷試驗準確性比較研究中,待評價試驗A的敏感度是0.8,待評價試驗B的敏感度是0.7,取α=0.05,β=0.2,則試驗A或試驗B估計所需樣本量均為293例,每個試驗的病例組和對照組的樣本量約為147例。
![]() |
目前尚無文獻介紹3個及以上試驗準確性比較研究的樣本量計算,建議當3個及以上試驗比較診斷準確性時,可先計算兩兩比較所需樣本量,最終每個試驗所需樣本量取最大值。例如,在非配對研究中比較3個試驗的診斷準確性時,根據以上公式,假設試驗A與試驗B所需樣本量均為250例,試驗A與試驗C比較所需樣本量均為270例,那么試驗A所需樣本量最終至少應為270例,試驗B與試驗C的樣本量計算方法同理。
1.5 確定診斷截斷值
評價診斷試驗準確性時,需預先設定診斷截斷值,從而對疑診患者的試驗結果按陽性和陰性進行分類。在臨床中,有些診斷試驗已有相對公認的診斷截斷值,但有些診斷試驗缺乏明確或公認的最佳診斷截斷值,則需通過多種方法確定診斷截斷值。當診斷試驗結果是分類變量,可根據臨床專業知識判斷診斷結果的分類[10,14]。而當診斷試驗的測量結果為連續性變量時,確定截斷值的方法包括:均數±標準差法,百分位數法和ROC曲線法[10]。其中ROC曲線法是確定診斷截斷值較為理想的方法[13]。根據不同截斷值可分別算出靈敏度和特異度,以1-特異度為橫坐標,靈敏度為縱坐標,繪制成連續曲線,即為ROC曲線(圖1);ROC曲線最靠近左上方的點對應的截斷值即為最佳截斷值,此時約登指數最大,即同時滿足診斷試驗靈敏度和特異度相對最優[10,14]。

1.6 同步盲法比較待評價試驗結果
所有待評價試驗的實施應盡可能同步進行,如果時間間隔過長,患者的疾病狀態可能發生變化,導致不同診斷性試驗間準確性比較的結果存在偏倚。此外,在接受多種試驗的受試者中,由于試驗結果解釋的主觀性程度和解釋順序可能影響試驗準確性,因此在評價某一試驗的診斷結果時,應在不知道金標準和其他試驗結果的情況下進行[17]。
2 診斷試驗準確性比較研究的類型
根據受試者是否接受多個待評價試驗和是否隨機分配到各試驗,診斷準確性比較研究的設計可分為5個類別:完全配對、隨機子集部分配對、非隨機子集部分配對、非配對隨機和非配對非隨機。假設研究中所有受試者的納入與排除標準相同,并且僅比較2個待評價試驗的準確性,研究設計的流程圖可設計為圖2所呈現的形式[6]。

2.1 完全配對設計
每位受試者接受所有待評價試驗的研究設計稱為“完全配對”。研究者根據預先制定的納入與排除標準,納入具有代表性的受試者,并使每位受試者接受全部待評價試驗和金標準檢查。完全配對設計的優點包括:① 由于參與者同時接受待評價試驗A和試驗B,因此試驗準確性的影響因素相同(即無混雜因素)。② 與非配對設計相比,完全配對設計研究的統計檢驗效能更好,因為受試者間的變異性被最小化。③ 完全配對設計研究可探究診斷策略(多個診斷試驗的聯合)的準確性。例如,在一個比較CT與MRI診斷準確性的完全配對研究中,可評估CT或MRI或CT與MRI聯合的診斷準確性。完全配對設計也存在缺點:① 讓每個參與者接受多個診斷試驗可能不可行或不道德。例如,診斷性試驗為侵入性操作。② 若一個試驗影響另一個隨后執行試驗的準確性,則二者準確性的比較可能存在偏倚。例如,若先使用活檢針A進行檢查,由于檢查后可能已破壞組織結構,那么使用活檢針B檢查的結果可能存在偏倚。③ 若結果解釋存在主觀性,則每個試驗的結果解釋應在不清楚其他試驗結果的情況下進行。
例如,在1個研究[19]中,比較人乳頭瘤病毒(human papillomavirus,HPV)和液基細胞學檢查(liquid based cytology,LBC)診斷2級及以上宮頸上皮內瘤變的準確性。該研究采取了完全配對的設計,共招募了4 009例女性,每位女性均接受LBC和HPV測試。檢測這2個試驗的人員均不知另一試驗的結果。HPV或LBC檢測陽性者接受陰道鏡檢查,隨機抽取106例HPV和LBC陰性者進行陰道鏡檢查。
2.2 隨機子集部分配對設計
若參與者均接受金標準檢查,其中部分參與者接受多個待評價試驗,其他參與者均僅接受一個待評價試驗的研究設計稱為“部分配對”;在部分配對設計中,若參與者隨機分配到待評價試驗,則稱為“隨機子集部分配對設計”。若隨機分配是恰當的(即分配序列隨機生成并隱藏分配方案),可假設接受單個試驗組和多個試驗組混雜因素相同,組間具有可比性。若并非所有患者都可接受多個試驗的情況下(例如,進行第2個試驗的費用較昂貴或對受試者造成侵入性傷害),可優先考慮該研究設計。但由于該設計的研究數量較少,尚未檢索到應用該研究設計的研究。
2.3 非隨機子集部分配對設計
在部分配對研究中,若參與者均接受金標準檢查但接受待評價試驗的分配過程并非隨機,則稱為“非隨機子集部分配對設計”。待評價試驗間是否具有可比性取決于配對參與者的比例及僅接受其中一個試驗參與者的分配過程。若配對參與者的比例越大,待評價試驗間更具可比性;若僅接受一個試驗的參與者的分配過程是非隨機的,試驗間準確性的比較則存在混雜偏倚。例如,假設在一個比較CT與MRI診斷準確性的研究中,100例參與者中60例均接受了CT和MRI檢查,40例僅接受了CT檢查,因為重癥患者需立即手術僅接受CT檢查,無法進一步接受MRI檢查,而病情較輕者同時接受CT和MRI檢查。因此,由于疾病嚴重程度不同,CT和MRI的診斷準確性比較產生了偏倚。由于部分參與者接受多種試驗,因此該研究設計也存在完全配對所提及的缺點。在該研究設計中,數據分析時可分析所有參與者的數據,或僅分析接受所有待評價試驗參與者的數據;前一種方法需考慮部分配對數據分析方法的選擇,但所得結果很可能存在偏倚風險;后一種方法雖降低了偏倚風險,但也減少了參與者樣本量,所得結果可能不能完全代表研究對象。
例如,一個研究[20]比較了MRI、超聲和乳房X線檢查在新輔助化療后檢測殘留乳腺癌的準確性。研究者采用非隨機部分配對研究設計,共納入150例化療后乳腺癌患者,全部患者均接受MRI和超聲檢查,其中131例患者因未知原因還接受了乳房X線檢查。隨后,所有患者接受了手術和組織病理學檢查(金標準),以確定是否存在殘留癌癥組織。
2.4 非配對隨機設計
每例參與者隨機接受某一個待評價試驗并同時接受金標準檢查的研究稱“非配對隨機設計”。若由于某些原因,實行配對設計不可行、不道德或不合適,研究者可將每例參與者隨機分配到每個待評價試驗中,類似于干預性措施的隨機試驗,分配順序應隨機生成并隱藏分配方案。在該研究設計中,如果樣本量足夠大,待評價試驗組間混雜因素具有可比性。與配對研究相比,該研究設計的統計檢驗效能較低,且無法探究診斷策略的準確性。除判斷試驗準確性,該研究設計還可用于評估試驗對受試者的影響,如試驗對受試者是否有害。
例如,在1個研究[21]中,比較兩種細針(25號和22號)用于內鏡超聲引導下細針抽吸胃腸道固體腫塊的準確性,研究者采用了非配對隨機研究設計,使用計算機生成的隨機序列將受試者以1∶1的比例分配到任一類型細針,即每位受試者只接受一種待評價試驗,診斷金標準是手術,如果無法手術則進行隨訪。
2.5 非配對非隨機設計
在非配對設計中,參與者非隨機地被分配到某一個待評價試驗,并同時接受金標準檢查的研究設計稱為“非配對非隨機”。與隨機設計研究相比,非配對非隨機研究更容易被實施者和受試者接受,因為研究開展難度和成本較低。但因未采用隨機分組的方法,不可控的混雜因素較多,試驗組間的可比性較低,所得結果缺乏可靠性。因此,只有在研究設計或數據分析階段解決混雜因素問題后,該研究設計的準確性比較才有意義。可使用有向非循環圖明確潛在因果結構的假設;在數據分析時可使用匹配、回歸分析、逆概率加權或其他方法減少混雜因素引起的偏倚。
例如,在1個比較MRI和磁共振關節造影(magnetic resonance arthrography,MRA)診斷肩關節上盂唇前后部病變準確性的研究中[22],研究者采用非配對非隨機的研究設計,通過回顧接受關節鏡檢查(金標準)并接受MRI或MRA檢查患者的相關數據,受試者接受試驗類型的過程并非隨機且僅接受其中一種待評價試驗。但在數據分析階段,研究者未考慮試驗間的混雜因素。
3 診斷試驗準確性比較研究的方法學質量評價
在診斷試驗引入臨床實踐前,對診斷試驗準確性比較研究的潛在偏倚進行評價,可減少由準確性評估錯誤導致的不良后果。可使用QUADAS-C(quality assessment of diagnostic accuracy studies–comparative)工具[12,17]評價診斷試驗準確性比較研究的方法學質量,評估領域包括病例選擇、待評價試驗、金標準、病例流程、待評價試驗與金標準之間的時間間隔,通過回答每個領域的標志性問題,可得出原始研究每個領域的偏倚風險為“高”、“低”和“不清楚”的結果。診斷試驗準確性比較研究可受多種因素的影響,在研究設計方面,配對或隨機研究設計可使組間差異最小化,因此是理想的研究設計,若采用其他類型的研究設計,所得結果很可能存在偏倚;在病例選擇方面,選擇具有代表性的研究對象是研究成功開展的重要一步,若選擇已患目標疾病或健康的人群,試驗的準確性分別偏高或偏低;在待評價試驗方面,某一試驗結果的解釋應在不知其他試驗結果且不受其他試驗影響的情況下進行;在金標準方面,每位參與者應接受同一金標準試驗,此外,金標準不應包括任一待評價試驗;待評價試驗與金標準之間的時間間隔應合適,若時間間隔過長,很可能因疾病惡化導致診斷性試驗結果差異較大。另外,在數據處理時,若有缺失病例,應選擇合適的統計學方法處理缺失數據并進行解釋。
4 總結
準確及時地診斷疾病,是臨床有效治療的基礎,而選擇準確性較高的診斷試驗是提高疾病診斷準確率的重要保障。診斷試驗準確性比較研究可比較多個待評價試驗的準確性,為臨床診斷方法的選擇提供依據。與其他類型的研究一樣,診斷試驗準確性比較研究易受到研究設計缺陷的影響,導致診斷準確性的比較存在偏倚,因此,科學嚴謹的研究設計是診斷試驗準確性比較研究正確開展的前提。根據研究需要選擇合適的研究設計,遵循研究設計原則,包括構建臨床問題、確定金標準、選擇研究對象、估算樣本量、確定診斷截斷值等。在研究實施過程中盡可能控制偏倚,包括盡可能采用配對或隨機的研究設計、選擇具有代表性的病例、試驗結果的解釋應對其他試驗結果實施盲法、選擇合理的金標準、試驗間的時間間隔應恰當、合理處理缺失數據等。然而,目前診斷試驗準確性比較研究的方法學多關注2個試驗診斷準確性的比較,例如樣本量的計算、數據分析。隨著診斷技術的發展,診斷疾病的方法會不斷增多,因此,未來的研究應深入探討3個及以上試驗準確性比較研究的實施方法,不斷完善研究設計。
總之,診斷試驗準確性比較研究是臨床研究的重要組成部分,選擇合適的研究設計并控制偏倚因素,才能確保研究結果可靠。