QUADAS-2已廣泛用于評價單個診斷試驗準確性研究偏倚風險,但其不適用于評價多個診斷試驗準確性比較研究的偏倚風險。目前,系統評價普遍采用QUADAS-2評價多個診斷試驗準確性比較研究的偏倚風險,這本質上會導致偏倚。為避免此類偏倚,QUADAS工作組開發了多個診斷試驗準確性比較研究的偏倚風險評價工具QUADAS-C,并于2021年10月正式推出。QUADAS-C保留了與QUADAS-2相同的4個問題域(病例選擇、待評價試驗、金標準、病例流程和進展情況),由14個信號問題和4個偏倚風險問題組成。本文就QUADAS-C的基本情況、評價條目、評價標準、使用方法和流程進行解讀,以期為國內研究者和用戶提供參考。
引用本文: 黃玉香, 沈建通, 劉雨今. 診斷試驗準確性比較研究偏倚風險評價工具QUADAS-C解讀. 中國循證醫學雜志, 2022, 22(9): 1108-1116. doi: 10.7507/1672-2531.202204090 復制
1 QUADAS-C工具的研發背景
診斷準確性研究(diagnostic test accuracy study,DTA)是指評估臨床使用的各種診斷方法,對研究對象的疾病和(或)健康狀況做出區分的研究[1]。就某一健康問題進行診斷準確性的研究中,采用金標準或參考標準作為參照,比較一種診斷試驗準確性的研究稱為診斷試驗非比較(單個診斷試驗)準確性研究(single diagnostic test accuracy studies,SDTA)[2];而比較2種或2種以上診斷試驗準確性的研究稱為診斷試驗準確性比較研究(comparative diagnosis test accuracy studies,CDTA)[2]。診斷試驗準確性比較研究的目的是通過比較多個診斷試驗的準確性,篩選出最佳診斷措施。當需要在眾多待評價的診斷試驗中做出最優選擇時,CDTA能比SDTA提供更有力的證據[3-5]。CDTA與SDTA在研究問題、研究目的、研究設計、評價指標和主要偏倚等方面均存在差異,詳見表1[6]。

當前最為推薦的診斷準確性研究偏倚風險評價工具QUADAS-2(quality assessment of diagnostic accuracy studies-2)并未涉及有關準確性比較的偏倚評價,它僅適用于SDTA研究,而不能用于評價CDTA的偏倚風險。2018年,由來自診斷試驗和系統評價方法學領域的8位專家組成的指導工作組確定了涵蓋16個條目的QUADAS-C(quality assessment of diagnostic accuracy studies-compare)初始列表,經4輪Delphi咨詢后形成用于評價診斷試驗準確性比較研究偏倚風險的QUADAS-C初始版本,并于2019年發布試用版,經預實驗后發布正式版[6]。
2 QUADAS-C工具使用方法
QUADAS-C主要針對完全配對和隨機化設計的診斷試驗準確性比較研究,這類研究設計在系統評價中最具可比性[7]。在未隨機化或部分配對的研究中,工具需做相應調整(刪減和完善條目內容)。QUADAS-C不用于比較不同的診斷試驗研究(間接比較),也不進行適用性評價。QUADAS-C工具評估診斷試驗準確性比較研究的偏倚風險時,須與QUADAS-2同步使用(表2)[6]。該工具保留了與QUADAS-2相同的4個域(病例選擇、待評價試驗、金標準、病例流程和進展情況)[8],由14個信號問題和4個偏倚風險問題組成(表2)。每個信號問題通過回答“是”、“否”、“不確定”,再根據信號問題的回答來確定各領域的偏倚風險為“低”、“高”、“不確定”。QUADAS-C偏倚風險評估由3個部分組成:① 記錄支持偏倚判斷的理由;② 信號問題的回答;③ 各領域偏倚風險判斷。

2.1 記錄偏倚風險判斷的理由
為保證偏倚風險評價過程的透明性和可重復性,評價者需要在QUADAS-C工具的文本字段里備注所有偏倚判斷的理由(表3)。包括診斷試驗準確性比較研究的設計及影響研究真實性的4個領域的信息,例如,受試者的分配方案(病例選擇領域),待評價的診斷試驗數據缺失的原因(病例流程和進展情況領域)等。

2.2 信號問題的回答
QUADAS-C信號問題的回答包括“是”、“否”或“不確定”,“是”表示“低”等級偏倚風險,“否”表示該領域存在潛在偏倚,但并不直接導致總體“高”偏倚判定,此時需要考慮偏倚的可能性和重要性(表2)。當評價者判斷“可能是”或“可能不是”時,仍選擇“是”或“否”選項。僅當提供的信息不足以判斷“是”或“否”時,使用“不確定”選項。
2.3 偏倚風險評價
若一個領域內所有信號問題答案均為“是”,那么該領域偏倚等級為“低”。當所有領域都判定為“低”偏倚風險,則認為總體偏倚風險為“低”。若信號答案中至少有1個為“否”,則認為該領域偏倚等級為“高”。若某單個領域的偏倚可能影響全領域,則單個信號問題回答“否”時,認為總體偏倚等級為“高”。
當認為設計特征引入的偏倚可能會影響全領域,信號問題答案為“否”時,總體偏倚等級判定為“高”。例如,信號問題“是否采用完全配對或隨機設計?”回答“否”,一般認為在病例選擇領域潛在“高”偏倚(部分配對隨機化設計除外)。
“不確定”并非指“中”偏倚風險,而是沒有足夠的信息來判斷偏倚高低。
3 QUADAS-C工具條目解釋
3.1 領域1:病例選擇
3.1.1 信號問題1:是否每個診斷試驗在該領域內的偏倚風險均判定為“低”?(C1.1)
若有一個診斷準確性試驗存在高偏倚風險,則其比較也將存在高偏倚風險。即在該領域內,只要有一個待評價診斷試驗在QUADAS-2的偏倚風險等級為“不確定”或“高”,那當前問題就評為“否”。QUADAS-C每個域的偏倚風險判斷都以該信號問題為起始。但當不同的診斷試驗存在大小與方向相似的偏倚風險,其相關比較結果則可能無偏倚風險,在判斷時應謹慎。上述情況同樣適用于信號問題C2.1、C3.1和C4.1。
例如:比較磁共振成像(magnetic resonance imaging,MRI)和磁共振關節造影(magnetic resonance angiography,MRA)在肩部上盂唇前后病變診斷準確性,研究對象排除了接受MRI、MRA和手術者。那么,僅接受MRI、MRA、手術人群也被排除在外,樣本缺乏代表性。QUADAS-2中“研究是否避免了不恰當的排除?”,待評價試驗MRI和MRA的回答均為“否”,其診斷準確性存在“高”偏倚風險,則當前QUADAS-C問題回答為“否”。
3.1.2 信號問題2:是否采用完全配對或隨機設計?(圖1 )(C1.2)

*:譯自QUADAS-C用戶指導手冊,可在QUADAS網站獲取(http://www.bris.ac.uk/quadas/quadas-c/)。
除原始研究采用完全配對、隨機或部分配對隨機設計外,其余情況回答“否”,認為存在“高”偏倚風險。制作系統評價時可將此作為原始研究的排除標準或敏感性分析標準。
完全配對設計研究中,若排除僅接受其中一個診斷試驗的受試者,目標人群將缺乏代表性,該信號問題回答“是”;當受試者某個診斷試驗結果缺失,該信號問題回答“是”,此時涉及數據缺失問題,在“病例流程和進展情況”域C4.4回答為“否”。
3.1.3 信號問題3:分配方案是否隨機產生(C1.3)-僅適用于隨機設計
隨機序列產生的方法包括抽簽、拋硬幣、擲骰子、隨機數字表、計算機產生隨機數字等;而非隨機分組的方法包括:交替分配、按出生或入院日期、病歷記錄號和記錄日期分配等。
3.1.4 信號問題4:分配方案是否隱藏,直到受試者確定入組后(C1.4)-僅適用于隨機設計
分配方案隱藏的方法包括:① 密閉信封法:指使用順序編碼、不透光、密閉的信封進行分配隱藏,即將每個分組方案放入一個不透光的信封中,信封外面寫上編碼,密封后交給未參與的第三方保存。在隨機分組時,對符合納入標準和排除標準的受試者進行編號,再依次打開,并現場記錄分配的隨機序列、信封號和分配結果,并于當天傳送至數據管理中心。② 中心隨機化:指隨機化分配、受試者管理、藥品管理等基于電話或計算機網絡的隨機化系統。以網絡、電話、手機短信等多種方式對受試者進行隨機分配和入組,從而實現分配方案隱藏。
3.2 領域2:待評價試驗
3.2.1 信號問題1:是否每個診斷試驗在該領域內的偏倚風險均判定為“低”?(C2.1)
若有一個診斷準確性存在高偏倚風險,則其比較也將存在高偏倚風險。即在該領域域內,只要有一個待評價試驗在QUADAS-2的偏倚風險等級為“不確定”或“高”,那C2.1就評為“否”。
例如,利用金標準來判讀某待評價試驗結果,可能會高估該試驗的診斷準確性。即便所有待評價試驗都事先了解采用金標準判讀的結果,所引入偏倚的大小與方向也不盡相同。因此,待評價試驗的比較存在偏倚風險,回答為“否”。
3.2.2 信號問題2:待評價試驗結果判讀,是否在不知曉其他試驗結果的情況下進行的?(C2.2)-僅適用于完全和部分配對設計中,受試者接受多個診斷試驗
例如設計類型中#1、#3和#4(圖1),側重于結果報告引入的信息偏倚,如報告偏倚、暴露懷疑偏倚等。
判斷偏倚的3個要素:① 結果報告的主觀程度,任何主觀判斷(在X光片上是否能看到腫瘤)比客觀測量的結果(血糖測量、體格檢查結果等)更易受偏倚影響。② 診斷試驗實施和結果報告的順序。③ 當單個診斷試驗與由多個診斷試驗組成的診斷策略進行比較,則“否”的答案,可能提示“低”偏倚風險。例如比較用超聲(ultrasound,US)診斷和超聲+CT聯合診斷闌尾炎。臨床上US通常在CT之前完成,在CT結果報告前已獲知US結果,而US結果是在不知曉CT結果的情況下實施。
3.2.3 信號問題3:試驗實施時,是否存在診斷試驗間的順序效應?(C2.3)–僅適用于接受多個診斷試驗的患者
此問題僅適用于完全和部分配對設計(例如圖1中#1、#3和#4)。當相同的受試者接受不同處理時,第一個試驗可能對后續試驗產生影響或干擾。例如:受試者在完成多個問卷時出現學習效應和厭倦效應;在已經被第一根活檢針穿刺的組織中使用第二根活檢針;沒有足夠的血樣進行第二個血液標志物檢測。類似于臨床試驗交叉設計順序效應(遺留效應),如果受試者在實施第一次診斷試驗后拒絕或無法實施第二個試驗,則將導致數據丟失。那么當前問題回答“否”。
3.2.4 信號問題4:待評價試驗的實施與結果判讀是否利用了某個診斷試驗?(C2.4)
待評價試驗的實施與結果判讀是否設盲,即所有待評價試驗是否都經過了相同的金標準驗證。若某個待評價試驗的實施或結果判讀與其他試驗間存在巨大差異,且與臨床實際相悖,則當前問題回答“否”,即存在偏倚。例如使用新鮮標本進行一種生物標志物測定,而使用冷凍標本進行競爭生物標志物測定。此問題旨在涵蓋除C2.2和C2.3問題已包含的診斷方法和結果判讀以外的差異。
3.3 領域3:金標準
3.3.1 信號問題1:是否每個待評價試驗在該領域內的偏倚風險均判定為“低”?(C3.1)
若有一個診斷準確性試驗存在高偏倚風險,則其比較也將存在高偏倚風險。即在該領域內,只要有一個待評價試驗在QUADAS-2的偏倚風險等級為“不確定”或“高”,那當前問題就評為“否”。
首先,金標準是否正確區分受試者目標疾病狀態?再者,金標準的結果判讀是否在未事先了解待評價試驗結果的情況下進行。若回答“否”,則其診斷準確性與試驗間比較的準確性均存在“高”偏倚風險。
3.3.2 信號問題2:待評價試驗是否獨立于金標準?(C3.2)
如果待評價試驗不獨立于金標準,兩者間一致性會增加,從而使待評價試驗準確性被高估。若一個待評價試驗是金標準的一部分,而另一個不是,則評價結果存在明顯偏倚。即使所有待評價試驗都涵蓋在金標準內,他們對最終診斷的權重或貢獻也可能存在差異。那當前問題回答“否”。
3.4 領域4:病例流程和進展情況
3.4.1 信號問題1:是否每個診斷試驗在該領域內的偏倚風險均判定為“低”?(C4.1)
若有一個試驗的診斷準確性存在“高”偏倚風險,則其比較也將存在“高”偏倚風險。即在該領域內,只要有一個待評價試驗在QUADAS-2的偏倚風險等級為“不確定”或“高”,那當前問題就評為“否”。
每個待評價試驗和金標準之間應有恰當的時間間隔,所有受試者應接受相同的金標準,并被全部納入分析。當至少有一個試驗陽性結果者接受金標準驗證,而陰性結果者不接受,即使不能估計單個診斷準確性,其相對準確性也是無偏倚的。當前問題回答“是”。
3.4.2 信號問題2:診斷試驗間是否有恰當的時間間隔?(C4.2)
一般而言,所有待評價試驗在入組后要同時實施,診斷試驗之間的時間間隔也應恰當,以排除疾病進展或患者管理改變的可能性。然則,目標條件和待評價試驗的“恰當”可能會有很大區別。例如,與急性和快速進展的疾病相比,對于緩慢進展的疾病,幾天的時間間隔是可接受的。為了比較診斷準確性,對在臨床不同時間點進行的診斷試驗要求同時實施,是沒必要甚至不可取。
3.4.3 信號問題3:是否所有待評價試驗都接受相同的金標準驗證?(C4.3)
是否跨診斷試驗組使用相同的金標準驗證?如果將不同的金標準應用于診斷試驗A(如手術)和診斷試驗B(如隨訪),兩者比較存在偏倚風險,該問題回答“否”。
對于非配對或部分配對設計,診斷試驗結果陽性者接受參考標準A,而診斷試驗結果陰性者接受參考標準B,該信號問題回答“是”;但當接受參考標準A和參考標準B的受試者比例不同時,當前信號問題回答“不確定”。對于完全配對設計,如使用同一金標準來驗證,該問題回答“是”;如果跨診斷試驗組使用不同的金標準進行驗證,且金標準不可互換,則回答“否”,兩者比較存在偏倚。如果金標準可互換(即以同一方法診斷同一目標疾病狀態),問題回答“否”,則不代表存在偏倚。
3.4.4 信號問題4:各個待評價試驗中缺失數據的比例和原因是否相似?(C4.4)
如果待評價試驗結果不可用、無效、有效但不確定,或病例未被納入分析中,則產生數據缺失。評價者應仔細分析數據缺失的比例和原因,以及是否對比較的準確性產生偏倚。
以上QUADAS-C工具條目內容的解釋譯自QUADAS網站,更多相關內容可前往(http://www.bris.ac.uk/quadas/quadas-c/)及(annals.org)獲取。
4 QUADAS-C工具的使用流程
理想情況下,需要對診斷試驗準確性比較研究的4個問題領域(病例選擇、待評價試驗、金標準、病例流程和進展情況)逐一進行偏倚風險評價。該過程由QUADAS-C與QUADAS-2同步評價的6個步驟協作完成:① 回答單個待評價試驗診斷準確性的信號問題;② 判斷單個待評價試驗診斷準確性的領域內偏倚風險;③ 評價臨床適用性;④ 根據步驟2結果回答診斷試驗準確性比較研究的第一個信號問題;⑤ 回答診斷試驗準確性比較研究信號問題;⑥ 判斷該領域內診斷試驗準確性比較的總體偏倚。下面對步驟4和步驟6進行較為詳細的說明(圖2,僅為部分)[6]。

現舉例說明QUADAS-C工具的使用流程,假設比較A和B 2個診斷試驗。首先進入“域1:病例選擇”,用QUADAS-2分別對A和B進行評價。進行步驟1回答信號問題,步驟2判斷偏倚風險,步驟3評價臨床適用性。接下來用QUADAS-C工具評價A、B之間的比較的偏倚風險。步驟4要根據QUADAS-2評價中步驟2偏倚風險判斷的結果回答信號問題:是否每個診斷試驗在該領域內的偏倚風險均判定為“低”。如果A和B判斷結果都“低”,回答“是”,則A和B比較的偏倚風險較低;當A和(或)B偏倚風險判斷“高”時,則A和B的比較中可能存在偏倚。步驟5回答其他信號問題。步驟6完成總體偏倚風險判斷。隨后依次進入后續領域,并重復相同步驟。
5 偏倚風險評價的結果呈現
QUADAS-C評價結果推薦用圖、表的形式進行呈現。表4與表5整合展示了QUADAS-2和QUADAS-C的評價結果,如果研究問題只涉及準確性比較,則只需展示QUADAS-C評估結果[6]。


例如,當比較A和B兩個試驗的診斷準確性,同步使用QUADAS-2和QUADAS-C工具會呈現診斷試驗A準確性偏倚風險評價、診斷試驗B準確性偏倚風險評價、A和B準確性比較的偏倚風險評價3個結果(表5和圖3)。

†:示例圖譯自QUADAS-C用戶指導手冊,詳細內容可在QUADAS網站獲取(http://www.bris.ac.uk/quadas/quadas-c/)。
偏倚風險評價可幫助評價者探索原始研究間異質性的來源,從而進行亞組分析或Meta回歸;也可在初步評估或敏感性分析中排除具有“高”偏倚風險的原始研究[9-10],從而進一步提高證據體的可信性、質量和推薦強度[11]。
6 結語
QUADAS-C作為QUADAS-2的擴展工具,綜合了多方意見,經過嚴格修訂程序,是值得推薦的診斷試驗準確性比較研究的偏倚風險評價工具。相關資源可在QUADAS網站(http://www.bris.ac.uk/quadas/quadas-c/)獲取。但在使用QUADAS-C時也會遭遇一定的阻礙,如與QUADAS-2結合使用會產生大量的信號問題組合、在對3個及以上的CDTA評價困難更大。此外,QUADAS-C主要針對完全配對和隨機設計的研究,用于非隨機設計時需作相應調整,尤其在進行與發病率和死亡率相關的診斷準確性評價時,應另選與研究設計相配對的工具。目前工作組正在研發一款基于網絡應用程序的QUADAS-人工智能(quality assessment of diagnostic accuracy studies artificial intelligence,QUADAS-AI)[12],該工具可結合QUADAS-2和QUADAS-C的結果自動生成信號問題解答,繪制偏倚風險評價表和圖。QUADAS-C作為新發布的評價工具,有待時間和實踐的檢驗與完善。使用該工具可幫助研究人員評價高質量的試驗準確性比較研究證據,發現研究設計和實施過程中的偏倚。
1 QUADAS-C工具的研發背景
診斷準確性研究(diagnostic test accuracy study,DTA)是指評估臨床使用的各種診斷方法,對研究對象的疾病和(或)健康狀況做出區分的研究[1]。就某一健康問題進行診斷準確性的研究中,采用金標準或參考標準作為參照,比較一種診斷試驗準確性的研究稱為診斷試驗非比較(單個診斷試驗)準確性研究(single diagnostic test accuracy studies,SDTA)[2];而比較2種或2種以上診斷試驗準確性的研究稱為診斷試驗準確性比較研究(comparative diagnosis test accuracy studies,CDTA)[2]。診斷試驗準確性比較研究的目的是通過比較多個診斷試驗的準確性,篩選出最佳診斷措施。當需要在眾多待評價的診斷試驗中做出最優選擇時,CDTA能比SDTA提供更有力的證據[3-5]。CDTA與SDTA在研究問題、研究目的、研究設計、評價指標和主要偏倚等方面均存在差異,詳見表1[6]。

當前最為推薦的診斷準確性研究偏倚風險評價工具QUADAS-2(quality assessment of diagnostic accuracy studies-2)并未涉及有關準確性比較的偏倚評價,它僅適用于SDTA研究,而不能用于評價CDTA的偏倚風險。2018年,由來自診斷試驗和系統評價方法學領域的8位專家組成的指導工作組確定了涵蓋16個條目的QUADAS-C(quality assessment of diagnostic accuracy studies-compare)初始列表,經4輪Delphi咨詢后形成用于評價診斷試驗準確性比較研究偏倚風險的QUADAS-C初始版本,并于2019年發布試用版,經預實驗后發布正式版[6]。
2 QUADAS-C工具使用方法
QUADAS-C主要針對完全配對和隨機化設計的診斷試驗準確性比較研究,這類研究設計在系統評價中最具可比性[7]。在未隨機化或部分配對的研究中,工具需做相應調整(刪減和完善條目內容)。QUADAS-C不用于比較不同的診斷試驗研究(間接比較),也不進行適用性評價。QUADAS-C工具評估診斷試驗準確性比較研究的偏倚風險時,須與QUADAS-2同步使用(表2)[6]。該工具保留了與QUADAS-2相同的4個域(病例選擇、待評價試驗、金標準、病例流程和進展情況)[8],由14個信號問題和4個偏倚風險問題組成(表2)。每個信號問題通過回答“是”、“否”、“不確定”,再根據信號問題的回答來確定各領域的偏倚風險為“低”、“高”、“不確定”。QUADAS-C偏倚風險評估由3個部分組成:① 記錄支持偏倚判斷的理由;② 信號問題的回答;③ 各領域偏倚風險判斷。

2.1 記錄偏倚風險判斷的理由
為保證偏倚風險評價過程的透明性和可重復性,評價者需要在QUADAS-C工具的文本字段里備注所有偏倚判斷的理由(表3)。包括診斷試驗準確性比較研究的設計及影響研究真實性的4個領域的信息,例如,受試者的分配方案(病例選擇領域),待評價的診斷試驗數據缺失的原因(病例流程和進展情況領域)等。

2.2 信號問題的回答
QUADAS-C信號問題的回答包括“是”、“否”或“不確定”,“是”表示“低”等級偏倚風險,“否”表示該領域存在潛在偏倚,但并不直接導致總體“高”偏倚判定,此時需要考慮偏倚的可能性和重要性(表2)。當評價者判斷“可能是”或“可能不是”時,仍選擇“是”或“否”選項。僅當提供的信息不足以判斷“是”或“否”時,使用“不確定”選項。
2.3 偏倚風險評價
若一個領域內所有信號問題答案均為“是”,那么該領域偏倚等級為“低”。當所有領域都判定為“低”偏倚風險,則認為總體偏倚風險為“低”。若信號答案中至少有1個為“否”,則認為該領域偏倚等級為“高”。若某單個領域的偏倚可能影響全領域,則單個信號問題回答“否”時,認為總體偏倚等級為“高”。
當認為設計特征引入的偏倚可能會影響全領域,信號問題答案為“否”時,總體偏倚等級判定為“高”。例如,信號問題“是否采用完全配對或隨機設計?”回答“否”,一般認為在病例選擇領域潛在“高”偏倚(部分配對隨機化設計除外)。
“不確定”并非指“中”偏倚風險,而是沒有足夠的信息來判斷偏倚高低。
3 QUADAS-C工具條目解釋
3.1 領域1:病例選擇
3.1.1 信號問題1:是否每個診斷試驗在該領域內的偏倚風險均判定為“低”?(C1.1)
若有一個診斷準確性試驗存在高偏倚風險,則其比較也將存在高偏倚風險。即在該領域內,只要有一個待評價診斷試驗在QUADAS-2的偏倚風險等級為“不確定”或“高”,那當前問題就評為“否”。QUADAS-C每個域的偏倚風險判斷都以該信號問題為起始。但當不同的診斷試驗存在大小與方向相似的偏倚風險,其相關比較結果則可能無偏倚風險,在判斷時應謹慎。上述情況同樣適用于信號問題C2.1、C3.1和C4.1。
例如:比較磁共振成像(magnetic resonance imaging,MRI)和磁共振關節造影(magnetic resonance angiography,MRA)在肩部上盂唇前后病變診斷準確性,研究對象排除了接受MRI、MRA和手術者。那么,僅接受MRI、MRA、手術人群也被排除在外,樣本缺乏代表性。QUADAS-2中“研究是否避免了不恰當的排除?”,待評價試驗MRI和MRA的回答均為“否”,其診斷準確性存在“高”偏倚風險,則當前QUADAS-C問題回答為“否”。
3.1.2 信號問題2:是否采用完全配對或隨機設計?(圖1 )(C1.2)

*:譯自QUADAS-C用戶指導手冊,可在QUADAS網站獲取(http://www.bris.ac.uk/quadas/quadas-c/)。
除原始研究采用完全配對、隨機或部分配對隨機設計外,其余情況回答“否”,認為存在“高”偏倚風險。制作系統評價時可將此作為原始研究的排除標準或敏感性分析標準。
完全配對設計研究中,若排除僅接受其中一個診斷試驗的受試者,目標人群將缺乏代表性,該信號問題回答“是”;當受試者某個診斷試驗結果缺失,該信號問題回答“是”,此時涉及數據缺失問題,在“病例流程和進展情況”域C4.4回答為“否”。
3.1.3 信號問題3:分配方案是否隨機產生(C1.3)-僅適用于隨機設計
隨機序列產生的方法包括抽簽、拋硬幣、擲骰子、隨機數字表、計算機產生隨機數字等;而非隨機分組的方法包括:交替分配、按出生或入院日期、病歷記錄號和記錄日期分配等。
3.1.4 信號問題4:分配方案是否隱藏,直到受試者確定入組后(C1.4)-僅適用于隨機設計
分配方案隱藏的方法包括:① 密閉信封法:指使用順序編碼、不透光、密閉的信封進行分配隱藏,即將每個分組方案放入一個不透光的信封中,信封外面寫上編碼,密封后交給未參與的第三方保存。在隨機分組時,對符合納入標準和排除標準的受試者進行編號,再依次打開,并現場記錄分配的隨機序列、信封號和分配結果,并于當天傳送至數據管理中心。② 中心隨機化:指隨機化分配、受試者管理、藥品管理等基于電話或計算機網絡的隨機化系統。以網絡、電話、手機短信等多種方式對受試者進行隨機分配和入組,從而實現分配方案隱藏。
3.2 領域2:待評價試驗
3.2.1 信號問題1:是否每個診斷試驗在該領域內的偏倚風險均判定為“低”?(C2.1)
若有一個診斷準確性存在高偏倚風險,則其比較也將存在高偏倚風險。即在該領域域內,只要有一個待評價試驗在QUADAS-2的偏倚風險等級為“不確定”或“高”,那C2.1就評為“否”。
例如,利用金標準來判讀某待評價試驗結果,可能會高估該試驗的診斷準確性。即便所有待評價試驗都事先了解采用金標準判讀的結果,所引入偏倚的大小與方向也不盡相同。因此,待評價試驗的比較存在偏倚風險,回答為“否”。
3.2.2 信號問題2:待評價試驗結果判讀,是否在不知曉其他試驗結果的情況下進行的?(C2.2)-僅適用于完全和部分配對設計中,受試者接受多個診斷試驗
例如設計類型中#1、#3和#4(圖1),側重于結果報告引入的信息偏倚,如報告偏倚、暴露懷疑偏倚等。
判斷偏倚的3個要素:① 結果報告的主觀程度,任何主觀判斷(在X光片上是否能看到腫瘤)比客觀測量的結果(血糖測量、體格檢查結果等)更易受偏倚影響。② 診斷試驗實施和結果報告的順序。③ 當單個診斷試驗與由多個診斷試驗組成的診斷策略進行比較,則“否”的答案,可能提示“低”偏倚風險。例如比較用超聲(ultrasound,US)診斷和超聲+CT聯合診斷闌尾炎。臨床上US通常在CT之前完成,在CT結果報告前已獲知US結果,而US結果是在不知曉CT結果的情況下實施。
3.2.3 信號問題3:試驗實施時,是否存在診斷試驗間的順序效應?(C2.3)–僅適用于接受多個診斷試驗的患者
此問題僅適用于完全和部分配對設計(例如圖1中#1、#3和#4)。當相同的受試者接受不同處理時,第一個試驗可能對后續試驗產生影響或干擾。例如:受試者在完成多個問卷時出現學習效應和厭倦效應;在已經被第一根活檢針穿刺的組織中使用第二根活檢針;沒有足夠的血樣進行第二個血液標志物檢測。類似于臨床試驗交叉設計順序效應(遺留效應),如果受試者在實施第一次診斷試驗后拒絕或無法實施第二個試驗,則將導致數據丟失。那么當前問題回答“否”。
3.2.4 信號問題4:待評價試驗的實施與結果判讀是否利用了某個診斷試驗?(C2.4)
待評價試驗的實施與結果判讀是否設盲,即所有待評價試驗是否都經過了相同的金標準驗證。若某個待評價試驗的實施或結果判讀與其他試驗間存在巨大差異,且與臨床實際相悖,則當前問題回答“否”,即存在偏倚。例如使用新鮮標本進行一種生物標志物測定,而使用冷凍標本進行競爭生物標志物測定。此問題旨在涵蓋除C2.2和C2.3問題已包含的診斷方法和結果判讀以外的差異。
3.3 領域3:金標準
3.3.1 信號問題1:是否每個待評價試驗在該領域內的偏倚風險均判定為“低”?(C3.1)
若有一個診斷準確性試驗存在高偏倚風險,則其比較也將存在高偏倚風險。即在該領域內,只要有一個待評價試驗在QUADAS-2的偏倚風險等級為“不確定”或“高”,那當前問題就評為“否”。
首先,金標準是否正確區分受試者目標疾病狀態?再者,金標準的結果判讀是否在未事先了解待評價試驗結果的情況下進行。若回答“否”,則其診斷準確性與試驗間比較的準確性均存在“高”偏倚風險。
3.3.2 信號問題2:待評價試驗是否獨立于金標準?(C3.2)
如果待評價試驗不獨立于金標準,兩者間一致性會增加,從而使待評價試驗準確性被高估。若一個待評價試驗是金標準的一部分,而另一個不是,則評價結果存在明顯偏倚。即使所有待評價試驗都涵蓋在金標準內,他們對最終診斷的權重或貢獻也可能存在差異。那當前問題回答“否”。
3.4 領域4:病例流程和進展情況
3.4.1 信號問題1:是否每個診斷試驗在該領域內的偏倚風險均判定為“低”?(C4.1)
若有一個試驗的診斷準確性存在“高”偏倚風險,則其比較也將存在“高”偏倚風險。即在該領域內,只要有一個待評價試驗在QUADAS-2的偏倚風險等級為“不確定”或“高”,那當前問題就評為“否”。
每個待評價試驗和金標準之間應有恰當的時間間隔,所有受試者應接受相同的金標準,并被全部納入分析。當至少有一個試驗陽性結果者接受金標準驗證,而陰性結果者不接受,即使不能估計單個診斷準確性,其相對準確性也是無偏倚的。當前問題回答“是”。
3.4.2 信號問題2:診斷試驗間是否有恰當的時間間隔?(C4.2)
一般而言,所有待評價試驗在入組后要同時實施,診斷試驗之間的時間間隔也應恰當,以排除疾病進展或患者管理改變的可能性。然則,目標條件和待評價試驗的“恰當”可能會有很大區別。例如,與急性和快速進展的疾病相比,對于緩慢進展的疾病,幾天的時間間隔是可接受的。為了比較診斷準確性,對在臨床不同時間點進行的診斷試驗要求同時實施,是沒必要甚至不可取。
3.4.3 信號問題3:是否所有待評價試驗都接受相同的金標準驗證?(C4.3)
是否跨診斷試驗組使用相同的金標準驗證?如果將不同的金標準應用于診斷試驗A(如手術)和診斷試驗B(如隨訪),兩者比較存在偏倚風險,該問題回答“否”。
對于非配對或部分配對設計,診斷試驗結果陽性者接受參考標準A,而診斷試驗結果陰性者接受參考標準B,該信號問題回答“是”;但當接受參考標準A和參考標準B的受試者比例不同時,當前信號問題回答“不確定”。對于完全配對設計,如使用同一金標準來驗證,該問題回答“是”;如果跨診斷試驗組使用不同的金標準進行驗證,且金標準不可互換,則回答“否”,兩者比較存在偏倚。如果金標準可互換(即以同一方法診斷同一目標疾病狀態),問題回答“否”,則不代表存在偏倚。
3.4.4 信號問題4:各個待評價試驗中缺失數據的比例和原因是否相似?(C4.4)
如果待評價試驗結果不可用、無效、有效但不確定,或病例未被納入分析中,則產生數據缺失。評價者應仔細分析數據缺失的比例和原因,以及是否對比較的準確性產生偏倚。
以上QUADAS-C工具條目內容的解釋譯自QUADAS網站,更多相關內容可前往(http://www.bris.ac.uk/quadas/quadas-c/)及(annals.org)獲取。
4 QUADAS-C工具的使用流程
理想情況下,需要對診斷試驗準確性比較研究的4個問題領域(病例選擇、待評價試驗、金標準、病例流程和進展情況)逐一進行偏倚風險評價。該過程由QUADAS-C與QUADAS-2同步評價的6個步驟協作完成:① 回答單個待評價試驗診斷準確性的信號問題;② 判斷單個待評價試驗診斷準確性的領域內偏倚風險;③ 評價臨床適用性;④ 根據步驟2結果回答診斷試驗準確性比較研究的第一個信號問題;⑤ 回答診斷試驗準確性比較研究信號問題;⑥ 判斷該領域內診斷試驗準確性比較的總體偏倚。下面對步驟4和步驟6進行較為詳細的說明(圖2,僅為部分)[6]。

現舉例說明QUADAS-C工具的使用流程,假設比較A和B 2個診斷試驗。首先進入“域1:病例選擇”,用QUADAS-2分別對A和B進行評價。進行步驟1回答信號問題,步驟2判斷偏倚風險,步驟3評價臨床適用性。接下來用QUADAS-C工具評價A、B之間的比較的偏倚風險。步驟4要根據QUADAS-2評價中步驟2偏倚風險判斷的結果回答信號問題:是否每個診斷試驗在該領域內的偏倚風險均判定為“低”。如果A和B判斷結果都“低”,回答“是”,則A和B比較的偏倚風險較低;當A和(或)B偏倚風險判斷“高”時,則A和B的比較中可能存在偏倚。步驟5回答其他信號問題。步驟6完成總體偏倚風險判斷。隨后依次進入后續領域,并重復相同步驟。
5 偏倚風險評價的結果呈現
QUADAS-C評價結果推薦用圖、表的形式進行呈現。表4與表5整合展示了QUADAS-2和QUADAS-C的評價結果,如果研究問題只涉及準確性比較,則只需展示QUADAS-C評估結果[6]。


例如,當比較A和B兩個試驗的診斷準確性,同步使用QUADAS-2和QUADAS-C工具會呈現診斷試驗A準確性偏倚風險評價、診斷試驗B準確性偏倚風險評價、A和B準確性比較的偏倚風險評價3個結果(表5和圖3)。

†:示例圖譯自QUADAS-C用戶指導手冊,詳細內容可在QUADAS網站獲取(http://www.bris.ac.uk/quadas/quadas-c/)。
偏倚風險評價可幫助評價者探索原始研究間異質性的來源,從而進行亞組分析或Meta回歸;也可在初步評估或敏感性分析中排除具有“高”偏倚風險的原始研究[9-10],從而進一步提高證據體的可信性、質量和推薦強度[11]。
6 結語
QUADAS-C作為QUADAS-2的擴展工具,綜合了多方意見,經過嚴格修訂程序,是值得推薦的診斷試驗準確性比較研究的偏倚風險評價工具。相關資源可在QUADAS網站(http://www.bris.ac.uk/quadas/quadas-c/)獲取。但在使用QUADAS-C時也會遭遇一定的阻礙,如與QUADAS-2結合使用會產生大量的信號問題組合、在對3個及以上的CDTA評價困難更大。此外,QUADAS-C主要針對完全配對和隨機設計的研究,用于非隨機設計時需作相應調整,尤其在進行與發病率和死亡率相關的診斷準確性評價時,應另選與研究設計相配對的工具。目前工作組正在研發一款基于網絡應用程序的QUADAS-人工智能(quality assessment of diagnostic accuracy studies artificial intelligence,QUADAS-AI)[12],該工具可結合QUADAS-2和QUADAS-C的結果自動生成信號問題解答,繪制偏倚風險評價表和圖。QUADAS-C作為新發布的評價工具,有待時間和實踐的檢驗與完善。使用該工具可幫助研究人員評價高質量的試驗準確性比較研究證據,發現研究設計和實施過程中的偏倚。