診斷準確性試驗(diagnostic test accuracy,DTA)的系統評價/Meta 分析報告規范(PRISMA-DTA)用于規范和提高 DTA 的系統評價/Meta 分析的報告質量,其于 2018 年 1 月發表在 JAMA 雜志。本文對其條目進行解讀,以促進國內學者對 PRISMA-DTA 的理解和應用,以期提高 DTA 的系統評價/Meta 分析報告質量。
引用本文: 張永剛, 楊樂天, 楊鑫, 肖博文, 田金徽, 杜亮. 診斷準確性試驗的系統評價/Meta 分析報告規范(PRISMA-DTA)的解讀. 中國循證醫學雜志, 2018, 18(9): 1007-1016. doi: 10.7507/1672-2531.201808012 復制
診斷準確性試驗(diagnostic test accuracy,DTA)的系統評價/Meta 分析是通過搜集當前可得具有相同研究目的診斷準確性試驗,按照納入與排除標準篩選研究、評價納入研究的偏倚風險,進行定性或定量統計分析的研究過程[1]。DTA 的系統評價/Meta 分析可為選擇可靠、準確和實用的診斷準確性試驗提供參考依據[2]。規范化透明化報告 DTA 的系統評價/Meta 分析能提高診斷準確性試驗的真實性和透明性[3]。原有的系統評價/Meta 分析報告規范主要針對提升干預性試驗的報告質量[4],并不適用于 DTA 研究設計、效應評估方法、偏倚風險評價方法的規范化報告。因此,PRISMA 工作組制定了 PRISMA-DTA,并于 2018 年 1 月發表在 JAMA 雜志[3]。為向中國研究者快速轉化 PRISMA-DTA,本文對其進行解讀,現報告如下。
1 PRISMA-DTA 清單介紹
PRISMA-DTA 清單共 27 個條目,PRISMA-DTA 摘要清單共 12 個條目,分別見表 1 和表 2。


2 條目解讀
2.1 標題
2.1.1 報告內容
明確報告該研究為診斷準確性試驗的系統評價和/或 Meta 分析
2.1.2 舉例
示例一:焦磷酸測序技術檢測結核分枝桿菌異煙肼耐藥性的 Meta 分析[5];示例二:Xpert MTB/RIF 法診斷兒童肺結核的系統評價和 Meta 分析[6]。
2.1.3 解釋
標題中應明確報告待評價的診斷準確性試驗的名稱,明確報告是系統評價和/或 Meta 分析。如前面示例一的待評價試驗為焦磷酸測序技術,適用對象是結核分枝桿菌異煙肼耐藥性,該文是 Meta 分析;示例二的待評價試驗是 Xpert MTB/RIF 法,適用對象是兒童肺結核,該文是系統評價和 Meta 分析。這有利于文獻被檢索到。
2.2 摘要
2.2.1 報告內容
見表 2。包括標題和目的、方法、結果、討論、資金和注冊。摘要可為期刊論文摘要,也可為會議摘要等。
2.2.2 舉例
按照 PRISMA-DTA 摘要報告規范,逐條舉例,見表 3。
2.2.3 解讀
摘要的報告規范對會議的指導價值通常高于期刊論文。期刊論文由于稿約要求和版面受限,常會影響摘要報告規范的實施。而常見會議摘要包括標題、目的、方法、結果和結論等,可不受限于字數和版面,更有利于使用 PRISMA-DTA。我們以示例二顯示如何用 PRISMA-DTA 進行摘要報告:① 摘要的條目 1 與全文的條目 1 類似,均應該明確報告診斷性試驗名稱、目標疾病及系統評價和/或 Meta 分析,以方便檢索和識別。② 目的:簡要說明系統評價目的,如受試者為結核患者,待評價試驗為支氣管誘導痰涂片和肺泡盥洗液診斷肺結核,目標臨床情況是診斷肺結核。③ 合適的標準:方法部分報告納入研究的標準,可包含受試者、待評價試驗和目標臨床情況;此外還應該包括研究的設計類型,如診斷準確性試驗、病例-對照研究等;及納入研究的其他特征,如結核菌含量是患者水平還是標本水平。④ 信息來源:簡要報告所檢索數據庫和檢索時間。必須包含常見數據庫,如英文數據庫 PubMed、Google Scholar、ProQuest、Web of Science、CINAHL 和 EMbase;中文數據庫 CNKI、萬方、維普和 CBM 等。應報告末次檢索時間,并建議論文出版前還應更新檢索。⑤ 偏倚風險和適用性:偏倚風險評價當前推薦使用 QUADAS-2,選擇理由可參考文獻。⑥ 條目 A1(結果合成)實施 Meta 分析則報告結果合成方法;未實施則不提及。還可報告使用的統計分析軟件以及是否進行了其他分析,如亞組分析、敏感性分析等。⑦ 納入研究:報告納入研究數量和納入診斷性試驗的患者或標本數量,如共納入 15 個研究,包括來自 3 640 位兒童的 4 768 份標本。⑧ 結果合成:報告數據合成結果時建議報告合并敏感度、特異度、陽性預測值、陰性預測值、SROC 曲線及其可信區間,以及相關的異質性檢驗結果。⑨ 優勢和局限性:提及本研究最重要的優點和局限性,如本研究發現 Xpert 能提高兒童肺結核的診斷能力,但 pert 陰性不能排除肺結核。⑩ 解釋:此部分為結論,如 Xpert 診斷結果需要慎重考慮;焦磷酸測序是藥敏檢測的有效輔助手段等。? 資金:如本研究資助來源于 WHO 的田納西兒童醫院全球結核評價項目。? 注冊:提供注冊編號和注冊地址,如系統評價常用注冊地址為 PROSPERO,該文的注冊號為 CRD42015027534。
2.3 原理
2.3.1 報告內容
報告系統評價研究內容相關已知原理。
2.3.2 舉例
示例一:焦磷酸測序技術是一種新型的依靠生物發光進行的實時 DNA 測序技術。近年來,眾多學者也將這項技術用于結核耐藥性檢測。異煙肼作為結核治療的主要一線藥物被廣泛研究,但對于焦磷酸測序技術進行快速診斷的敏感度和特異度,文獻報道結果不一[5]。示例三:胸腔積液中腺苷脫氨酶活性升高是診斷結核性胸膜炎的重要輔助指標,國內外相關研究中結核性胸膜炎多是通過病史、臨床表現、影像學和胸腔積液檢查或診斷性治療反應來診斷,缺乏病因學或組織病理學證據,而胸膜病理是診斷胸膜疾病的金標準;對照組多以惡性胸腔積液為對照,不符合試驗對照規范。已發表相關 ADA Meta 分析中納入中文文獻較少,缺少異質性分析。ADA 檢測尚無公認的標準檢測方法,檢測結果不一致性影響臨床診斷價值[10]。
2.3.3 解釋
該部分報告內容為該系統評價已知的相關背景知識。如示例一和示例三的前言部分均介紹了待評價診斷性試驗的應用原理及其在診斷臨床問題中所面臨挑戰,包括焦磷酸測序技術定義、異煙肼耐藥的背景知識、胸腔積液導致 ADA 升高,因此 ADA 可能可作為其診斷的靶標等。
2.3.4 待評價試驗的臨床重要作用
其報告內容包括:報告待評價試驗的科學背景和臨床應用背景,包括其用途和臨床診斷價值;如果適用,應報告待評價試驗的最低診斷價值的基本原理及其與對比 DTA 最低診斷效能差異的原理。該條目實質是補充介紹待評價 DTA 的診斷效能的相關問題,即其與當前其他 DTA 對比是否更有優勢、該診斷試驗自身最低診斷價值等臨床應用價值的問題。
2.4 目的
2.4.1 報告內容
明確報告系統評價所研究問題的情況,包括診斷人群、診斷試驗和診斷目標臨床情況等。
2.4.2 舉例
示例三:本研究分析近 10 年中、英文文獻,以胸腔鏡胸膜活檢病理、病原學診斷為金標準,對照組為非結核性胸腔積液,評價胸腔積液 ADA 對結核性胸腔積液的鑒別診斷價值,為 ADA 在結核性胸膜炎患者臨床應用提供科學依據[10]。示例一:本文采用 Meta 分析的方法匯總國內外運用此技術檢測結核分枝桿菌異煙肼耐藥的研究結果,以綜合定量評價焦磷酸測序技術快速診斷異煙肼耐藥的診斷價值[5]。
2.4.3 解釋
前言部分明確報告相關要素能幫助讀者清晰了解本研究的目的和重要性。
2.5 計劃書與注冊
2.5.1 報告內容
報告是否有系統評價計劃書,計劃書可否獲取及獲取途徑(如通過網址);若已注冊,應報告系統評價注冊信息(包括注冊號)。
2.5.2 舉例
本研究按照先前撰寫的計劃書實施(PROSPERO CRD42015027534),按照 PRISMA 指南進行[7]。
2.5.3 解釋
該例提及有計劃書,其計劃書在 PROSPERO 網站注冊,注冊號為 CRD42015027534。PROSPERO 網站注冊系統評價均需要提供計劃書,計劃書既可提交在 PROSPERO 網站,可公開發表在共享網絡或期刊,如 BMJ Open 和 Systematic Review等。
2.6 合適的標準
2.6.1 報告內容
明確報告制定的納入標準,包括研究內的特征(如參與者、適用場景、待評價試驗、參考試驗、目標場景和研究設計)和研究發表的特征(如考慮的年份、語言和發表情況),并給出理由。
2.6.2 舉例
示例一采用的納入標準包括:① 用焦磷酸測序技術進行結核耐藥基因的檢測;② 對耐異煙肼樣本耐藥基因進行檢測,包括檢測 katG、inhA 和 ahpC 等基因;③ 有對照藥敏,包括細菌學藥敏 (絕對濃度法、比例法和 BACTEC 960 藥敏檢測法)或有常規測序 (DNA 直接測序法、Sanger 直接測序法)結果;④ 文獻中均有明確數據可進行敏感度和特異度的計算;⑤ 檢測臨床分離株或臨床樣本都被納入[5]。
示例三的納入標準為:胸水 ADA 對結核性胸膜炎診斷性試驗的研究文獻;結核性胸腔積液診斷金標準方法:胸膜病理活檢發現肉芽腫性炎或干酪樣壞死,抗酸染色陽性,痰或胸水涂片、培養查到抗酸桿菌甚至結核菌,診斷性抗結核治療后全身癥狀緩解或胸水吸收、減少。所有患者均符合上述診斷標準。觀察指標有敏感度(SEN)、特異度(SPE),可提取四格表數據。排除標準為:非胸水 ADA 對結核性胸膜炎診斷性試驗的研究文獻,結核性胸腔積液診斷金標準方法無胸膜病理活檢發現肉芽腫性炎或干酪樣壞死,無法提取四格表數據等[10]。
2.6.3 解釋
此條目要求報告納入標準。納入標準包括:參與者、適用場景、待評價試驗、參考試驗、目標場景和研究設計等;還包括論文發表的特征標志,如發表時間,發表語種和是否發表等。該條目隱含了排除標準,需要注意的是納入標準與排除標準不是 A 與非 A 的關系。無法提取數據或無法獲取原文,不應作為排除標準。對于無法提取數據的文獻,應聯系作者獲取數據。示例一和示例三中按照待評價試驗、適用情況、參考試驗、目標場景和研究設計條目制定了納入標準,但示例一未報告相關排除標準。
2.7 信息來源
2.7.1 報告內容
描述所有檢索信息來源及末次檢索時間(包括檢索數據庫及其收錄年限,聯系原始文獻作者獲取更多研究信息)
2.7.2 舉例
示例一檢索的英文數據庫選用 PubMed、Web of Science、Elsevier,檢索詞采用“tuberculosis”、“Mycobacterium tuberculosis”、“pyrosequencing”;中文數據庫選用中國知識資源總庫、萬方數據資源系統和維普中國科技期刊 (全文庫)······檢索數據庫從收錄年份到 2012 年 3 月的所有文獻。采用網上檢索及手工檢索相結合的方法以避免漏查文獻,并對所檢索文獻中提供的參考文獻進行二次檢索[5]。
2.7.3 解釋
該條目應報告文獻檢索數據庫和末次檢索時間。若追溯灰色文獻,要報告追溯的方法。若有可能還應報告是否與相關研究者聯系并取得更多研究。
2.8 檢索
2.8.1 報告內容
提供所有電子數據庫和其他信息來源的完整檢索策略,包括檢索式所用限制,以保證檢索過程的可重復性。
2.8.2 舉例
示例一檢索的英文數據庫選用 PubMed、Web of Science、Elsevier;中文數據庫選用中國知識資源總庫、萬方數據資源系統和維普中國科技期刊(全文庫)[5]。
2.8.3 解釋
報告檢索的電子數據庫和其他來源的完整檢索策略,包括檢索限制,以保證檢索過程可被重復。文獻完整檢索策略可在線出版于論文補充材料中。另外,在 The Cochrane Library 可報告采用的所有檢索策略。
2.9 納入研究
2.9.1 報告內容
報告選擇研究過程(如篩選過程、納入標準,是否納入到系統評價及/或 Meta 分析中)。
2.9.2 舉例
示例四:由 2 位評價員按照納入與排除標準獨立篩選文獻、提取資料和評價納入研究的方法學質量。如遇分歧則討論解決或交由第三方協助裁定[11]。
2.9.3 解釋
本條目報告文獻納入的方法,包括篩選流程,如 2 名研究者獨立篩選和評價其是否納入,當意見不一致時,要報告不一致意見的解決方式,如討論或求助第三方共同決定等。
2.10 數據收集過程
2.10.1 報告內容
報告提取納入研究數據過程(如制定預提取表格、單人提取、重復提取等),報告從原作者處獲取和確認數據的情況
2.10.2 舉例
示例四:由 2 位研究者······按設計好的資料提取表提取資料,最后交叉核對提取情況,如遇分歧,通過討論協商解決[11]。示例二:2 位作者使用參考 Cochrane 系統評價修改的表格來獨立提取數據。通過聯系作者以獲取缺失數據、定義和區分兒童結核。所有數據由 2 位作者獨立采用 EXCEL 14.4.1 軟件匯總[6]。
2.10.3 解釋
報告數據收集過程(如預提取、單人提取、重復提取等)及從原作者處獲取和確認數據的情況。數據收集過程應由至少 2 個及以上作者獨立完成。對無法獲取數據的文獻,應聯系作者獲取相關數據。如遇到收集的數據不一致,要報告分歧解決方式和是否達成一致。
2.11 數據提取的定義
2.11.1 報告內容
報告實施過程所用定義:包括數據提取、區分目標疾病、待評價試驗、參考標準和其他特征(如研究設計、臨床場景)。
2.11.2 舉例
示例四:制定數據提取表提取資料,提取內容主要包括作者姓名、發表時間、研究國家、菌株數量、金標準、檢測方法、真陽性值、假陽性值、真陰性值和假陰性值[11]。
2.11.3 解釋
該條目要求報告所提取資料情況。提取資料可分為幾個層面:納入研究的基本特征(作者、發表年份、期刊等)、納入研究的研究對象(疾病情況、患者或標本的特征等)、待評價試驗和參考標準的特征、偏倚風險評價的基本特征、所關注的結局指標的特征。
2.12 偏倚風險和適用性
2.12.1 報告內容
描述評價納入研究偏倚風險的方法,偏倚風險評價方法針對待評價研究問題的適用性。
2.12.2 舉例
示例二:納入研究的方法學質量評價采用 QUADAS-2 進行[6]。示例三:2 位研究者采用 Cochrane 協作網提供的診斷性研究的質量評價工具 QUADAS 量表,對納入研究進行評價。按“是”、“否”、“不清楚”3 個判斷標準進行評價,納入文獻總體質量較好[10]。示例四:納入研究的方法學質量采用 Whiting 等制訂的 QUADAS 量表進行評價[11]。
2.12.3 解釋
對于診斷準確性試驗的系統評價/Meta 分析的質量評價工具,目前推薦采用 QUADAS-2 進行評價。應制定相應的評價表格,根據所提取數據逐條進行評價,并給出給分理由。
2.13 診斷準確性評價
2.13.1 報告內容
報告診斷準確性試驗評價指標(如敏感度和特異度)及其對應的診斷單位(如單個患者、單個病灶)。
2.13.2 舉例
示例四:對納入研究采用 ROC 曲線分析,計算合并敏感度、特異度和曲線下面積(AUC),所有結果均用 95%CI 表示;敏感度和特異度的 Meta 分析分別用于評價結核的檢出和利福平耐藥。
2.13.3 解釋
診斷準確性試驗的評價指標包括合并敏感度、特異度、陽性預測值和陰性預測值、曲線下面積等。評價要明確指出該合并效應量是基于個體還是標本或是病灶。
2.14 結果合成
2.14.1 報告內容
描述處理數據方法,合并研究結果和報告研究結果間的變異。包括但不限于:① 處理多種定義的目標疾病;② 處理試驗的多個陽性結果閾值;③ 處理試驗多個讀取結果;④ 處理試驗中間結果;⑤ 處理試驗的分組和比較結果;⑥ 處理試驗不同參考標準的結果。
2.14.2 舉例
示例三:采用 Stata 12.0 和 Meta-Disc 1.4 軟件進行統計分析。首先繪制 ROC 平面圖,觀察圖形是否呈“肩臂狀”,計算 Spearman 相關系數,以判斷是否存在閾值效應。當納入研究間不存在閾值效應時,進一步采用 χ2檢驗分析納入研究結果間的統計學異質性,并結合 I2 定量判斷異質性的大小。若 I2<50%,采用固定效應模型進行合并分析,反之則采用隨機效應模型進行合并分析。當存在明顯臨床異質性時,僅行定性描述。逐一剔除單個研究進行敏感性分析,以判斷研究結果的穩定性。運用 Deek 漏斗圖評價發表偏倚。檢驗水準均為α=0.05[10]。
示例四:采用 Meta-Disc 1.4 軟件進行異質性分析,包括閾值效應和非閾值效應引起的異質性。若存在閾值效應,則最佳的合并數據方法是擬合 SROC 曲線和計算 AUC,或應用其他統計量如 Q 指數;若異質性是由非閾值效應所致,則可嘗試采用隨機效應模型進行合并分析,反之則采用固定效應模型進行 Meta 分析,計算合并的 SEN、SPE、+LR、–LR 和 DOR,繪制 SROC 曲線,并計算 AUC[11]。
2.14.3 解釋
診斷準確性試驗要首先繪制 ROC 平面圖,觀察是否存在閾值效應,若不存在,才能進行數據合并。數據合并時,首先評價異質性來源,若存在異質性,采用隨機效應模型進行 Meta 分析;若不存在,采用固定效應模型進行 Meta 分析。要描述如何處理不同研究間疾病定義不同的問題,要描述如何評價不同研究間閾值不一致的問題;要評價不同分組和檢測之間差異的問題;要注意不同研究檢測儀器不同的問題;要注意處理不同研究的參考標準不一致的問題。該條目要求的內容比較詳細,對于診斷準確性試驗的 Meta 分析的判斷具有重要意義。
2.15 Meta 分析
如進行 Meta 分析,報告 Meta 分析的統計方法[11]。對于進行了 Meta 分析的研究,要詳細報告 Meta 分析的實施方法、統計軟件等(舉例見 2.14.2)。
2.16 其他分析
2.16.1 報告內容
報告其他分析過程(如敏感性分析或亞組分析、Meta 回歸分析);若實施其他分析,應報告哪些分析是預先計劃的。
2.16.2 舉例
示例一:敏感性分析:將結果差別較大的文獻排除后,重新進行 Meta 分析,所得結果與未排除前的結果進行比較,若敏感度、特異度的結果變化不大,說明納入文獻的穩定性好,結果較可信;反之,納入文獻的穩定性差,在解釋結果和完成結論時應慎重[5]。
2.16.3 解釋
常見其他分析方式包括敏感性分析、亞組分析和 Meta 回歸分析。敏感性分析主要用于探討個別或部分文獻的研究結果對 Meta 分析結果的影響,其主要通過逐一排除相關文獻、排除具有相同特征的文獻(如低質量文獻、小樣本或大樣本研究)來實現。亞組分析主要用于探討異質性來源、探討不同亞組之間的差異。診斷準確性試驗常見的亞組分類有:診斷儀器、診斷方法、診斷次數、患者年齡、患者種族等。Meta 回歸分析的作用主要是評價某些變量或診斷性試驗個體的特征對 Meta 分析合并后效應的影響。納入 Meta 回歸分析的協變量一般是診斷性試驗的基本特征,如診斷儀器、診斷方法、金標準、患者性別、年齡、種族、研究樣本量等。進行 Meta 回歸分析時,應該確保有足夠的研究個數納入回歸分析。此外,還要明確指出這些分析是否與先前的計劃書一致或是否進行過調整。
2.17 納入研究
2.17.1 報告內容
報告篩選文章數量、篩選文章理由、報告系統評價(或 Meta 分析)逐步排除文章理由,最好使用流程圖展示過程。
2.17.2 舉例
示例一:通過 6 個數據庫的檢索,共檢索出文獻 114 篇,排除重復文獻 54 篇和介紹焦磷酸測序檢測方法及未檢測結核耐藥基因的文獻 41 篇,剩下 19 篇文獻是應用焦磷酸測序技術檢測結核耐藥基因,檢測異煙肼耐藥基因的有 9 篇,其中檢測 katG 基因的有 8 篇 (英文文獻 6 篇,中文文獻 2 篇)[5]。示例四:初檢出相關文獻 257 篇,經逐層篩選后,最終納入 10 個研究,包括 659 例標本。文獻篩選流程及結果見原文圖 1[11]。
2.17.3 解釋
本部分報告可分為:文獻檢索數量、文獻篩選過程和流程圖。① 文獻檢索數量,要詳細報告檢索數據庫的文獻數量、通過追溯文獻獲得的文獻數量。② 文獻篩選過程遵循剔重、閱讀摘要和標題、閱讀全文、提取數據、納入定性分析和納入定量分析的流程。剔除文獻時要記錄剔除的原因和剔除文獻的數量。③ 繪制流程圖時建議參考 PRISMA 流程圖進行。流程圖中應該詳細報告剔除文獻的數量和剔除原因。
2.18 研究特征
2.18.1 報告內容
報告納入研究的參考文獻和最重要特征,包括:受試者特征(臨床表現、先前診斷情況)、臨床場景、研究設計、目標臨床情況的定義、待評價試驗、參考標準、樣本量和資金來源。
2.18.2 舉例
示例一:9 篇研究中有 8 篇研究檢測 katG 基因,檢測標本總數為 1 116 份,其中耐藥標本 637 份,敏感標本 479 份;3 篇研究檢測 inhA 基因,檢測標本 572 份,其中耐藥 345 份,敏感 227 份;檢測 ahpC 基因只有 1 篇研究,檢測總標本 171 份,其中耐藥 45 份,敏感 126 份。只有 2 篇文獻檢測標本既有臨床分離株,又有臨床標本,其余文獻均只采用臨床分離株進行耐藥檢測。所納入文獻均未采用盲法。納入文獻的質量均較高。納入研究的基本情況見示例一原文表 1[5]。
2.18.3 解釋
納入研究基本特征應該參考 PICOS 標準進行。包括:① 待診斷患者的特征,如是肺結核病疑似患者還是腎結核患者、患者的年齡、性別比等;② 臨床場景:肺結核、腎結核、腦結核的診斷等;③ 研究設計一般應為診斷性試驗、病例-對照研究等;④ 目標臨床情況定義,如待診斷的患者情況。待評價試驗要詳細報告其診斷試驗、診斷方法和診斷儀器等;參考標準是指納入研究金標準,若不同研究的金標準不一致,要明確說明金標準的診斷閾值和價值。資金來源要報告納入研究的資助情況,以便客觀公正評價該納入研究可能存在的問題。如,該研究的資金來源于試劑廠商,資金的提供者是否參與了研究的設計、分析和出版。
2.19 偏倚風險結果和適用性
2.19.1 報告內容
報告納入研究的偏倚風險評價結果及判斷的理由。
2.19.2 舉例
示例一:納入研究的偏倚風險評價結果見示例一原文的表 2[5]。
2.19.3 解釋
應該詳細羅列納入研究的偏倚風險評價結果。由于 QUADAS-2 的評價結果以“是”、“否”和”不清楚”來評價和判斷,多數學者采用 0 分和 1 分來分別評價其結果,也有僅報告 QUADAS-2 匯總評分。建議詳細報告每一條目的評價結果和評分理由。
2.20 單個研究結果
2.20.1 報告內容
報告統計分析中的每個研究結果(如待評價試驗、參考標準和陽性閾值的獨特組合),四格表數據(真陽性、假陽性、真陰性、假陰性)及統計的診斷準確性和可信區間的估計值,最好報告森林圖或 ROC 曲線結果。
2.20.2 舉例
示例四:以表格和森林圖的形式顯示了研究結果[11]。
2.20.3 解釋
本條目要求報告統計分析中的單個研究結果(真陽性、假陽性、真陰性、假陰性)和診斷準確性試驗的結果及其 95%CI。通常情況下,單個研究的結果會羅列在納入研究的基本特征中,而其診斷準確性結果會在數據合并時候顯示。應該通過森林圖展示診斷準確性試驗的結果。
2.21 結果的合并
2.21.1 報告內容
報告試驗的準確性,包括變異;如完成了 Meta 分析,報告 Meta 分析結果及可信區間。
2.21.2 舉例
示例三:24 個研究中,Meta-Disc1.4 軟件輸出的 ROC 面散點圖呈不典型“肩臂狀”,Spearman 相關系數=–0.209,P=0.338,提示 Sen 與 1-Spe 呈陰性相關,不存在閾值效應。異質性檢驗結果顯示 P=0.000,I2>70%,不同研究間異質性較高,采用隨機效應模型進行 Meta 分析,結果顯示 Sen合并=0.876,95%CI(0.859,0.892);SPE合并=0.899,95%CI(0.885,0.912);+LR=8.139,95%CI(6.644,10.327);–LR=0.172,95%CI(0.133,0.222);DOR=72.299,95%CI(44.771,116.75);AUC=0.9535。見原文圖 1~3[10]。
2.21.3 解釋
詳細報告合并數據(敏感性、特異性、陽性預測值、陰性預測值、診斷比值比和曲線下面積)的結果,所有報告結果除應報告 95%CI 外,還應該報告異質性檢驗的結果。
2.22 其他分析
2.22.1 報告內容
若有,報告其他分析的結果(如敏感性分析或亞組分析、Meta 回歸;分析待評價試驗,失敗率分析、不確定診斷結果比例分析和副作用分析)。
2.22.2 舉例
示例四:…分別剔除樣本量<100 的研究、中文研究及 QUADAS 評分>10 分的研究,然后行敏感性分析。結果顯示,剔除文獻后各診斷結果穩定,提示結論較為可靠[11]。示例三:…分別對納入的來自中國的 14 篇研究和來自其他國家的 9 篇研究進行亞組分析...結果顯示敏感性、特異性無明顯改變[10]。
2.22.3 解釋
本部分報告主要報告敏感性分析、亞組分析或回歸分析的結果。應該詳細報告進行各種分析后診斷性試驗的準確性的變化情況。
2.23 總結證據
2.23.1 報告內容
總結主要發現及證據強度。
2.23.2 舉例
示例一:…研究結果同時顯示,以細菌學檢測為金標準,焦磷酸測序技術檢測結核分枝桿菌異煙肼 katG 基因的特異度為 100%,合并 DOR 及 95%CI 為 212.37(76.77,587.49),SROC 曲線綜合分析顯示 AUC=0.9882,陽性似然比及 95%CI 為 62.04(22.98,167.50),檢測結核分枝桿菌異煙肼耐藥 inhA 基因的特異度為 1.00(0.98,1.00),這些結果都提示焦磷酸測序技術檢測異煙肼耐藥具有很高的特異性,可以作為異煙肼耐藥的初篩工具[5]。示例三:…本研究納入 23 個研究,納入研究對象 3312 例。Meta 分析結果表明,胸水 ADA 檢測診斷結核性胸腔積液 SEN 87.6%、SPE 89.9%,表明其漏診率 (12.4%)、誤診率(10.1%),匯總 DOR 為 72.3,ROC 下面積 AUC 為 0.953 5,表明其診斷效能較高[10]。
2.23.3 解釋
本條目對討論的主體部分進行了解釋,但該條目過于籠統,我們認為不利于作者開展相關研究。診斷性實驗討論主體部分,我們認為應該按照以下情況來討論。首先概括介紹本研究的結論,其次針對診斷準確性試驗的準確性進行討論(從納入研究層面、本研究結果與其他研究結果比較層面、以及本研究結果對未來研究啟事層面),還要討論實施本系統評價過程中的相關問題,如不同研究的診斷標準不一致的問題,異質性過大的問題,其他分析(敏感性、亞組分析或 Meta 回歸)層面重要發現。
2.24 局限性
2.24.1 報告內容
討論納入研究局限性(從偏倚風險和適用性角度分析)及開展系統評價過程中的局限性(如納入研究可能檢索不全)。
2.24.2 舉例
示例四:…本研究上存在以下局限性:① 雖通過各種途徑、盡可能全面收集有關研究文獻,由 2 位評價者獨立按預先制定的納入、排除標準篩選文獻并對最終納入的文獻數據進行提取,但仍可能存在一定程度的選擇性偏倚;② 多數納入研究未對研究對象的質量控制進行詳細描述和說明;③ 納入研究中大部分使用的是臨床分離株,應更多采用臨床標本直接進行檢測,更具有臨床實用價值;④ 納入研究中僅有 2 個研究提及盲法,可能會導致結果產生測量偏倚[11]。
2.24.3 解釋
同干預性試驗的 Meta 分析報告規則一樣,診斷性試驗的 Meta 分析的局限性同樣來自三個層面:納入研究層面的局限性、納入研究相互層面的局限性和研究者實施系統評價層面的局限性。納入研究層面的局限性如部分納入研究無法提取數據,部分研究的患者/樣本的例數報告不清楚,且聯系作者也無法獲取數據,只能通過軟件估算,均可能會影響研究結果。納入研究相互層面的局限性包括納入研究之間的異質性太大,部分研究納入研究之間的性別比差異過大,年齡差異過大等。實施系統評價層面的局限性主要包括:無法檢索不同語種的文獻,無法獲取部分研究全文,由于條件限制僅檢索了主要的電子數據庫但未檢索專業相關的數據庫等問題。
2.25 結論
2.25.1 報告內容
結合其他證據總結本研究結果。討論其對未來研究和臨床實踐的啟示(如待評價試驗的潛在用途及在臨床實踐中的重要作用)。
2.25.2 舉例
示例一:焦磷酸測序技術通過檢測 katG 基因突變檢測異煙肼耐藥具有較高的特異度,在異煙肼耐藥初篩時具有很高的臨床價值。通過增加檢測耐藥基因的數目,可進一步提高檢測的敏感度,是結核分枝桿菌快速藥敏檢測的有效輔助手段[5]。示例三:本系統評價結果顯示胸水 ADA 檢測對結核性胸腔積液的診斷有明確價值,可作為輔助診斷結核性胸腔積液的重要生化指標,是科學合理的 ADA 臨界值方法,對胸水 ADA 對結核性胸腔積液的鑒別診斷具有重要意義[10]。
2.25.3 解釋
診斷性準確性試驗的結果要審慎。應該綜合本研究結果及其他研究結果進行合理闡述,還要對其在臨床實踐的中價值和內容進行展望。如 ADA 輔助診斷胸腔結核性胸腔積液,其臨界值大小是將來研究需要關注的問題。
2.26 資金
2.26.1 報告內容
報告系統評價的資助資金來源或其他支持,并描述資助者在本研究中扮演的角色。
2.26.2 舉例
示例一:國家十二五重大專項資助項目,上海市科委項目資助項目 (10411955100、llZRl430200)[5]。示例二:本文獲得了來自 WHO 的基金支持...,經費資助者來源的作用:基金資助者對研究設計、數據收集、統計分析、結果解釋和寫作論文均無作用[6]。
2.26.3 解釋
本條目要求報告基金支持的單位、項目號碼及資助者在研究中扮演的角色。尤其對于作者曾經接受過該診斷方法/儀器/設備所在公司支持的。應該不明確說明這些經費支持是否會影響本研究的設計。
3 討論
PRISMA-DTA 對提高診斷準確性試驗報告完整性和透明度具有重要意義。本文對其進行解讀,以期為國內 DTA 的系統評價/Meta 分析研究者了解 PRISMA-DTA,提高 DTA 的系統評價/Meta 分析質量提供參考。我們呼吁相關期刊將 PRISMA-DTA 引入稿約,加強對作者、讀者、編者和審者的宣傳和培訓,進一步提高 DTA 的系統評價/Meta 分析報告質量。國內期刊雖然多有版面限制,但是目前尚無研究證實遵循報告規范會導致期刊的版面數增加。另外,隨著數字化增強出版技術的發展,其可及性更好,能確保完整報告規范更易實現,例如將完整報告以附件形式出版,或通過機構知識庫、在線網盤、共享數據庫等更多細節。
PRISMA-DTA 的部分條目,其原版解釋仍有不明之處:① 納入研究的局限性方面,我們建議系統評價的局限性應該圍繞納入研究、納入研究之間和研究者實施三個層面來討論。本版 PRISMA-DTA 對討論部分要求得過于簡單,我們建議作者討論應該更加充分。② 我們認為,將條目 20 和條目 21 分開不合理。當前,多數診斷性試驗的系統評價/Meta 分析均報告了 Meta 分析值,且單個研究的 Meta 分析值幾乎都包含在森林圖中,因此,分為兩條,反而不利于闡述和討論。③ 條目 6 闡述不夠準確,明確為納入與排除標準具有更好的操作性,即文章的納入標準是什么,排除標準是什么,以方便讀者和作者理解。④ 對于 DTA 準確性的指標而言,PRISMA-DTA 僅提及診斷敏感性、特異性,而我們認為陽性預測值、陰性預測值、曲線下面積、診斷比值比這些 DTA 基本特征也應該明確要求報告。
在應用 PRISMA-DTA 時,作者、讀者、編者和審者應注意醫學報告規范是該類研究報告的最低標準,而不是最高標準。在報告時,應超越 PRISMA-DTA 的要求將相關問題報告清楚。此外,還要避免誤用和濫用。PRISMA-DTA 是報告規范,其僅可被用于評價 DTA 的系統評價/Meta 分析的報告質量,而不能用于評價 DTA 的系統評價/Meta 分析的方法學質量。DTA 的系統評價/Meta 分析的方法學質量,目前推薦使用最近發表的 AMSTAR 2[12]。此外,PRISMA-DTA 更不能用于評價原始研究 DTA 的方法學質量和報告質量。
總之,PRISMA-DTA 是針對 DTA 的系統評價/Meta 分析的重要報告規范,我們呼吁相關期刊將其引入稿約,從出口把關,以提升國內 DTA 的系統評價/Meta 分析的報告質量。
診斷準確性試驗(diagnostic test accuracy,DTA)的系統評價/Meta 分析是通過搜集當前可得具有相同研究目的診斷準確性試驗,按照納入與排除標準篩選研究、評價納入研究的偏倚風險,進行定性或定量統計分析的研究過程[1]。DTA 的系統評價/Meta 分析可為選擇可靠、準確和實用的診斷準確性試驗提供參考依據[2]。規范化透明化報告 DTA 的系統評價/Meta 分析能提高診斷準確性試驗的真實性和透明性[3]。原有的系統評價/Meta 分析報告規范主要針對提升干預性試驗的報告質量[4],并不適用于 DTA 研究設計、效應評估方法、偏倚風險評價方法的規范化報告。因此,PRISMA 工作組制定了 PRISMA-DTA,并于 2018 年 1 月發表在 JAMA 雜志[3]。為向中國研究者快速轉化 PRISMA-DTA,本文對其進行解讀,現報告如下。
1 PRISMA-DTA 清單介紹
PRISMA-DTA 清單共 27 個條目,PRISMA-DTA 摘要清單共 12 個條目,分別見表 1 和表 2。


2 條目解讀
2.1 標題
2.1.1 報告內容
明確報告該研究為診斷準確性試驗的系統評價和/或 Meta 分析
2.1.2 舉例
示例一:焦磷酸測序技術檢測結核分枝桿菌異煙肼耐藥性的 Meta 分析[5];示例二:Xpert MTB/RIF 法診斷兒童肺結核的系統評價和 Meta 分析[6]。
2.1.3 解釋
標題中應明確報告待評價的診斷準確性試驗的名稱,明確報告是系統評價和/或 Meta 分析。如前面示例一的待評價試驗為焦磷酸測序技術,適用對象是結核分枝桿菌異煙肼耐藥性,該文是 Meta 分析;示例二的待評價試驗是 Xpert MTB/RIF 法,適用對象是兒童肺結核,該文是系統評價和 Meta 分析。這有利于文獻被檢索到。
2.2 摘要
2.2.1 報告內容
見表 2。包括標題和目的、方法、結果、討論、資金和注冊。摘要可為期刊論文摘要,也可為會議摘要等。
2.2.2 舉例
按照 PRISMA-DTA 摘要報告規范,逐條舉例,見表 3。
2.2.3 解讀
摘要的報告規范對會議的指導價值通常高于期刊論文。期刊論文由于稿約要求和版面受限,常會影響摘要報告規范的實施。而常見會議摘要包括標題、目的、方法、結果和結論等,可不受限于字數和版面,更有利于使用 PRISMA-DTA。我們以示例二顯示如何用 PRISMA-DTA 進行摘要報告:① 摘要的條目 1 與全文的條目 1 類似,均應該明確報告診斷性試驗名稱、目標疾病及系統評價和/或 Meta 分析,以方便檢索和識別。② 目的:簡要說明系統評價目的,如受試者為結核患者,待評價試驗為支氣管誘導痰涂片和肺泡盥洗液診斷肺結核,目標臨床情況是診斷肺結核。③ 合適的標準:方法部分報告納入研究的標準,可包含受試者、待評價試驗和目標臨床情況;此外還應該包括研究的設計類型,如診斷準確性試驗、病例-對照研究等;及納入研究的其他特征,如結核菌含量是患者水平還是標本水平。④ 信息來源:簡要報告所檢索數據庫和檢索時間。必須包含常見數據庫,如英文數據庫 PubMed、Google Scholar、ProQuest、Web of Science、CINAHL 和 EMbase;中文數據庫 CNKI、萬方、維普和 CBM 等。應報告末次檢索時間,并建議論文出版前還應更新檢索。⑤ 偏倚風險和適用性:偏倚風險評價當前推薦使用 QUADAS-2,選擇理由可參考文獻。⑥ 條目 A1(結果合成)實施 Meta 分析則報告結果合成方法;未實施則不提及。還可報告使用的統計分析軟件以及是否進行了其他分析,如亞組分析、敏感性分析等。⑦ 納入研究:報告納入研究數量和納入診斷性試驗的患者或標本數量,如共納入 15 個研究,包括來自 3 640 位兒童的 4 768 份標本。⑧ 結果合成:報告數據合成結果時建議報告合并敏感度、特異度、陽性預測值、陰性預測值、SROC 曲線及其可信區間,以及相關的異質性檢驗結果。⑨ 優勢和局限性:提及本研究最重要的優點和局限性,如本研究發現 Xpert 能提高兒童肺結核的診斷能力,但 pert 陰性不能排除肺結核。⑩ 解釋:此部分為結論,如 Xpert 診斷結果需要慎重考慮;焦磷酸測序是藥敏檢測的有效輔助手段等。? 資金:如本研究資助來源于 WHO 的田納西兒童醫院全球結核評價項目。? 注冊:提供注冊編號和注冊地址,如系統評價常用注冊地址為 PROSPERO,該文的注冊號為 CRD42015027534。
2.3 原理
2.3.1 報告內容
報告系統評價研究內容相關已知原理。
2.3.2 舉例
示例一:焦磷酸測序技術是一種新型的依靠生物發光進行的實時 DNA 測序技術。近年來,眾多學者也將這項技術用于結核耐藥性檢測。異煙肼作為結核治療的主要一線藥物被廣泛研究,但對于焦磷酸測序技術進行快速診斷的敏感度和特異度,文獻報道結果不一[5]。示例三:胸腔積液中腺苷脫氨酶活性升高是診斷結核性胸膜炎的重要輔助指標,國內外相關研究中結核性胸膜炎多是通過病史、臨床表現、影像學和胸腔積液檢查或診斷性治療反應來診斷,缺乏病因學或組織病理學證據,而胸膜病理是診斷胸膜疾病的金標準;對照組多以惡性胸腔積液為對照,不符合試驗對照規范。已發表相關 ADA Meta 分析中納入中文文獻較少,缺少異質性分析。ADA 檢測尚無公認的標準檢測方法,檢測結果不一致性影響臨床診斷價值[10]。
2.3.3 解釋
該部分報告內容為該系統評價已知的相關背景知識。如示例一和示例三的前言部分均介紹了待評價診斷性試驗的應用原理及其在診斷臨床問題中所面臨挑戰,包括焦磷酸測序技術定義、異煙肼耐藥的背景知識、胸腔積液導致 ADA 升高,因此 ADA 可能可作為其診斷的靶標等。
2.3.4 待評價試驗的臨床重要作用
其報告內容包括:報告待評價試驗的科學背景和臨床應用背景,包括其用途和臨床診斷價值;如果適用,應報告待評價試驗的最低診斷價值的基本原理及其與對比 DTA 最低診斷效能差異的原理。該條目實質是補充介紹待評價 DTA 的診斷效能的相關問題,即其與當前其他 DTA 對比是否更有優勢、該診斷試驗自身最低診斷價值等臨床應用價值的問題。
2.4 目的
2.4.1 報告內容
明確報告系統評價所研究問題的情況,包括診斷人群、診斷試驗和診斷目標臨床情況等。
2.4.2 舉例
示例三:本研究分析近 10 年中、英文文獻,以胸腔鏡胸膜活檢病理、病原學診斷為金標準,對照組為非結核性胸腔積液,評價胸腔積液 ADA 對結核性胸腔積液的鑒別診斷價值,為 ADA 在結核性胸膜炎患者臨床應用提供科學依據[10]。示例一:本文采用 Meta 分析的方法匯總國內外運用此技術檢測結核分枝桿菌異煙肼耐藥的研究結果,以綜合定量評價焦磷酸測序技術快速診斷異煙肼耐藥的診斷價值[5]。
2.4.3 解釋
前言部分明確報告相關要素能幫助讀者清晰了解本研究的目的和重要性。
2.5 計劃書與注冊
2.5.1 報告內容
報告是否有系統評價計劃書,計劃書可否獲取及獲取途徑(如通過網址);若已注冊,應報告系統評價注冊信息(包括注冊號)。
2.5.2 舉例
本研究按照先前撰寫的計劃書實施(PROSPERO CRD42015027534),按照 PRISMA 指南進行[7]。
2.5.3 解釋
該例提及有計劃書,其計劃書在 PROSPERO 網站注冊,注冊號為 CRD42015027534。PROSPERO 網站注冊系統評價均需要提供計劃書,計劃書既可提交在 PROSPERO 網站,可公開發表在共享網絡或期刊,如 BMJ Open 和 Systematic Review等。
2.6 合適的標準
2.6.1 報告內容
明確報告制定的納入標準,包括研究內的特征(如參與者、適用場景、待評價試驗、參考試驗、目標場景和研究設計)和研究發表的特征(如考慮的年份、語言和發表情況),并給出理由。
2.6.2 舉例
示例一采用的納入標準包括:① 用焦磷酸測序技術進行結核耐藥基因的檢測;② 對耐異煙肼樣本耐藥基因進行檢測,包括檢測 katG、inhA 和 ahpC 等基因;③ 有對照藥敏,包括細菌學藥敏 (絕對濃度法、比例法和 BACTEC 960 藥敏檢測法)或有常規測序 (DNA 直接測序法、Sanger 直接測序法)結果;④ 文獻中均有明確數據可進行敏感度和特異度的計算;⑤ 檢測臨床分離株或臨床樣本都被納入[5]。
示例三的納入標準為:胸水 ADA 對結核性胸膜炎診斷性試驗的研究文獻;結核性胸腔積液診斷金標準方法:胸膜病理活檢發現肉芽腫性炎或干酪樣壞死,抗酸染色陽性,痰或胸水涂片、培養查到抗酸桿菌甚至結核菌,診斷性抗結核治療后全身癥狀緩解或胸水吸收、減少。所有患者均符合上述診斷標準。觀察指標有敏感度(SEN)、特異度(SPE),可提取四格表數據。排除標準為:非胸水 ADA 對結核性胸膜炎診斷性試驗的研究文獻,結核性胸腔積液診斷金標準方法無胸膜病理活檢發現肉芽腫性炎或干酪樣壞死,無法提取四格表數據等[10]。
2.6.3 解釋
此條目要求報告納入標準。納入標準包括:參與者、適用場景、待評價試驗、參考試驗、目標場景和研究設計等;還包括論文發表的特征標志,如發表時間,發表語種和是否發表等。該條目隱含了排除標準,需要注意的是納入標準與排除標準不是 A 與非 A 的關系。無法提取數據或無法獲取原文,不應作為排除標準。對于無法提取數據的文獻,應聯系作者獲取數據。示例一和示例三中按照待評價試驗、適用情況、參考試驗、目標場景和研究設計條目制定了納入標準,但示例一未報告相關排除標準。
2.7 信息來源
2.7.1 報告內容
描述所有檢索信息來源及末次檢索時間(包括檢索數據庫及其收錄年限,聯系原始文獻作者獲取更多研究信息)
2.7.2 舉例
示例一檢索的英文數據庫選用 PubMed、Web of Science、Elsevier,檢索詞采用“tuberculosis”、“Mycobacterium tuberculosis”、“pyrosequencing”;中文數據庫選用中國知識資源總庫、萬方數據資源系統和維普中國科技期刊 (全文庫)······檢索數據庫從收錄年份到 2012 年 3 月的所有文獻。采用網上檢索及手工檢索相結合的方法以避免漏查文獻,并對所檢索文獻中提供的參考文獻進行二次檢索[5]。
2.7.3 解釋
該條目應報告文獻檢索數據庫和末次檢索時間。若追溯灰色文獻,要報告追溯的方法。若有可能還應報告是否與相關研究者聯系并取得更多研究。
2.8 檢索
2.8.1 報告內容
提供所有電子數據庫和其他信息來源的完整檢索策略,包括檢索式所用限制,以保證檢索過程的可重復性。
2.8.2 舉例
示例一檢索的英文數據庫選用 PubMed、Web of Science、Elsevier;中文數據庫選用中國知識資源總庫、萬方數據資源系統和維普中國科技期刊(全文庫)[5]。
2.8.3 解釋
報告檢索的電子數據庫和其他來源的完整檢索策略,包括檢索限制,以保證檢索過程可被重復。文獻完整檢索策略可在線出版于論文補充材料中。另外,在 The Cochrane Library 可報告采用的所有檢索策略。
2.9 納入研究
2.9.1 報告內容
報告選擇研究過程(如篩選過程、納入標準,是否納入到系統評價及/或 Meta 分析中)。
2.9.2 舉例
示例四:由 2 位評價員按照納入與排除標準獨立篩選文獻、提取資料和評價納入研究的方法學質量。如遇分歧則討論解決或交由第三方協助裁定[11]。
2.9.3 解釋
本條目報告文獻納入的方法,包括篩選流程,如 2 名研究者獨立篩選和評價其是否納入,當意見不一致時,要報告不一致意見的解決方式,如討論或求助第三方共同決定等。
2.10 數據收集過程
2.10.1 報告內容
報告提取納入研究數據過程(如制定預提取表格、單人提取、重復提取等),報告從原作者處獲取和確認數據的情況
2.10.2 舉例
示例四:由 2 位研究者······按設計好的資料提取表提取資料,最后交叉核對提取情況,如遇分歧,通過討論協商解決[11]。示例二:2 位作者使用參考 Cochrane 系統評價修改的表格來獨立提取數據。通過聯系作者以獲取缺失數據、定義和區分兒童結核。所有數據由 2 位作者獨立采用 EXCEL 14.4.1 軟件匯總[6]。
2.10.3 解釋
報告數據收集過程(如預提取、單人提取、重復提取等)及從原作者處獲取和確認數據的情況。數據收集過程應由至少 2 個及以上作者獨立完成。對無法獲取數據的文獻,應聯系作者獲取相關數據。如遇到收集的數據不一致,要報告分歧解決方式和是否達成一致。
2.11 數據提取的定義
2.11.1 報告內容
報告實施過程所用定義:包括數據提取、區分目標疾病、待評價試驗、參考標準和其他特征(如研究設計、臨床場景)。
2.11.2 舉例
示例四:制定數據提取表提取資料,提取內容主要包括作者姓名、發表時間、研究國家、菌株數量、金標準、檢測方法、真陽性值、假陽性值、真陰性值和假陰性值[11]。
2.11.3 解釋
該條目要求報告所提取資料情況。提取資料可分為幾個層面:納入研究的基本特征(作者、發表年份、期刊等)、納入研究的研究對象(疾病情況、患者或標本的特征等)、待評價試驗和參考標準的特征、偏倚風險評價的基本特征、所關注的結局指標的特征。
2.12 偏倚風險和適用性
2.12.1 報告內容
描述評價納入研究偏倚風險的方法,偏倚風險評價方法針對待評價研究問題的適用性。
2.12.2 舉例
示例二:納入研究的方法學質量評價采用 QUADAS-2 進行[6]。示例三:2 位研究者采用 Cochrane 協作網提供的診斷性研究的質量評價工具 QUADAS 量表,對納入研究進行評價。按“是”、“否”、“不清楚”3 個判斷標準進行評價,納入文獻總體質量較好[10]。示例四:納入研究的方法學質量采用 Whiting 等制訂的 QUADAS 量表進行評價[11]。
2.12.3 解釋
對于診斷準確性試驗的系統評價/Meta 分析的質量評價工具,目前推薦采用 QUADAS-2 進行評價。應制定相應的評價表格,根據所提取數據逐條進行評價,并給出給分理由。
2.13 診斷準確性評價
2.13.1 報告內容
報告診斷準確性試驗評價指標(如敏感度和特異度)及其對應的診斷單位(如單個患者、單個病灶)。
2.13.2 舉例
示例四:對納入研究采用 ROC 曲線分析,計算合并敏感度、特異度和曲線下面積(AUC),所有結果均用 95%CI 表示;敏感度和特異度的 Meta 分析分別用于評價結核的檢出和利福平耐藥。
2.13.3 解釋
診斷準確性試驗的評價指標包括合并敏感度、特異度、陽性預測值和陰性預測值、曲線下面積等。評價要明確指出該合并效應量是基于個體還是標本或是病灶。
2.14 結果合成
2.14.1 報告內容
描述處理數據方法,合并研究結果和報告研究結果間的變異。包括但不限于:① 處理多種定義的目標疾病;② 處理試驗的多個陽性結果閾值;③ 處理試驗多個讀取結果;④ 處理試驗中間結果;⑤ 處理試驗的分組和比較結果;⑥ 處理試驗不同參考標準的結果。
2.14.2 舉例
示例三:采用 Stata 12.0 和 Meta-Disc 1.4 軟件進行統計分析。首先繪制 ROC 平面圖,觀察圖形是否呈“肩臂狀”,計算 Spearman 相關系數,以判斷是否存在閾值效應。當納入研究間不存在閾值效應時,進一步采用 χ2檢驗分析納入研究結果間的統計學異質性,并結合 I2 定量判斷異質性的大小。若 I2<50%,采用固定效應模型進行合并分析,反之則采用隨機效應模型進行合并分析。當存在明顯臨床異質性時,僅行定性描述。逐一剔除單個研究進行敏感性分析,以判斷研究結果的穩定性。運用 Deek 漏斗圖評價發表偏倚。檢驗水準均為α=0.05[10]。
示例四:采用 Meta-Disc 1.4 軟件進行異質性分析,包括閾值效應和非閾值效應引起的異質性。若存在閾值效應,則最佳的合并數據方法是擬合 SROC 曲線和計算 AUC,或應用其他統計量如 Q 指數;若異質性是由非閾值效應所致,則可嘗試采用隨機效應模型進行合并分析,反之則采用固定效應模型進行 Meta 分析,計算合并的 SEN、SPE、+LR、–LR 和 DOR,繪制 SROC 曲線,并計算 AUC[11]。
2.14.3 解釋
診斷準確性試驗要首先繪制 ROC 平面圖,觀察是否存在閾值效應,若不存在,才能進行數據合并。數據合并時,首先評價異質性來源,若存在異質性,采用隨機效應模型進行 Meta 分析;若不存在,采用固定效應模型進行 Meta 分析。要描述如何處理不同研究間疾病定義不同的問題,要描述如何評價不同研究間閾值不一致的問題;要評價不同分組和檢測之間差異的問題;要注意不同研究檢測儀器不同的問題;要注意處理不同研究的參考標準不一致的問題。該條目要求的內容比較詳細,對于診斷準確性試驗的 Meta 分析的判斷具有重要意義。
2.15 Meta 分析
如進行 Meta 分析,報告 Meta 分析的統計方法[11]。對于進行了 Meta 分析的研究,要詳細報告 Meta 分析的實施方法、統計軟件等(舉例見 2.14.2)。
2.16 其他分析
2.16.1 報告內容
報告其他分析過程(如敏感性分析或亞組分析、Meta 回歸分析);若實施其他分析,應報告哪些分析是預先計劃的。
2.16.2 舉例
示例一:敏感性分析:將結果差別較大的文獻排除后,重新進行 Meta 分析,所得結果與未排除前的結果進行比較,若敏感度、特異度的結果變化不大,說明納入文獻的穩定性好,結果較可信;反之,納入文獻的穩定性差,在解釋結果和完成結論時應慎重[5]。
2.16.3 解釋
常見其他分析方式包括敏感性分析、亞組分析和 Meta 回歸分析。敏感性分析主要用于探討個別或部分文獻的研究結果對 Meta 分析結果的影響,其主要通過逐一排除相關文獻、排除具有相同特征的文獻(如低質量文獻、小樣本或大樣本研究)來實現。亞組分析主要用于探討異質性來源、探討不同亞組之間的差異。診斷準確性試驗常見的亞組分類有:診斷儀器、診斷方法、診斷次數、患者年齡、患者種族等。Meta 回歸分析的作用主要是評價某些變量或診斷性試驗個體的特征對 Meta 分析合并后效應的影響。納入 Meta 回歸分析的協變量一般是診斷性試驗的基本特征,如診斷儀器、診斷方法、金標準、患者性別、年齡、種族、研究樣本量等。進行 Meta 回歸分析時,應該確保有足夠的研究個數納入回歸分析。此外,還要明確指出這些分析是否與先前的計劃書一致或是否進行過調整。
2.17 納入研究
2.17.1 報告內容
報告篩選文章數量、篩選文章理由、報告系統評價(或 Meta 分析)逐步排除文章理由,最好使用流程圖展示過程。
2.17.2 舉例
示例一:通過 6 個數據庫的檢索,共檢索出文獻 114 篇,排除重復文獻 54 篇和介紹焦磷酸測序檢測方法及未檢測結核耐藥基因的文獻 41 篇,剩下 19 篇文獻是應用焦磷酸測序技術檢測結核耐藥基因,檢測異煙肼耐藥基因的有 9 篇,其中檢測 katG 基因的有 8 篇 (英文文獻 6 篇,中文文獻 2 篇)[5]。示例四:初檢出相關文獻 257 篇,經逐層篩選后,最終納入 10 個研究,包括 659 例標本。文獻篩選流程及結果見原文圖 1[11]。
2.17.3 解釋
本部分報告可分為:文獻檢索數量、文獻篩選過程和流程圖。① 文獻檢索數量,要詳細報告檢索數據庫的文獻數量、通過追溯文獻獲得的文獻數量。② 文獻篩選過程遵循剔重、閱讀摘要和標題、閱讀全文、提取數據、納入定性分析和納入定量分析的流程。剔除文獻時要記錄剔除的原因和剔除文獻的數量。③ 繪制流程圖時建議參考 PRISMA 流程圖進行。流程圖中應該詳細報告剔除文獻的數量和剔除原因。
2.18 研究特征
2.18.1 報告內容
報告納入研究的參考文獻和最重要特征,包括:受試者特征(臨床表現、先前診斷情況)、臨床場景、研究設計、目標臨床情況的定義、待評價試驗、參考標準、樣本量和資金來源。
2.18.2 舉例
示例一:9 篇研究中有 8 篇研究檢測 katG 基因,檢測標本總數為 1 116 份,其中耐藥標本 637 份,敏感標本 479 份;3 篇研究檢測 inhA 基因,檢測標本 572 份,其中耐藥 345 份,敏感 227 份;檢測 ahpC 基因只有 1 篇研究,檢測總標本 171 份,其中耐藥 45 份,敏感 126 份。只有 2 篇文獻檢測標本既有臨床分離株,又有臨床標本,其余文獻均只采用臨床分離株進行耐藥檢測。所納入文獻均未采用盲法。納入文獻的質量均較高。納入研究的基本情況見示例一原文表 1[5]。
2.18.3 解釋
納入研究基本特征應該參考 PICOS 標準進行。包括:① 待診斷患者的特征,如是肺結核病疑似患者還是腎結核患者、患者的年齡、性別比等;② 臨床場景:肺結核、腎結核、腦結核的診斷等;③ 研究設計一般應為診斷性試驗、病例-對照研究等;④ 目標臨床情況定義,如待診斷的患者情況。待評價試驗要詳細報告其診斷試驗、診斷方法和診斷儀器等;參考標準是指納入研究金標準,若不同研究的金標準不一致,要明確說明金標準的診斷閾值和價值。資金來源要報告納入研究的資助情況,以便客觀公正評價該納入研究可能存在的問題。如,該研究的資金來源于試劑廠商,資金的提供者是否參與了研究的設計、分析和出版。
2.19 偏倚風險結果和適用性
2.19.1 報告內容
報告納入研究的偏倚風險評價結果及判斷的理由。
2.19.2 舉例
示例一:納入研究的偏倚風險評價結果見示例一原文的表 2[5]。
2.19.3 解釋
應該詳細羅列納入研究的偏倚風險評價結果。由于 QUADAS-2 的評價結果以“是”、“否”和”不清楚”來評價和判斷,多數學者采用 0 分和 1 分來分別評價其結果,也有僅報告 QUADAS-2 匯總評分。建議詳細報告每一條目的評價結果和評分理由。
2.20 單個研究結果
2.20.1 報告內容
報告統計分析中的每個研究結果(如待評價試驗、參考標準和陽性閾值的獨特組合),四格表數據(真陽性、假陽性、真陰性、假陰性)及統計的診斷準確性和可信區間的估計值,最好報告森林圖或 ROC 曲線結果。
2.20.2 舉例
示例四:以表格和森林圖的形式顯示了研究結果[11]。
2.20.3 解釋
本條目要求報告統計分析中的單個研究結果(真陽性、假陽性、真陰性、假陰性)和診斷準確性試驗的結果及其 95%CI。通常情況下,單個研究的結果會羅列在納入研究的基本特征中,而其診斷準確性結果會在數據合并時候顯示。應該通過森林圖展示診斷準確性試驗的結果。
2.21 結果的合并
2.21.1 報告內容
報告試驗的準確性,包括變異;如完成了 Meta 分析,報告 Meta 分析結果及可信區間。
2.21.2 舉例
示例三:24 個研究中,Meta-Disc1.4 軟件輸出的 ROC 面散點圖呈不典型“肩臂狀”,Spearman 相關系數=–0.209,P=0.338,提示 Sen 與 1-Spe 呈陰性相關,不存在閾值效應。異質性檢驗結果顯示 P=0.000,I2>70%,不同研究間異質性較高,采用隨機效應模型進行 Meta 分析,結果顯示 Sen合并=0.876,95%CI(0.859,0.892);SPE合并=0.899,95%CI(0.885,0.912);+LR=8.139,95%CI(6.644,10.327);–LR=0.172,95%CI(0.133,0.222);DOR=72.299,95%CI(44.771,116.75);AUC=0.9535。見原文圖 1~3[10]。
2.21.3 解釋
詳細報告合并數據(敏感性、特異性、陽性預測值、陰性預測值、診斷比值比和曲線下面積)的結果,所有報告結果除應報告 95%CI 外,還應該報告異質性檢驗的結果。
2.22 其他分析
2.22.1 報告內容
若有,報告其他分析的結果(如敏感性分析或亞組分析、Meta 回歸;分析待評價試驗,失敗率分析、不確定診斷結果比例分析和副作用分析)。
2.22.2 舉例
示例四:…分別剔除樣本量<100 的研究、中文研究及 QUADAS 評分>10 分的研究,然后行敏感性分析。結果顯示,剔除文獻后各診斷結果穩定,提示結論較為可靠[11]。示例三:…分別對納入的來自中國的 14 篇研究和來自其他國家的 9 篇研究進行亞組分析...結果顯示敏感性、特異性無明顯改變[10]。
2.22.3 解釋
本部分報告主要報告敏感性分析、亞組分析或回歸分析的結果。應該詳細報告進行各種分析后診斷性試驗的準確性的變化情況。
2.23 總結證據
2.23.1 報告內容
總結主要發現及證據強度。
2.23.2 舉例
示例一:…研究結果同時顯示,以細菌學檢測為金標準,焦磷酸測序技術檢測結核分枝桿菌異煙肼 katG 基因的特異度為 100%,合并 DOR 及 95%CI 為 212.37(76.77,587.49),SROC 曲線綜合分析顯示 AUC=0.9882,陽性似然比及 95%CI 為 62.04(22.98,167.50),檢測結核分枝桿菌異煙肼耐藥 inhA 基因的特異度為 1.00(0.98,1.00),這些結果都提示焦磷酸測序技術檢測異煙肼耐藥具有很高的特異性,可以作為異煙肼耐藥的初篩工具[5]。示例三:…本研究納入 23 個研究,納入研究對象 3312 例。Meta 分析結果表明,胸水 ADA 檢測診斷結核性胸腔積液 SEN 87.6%、SPE 89.9%,表明其漏診率 (12.4%)、誤診率(10.1%),匯總 DOR 為 72.3,ROC 下面積 AUC 為 0.953 5,表明其診斷效能較高[10]。
2.23.3 解釋
本條目對討論的主體部分進行了解釋,但該條目過于籠統,我們認為不利于作者開展相關研究。診斷性實驗討論主體部分,我們認為應該按照以下情況來討論。首先概括介紹本研究的結論,其次針對診斷準確性試驗的準確性進行討論(從納入研究層面、本研究結果與其他研究結果比較層面、以及本研究結果對未來研究啟事層面),還要討論實施本系統評價過程中的相關問題,如不同研究的診斷標準不一致的問題,異質性過大的問題,其他分析(敏感性、亞組分析或 Meta 回歸)層面重要發現。
2.24 局限性
2.24.1 報告內容
討論納入研究局限性(從偏倚風險和適用性角度分析)及開展系統評價過程中的局限性(如納入研究可能檢索不全)。
2.24.2 舉例
示例四:…本研究上存在以下局限性:① 雖通過各種途徑、盡可能全面收集有關研究文獻,由 2 位評價者獨立按預先制定的納入、排除標準篩選文獻并對最終納入的文獻數據進行提取,但仍可能存在一定程度的選擇性偏倚;② 多數納入研究未對研究對象的質量控制進行詳細描述和說明;③ 納入研究中大部分使用的是臨床分離株,應更多采用臨床標本直接進行檢測,更具有臨床實用價值;④ 納入研究中僅有 2 個研究提及盲法,可能會導致結果產生測量偏倚[11]。
2.24.3 解釋
同干預性試驗的 Meta 分析報告規則一樣,診斷性試驗的 Meta 分析的局限性同樣來自三個層面:納入研究層面的局限性、納入研究相互層面的局限性和研究者實施系統評價層面的局限性。納入研究層面的局限性如部分納入研究無法提取數據,部分研究的患者/樣本的例數報告不清楚,且聯系作者也無法獲取數據,只能通過軟件估算,均可能會影響研究結果。納入研究相互層面的局限性包括納入研究之間的異質性太大,部分研究納入研究之間的性別比差異過大,年齡差異過大等。實施系統評價層面的局限性主要包括:無法檢索不同語種的文獻,無法獲取部分研究全文,由于條件限制僅檢索了主要的電子數據庫但未檢索專業相關的數據庫等問題。
2.25 結論
2.25.1 報告內容
結合其他證據總結本研究結果。討論其對未來研究和臨床實踐的啟示(如待評價試驗的潛在用途及在臨床實踐中的重要作用)。
2.25.2 舉例
示例一:焦磷酸測序技術通過檢測 katG 基因突變檢測異煙肼耐藥具有較高的特異度,在異煙肼耐藥初篩時具有很高的臨床價值。通過增加檢測耐藥基因的數目,可進一步提高檢測的敏感度,是結核分枝桿菌快速藥敏檢測的有效輔助手段[5]。示例三:本系統評價結果顯示胸水 ADA 檢測對結核性胸腔積液的診斷有明確價值,可作為輔助診斷結核性胸腔積液的重要生化指標,是科學合理的 ADA 臨界值方法,對胸水 ADA 對結核性胸腔積液的鑒別診斷具有重要意義[10]。
2.25.3 解釋
診斷性準確性試驗的結果要審慎。應該綜合本研究結果及其他研究結果進行合理闡述,還要對其在臨床實踐的中價值和內容進行展望。如 ADA 輔助診斷胸腔結核性胸腔積液,其臨界值大小是將來研究需要關注的問題。
2.26 資金
2.26.1 報告內容
報告系統評價的資助資金來源或其他支持,并描述資助者在本研究中扮演的角色。
2.26.2 舉例
示例一:國家十二五重大專項資助項目,上海市科委項目資助項目 (10411955100、llZRl430200)[5]。示例二:本文獲得了來自 WHO 的基金支持...,經費資助者來源的作用:基金資助者對研究設計、數據收集、統計分析、結果解釋和寫作論文均無作用[6]。
2.26.3 解釋
本條目要求報告基金支持的單位、項目號碼及資助者在研究中扮演的角色。尤其對于作者曾經接受過該診斷方法/儀器/設備所在公司支持的。應該不明確說明這些經費支持是否會影響本研究的設計。
3 討論
PRISMA-DTA 對提高診斷準確性試驗報告完整性和透明度具有重要意義。本文對其進行解讀,以期為國內 DTA 的系統評價/Meta 分析研究者了解 PRISMA-DTA,提高 DTA 的系統評價/Meta 分析質量提供參考。我們呼吁相關期刊將 PRISMA-DTA 引入稿約,加強對作者、讀者、編者和審者的宣傳和培訓,進一步提高 DTA 的系統評價/Meta 分析報告質量。國內期刊雖然多有版面限制,但是目前尚無研究證實遵循報告規范會導致期刊的版面數增加。另外,隨著數字化增強出版技術的發展,其可及性更好,能確保完整報告規范更易實現,例如將完整報告以附件形式出版,或通過機構知識庫、在線網盤、共享數據庫等更多細節。
PRISMA-DTA 的部分條目,其原版解釋仍有不明之處:① 納入研究的局限性方面,我們建議系統評價的局限性應該圍繞納入研究、納入研究之間和研究者實施三個層面來討論。本版 PRISMA-DTA 對討論部分要求得過于簡單,我們建議作者討論應該更加充分。② 我們認為,將條目 20 和條目 21 分開不合理。當前,多數診斷性試驗的系統評價/Meta 分析均報告了 Meta 分析值,且單個研究的 Meta 分析值幾乎都包含在森林圖中,因此,分為兩條,反而不利于闡述和討論。③ 條目 6 闡述不夠準確,明確為納入與排除標準具有更好的操作性,即文章的納入標準是什么,排除標準是什么,以方便讀者和作者理解。④ 對于 DTA 準確性的指標而言,PRISMA-DTA 僅提及診斷敏感性、特異性,而我們認為陽性預測值、陰性預測值、曲線下面積、診斷比值比這些 DTA 基本特征也應該明確要求報告。
在應用 PRISMA-DTA 時,作者、讀者、編者和審者應注意醫學報告規范是該類研究報告的最低標準,而不是最高標準。在報告時,應超越 PRISMA-DTA 的要求將相關問題報告清楚。此外,還要避免誤用和濫用。PRISMA-DTA 是報告規范,其僅可被用于評價 DTA 的系統評價/Meta 分析的報告質量,而不能用于評價 DTA 的系統評價/Meta 分析的方法學質量。DTA 的系統評價/Meta 分析的方法學質量,目前推薦使用最近發表的 AMSTAR 2[12]。此外,PRISMA-DTA 更不能用于評價原始研究 DTA 的方法學質量和報告質量。
總之,PRISMA-DTA 是針對 DTA 的系統評價/Meta 分析的重要報告規范,我們呼吁相關期刊將其引入稿約,從出口把關,以提升國內 DTA 的系統評價/Meta 分析的報告質量。