隨機或非隨機防治性研究系統評價的質量評價工具 AMSTAR 2 是用于評價隨機及非隨機防治性研究系統評價的質量工具,其全文近期發表于 BMJ 雜志。本文對 AMSTAR 2 進行介紹和解讀,以期為生產和研究系統評價的相關人員提供參考。
引用本文: 陶歡, 楊樂天, 平安, 全柳柳, 楊鑫, 張永剛, 康德英, 李靜, 杜亮, 孫鑫, 陳進. 隨機或非隨機防治性研究系統評價的質量評價工具 AMSTAR 2 解讀. 中國循證醫學雜志, 2018, 18(1): 101-108. doi: 10.7507/1672-2531.201711005 復制
隨機對照試驗(randomized controlled trial,RCT)是評價干預性研究效果的最佳設計方案之一,雖然 RCT 論文發表逐年增加,但受倫理和資源等條件限制,推廣和應用有限。非隨機干預研究(non-randomized studies of interventions,NRSI)作為隨機對照試驗的補充,也常用于干預性研究的效果評價。系統評價是針對某一具體問題,系統、全面收集已發表或未發表的相關研究,采用嚴格評價文獻的原則和方法,篩選出符合質量標準的文獻,進行定性或定量合成,得出最佳的綜合結論。針對某一具體的研究問題,系統評價不僅可納入 RCT,還可納入非隨機干預研究。系統評價結果的可靠性與制作系統評價的全過程密切相關,提高系統評價制作質量有助于提高干預性系統評價結果的轉化能力。
目前已有的系統評價報告規范包括 MOOSE(meta-analysis of observational studies in epidemiology)[1]、PRISMA(preferred reporting items for systematic reviews and meta-analyses)[2],其對提高系統評價撰寫和報告質量具有一定幫助。2007 年發表的 AMSTAR(assessment of multiple systematic reviews,AMSTAR)[3],是實用性較好的評估系統評價質量的工具,其首次發表后也收到眾多評論和反饋,AMSTAR 工作組對 AMSTAR 進行了重新修訂,于 2017 年 9 月正式發表了第二版 AMSTAR 2[4]。本文對其進行介紹和解讀。
1 AMSTAR 2 簡介
AMSTAR 2 共包括 16 個條目,涉及系統評價的選題、設計、注冊、數據提取、數據統計分析和討論等全過程。主要包括研究問題、納入標準的 PICO 要素、系統評價計劃書、納入的研究設計類型、文獻檢索策略、文獻篩選、數據提取、排除文獻的具體細節、納入研究的偏倚風險評估、統計分析是否合理、結果解釋是否準確及資金支持和利益沖突幾個方面。條目評價要點和評價結果見表 1。

2 AMSTAR 2 評價工具條目解讀
AMSTAR 2 共包括 16 個條目,其保留了原版 AMSTAR 的 10 個條目,并對文字進行了適當修訂。所有條目均參考了 Cochrane 協作網推薦的隨機和非隨機干預研究的偏倚風險評估工具。對于原版 AMSTAR 條目 2“是否實施了雙盲的研究選擇和數據提取”,新版將其分為了 2 個條目(條目 5 和 6)分別評價。與原版中的利益沖突和資金支持評價條目 11 相比,新版將系統評價的作者是否接受了相關的資金支持與系統評價納入研究是否接受資金來源進行分別評價,并在條目 16 中對利益沖突的評價進行了文字調整。此外,相比原版中關于灰色文獻的條目 4,灰色文獻及檢索限制目前放置到新版的文獻檢索策略中內進行綜合評價。新版總共增加了 4 個條目,其中兩個直接來自 2016 年發表的 ROBINS-I(risk of bias in non-randomised studies-of interventions)[5]評價工具,即 PICO 的描述和證據合成中偏倚風險處理的方式。另一個新條目,即討論結果間異質性的來源和原因,是對原條目的重新描述,還有一個新條目是關于對納入研究類型的解釋。關于原版 AMSTAR 與新版 AMSTAR 2 中的條目差異性對比詳見表 2。

對于 AMSTAR 2 的評價條目框,新版條目刪除了原版中的“不適用”和“不能回答”評價框。若該條目回答正確且依據充分,此項判斷為“是”;若該條目回答正確但依據不充分,此項判斷為“部分是”;若該條目無相關評價內容或評價不當,此項判斷為“否”。本文將以“腹腔鏡與開腹手術治療早期宮頸癌療效與安全性”一文為例對 AMSTAR 2 的各個條目進行解讀[6]。
2.1 條目 1,研究問題和納入標準是否包括 PICO 各要素?
為讓讀者明確的判斷系統評價的適用性,系統評價作者應該描述 PICO 要素(P:研究對象;I:干預措施;C:對照措施;O:結局指標)。根據獲取結局指標的時限,作者需要對隨訪時間進行選擇性描述。
例如,在“腹腔鏡與開腹手術治療早期宮頸癌療效與安全性”系統評價中,研究問題與納入標準的 PICO 要素如下表 3,如問題中 4 個要素均能詳細描述,此問題的回答為“是”。

2.2 條目 2,是否報告系統評價研究方法在實施前就已確定,是否報告與計劃書有不一致的情況?
為減少系統評價制作過程中的偏倚風險,系統評價研究者應該在開展研究之前確定系統評價的研究計劃,研究計劃應該細化以下內容:研究問題、檢索式、納入/排除標準和偏倚風險評價等。同時,為保證研究透明化,作者還應該將研究計劃在二次研究的注冊平臺(如國際注冊平臺 PROSPERO)上進行注冊,或在一本公開刊物(如 BMJ Open、BMC)上發表或通過研究機構以書面的形式公布。此外,在撰寫系統評價文章時,作者應該詳細描述系統評價實施過程中與事前確定的研究計劃不一致的情況。
例如,該系統評價詳細描述了研究問題、納入/排除標準、檢索式、數據提取、偏倚風險評價方法、統計方法,但文中并未描述是否提前撰寫計劃書、計劃書是否提前注冊或將研究計劃提前發表在雜志上或在文章發表時將其作為補充材料提供給讀者,導致讀者不能了解研究計劃在具體實施過程中被遵循的情況,故此項回答應為“否”。
2.3 條目 3,作者是否解釋了選擇系統評價納入研究設計類型的原因?
相比原版,此條目為新版 AMSTAR 2 中新增。在評估某一干預措施的療效時,系統評價可納入 RCT 干預研究或非隨機干預研究。但是,當 RCT 數量較少、RCT 中的結局指標缺失、統計效果不足、研究對象不符、對照/干預措施不符合時,非隨機干預研究的系統評價能起到補充作用,我們會考慮納入非隨機干預研究進行療效評估。在制作系統評價時,作者應該詳細描述納入研究的設計類型并予以合理的解釋。
例如,該系統評價是評估腹腔鏡與開腹手術治療早期宮頸癌療效與安全性的 Meta 分析,詳細描述了研究的納入類型,包括 RCT、非隨機干預研究和隊列研究。但本文并未對為何納入此類研究類型進行解釋,因此,該項回答為“否”。實際而言,相比藥物干預,開展手術干預效果評估的隨機對照試驗比較困難,例如研究設計、手術標化、外科醫生之間手術技能的差異等,故非隨機干預研究是評估該項手術干預措施效果的主要方式,但該研究并未就此進行闡述。
2.4 條目 4,作者是否使用全面的文獻檢索策略?
在制作系統評價時,作者應該檢索出與研究問題相關的所有語種的文獻。對于檢索的語言、時間等限制,作者應予以合理解釋。對于不同研究問題的系統評價,作者需要檢索的數據庫或電子資源不同,作者應至少檢索 2 個與研究問題相關的數據庫(如 PubMed、EMbase),并提供所用檢索的關鍵詞、Mesh 主題詞和檢索策略。為保證查全率,作者還應該開展補充檢索,如注冊平臺、專家補充、手工檢索所獲研究的參考文獻。灰色文獻的檢索是非常重要的,尤其是有關政策和項目評估報告顯得尤其重要,這些灰色文獻主要包括注冊平臺、會議摘要、論文、未發表的報告、未經過同行評議的研究等,它們主要通過政府、非政府、衛生技術機構的網站或聯系研究者獲得。此外,作者有時需要聯系原始研究作者獲得結果和數據。
例如,該系統評價檢索了 PubMed、EMbase、Web of Science、CBM、WanFang Data 和 CNKI 數據庫,檢索時限均為從建庫至 2014 年 7 月,描述了中、英文檢索詞和 PubMed 的具體檢索策略。但并沒有描述手工檢索、灰色文獻檢索、注冊平臺檢索及是否在 24 個月內完成系統評價等信息,故此項回答為“部分是”。
2.5 條目 5,是否由兩人獨立完成文獻篩選?
在原版 AMSTAR 中條目 2“是否實施了雙盲的研究選擇和數據提取”,新版將其分為了 2 個條目(條目 5 和 6)分別評價。系統評價文獻篩選最好由 2 位研究者單獨“背對背”根據納入標準來完成,對于文獻篩選中不一致的意見,則通過討論解決,必要時需要咨詢第三方協助判斷。如果文獻篩選由 1 位研究者單獨完成,另 1 位研究者以抽樣形式檢測納入研究的一致性,如一致性評價的 Kappa 值≥0.80 則說明一致性很好。
例如,該系統評價由 2 位研究者獨立完成篩選文獻,并交叉核對,分歧則通過咨詢第三方協助判斷,此項回答為“是”。
2.6 條目 6,是否由兩人獨立完成數據提取?
系統評價的數據提取過程應由至少 2 名研究者進行,如有爭議討論解決,必要時需要咨詢第三方協助判斷。如由 1 位研究者單獨完成數據提取,另一位研究者則以抽樣的形式檢查、核對提取的數據,如一致性評價的 Kappa 值≥0.80 則說明一致性很好。
例如,該系統評價的篩選是由 2 位系統評價員獨立提取數據,并交叉核對,如遇分歧,則咨詢第三方協助判斷,此項回答為“是”。
2.7 條目 7,是否提供了排除文獻的清單及排除理由?
為減少選擇性偏倚,系統評價作者應首先通過閱讀文獻的題目和摘要,將系統評價的研究問題的 PICO 與納入文獻的 PICO 進行匹配。在文獻初篩過程中,作者不應以結局指標和偏倚風險為依據排除任何一個研究。在全文閱讀復篩階段,作者根據 PICO 原則最終確定納入研究。在系統評價文章撰寫過程中,作者應以參考文獻或表格的形式詳細展示在閱讀全文階段中被排除的每一個研究及其排除理由。
例如,該系統評價描述初始文獻檢索量、納入研究,并以流程圖形式展示了文獻的篩選流程,但是僅描述進入全文篩選后排除研究的匯總性理由,沒有給出具體每個排除研究的清單和排除理由,此項回答為“否”。
2.8 條目 8,作者是否足夠詳細地描述了納入研究的基本特征?
系統評價作者應對納入研究的基本特征進行詳細描述,包括研究對象、研究設計、干預/對照措施(劑量)、隨訪時間、分析方法和結局指標等。這些信息不僅可讓讀者了解納入研究是否與研究問題相匹配,及系統評價的研究對象和干預措施是否與他們自己的臨床實踐或政策相關,也可幫助作者分析異質性來源。此外,研究者可根據年齡、劑量、樣本量等因素進行亞組分析或敏感性分析等。
例如,該系統評價中,作者對納入研究的例數、年齡、體重指數、早期宮頸癌分期、干預措施、結局指標和隨訪時間等進行了詳細的描述。此項回答為“是”。
2.9 條目 9,作者是否使用合理工具評估納入研究文獻的偏倚風險?
系統評價的作者應采用合理工具對納入研究進行偏倚風險的評估,最好采用正規、已開發的評價工具。對于系統評價,特別是納入了非隨機干預性研究的系統評價,評價者是否采用合理的偏倚評價方法來評估納入研究的偏倚風險顯得十分重要。目前專門的偏倚風險評價工具比較少,對于只納入 RCT 干預研究的系統評價,我們推薦依照 Cochrane 手冊的偏倚風險條目對納入的單個 RCT 進行偏倚風險評價;對納入非隨機干預研究的偏倚風險評估,我們推薦使用 2016 年發表的 Cochrane 協作網推薦的 ROBINS-I 工具[5]。系統評價作者應該選擇合適的評價工具評價 RCT 干預研究中潛在的偏倚風險,包括未隱藏的分配、非真正隨機分配、非雙盲的結局測量(患者和測評者)、對結局的選擇性報告。對于納入系統評價中非隨機干預研究的潛在偏倚風險評估,作者應選擇合適的評價工具對可能存在的混雜因素所致的偏倚、選擇性偏倚、暴露和結局的測量偏倚、選擇性報告偏倚進行評估。
此外,我們推薦診斷性試驗質量評價使用 Cochrane 協作網推薦的 QUADAS-2(quality assessment of diagnostic accuracy studies-2),對于觀察性研究中的隊列研究和病例-對照研究,我們推薦使用紐克斯爾-渥太華量表(Newcastle Ottawa Scale,NOS)偏倚風險評估工具[7]。其他評價工具可能納入了與內部真實性不直接相關的標準[8]。
例如,該系統評價中,不僅納入了 RCT 研究,同時也納入了非隨機干預研究和隊列研究。文中作者采用 Cochrane 手冊 5.1.0 版對 RCT 進行了隨機方法、分配隱藏、盲法、結果數據的完整性、選擇性報告、研究結果、其他偏倚的偏倚風險評價,則此項回答為“是”。采用 MINORS 量表對非隨機干預研究進行方法學評價,但是并沒有評價混雜偏倚、選擇性偏倚、暴露和結局的測量方法等偏倚風險,此項回答為“否”。作者采用 NOS 量表對納入隊列研究中的研究人群的選擇偏倚、結果的測量偏倚進行了評估,但是并沒有評估混雜因素、暴露的測量所致的偏倚,此項回答為“部分是”。
2.10 條目 10,作者是否報告了該系統評價中納入研究的資金來源?
與原版 AMSTAR 中的資金支持評價條目相比,新版將系統評價作者是否接受了相關的資金支持與系統評價納入研究是否接受資金支持分別評價。
納入研究資金來源信息是十分重要的,作者應在文中描述資金來源、贊助者在研究中扮演角色,例如是否參與研究的設計、實施、數據分析和文章撰寫等。讀者可根據這些信息判斷資金贊助情況是否會對系統評價產生偏倚。因此,系統評價作者應該查找、關注、或描述納入研究的資金贊助情況。
例如,該系統評價并未對資金來源進行信息描述,也為提示作者查找或關注了這些信息,此項回答為“否”。
2.11 條目 11,如進行了 Meta 分析,作者是否使用適當的統計方法進行結果合并分析?
如果 Meta 分析可行,系統評價作者應該選擇合適的效應量(OR、RR、Peto-OR 等)和統計分析模型(隨機或固定效應模型),并對存在的異質性進行校正和異質性原因分析。一般來說,對于不同研究設計類型的系統評價,在進行 Meta 分析時,研究者應針對不同設計類型分別進行數據合成分析,不宜將不同設計類型研究一起進行數據合成。因此,當系統評價作者同時納入 RCT 干預研究和非隨機干預研究時,作者應以亞組分析的形式單獨觀察兩種研究類型的效應量。此外,非隨機干預研究會有很多偏倚,這些偏倚會影響系統評價的研究結果,偏倚來源主要包括研究對象、數據的完整性、數據管理方法和數據分析等。在數據分析階段,作者需要對存在混雜因素的結果數據進行校正,因此,作者需要謹慎解釋研究的結論。
例如,此系統評價在統計學部分描述了計量、計數資料效應指標,采用 χ2檢驗進行異質性分析。納入的 RCT、非隨機干預研究和隊列研究中,針對不同的結局指標采用隨機效應模型或固定效應模型處理異質性,但是均沒有分析異質性的原因或混雜因素的校正,此項回答均為“否”。
2.12 條目 12,如進行了 Meta 分析,作者是否考慮了納入研究的偏倚風險對 Meta 分析或其他證據整合的潛在影響?
在系統評價中,作者只納入低偏倚的 RCT 干預研究,那么偏倚存在的可能性比較小。當納入不同偏倚風險的 RCT 干預研究和非隨機干預研究時,系統評價作者應通過亞組分析、回歸分析、敏感性分析來調查偏倚風險對總的合并效應量的影響。即使沒有進行數據合并,系統評價作者也應該詳細描述偏倚的情況,并給出自己的見解。
例如,在該系統評價中,研究者分別對結局指標按照 RCT、非隨機研究、隊列研究進行亞組分析,但并沒有評估單個研究的偏倚風險對 Meta 分析或其他證據綜合潛在影響。此項回答為“否”。
2.13 條目 13,在解釋/討論系統評價結果時,作者是否考慮了納入研究的偏倚風險?
即使沒有進行 Meta 分析,系統評價作者也應討論偏倚風險對結果的影響,尤其是納入不同偏倚風險的 RCT 干預研究及非隨機干預研究。當作出對臨床護理或政策可能產生影響的建議時,系統評價作者應充分考慮納入研究的偏倚風險對結果的影響。
例如,該系統評價中,作者在結果分析時根據不同的設計類型進行亞組分析,僅在研究局限中提到選擇性偏倚,但并沒有針對不同研究設計的偏倚風險及同一研究設計類型偏倚風險的大小進行解釋和討論。此項回答為“否”。
2.14 條目 14,作者對系統評價結果中異質性是否給予滿意的解釋或討論?
相比 RCT 干預研究,非隨機干預研究有許多潛在的異質性,主要包括研究設計類型、分析方法、人群、干預措施強度等,因此作者應調查異質性的來源,并在結果和討論中討論了其對研究結果的影響研究。對兩個層面的異質性進行解釋和討論:① 單個納入研究的異質性來源,包括人種、性別、年齡等;② 整個系統評價層面,對不同的偏倚風險(低偏倚、中偏倚、高偏倚)進行亞組分析或回歸分析等。
該系統評價中,效應量合并時是有異質性存在的,有異質性存在的研究采用隨機效應模型合成效應量,但是本系統評價的作者并沒有調查異質性的來源、對存在的異質性進行充分的解釋或討論,此項回答為“否”。
2.15 條目 15,如果進行定量合成,作者是否充分評價了發表偏倚,并討論了其對研究結果的可能影響?
發表偏倚的檢測主要是統計學檢驗或漏斗圖,陽性結果則表示存在發表偏倚,但陰性結果并不能保證沒有發表偏倚。如果在前期文獻檢索時,系統評價作者能夠充分檢索與研究問題相關的數據庫、臨床試驗注冊平臺和會議平臺等,補充檢索和灰色文獻的查找也比較全面,則發表偏倚的可能性較小。如果文獻檢索不夠全面,即使統計學檢驗陰性或漏斗圖結果顯示平衡,發表偏倚仍然是存在的。因此,系統評價作者不僅應采用圖形或統計學檢驗發表偏倚,也應結合前期文獻檢索的全面性綜合判斷發表偏倚存在的可能性,并在結果或討論中解釋發表偏倚的可能性和對結果的影響。
該系統評價中,作者并沒有對發表偏倚的情況進行描述,也沒有結合前期文獻檢索的情況對可能存在的發表偏倚進行綜合判斷。此次回答為“否”。
2.16 條目 16,作者是否報告了任何潛在的利益沖突,包括開展系統評價所接受的任何資助?
對于原版條目 11 關于利益沖突的評價,新版條目 16 進行了文字調整。系統評價作者應該詳細描述資金贊助情況、贊助方在研究中扮演的角色(是否參與研究的設計、實施、數據分析、文章撰寫等)、如何處理潛在的利益沖突關系,同行評議專家和讀者可根據這些信息能夠判斷是否有偏倚存在。
該系統評價中,作者報告了資金來源(國家自然科學基金項目、重大疾病醫學重點實驗室開放課題項目),但是并沒有描述贊助方在研究中扮演的角色,也未描述可能潛在的利益沖突。此次回答為“否”。
3 小結
本文選擇了 2016 年發表的一篇系統評價,使用新版的 AMSTAR 2 評價工具對其進行質量評價,發現在以下幾個方面存在較高的偏倚風險:系統評價方法是否事先確定、解釋納入研究設計類型的合理性、排除文獻的清單和排除理由、納入研究的資金支持、調查異質性來源、每個納入研究的偏倚風險對結果的影響、在結果中解釋異質性、發表偏倚及利益沖突聲明等。我們建議系統評價制作者應事先制定系統評價計劃書,并將計劃書進行注冊或以文章的形式發表,或通過倫理委員會或單位機構以書面的形式公布。此外,系統評價制作者應該根據事先制定的計劃書,嚴格控制實施過程中的偏倚風險;建議作者在制作系統評價之前,認真學習 AMSTAR 2 質量評價工具。
相比 RCT 干預研究,非隨機干預研究是臨床干預措施真實效果的主要評價方式,非隨機干預研究或觀察性研究的研究數量將不斷的增加,研究者應該學會如何正確評價、整合相關的研究證據,更應該正確認識相關系統評價的研究意義。為此,本文將 AMSTAR 2 介紹給國內學者,旨在促進和指導國內系統評價制作者如何更規范化制作隨機或非隨機干預研究的系統評價。同時建議國內雜志能夠盡快的將 AMSTAR 2 引入稿約,要求和督促系統評價制作者參考 AMSTAR 2 撰寫研究計劃、實施研究計劃、報告結果與討論等,這將對改善隨機或非隨機干預研究的系統評價的研究質量發揮重要作用。
隨機對照試驗(randomized controlled trial,RCT)是評價干預性研究效果的最佳設計方案之一,雖然 RCT 論文發表逐年增加,但受倫理和資源等條件限制,推廣和應用有限。非隨機干預研究(non-randomized studies of interventions,NRSI)作為隨機對照試驗的補充,也常用于干預性研究的效果評價。系統評價是針對某一具體問題,系統、全面收集已發表或未發表的相關研究,采用嚴格評價文獻的原則和方法,篩選出符合質量標準的文獻,進行定性或定量合成,得出最佳的綜合結論。針對某一具體的研究問題,系統評價不僅可納入 RCT,還可納入非隨機干預研究。系統評價結果的可靠性與制作系統評價的全過程密切相關,提高系統評價制作質量有助于提高干預性系統評價結果的轉化能力。
目前已有的系統評價報告規范包括 MOOSE(meta-analysis of observational studies in epidemiology)[1]、PRISMA(preferred reporting items for systematic reviews and meta-analyses)[2],其對提高系統評價撰寫和報告質量具有一定幫助。2007 年發表的 AMSTAR(assessment of multiple systematic reviews,AMSTAR)[3],是實用性較好的評估系統評價質量的工具,其首次發表后也收到眾多評論和反饋,AMSTAR 工作組對 AMSTAR 進行了重新修訂,于 2017 年 9 月正式發表了第二版 AMSTAR 2[4]。本文對其進行介紹和解讀。
1 AMSTAR 2 簡介
AMSTAR 2 共包括 16 個條目,涉及系統評價的選題、設計、注冊、數據提取、數據統計分析和討論等全過程。主要包括研究問題、納入標準的 PICO 要素、系統評價計劃書、納入的研究設計類型、文獻檢索策略、文獻篩選、數據提取、排除文獻的具體細節、納入研究的偏倚風險評估、統計分析是否合理、結果解釋是否準確及資金支持和利益沖突幾個方面。條目評價要點和評價結果見表 1。

2 AMSTAR 2 評價工具條目解讀
AMSTAR 2 共包括 16 個條目,其保留了原版 AMSTAR 的 10 個條目,并對文字進行了適當修訂。所有條目均參考了 Cochrane 協作網推薦的隨機和非隨機干預研究的偏倚風險評估工具。對于原版 AMSTAR 條目 2“是否實施了雙盲的研究選擇和數據提取”,新版將其分為了 2 個條目(條目 5 和 6)分別評價。與原版中的利益沖突和資金支持評價條目 11 相比,新版將系統評價的作者是否接受了相關的資金支持與系統評價納入研究是否接受資金來源進行分別評價,并在條目 16 中對利益沖突的評價進行了文字調整。此外,相比原版中關于灰色文獻的條目 4,灰色文獻及檢索限制目前放置到新版的文獻檢索策略中內進行綜合評價。新版總共增加了 4 個條目,其中兩個直接來自 2016 年發表的 ROBINS-I(risk of bias in non-randomised studies-of interventions)[5]評價工具,即 PICO 的描述和證據合成中偏倚風險處理的方式。另一個新條目,即討論結果間異質性的來源和原因,是對原條目的重新描述,還有一個新條目是關于對納入研究類型的解釋。關于原版 AMSTAR 與新版 AMSTAR 2 中的條目差異性對比詳見表 2。

對于 AMSTAR 2 的評價條目框,新版條目刪除了原版中的“不適用”和“不能回答”評價框。若該條目回答正確且依據充分,此項判斷為“是”;若該條目回答正確但依據不充分,此項判斷為“部分是”;若該條目無相關評價內容或評價不當,此項判斷為“否”。本文將以“腹腔鏡與開腹手術治療早期宮頸癌療效與安全性”一文為例對 AMSTAR 2 的各個條目進行解讀[6]。
2.1 條目 1,研究問題和納入標準是否包括 PICO 各要素?
為讓讀者明確的判斷系統評價的適用性,系統評價作者應該描述 PICO 要素(P:研究對象;I:干預措施;C:對照措施;O:結局指標)。根據獲取結局指標的時限,作者需要對隨訪時間進行選擇性描述。
例如,在“腹腔鏡與開腹手術治療早期宮頸癌療效與安全性”系統評價中,研究問題與納入標準的 PICO 要素如下表 3,如問題中 4 個要素均能詳細描述,此問題的回答為“是”。

2.2 條目 2,是否報告系統評價研究方法在實施前就已確定,是否報告與計劃書有不一致的情況?
為減少系統評價制作過程中的偏倚風險,系統評價研究者應該在開展研究之前確定系統評價的研究計劃,研究計劃應該細化以下內容:研究問題、檢索式、納入/排除標準和偏倚風險評價等。同時,為保證研究透明化,作者還應該將研究計劃在二次研究的注冊平臺(如國際注冊平臺 PROSPERO)上進行注冊,或在一本公開刊物(如 BMJ Open、BMC)上發表或通過研究機構以書面的形式公布。此外,在撰寫系統評價文章時,作者應該詳細描述系統評價實施過程中與事前確定的研究計劃不一致的情況。
例如,該系統評價詳細描述了研究問題、納入/排除標準、檢索式、數據提取、偏倚風險評價方法、統計方法,但文中并未描述是否提前撰寫計劃書、計劃書是否提前注冊或將研究計劃提前發表在雜志上或在文章發表時將其作為補充材料提供給讀者,導致讀者不能了解研究計劃在具體實施過程中被遵循的情況,故此項回答應為“否”。
2.3 條目 3,作者是否解釋了選擇系統評價納入研究設計類型的原因?
相比原版,此條目為新版 AMSTAR 2 中新增。在評估某一干預措施的療效時,系統評價可納入 RCT 干預研究或非隨機干預研究。但是,當 RCT 數量較少、RCT 中的結局指標缺失、統計效果不足、研究對象不符、對照/干預措施不符合時,非隨機干預研究的系統評價能起到補充作用,我們會考慮納入非隨機干預研究進行療效評估。在制作系統評價時,作者應該詳細描述納入研究的設計類型并予以合理的解釋。
例如,該系統評價是評估腹腔鏡與開腹手術治療早期宮頸癌療效與安全性的 Meta 分析,詳細描述了研究的納入類型,包括 RCT、非隨機干預研究和隊列研究。但本文并未對為何納入此類研究類型進行解釋,因此,該項回答為“否”。實際而言,相比藥物干預,開展手術干預效果評估的隨機對照試驗比較困難,例如研究設計、手術標化、外科醫生之間手術技能的差異等,故非隨機干預研究是評估該項手術干預措施效果的主要方式,但該研究并未就此進行闡述。
2.4 條目 4,作者是否使用全面的文獻檢索策略?
在制作系統評價時,作者應該檢索出與研究問題相關的所有語種的文獻。對于檢索的語言、時間等限制,作者應予以合理解釋。對于不同研究問題的系統評價,作者需要檢索的數據庫或電子資源不同,作者應至少檢索 2 個與研究問題相關的數據庫(如 PubMed、EMbase),并提供所用檢索的關鍵詞、Mesh 主題詞和檢索策略。為保證查全率,作者還應該開展補充檢索,如注冊平臺、專家補充、手工檢索所獲研究的參考文獻。灰色文獻的檢索是非常重要的,尤其是有關政策和項目評估報告顯得尤其重要,這些灰色文獻主要包括注冊平臺、會議摘要、論文、未發表的報告、未經過同行評議的研究等,它們主要通過政府、非政府、衛生技術機構的網站或聯系研究者獲得。此外,作者有時需要聯系原始研究作者獲得結果和數據。
例如,該系統評價檢索了 PubMed、EMbase、Web of Science、CBM、WanFang Data 和 CNKI 數據庫,檢索時限均為從建庫至 2014 年 7 月,描述了中、英文檢索詞和 PubMed 的具體檢索策略。但并沒有描述手工檢索、灰色文獻檢索、注冊平臺檢索及是否在 24 個月內完成系統評價等信息,故此項回答為“部分是”。
2.5 條目 5,是否由兩人獨立完成文獻篩選?
在原版 AMSTAR 中條目 2“是否實施了雙盲的研究選擇和數據提取”,新版將其分為了 2 個條目(條目 5 和 6)分別評價。系統評價文獻篩選最好由 2 位研究者單獨“背對背”根據納入標準來完成,對于文獻篩選中不一致的意見,則通過討論解決,必要時需要咨詢第三方協助判斷。如果文獻篩選由 1 位研究者單獨完成,另 1 位研究者以抽樣形式檢測納入研究的一致性,如一致性評價的 Kappa 值≥0.80 則說明一致性很好。
例如,該系統評價由 2 位研究者獨立完成篩選文獻,并交叉核對,分歧則通過咨詢第三方協助判斷,此項回答為“是”。
2.6 條目 6,是否由兩人獨立完成數據提取?
系統評價的數據提取過程應由至少 2 名研究者進行,如有爭議討論解決,必要時需要咨詢第三方協助判斷。如由 1 位研究者單獨完成數據提取,另一位研究者則以抽樣的形式檢查、核對提取的數據,如一致性評價的 Kappa 值≥0.80 則說明一致性很好。
例如,該系統評價的篩選是由 2 位系統評價員獨立提取數據,并交叉核對,如遇分歧,則咨詢第三方協助判斷,此項回答為“是”。
2.7 條目 7,是否提供了排除文獻的清單及排除理由?
為減少選擇性偏倚,系統評價作者應首先通過閱讀文獻的題目和摘要,將系統評價的研究問題的 PICO 與納入文獻的 PICO 進行匹配。在文獻初篩過程中,作者不應以結局指標和偏倚風險為依據排除任何一個研究。在全文閱讀復篩階段,作者根據 PICO 原則最終確定納入研究。在系統評價文章撰寫過程中,作者應以參考文獻或表格的形式詳細展示在閱讀全文階段中被排除的每一個研究及其排除理由。
例如,該系統評價描述初始文獻檢索量、納入研究,并以流程圖形式展示了文獻的篩選流程,但是僅描述進入全文篩選后排除研究的匯總性理由,沒有給出具體每個排除研究的清單和排除理由,此項回答為“否”。
2.8 條目 8,作者是否足夠詳細地描述了納入研究的基本特征?
系統評價作者應對納入研究的基本特征進行詳細描述,包括研究對象、研究設計、干預/對照措施(劑量)、隨訪時間、分析方法和結局指標等。這些信息不僅可讓讀者了解納入研究是否與研究問題相匹配,及系統評價的研究對象和干預措施是否與他們自己的臨床實踐或政策相關,也可幫助作者分析異質性來源。此外,研究者可根據年齡、劑量、樣本量等因素進行亞組分析或敏感性分析等。
例如,該系統評價中,作者對納入研究的例數、年齡、體重指數、早期宮頸癌分期、干預措施、結局指標和隨訪時間等進行了詳細的描述。此項回答為“是”。
2.9 條目 9,作者是否使用合理工具評估納入研究文獻的偏倚風險?
系統評價的作者應采用合理工具對納入研究進行偏倚風險的評估,最好采用正規、已開發的評價工具。對于系統評價,特別是納入了非隨機干預性研究的系統評價,評價者是否采用合理的偏倚評價方法來評估納入研究的偏倚風險顯得十分重要。目前專門的偏倚風險評價工具比較少,對于只納入 RCT 干預研究的系統評價,我們推薦依照 Cochrane 手冊的偏倚風險條目對納入的單個 RCT 進行偏倚風險評價;對納入非隨機干預研究的偏倚風險評估,我們推薦使用 2016 年發表的 Cochrane 協作網推薦的 ROBINS-I 工具[5]。系統評價作者應該選擇合適的評價工具評價 RCT 干預研究中潛在的偏倚風險,包括未隱藏的分配、非真正隨機分配、非雙盲的結局測量(患者和測評者)、對結局的選擇性報告。對于納入系統評價中非隨機干預研究的潛在偏倚風險評估,作者應選擇合適的評價工具對可能存在的混雜因素所致的偏倚、選擇性偏倚、暴露和結局的測量偏倚、選擇性報告偏倚進行評估。
此外,我們推薦診斷性試驗質量評價使用 Cochrane 協作網推薦的 QUADAS-2(quality assessment of diagnostic accuracy studies-2),對于觀察性研究中的隊列研究和病例-對照研究,我們推薦使用紐克斯爾-渥太華量表(Newcastle Ottawa Scale,NOS)偏倚風險評估工具[7]。其他評價工具可能納入了與內部真實性不直接相關的標準[8]。
例如,該系統評價中,不僅納入了 RCT 研究,同時也納入了非隨機干預研究和隊列研究。文中作者采用 Cochrane 手冊 5.1.0 版對 RCT 進行了隨機方法、分配隱藏、盲法、結果數據的完整性、選擇性報告、研究結果、其他偏倚的偏倚風險評價,則此項回答為“是”。采用 MINORS 量表對非隨機干預研究進行方法學評價,但是并沒有評價混雜偏倚、選擇性偏倚、暴露和結局的測量方法等偏倚風險,此項回答為“否”。作者采用 NOS 量表對納入隊列研究中的研究人群的選擇偏倚、結果的測量偏倚進行了評估,但是并沒有評估混雜因素、暴露的測量所致的偏倚,此項回答為“部分是”。
2.10 條目 10,作者是否報告了該系統評價中納入研究的資金來源?
與原版 AMSTAR 中的資金支持評價條目相比,新版將系統評價作者是否接受了相關的資金支持與系統評價納入研究是否接受資金支持分別評價。
納入研究資金來源信息是十分重要的,作者應在文中描述資金來源、贊助者在研究中扮演角色,例如是否參與研究的設計、實施、數據分析和文章撰寫等。讀者可根據這些信息判斷資金贊助情況是否會對系統評價產生偏倚。因此,系統評價作者應該查找、關注、或描述納入研究的資金贊助情況。
例如,該系統評價并未對資金來源進行信息描述,也為提示作者查找或關注了這些信息,此項回答為“否”。
2.11 條目 11,如進行了 Meta 分析,作者是否使用適當的統計方法進行結果合并分析?
如果 Meta 分析可行,系統評價作者應該選擇合適的效應量(OR、RR、Peto-OR 等)和統計分析模型(隨機或固定效應模型),并對存在的異質性進行校正和異質性原因分析。一般來說,對于不同研究設計類型的系統評價,在進行 Meta 分析時,研究者應針對不同設計類型分別進行數據合成分析,不宜將不同設計類型研究一起進行數據合成。因此,當系統評價作者同時納入 RCT 干預研究和非隨機干預研究時,作者應以亞組分析的形式單獨觀察兩種研究類型的效應量。此外,非隨機干預研究會有很多偏倚,這些偏倚會影響系統評價的研究結果,偏倚來源主要包括研究對象、數據的完整性、數據管理方法和數據分析等。在數據分析階段,作者需要對存在混雜因素的結果數據進行校正,因此,作者需要謹慎解釋研究的結論。
例如,此系統評價在統計學部分描述了計量、計數資料效應指標,采用 χ2檢驗進行異質性分析。納入的 RCT、非隨機干預研究和隊列研究中,針對不同的結局指標采用隨機效應模型或固定效應模型處理異質性,但是均沒有分析異質性的原因或混雜因素的校正,此項回答均為“否”。
2.12 條目 12,如進行了 Meta 分析,作者是否考慮了納入研究的偏倚風險對 Meta 分析或其他證據整合的潛在影響?
在系統評價中,作者只納入低偏倚的 RCT 干預研究,那么偏倚存在的可能性比較小。當納入不同偏倚風險的 RCT 干預研究和非隨機干預研究時,系統評價作者應通過亞組分析、回歸分析、敏感性分析來調查偏倚風險對總的合并效應量的影響。即使沒有進行數據合并,系統評價作者也應該詳細描述偏倚的情況,并給出自己的見解。
例如,在該系統評價中,研究者分別對結局指標按照 RCT、非隨機研究、隊列研究進行亞組分析,但并沒有評估單個研究的偏倚風險對 Meta 分析或其他證據綜合潛在影響。此項回答為“否”。
2.13 條目 13,在解釋/討論系統評價結果時,作者是否考慮了納入研究的偏倚風險?
即使沒有進行 Meta 分析,系統評價作者也應討論偏倚風險對結果的影響,尤其是納入不同偏倚風險的 RCT 干預研究及非隨機干預研究。當作出對臨床護理或政策可能產生影響的建議時,系統評價作者應充分考慮納入研究的偏倚風險對結果的影響。
例如,該系統評價中,作者在結果分析時根據不同的設計類型進行亞組分析,僅在研究局限中提到選擇性偏倚,但并沒有針對不同研究設計的偏倚風險及同一研究設計類型偏倚風險的大小進行解釋和討論。此項回答為“否”。
2.14 條目 14,作者對系統評價結果中異質性是否給予滿意的解釋或討論?
相比 RCT 干預研究,非隨機干預研究有許多潛在的異質性,主要包括研究設計類型、分析方法、人群、干預措施強度等,因此作者應調查異質性的來源,并在結果和討論中討論了其對研究結果的影響研究。對兩個層面的異質性進行解釋和討論:① 單個納入研究的異質性來源,包括人種、性別、年齡等;② 整個系統評價層面,對不同的偏倚風險(低偏倚、中偏倚、高偏倚)進行亞組分析或回歸分析等。
該系統評價中,效應量合并時是有異質性存在的,有異質性存在的研究采用隨機效應模型合成效應量,但是本系統評價的作者并沒有調查異質性的來源、對存在的異質性進行充分的解釋或討論,此項回答為“否”。
2.15 條目 15,如果進行定量合成,作者是否充分評價了發表偏倚,并討論了其對研究結果的可能影響?
發表偏倚的檢測主要是統計學檢驗或漏斗圖,陽性結果則表示存在發表偏倚,但陰性結果并不能保證沒有發表偏倚。如果在前期文獻檢索時,系統評價作者能夠充分檢索與研究問題相關的數據庫、臨床試驗注冊平臺和會議平臺等,補充檢索和灰色文獻的查找也比較全面,則發表偏倚的可能性較小。如果文獻檢索不夠全面,即使統計學檢驗陰性或漏斗圖結果顯示平衡,發表偏倚仍然是存在的。因此,系統評價作者不僅應采用圖形或統計學檢驗發表偏倚,也應結合前期文獻檢索的全面性綜合判斷發表偏倚存在的可能性,并在結果或討論中解釋發表偏倚的可能性和對結果的影響。
該系統評價中,作者并沒有對發表偏倚的情況進行描述,也沒有結合前期文獻檢索的情況對可能存在的發表偏倚進行綜合判斷。此次回答為“否”。
2.16 條目 16,作者是否報告了任何潛在的利益沖突,包括開展系統評價所接受的任何資助?
對于原版條目 11 關于利益沖突的評價,新版條目 16 進行了文字調整。系統評價作者應該詳細描述資金贊助情況、贊助方在研究中扮演的角色(是否參與研究的設計、實施、數據分析、文章撰寫等)、如何處理潛在的利益沖突關系,同行評議專家和讀者可根據這些信息能夠判斷是否有偏倚存在。
該系統評價中,作者報告了資金來源(國家自然科學基金項目、重大疾病醫學重點實驗室開放課題項目),但是并沒有描述贊助方在研究中扮演的角色,也未描述可能潛在的利益沖突。此次回答為“否”。
3 小結
本文選擇了 2016 年發表的一篇系統評價,使用新版的 AMSTAR 2 評價工具對其進行質量評價,發現在以下幾個方面存在較高的偏倚風險:系統評價方法是否事先確定、解釋納入研究設計類型的合理性、排除文獻的清單和排除理由、納入研究的資金支持、調查異質性來源、每個納入研究的偏倚風險對結果的影響、在結果中解釋異質性、發表偏倚及利益沖突聲明等。我們建議系統評價制作者應事先制定系統評價計劃書,并將計劃書進行注冊或以文章的形式發表,或通過倫理委員會或單位機構以書面的形式公布。此外,系統評價制作者應該根據事先制定的計劃書,嚴格控制實施過程中的偏倚風險;建議作者在制作系統評價之前,認真學習 AMSTAR 2 質量評價工具。
相比 RCT 干預研究,非隨機干預研究是臨床干預措施真實效果的主要評價方式,非隨機干預研究或觀察性研究的研究數量將不斷的增加,研究者應該學會如何正確評價、整合相關的研究證據,更應該正確認識相關系統評價的研究意義。為此,本文將 AMSTAR 2 介紹給國內學者,旨在促進和指導國內系統評價制作者如何更規范化制作隨機或非隨機干預研究的系統評價。同時建議國內雜志能夠盡快的將 AMSTAR 2 引入稿約,要求和督促系統評價制作者參考 AMSTAR 2 撰寫研究計劃、實施研究計劃、報告結果與討論等,這將對改善隨機或非隨機干預研究的系統評價的研究質量發揮重要作用。