目前尚無專門針對系統評價設計、制作和分析過程中的偏倚風險進行評估的工具,而最新研發的ROBIS工具主要評估系統評價的偏倚風險,不僅用于評估包括干預性、診斷性、病因性、預后性等多種系統評價制作過程和結果解釋過程中的偏倚風險,還用于評價系統評價問題與其使用者要解決的實踐問題的相關性。本文旨在介紹ROBIS工具,為國內系統評價制作者、指南制定者和其他相關研究者提供理解和應用該工具的參考,從而提高制作系統評價的質量,促進其應用。
引用本文: 吳瓊芳, 丁泓帆, 鄧圍, 楊楠, 王琪, 姚亮, 王小琴, 韋當, 陳耀龍, 杜亮. ROBIS:評估系統評價偏倚風險的新工具. 中國循證醫學雜志, 2015, 15(12): 1454-1457. doi: 10.7507/1672-2531.20150236 復制
1 背景
系統評價通過減少偏倚的策略以合成多個原始研究的結果 [1, 2],是公認的臨床決策中最佳的證據綜合研究 [3]。但隨著系統評價數量的快速增長,其參差不齊的質量引起越來越多國內外學者的關注和擔憂 [4, 5]。只有高質量的系統評價才能為臨床醫師、患者及其他利益相關者提供決策依據 [6]。系統評價的質量包括方法學質量和報告質量。方法學質量存在問題可能會影響系統評價結果的真實性,使針對同一問題的系統評價所納入的原始研究和最終結論出現差異[7]。目前已有許多工具評估系統評價方法學質量,其中廣泛使用的是1991年制定的OQAQ(the Overview Quality Assessment Questionnaire)工具 [8, 9]和2007年發布的AMSTAR(the Assessment of Multiple Systematic Reviews)工具 [10, 11]。AMSTAR的制定是基于OQAQ清單 [12]。由于AMSTAR不能產生量化的評價結果,因此有研究人員在2010年制定發布了AMSTAR修訂版(R-AMSTAR)[13]。AMSTAR雖被認為是當前有效和實用的系統評價方法學質量評價工具之一,但目前主要用于評價納入隨機對照試驗(randomized controlled trial,RCT)的系統評價 [14],雖然有研究表明,其用于評價非RCT系統評價也具有較高的信度和實用性 [15],但其在非RCT系統評價中的應用仍有限 [14],而R-AMSTAR的有效性仍有待進一步研究 [14]。2014年英國布里斯托爾大學(University of Bristol)社會醫學部制定了一種全新的評價工具——ROBIS(Risk of Bias in Systematic Review)工具 [16],其針對系統評價的偏倚風險,不僅用于評估包括干預性、診斷性、病因性、預后性等多種系統評價制作過程和結果解釋過程中的偏倚風險,還用于評價系統評價問題與其使用者要解決的實踐問題的相關性。本文旨在介紹ROBIS工具,為國內系統評價制作者、指南制定者和其他相關研究者提供理解和應用該工具的參考,從而提高系統評價的質量,促進其應用。
2 系統評價偏倚風險
如果系統評價在設計、制作和分析過程中出現缺陷或者局限性,嚴重影響了系統評價的結果,那么就會產生偏倚,這被稱為系統評價的偏倚風險,其不同于“系統評價方法學質量”這一目前雖廣泛使用但籠統抽象的概念。系統評價的偏倚風險需要與系統評價納入原始研究的偏倚風險 [17]區別開來。原始研究的偏倚風險指單個研究在設計、實施和分析過程中產生的偏倚,即使原始研究偏倚風險都很高,只要系統評價在制作過程中充分考慮和處理了這些偏倚,那么系統評價的偏倚風險仍可為“低”。Whiting等 [16]的研究發現,當前尚無專門針對系統評價設計、制作和分析過程中的偏倚風險進行評估的工具,研究人員通過嚴格的方法和流程,研發了ROBIS工具,填補了這一空缺。ROBIS工具可用于評估多種類型的系統評價,不僅能評估其偏倚風險,還能評估系統評價的問題與其使用者關心的實踐問題的相關性。
3 ROBIS工具的制定過程
ROBIS工具的制定分為四個階段 [18],其整個過程科學、嚴謹和透明。
(1)確定范圍:成立專家指導小組,通過視頻會議制定ROBIS范圍,之后舉行面對面會議,通過德爾菲法(Delphi)[19]最終確定ROBIS工具的要點、結構和性能。
(2)獲取證據支持:制定者通過3種方法來獲取證據以支持ROBIS制定。包括:① 參考和分析Cochrane系統評價方法學期望值(Methodological Expectations of Cochrane Intervention Reviews,MECIR)條目 [20];② 評價40個現有的系統評價或Meta分析質量評價工具并進行條目分類;③ 對使用AMSTAR工具的系統評價進行評價,以獲取ROBIS工具使用者的具體要求。
(3)進行共識:所有利益相關者召開面對面會議,討論并形成ROBIS工具的草案,之后進行小范圍討論再次確定。
(4)預試驗和完善:通過三輪改良德爾菲法再次確定ROBIS工具的范圍和內容。并舉辦ROBIS培訓班,邀請參會者進行預試驗,根據其使用ROBIS后的反饋,完善該工具。
4 ROBIS工具的使用人群
ROBIS工具的主要使用人群為:① 系統評價再評價的作者;② 指南制定者;③ 系統評價作者:可在系統評價完成后評價其質量,或在系統評價研究設計階段參考該工具以減少偏倚。其他可能的使用者包括決策支持機構(如英國國家衛生與臨床優化研究所,NICE)、對循證醫學感興趣的臨床醫生、雜志編輯和評審人員等。
5 ROBIS工具條目
應用ROBIS評估系統評價偏倚風險的過程包括三個階段:① 評估相關性(根據情況選擇);② 確定系統評價制定過程中的偏倚風險程度;③ 判斷系統評價的偏倚風險。ROBIS工具清單詳見

5.1 階段一:評估相關性(根據情況選擇)
ROBIS用戶首先需要確定想要解決的問題(例如,系統評價再評價或指南的問題),即目標問題(target question)。第一階段旨在評估目標問題與系統評價中擬解決的問題的吻合度。如果僅評估系統評價的偏倚風險,而沒有目標問題,那么可跳過該階段(即根據情況選擇)。由于系統評價分為干預性、病因性、診斷性和預后性等不同類別,其對應的評估表也不同(見表 1)。
5.2 階段二:確定系統評價制作過程中偏倚風險的程度
此階段主要確定系統評價各制作過程中可能產生的偏倚,涉及制作系統評價的4個關鍵領域:研究的納入標準、研究的檢索和篩選、數據提取和質量評價、數據合成和結果呈現(見表 2)。領域1旨在評估系統評價的納入標準是否預先確定,是否清晰且適合于系統評價的問題。領域2旨在評估系統評價是否遺漏了滿足納入標準的原始研究,以及是否納入了不符合納入標準的研究。領域3旨在評估數據提取和原始研究質量評價過程是否產生了偏倚。領域4旨在評估系統評價制作者是否使用了合適的方法來合并原始研究的數據。每一領域都設置標志性問題以識別各領域引入的偏倚。每一領域的評估包括三個步驟:從系統評價中尋找支持偏倚風險程度判斷的信息,回答標志性問題,判斷偏倚風險程度。

5.3 階段三:判斷偏倚風險
第三階段是判斷系統評價整體的偏倚風險,主要識別結果解釋部分引入的偏倚,旨在評估系統評價在結果解釋中是否考慮或處理了階段二中的偏倚風險,是否考慮到了納入研究與系統評價研究問題的相關性,是否避免強調有統計學意義的結果(見表 2)。同樣涉及三個步驟:從系統評價中尋找支持偏倚風險程度判斷的信息,回答標志性問題,判斷該系統評價的偏倚風險程度。
6 小結
調查顯示,2010年系統評價或Meta分析發表量約4 000篇,平均每天11篇 [21],如此龐大的數量并不代表每篇系統評價的質量相同。系統評價再評價者和指南制定者及其他研究人員在應用系統評價時需要一個當前最好的衡量其偏倚風險的工具。目前有40個質量評價工具 [16],其中AMSTAR工具應用廣泛且被認為具有較好的信度、結構效度和實用性 [11],其制定者認為該工具可用于評價各種研究設計的系統評價,但實際上目前主要用于評價納入RCT的系統評價,在非RCT系統評價中的應用仍有限 [14],其使用指導中也并沒有對其他研究類型的系統評價的應用進行過多說明 [22]。雖然已有研究表明AMSTAR用于評價非RCT系統評價也具有較高的信度和實用性,但評價條目需要進一步修改和完善,而且其效度也未得到驗證 [15]。
ROBIS工具是目前值得推薦的一個系統評價偏倚風險評價工具,第22屆和23屆Cochrane Colloquium均對其進行了報道、討論和相關培訓。該工具的特點如下:第一,ROBIS工具針對系統評價的“偏倚風險”,將系統評價設計、制作和結果解釋中可能出現的偏倚以標志性問題一一提出,相較于以往“系統評價方法學質量”這一概念更為詳細具體,并且最終的結果是以整個系統評價偏倚風險相關性的“高”、“低”、“不確定”來表示,這樣比起AMSTAR工具以條目的答案數量或R-AMSTAR以最終分值來表示系統評價的方法學質量更明確;第二,制定者綜合了大量證據,進行多輪德爾菲過程,開展面對面會議反復討論,盡可能納入所有的利益相關者參與制定,并經過了多次預試驗不斷進行完善,制定過程嚴謹、透明,基于證據;第三,ROBIS工具不僅能夠客觀評估系統評價制定過程和結果解釋過程中的偏倚風險、原始研究與系統評價研究問題的相關性,還特別評價目標問題與系統評價問題的相關性,以使系統評價的應用更準確;第四,ROBIS工具不只是針對納入RCT的系統評價,它可應用于所有干預性、診斷性、病因性和預后性等多種系統評價,而且其使用指導主要對非RCT系統評價做了實例解讀[23];第五,ROBIS工具按照系統評價制定過程的順序分別評價4個關鍵領域的偏倚風險情況,每個領域都有5~6個關鍵問題,每個問題都有相應的標準和對判斷的說明,富有條理且十分詳盡,避免了遺漏偏倚。
當然,ROBIS工具并非十分成熟。例如,階段一的結果未整合到階段三中,即最終判斷系統評價偏倚風險時并未考慮到目標問題與系統評價問題的相關性(如果目標問題存在的話);此外,評價條目(標志性問題)增多也意味著實際操作更為復雜耗時;另外,盡管工具制定過程中已經過多次預試驗,ROBIS工具的信度、效度和實用性及其推廣應用情況仍有待時間的檢驗,而且這些預試驗主要是由系統評價再評價制作者開展,指南制定方面的預試驗尚在進行中 [16]。目前該工具的1.0版已可獲取,之后還會不斷進行更新,我們相信ROBIS工具會日臻完善。
1 背景
系統評價通過減少偏倚的策略以合成多個原始研究的結果 [1, 2],是公認的臨床決策中最佳的證據綜合研究 [3]。但隨著系統評價數量的快速增長,其參差不齊的質量引起越來越多國內外學者的關注和擔憂 [4, 5]。只有高質量的系統評價才能為臨床醫師、患者及其他利益相關者提供決策依據 [6]。系統評價的質量包括方法學質量和報告質量。方法學質量存在問題可能會影響系統評價結果的真實性,使針對同一問題的系統評價所納入的原始研究和最終結論出現差異[7]。目前已有許多工具評估系統評價方法學質量,其中廣泛使用的是1991年制定的OQAQ(the Overview Quality Assessment Questionnaire)工具 [8, 9]和2007年發布的AMSTAR(the Assessment of Multiple Systematic Reviews)工具 [10, 11]。AMSTAR的制定是基于OQAQ清單 [12]。由于AMSTAR不能產生量化的評價結果,因此有研究人員在2010年制定發布了AMSTAR修訂版(R-AMSTAR)[13]。AMSTAR雖被認為是當前有效和實用的系統評價方法學質量評價工具之一,但目前主要用于評價納入隨機對照試驗(randomized controlled trial,RCT)的系統評價 [14],雖然有研究表明,其用于評價非RCT系統評價也具有較高的信度和實用性 [15],但其在非RCT系統評價中的應用仍有限 [14],而R-AMSTAR的有效性仍有待進一步研究 [14]。2014年英國布里斯托爾大學(University of Bristol)社會醫學部制定了一種全新的評價工具——ROBIS(Risk of Bias in Systematic Review)工具 [16],其針對系統評價的偏倚風險,不僅用于評估包括干預性、診斷性、病因性、預后性等多種系統評價制作過程和結果解釋過程中的偏倚風險,還用于評價系統評價問題與其使用者要解決的實踐問題的相關性。本文旨在介紹ROBIS工具,為國內系統評價制作者、指南制定者和其他相關研究者提供理解和應用該工具的參考,從而提高系統評價的質量,促進其應用。
2 系統評價偏倚風險
如果系統評價在設計、制作和分析過程中出現缺陷或者局限性,嚴重影響了系統評價的結果,那么就會產生偏倚,這被稱為系統評價的偏倚風險,其不同于“系統評價方法學質量”這一目前雖廣泛使用但籠統抽象的概念。系統評價的偏倚風險需要與系統評價納入原始研究的偏倚風險 [17]區別開來。原始研究的偏倚風險指單個研究在設計、實施和分析過程中產生的偏倚,即使原始研究偏倚風險都很高,只要系統評價在制作過程中充分考慮和處理了這些偏倚,那么系統評價的偏倚風險仍可為“低”。Whiting等 [16]的研究發現,當前尚無專門針對系統評價設計、制作和分析過程中的偏倚風險進行評估的工具,研究人員通過嚴格的方法和流程,研發了ROBIS工具,填補了這一空缺。ROBIS工具可用于評估多種類型的系統評價,不僅能評估其偏倚風險,還能評估系統評價的問題與其使用者關心的實踐問題的相關性。
3 ROBIS工具的制定過程
ROBIS工具的制定分為四個階段 [18],其整個過程科學、嚴謹和透明。
(1)確定范圍:成立專家指導小組,通過視頻會議制定ROBIS范圍,之后舉行面對面會議,通過德爾菲法(Delphi)[19]最終確定ROBIS工具的要點、結構和性能。
(2)獲取證據支持:制定者通過3種方法來獲取證據以支持ROBIS制定。包括:① 參考和分析Cochrane系統評價方法學期望值(Methodological Expectations of Cochrane Intervention Reviews,MECIR)條目 [20];② 評價40個現有的系統評價或Meta分析質量評價工具并進行條目分類;③ 對使用AMSTAR工具的系統評價進行評價,以獲取ROBIS工具使用者的具體要求。
(3)進行共識:所有利益相關者召開面對面會議,討論并形成ROBIS工具的草案,之后進行小范圍討論再次確定。
(4)預試驗和完善:通過三輪改良德爾菲法再次確定ROBIS工具的范圍和內容。并舉辦ROBIS培訓班,邀請參會者進行預試驗,根據其使用ROBIS后的反饋,完善該工具。
4 ROBIS工具的使用人群
ROBIS工具的主要使用人群為:① 系統評價再評價的作者;② 指南制定者;③ 系統評價作者:可在系統評價完成后評價其質量,或在系統評價研究設計階段參考該工具以減少偏倚。其他可能的使用者包括決策支持機構(如英國國家衛生與臨床優化研究所,NICE)、對循證醫學感興趣的臨床醫生、雜志編輯和評審人員等。
5 ROBIS工具條目
應用ROBIS評估系統評價偏倚風險的過程包括三個階段:① 評估相關性(根據情況選擇);② 確定系統評價制定過程中的偏倚風險程度;③ 判斷系統評價的偏倚風險。ROBIS工具清單詳見

5.1 階段一:評估相關性(根據情況選擇)
ROBIS用戶首先需要確定想要解決的問題(例如,系統評價再評價或指南的問題),即目標問題(target question)。第一階段旨在評估目標問題與系統評價中擬解決的問題的吻合度。如果僅評估系統評價的偏倚風險,而沒有目標問題,那么可跳過該階段(即根據情況選擇)。由于系統評價分為干預性、病因性、診斷性和預后性等不同類別,其對應的評估表也不同(見表 1)。
5.2 階段二:確定系統評價制作過程中偏倚風險的程度
此階段主要確定系統評價各制作過程中可能產生的偏倚,涉及制作系統評價的4個關鍵領域:研究的納入標準、研究的檢索和篩選、數據提取和質量評價、數據合成和結果呈現(見表 2)。領域1旨在評估系統評價的納入標準是否預先確定,是否清晰且適合于系統評價的問題。領域2旨在評估系統評價是否遺漏了滿足納入標準的原始研究,以及是否納入了不符合納入標準的研究。領域3旨在評估數據提取和原始研究質量評價過程是否產生了偏倚。領域4旨在評估系統評價制作者是否使用了合適的方法來合并原始研究的數據。每一領域都設置標志性問題以識別各領域引入的偏倚。每一領域的評估包括三個步驟:從系統評價中尋找支持偏倚風險程度判斷的信息,回答標志性問題,判斷偏倚風險程度。

5.3 階段三:判斷偏倚風險
第三階段是判斷系統評價整體的偏倚風險,主要識別結果解釋部分引入的偏倚,旨在評估系統評價在結果解釋中是否考慮或處理了階段二中的偏倚風險,是否考慮到了納入研究與系統評價研究問題的相關性,是否避免強調有統計學意義的結果(見表 2)。同樣涉及三個步驟:從系統評價中尋找支持偏倚風險程度判斷的信息,回答標志性問題,判斷該系統評價的偏倚風險程度。
6 小結
調查顯示,2010年系統評價或Meta分析發表量約4 000篇,平均每天11篇 [21],如此龐大的數量并不代表每篇系統評價的質量相同。系統評價再評價者和指南制定者及其他研究人員在應用系統評價時需要一個當前最好的衡量其偏倚風險的工具。目前有40個質量評價工具 [16],其中AMSTAR工具應用廣泛且被認為具有較好的信度、結構效度和實用性 [11],其制定者認為該工具可用于評價各種研究設計的系統評價,但實際上目前主要用于評價納入RCT的系統評價,在非RCT系統評價中的應用仍有限 [14],其使用指導中也并沒有對其他研究類型的系統評價的應用進行過多說明 [22]。雖然已有研究表明AMSTAR用于評價非RCT系統評價也具有較高的信度和實用性,但評價條目需要進一步修改和完善,而且其效度也未得到驗證 [15]。
ROBIS工具是目前值得推薦的一個系統評價偏倚風險評價工具,第22屆和23屆Cochrane Colloquium均對其進行了報道、討論和相關培訓。該工具的特點如下:第一,ROBIS工具針對系統評價的“偏倚風險”,將系統評價設計、制作和結果解釋中可能出現的偏倚以標志性問題一一提出,相較于以往“系統評價方法學質量”這一概念更為詳細具體,并且最終的結果是以整個系統評價偏倚風險相關性的“高”、“低”、“不確定”來表示,這樣比起AMSTAR工具以條目的答案數量或R-AMSTAR以最終分值來表示系統評價的方法學質量更明確;第二,制定者綜合了大量證據,進行多輪德爾菲過程,開展面對面會議反復討論,盡可能納入所有的利益相關者參與制定,并經過了多次預試驗不斷進行完善,制定過程嚴謹、透明,基于證據;第三,ROBIS工具不僅能夠客觀評估系統評價制定過程和結果解釋過程中的偏倚風險、原始研究與系統評價研究問題的相關性,還特別評價目標問題與系統評價問題的相關性,以使系統評價的應用更準確;第四,ROBIS工具不只是針對納入RCT的系統評價,它可應用于所有干預性、診斷性、病因性和預后性等多種系統評價,而且其使用指導主要對非RCT系統評價做了實例解讀[23];第五,ROBIS工具按照系統評價制定過程的順序分別評價4個關鍵領域的偏倚風險情況,每個領域都有5~6個關鍵問題,每個問題都有相應的標準和對判斷的說明,富有條理且十分詳盡,避免了遺漏偏倚。
當然,ROBIS工具并非十分成熟。例如,階段一的結果未整合到階段三中,即最終判斷系統評價偏倚風險時并未考慮到目標問題與系統評價問題的相關性(如果目標問題存在的話);此外,評價條目(標志性問題)增多也意味著實際操作更為復雜耗時;另外,盡管工具制定過程中已經過多次預試驗,ROBIS工具的信度、效度和實用性及其推廣應用情況仍有待時間的檢驗,而且這些預試驗主要是由系統評價再評價制作者開展,指南制定方面的預試驗尚在進行中 [16]。目前該工具的1.0版已可獲取,之后還會不斷進行更新,我們相信ROBIS工具會日臻完善。