引用本文: 丁泓帆, 吳瓊芳, 楊楠, 鄧圍, 王琪, 姚亮, 王小琴, 韋當, 陳耀龍, 杜亮. 評估系統評價偏倚風險的ROBIS工具實例解讀. 中國循證醫學雜志, 2016, 16(1): 115-121. doi: 10.7507/1672-2531.20160021 復制
ROBIS工具是一種評估系統評價偏倚風險的新工具,為使讀者更好地理解和使用該工具,本文以《環磷酰胺治療兒童腎病綜合征隨機對照試驗的系統評價》 [1]為例,采用ROBIS對其偏倚風險進行評價。
1 階段一:評估相關性(根據情況選擇)
由于系統評價針對的問題(包括干預性、病因性、診斷性和預后性)不同,評估要素也不同(參見《ROBIS:評估系統評價偏倚風險的新工具》一文)。評價者需找到系統評價擬解決的問題,并與目標問題比較,確定是否匹配。比較結果以“是”、“否”、“部分”和“不確定”表示。若兩個問題完全匹配則為“是”;若有一個或多個要素不匹配,則為“否”;若兩個問題的同一要素部分符合,其他要素完全匹配,則為“部分”(如,目標問題的人群是成年人,系統評價問題的人群是60歲以上的人);若系統評價問題的某一要素不清楚,則不能確定是否匹配,表示為“不確定”。
假定我們需要制定一個關于“環磷酰胺(CXT)治療兒童腎病綜合征(NIS)的有效性和安全性”的系統評價再評價,主要針對激素不敏感或復發的難治性腎病綜合征。目標問題與系統評價問題見表 1。由表 1可知,問題的4個要素均匹配,故此問題回答“是”。

2 階段二:確定系統評價制作過程中偏倚風險的程度
這一階段主要確定系統評價制作過程中可能產生的偏倚,涉及4個領域,需要按順序但不能孤立地評價每個領域。標志性問題的回答以“是”、“可能是”、“可能否”、“否”和“無信息”表示。最后判斷該領域的偏倚風險程度時,分為“低”、“高”、“不確定”。如果所有標志性問題的回答是“是”或“可能是”,則該領域偏倚風險程度為“低”;若有任一標志性問題的回答是“可能否”或“否”,則偏倚風險程度為“高”;若提供的信息不足以判斷,則偏倚風險程度為“不確定”。
2.1 領域1:研究的納入標準
這一領域旨在評估系統評價的納入標準是否預先確定,是否清晰且適合于系統評價的問題。預先確定納入標準是為了保證納入原始研究是基于提前設定的統一標準,而不是基于原始研究本身的情況。具體評價內容如下:
2.1.1 問題1:系統評價遵循了預先確定的目的和納入標準嗎?
預先確定的信息應體現在系統評價計劃書中,一般包括研究設計、研究對象、干預措施或暴露因素、結局指標(當作為納入標準時)等。排除標準也應提前確定。當可獲取提供此類信息的計劃書時,則回答“是”;若不能獲取相關計劃書,但提供了預先確定的目的和納入標準,且有理由相信是提前確定的可信,系統評價制定全過程也遵循了該目的和納入排除標準,則回答“可能是”;如果沒有檢索到計劃書,目的和納入排除標準僅在系統評價發表之后可獲得,且沒有理由相信這些信息是提前確定且在實施過程中被遵循,則回答為“可能否”;若系統評價沒有目的和納入排除標準,則回答“否”。
該系統評價在摘要和背景部分闡述了系統評價的目的是“對國內外CTX治療兒童NIS的隨機對照試驗(RCT)進行Meta分析,評價CTX的療效和不良反應”。該系統評價在資料與方法部分描述了研究對象的納入排除標準,納入研究限定為RCT,干預措施和對照措施均列出,主要和次要結局指標也清晰陳述。通過閱讀全文,可判斷系統評價制作遵循了且其結果體現了該目的和納入排除標準,但由于未提供系統評價計劃書,故此項回答“可能是”。
2.1.2 問題2:納入標準適合系統評價的問題嗎?
納入標準應源于系統評價的問題,而且應該足夠詳細(例如,描述研究對象的年齡、疾病診斷標準、研究實施的環境、藥物的劑量或暴露的頻率等),才能判斷是否適合系統評價的問題。評價者可能需要掌握相關專業知識來回答這一問題。
該系統評價的問題是探討CTX治療兒童NIS的有效性和安全性,主要針對激素不敏感或復發的難治性NIS。納入標準中研究對象限定為3個月至18歲的兒童,且排除了激素敏感且不復發、先天性和繼發性NIS的兒童;疾病確診以國際兒科腎病協作中心和中華醫學會兒科分會腎臟病學組制定的標準為依據;研究實施的環境未作限定;藥物的劑量和療程為干預變量,未作限定;結局指標圍繞有效性和安全性。納入標準適合系統評價的問題,此項回答“是”。
2.1.3 問題3:納入標準明確嗎?
納入標準應盡可能地對研究設計、研究對象、干預措施或暴露因素、對照措施和結局指標提供明確、詳細的信息,并具有可重復性。例如,對于某一疾病如有不同診斷方法,系統評價制定者應該預先確定一個合適的診斷方法,以避免偏倚的產生;對于干預措施或暴露因素,制定者也應該提供關于劑量、使用頻次、同時使用的其他治療方法等信息。同樣,評價者可能需要掌握相關專業知識來回答這一問題。
該系統評價中,研究設計、研究對象、干預組和對照組的情況、結局指標均清晰描述,疾病診斷標準明確(見問題2的解讀),故此項回答“是”。
2.1.4 問題4:納入標準中所有基于研究特征的限制合適嗎?
所有基于納入研究特征的限制(例如,對研究設計、研究發表的時間、樣本量、研究的質量和結局指標的限制)必須描述清晰,而且需要提供合理的理由,以幫助評價者判斷這些限制是否合理。若納入標準足夠詳細且未進行限制,則回答“是”;若提供的信息足以判斷這些限制的合理性,則回答“是”或“可能是”;如果未對限制陳述理由或提供的信息不足以判斷其合理性,則回答“可能否”或“否”。
RCT為臨床療效研究的金標準 [2],該系統評價為研究臨床療效的干預性系統評價,其研究設計限定為RCT,排除回顧性的、沒有設置正確治療對照的、非隨機或隨機方法不正確的文獻,此限定合理。文中未報告其他研究特征的限制信息,可認為未進行限制。此項回答“是”。
2.1.5 問題5:納入標準中所有與研究來源相關的限制合適嗎?
任何基于信息來源的限制(發表狀態或形式、語言和數據可得性等)必須描述清晰,且需提供理由,從而幫助評價者判斷這些限制是否合理。對問題的回答情況同問題4。
該系統評價未報告發表狀態、形式和語言的限制信息,可認為未作限制。對于在不同期刊上出現的同一作者的相近內容的文獻,制定者納入了數據最全的1篇。對于同一作者的同一研究,其結果出現在不同期刊上,為排除重復文獻或研究,選擇數據最全的研究是合理的,此項回答“是”。
因此,該領域中,納入標準可能是提前確定,且符合系統評價的問題,所有標志性問題的回答為“是”或“可能是”,其偏倚風險程度為“低”。
2.2 領域2:研究的檢索和篩選
這一領域旨在評估系統評價是否遺漏了滿足納入標準的原始研究,以及是否納入了不符合納入標準的研究。此領域包括如下內容:
2.2.1 問題1:檢索已發表和未發表的研究時所包含的數據庫或電子資源的范圍合適嗎?
對于不同系統評價的問題,檢索要包含的數據庫或電子資源的范圍不同,評價者需要對此作出判斷。一般至少要檢索 MEDLINE和 EMbase數據庫,還應該檢索會議報告和臨床試驗注冊平臺。具體可參考系統評價相關指導,如Cochrane手冊 [
該系統評價檢索了MEDLINE、EMbase、中國期刊全文數據庫、中國優秀博碩士論文庫,檢索了相關腎臟會議論文,未檢索臨床注冊平臺,故此項回答“否”。
2.2.2 問題2:使用了除數據庫檢索以外的其他方法來確定相關研究嗎?
檢索時還應使用其他方法如引文檢索、聯系專家、追溯參考文獻、手工檢索等。
該系統評價除檢索數據庫外,還直接給作者寫信、手工檢索國內外系統評價的參考文獻和相關腎臟會議論文和參考文獻,故此項回答“是”。
2.2.3 問題3:檢索策略的檢索詞和結構能盡可能多地檢索到符合的研究嗎?
完整的檢索策略應該十分詳細且具有可重復性。評價者應該判斷檢索詞的范圍、檢索詞的組合(例如,是否進行了主題檢索和自由檢索)、使用的濾器是否合適(例如,診斷性系統評價不能使用濾器 [4])。如果提供的信息不全,則回答“可能否”或“否”。檢索策略的評價指導可從電子檢索策略同行評審(Peer Review of Electronic Search Strategies,PRESS) [5]循證清單上獲取。
該系統評價在“1.5.2文獻檢索”部分提供的檢索詞不完整,未列出中文檢索詞,英文檢索未對環磷酰胺的同義詞(endoxan,cytoxan,cyclophosphamidum)進行檢索,且未說明是否進行了主題檢索和自由檢索,未報告是否使用濾器。檢索策略并不能保證盡可能多地檢索到符合的研究,此項回答“否”。
2.2.4 問題4:基于時間、發表形式、語言的限制合適嗎?
該項要與領域1中的問題5相區別,領域1的問題5針對的是系統評價的納入排除標準,而此處針對的是系統評價的檢索策略。時間、發表形式、語言這三類信息都應有所描述。對時間的限制可能合理,但應該描述理由(例如,某藥物在某個時間點后才應用)。如對后兩者進行限制(例如,限制為有全文的研究、限制為英文),一般認為不合理。
該系統評價報告檢索時間是從建庫到2005年,可認為是截至系統評價制定時的時間(該系統評價于2006年發表);未限制語言,非英語文獻先請專人翻譯成英語或中文;未提供發表形式的限制信息;此項回答“是”。
2.2.5 問題5:研究的篩選中盡可能地減小了誤差嗎?
標題或摘要篩選應該由至少2名研究人員獨立進行;全文篩選應該由至少2名研究人員開展(2人獨立進行,或者1人篩選1人核對)。
該系統評價的文獻檢索和文獻篩選由2人獨立完成,有爭議時咨詢專家小組。可認為篩選時盡可能地減小了誤差,故此項回答“是”。
因此,該領域中,檢索的數據庫不全面,檢索詞的范圍和組合不完善,不能保證盡可能地檢索到滿足納入標準的研究,故其偏倚風險程度“高”。
2.3 領域3:數據提取和質量評價
這一領域主要評價數據提取和原始研究質量評價時是否產生了偏倚。
2.3.1 問題1:數據提取中盡可能地減小了誤差嗎?
數據提取過程應該由至少2名研究人員進行,應該先進行預試驗以完善數據提取表。理論上,2名研究人員應該獨立進行數據提取,但也可以由1名提取信息,另1名仔細核對,但核對時不僅需要確定所提取信息的準確性,還須保證沒有遺漏其他相關信息。
該系統評價未提供數據提取的相關信息,此項回答“無信息”。
2.3.2 問題2:系統評價作者和讀者能獲取足夠的研究特征來解讀結果嗎?
納入研究的基本特征對解釋系統評價的結果十分重要,因為這有助于檢測異質性和結果的外部有效性。這些信息可能出現在系統評價的方法學部分、納入研究的基本特征表或結果部分,甚至需要通過其他資源(例如網上的附件)來獲取。
該系統評價的基本特征表提供了研究的作者、年份、人群對激素的反應程度、是否復發、NIS病理類型、干預和對照措施、隨訪等信息。研究特征詳細,此項回答“是”。
2.3.3 問題3:提取了所有相關的研究結果來進行數據合成嗎?
系統評價的作者應該報告需要什么數據以及何種數據格式。如果要提取的數據的格式不符合(例如,需要提取連續型變量的均值差,而原始研究中是以95%可信區間表示),系統評價應詳細描述通過什么方法來獲取,如轉換格式、聯系作者等。
該系統評價中二分類變量以相對危險度(RR)和95%可信區間(CI)表示效應量,連續性變量以加權均數差和95%CI表示,相關數據均被提取,格式正確,此項回答“是”。
2.3.4 問題4:使用了合適的工具來正規地評價原始研究的偏倚風險(或方法學質量)嗎?
正規地評價納入研究的偏倚風險是系統評價的重要部分。若未進行正規評價,則回答“否”;若評價了,則需要判斷評價的標準是否合適。如果對某研究設計使用的是公認的已發表的工具(例如,針對RCT的Cochrane偏倚風險評估工具 [6]或針對診斷試驗準確性研究的QUADAS-2工具 [7]),則回答“是”;如果僅僅列出評價條目,使用的是未發表或不再推薦的工具,評價者需要判斷該標準是否能識別原始研究的偏倚。例如,曾經廣泛使用的Jadad量表并不包含分配隱藏,這會忽略嚴重的偏倚 [8],但若系統評價使用了Jadad量表,還評價了分配隱藏,則可回答“是”。
該系統評價采用Juni量表 [9]評價RCT的偏倚風險,對RCT的4條質量評價標準進行分析評價:① 評價研究的隨機方法是否正確;② 是否做到分配隱藏、方法是否正確;③ 是否采用盲法;④ 有無失訪或退出,如失訪或退出時,是否采用ITT分析。而Juni量表不包含對選擇性報告和其他偏倚的評價,且未分別評價患者、實施者、結果測量者的施盲情況,此項回答“否”。
2.3.5 問題5:偏倚風險評價中盡可能地減小了誤差嗎?
偏倚風險評價也應該由至少2名研究人員獨立進行或者1名評價,另1名核對。
該系統評價未提供相關信息,此項回答“無信息”。
因此,該領域中,無法得知是否數據提取和質量評價盡可能地減小了誤差,未使用合適的工具來評價RCT的偏倚風險,故其偏倚風險程度“高”。
2.4 領域4:數據合成和結果呈現
這一領域主要評估系統評價制作者是否使用了合適的方法來合并原始研究的數據,包括定性和定量綜合。
2.4.1 問題1:數據合成包括了所有應該包括的研究嗎?
數據合成時可能會忽略一些研究的結果,其原因是:① 系統評價制作者不知道該研究的存在,所以無法獲取數據。如果研究因為結果的問題而未得到發表,那么合成的結果會產生偏倚(即發表偏倚)。實際操作過程中很難發現這種未納入的研究。② 不能獲取到納入研究的具體結果。需注意的是,未報告研究結果是因為結果的問題還是單純未報告。如果因為結果無統計學意義而未報告,則會出現選擇性報告的偏倚。③ 未能提取到數據(同領域3中的問題3),這可能是由于系統評價制作者經驗不足。如果漏掉的結果與合并的結果不同,會影響最終的結果。④ 系統評價制作者有意排除結果,例如研究的臨床異質性大時,制作者可能會排除這一研究的結果。納入研究≥ 10個的系統評價可以通過漏斗圖及其數據分析來判斷是否有發表偏倚和選擇性報告 [10];其他判斷數據遺漏的方法有剪補法、回歸方法 [11]等。
該系統評價在檢索時存在遺漏滿足納入標準的文獻的風險(見領域2);系統評價在結果“2.1.1 CTX聯合激素治療和單用激素治療比較”部分未將文獻15和18納入數據合并,是由于各患兒終點指標測量時間不同,而非選擇性報告;由于系統評價制作者提取了所有能提取的數據,不存在因其經驗不足而漏掉結果;系統評價中未進行漏斗圖分析,不能判斷是否有發表偏倚。此項回答“可能否”。
2.4.2 問題2:遵循了所有預先確定的分析方法嗎?未遵循的部分解釋了嗎?
系統評價制作者可能會選擇某種分析方法以弱化或替換不理想的研究結果,此時會產生偏倚。若系統評價的結果分析遵循了已發表或可獲得的計劃書,則回答“是”;如果無法獲取計劃書,但有提示說明系統評價遵循了預先確定的分析方法(例如,方法學部分嚴謹且所有分析在結果中均有所闡述),則回答“可能是”;若明確沒有預先確定的計劃書,則回答“否”;若系統評價未提及是否有計劃書,則回答“無信息”。
盡管該系統評價的方法學部分描述了分析方法,結果部分也有所體現,但系統評價未提及是否有計劃書,不能判斷分析方法是否提前確定、是否被遵循,此項回答“無信息”。
2.4.3 問題3:鑒于納入研究的問題、研究設計和結局指標的性質和相似性,數據合成方法恰當嗎?
此問題主要解決數據合成的方法學問題。如果進行定量合成,需要考慮是否能夠進行(是否在研究問題、設計和結局指標等方面一致,即臨床異質性),以及其統計學方法是否合理。若為定性合成,則需考慮此時應用定量合成是否更合適,以及敘述的方法是否合理。如果使用了合理的合成研究的統計方法,包括分配各研究權重的方法,則回答“是”。例如,納入研究存在異質性,但各研究的效應量大小或方向分布一致,應該使用隨機效應模型;對于診斷試驗準確性的研究,通常使用雙變量方法說明敏感度和特異度的相關性。
該系統評價“資料與方法”部分“統計學處理”中提到,試驗結果不存在異質性,則以固定效應模型描述,存在異質性時,則用隨機效應模型表達。數據合成方法恰當,此項回答“是”。
2.4.4 問題4:數據合成中研究之間的差異(異質性)是最小的或者經過處理了嗎?
Meta分析時忽略了研究的異質性會導致結論不正確或不準確。如果研究存在異質性,且進行了亞組分析或Meta回歸分析處理,之后使用了隨機效應模型,則回答“是”;若存在異質性,卻使用了固定效應模型,系統評價的作者應該承認這點,而且應該補充異質性相關的結果,并合理地解釋固定效應模型產生的結果。如果因為臨床異質性而進行敘述性合成,也回答“是”(即對異質性進行了處理)。
該系統評價中用于Meta分析的研究均無臨床異質性的,數據合成使用固定效應模型,此項回答“是”。
2.4.5 問題5:結果穩定嗎?
例如是否通過敏感性分析來證明?此問題評價當改變數據合并方法時是否會改變結果。例如,單個研究可能對合并的結果影響很大,若排除該研究則會改變結論。可使用敏感性分析檢驗非正規診斷標準或高偏倚風險的研究被排除后,結果是否穩定。若使用敏感性分析后證明結果是穩定的,則回答“是”;如果研究數量很少或異質性很大,即使不做敏感性分析也可判斷結果不穩定。若進行敘述性綜合,應該考慮使用不同合成方法時是否會導致不同的結論,以及單個研究是否影響結論。
該系統評價的結果部分用于Meta分析的研究均進行了敏感性分析,低質量研究被排除后未改變結果。但“2.1.2 CTX靜脈給藥與口服給藥治療后緩解率比較”僅對2個研究進行合并,且排除文獻13后,結果從差異有統計學變為無統計學意義,說明部分結果尚不穩定。此項回答“否”。
2.4.6 問題6:原始研究的偏倚最小嗎?或者在數據合成中處理了嗎?
如果系統評價作者忽略了原始研究的重大偏倚風險,或者作者評價了偏倚風險,但未在文章的結果或討論部分清晰地闡述,則回答“否”;如果所有原始研究均為低偏倚風險,或者對高偏倚風險的研究進行了敏感性分析或使用了校準方法,則回答“是”。
該系統評價對14個納入研究采用Juni量表評價后有10個為低質量,結果部分對低質量研究進行了敏感性分析或詳細闡述;但由于Juni量表非現有公認的評價工具,相較于Cochrane偏倚風險評價工具,選擇性報告等偏倚可能無法識別,而且所有納入的14個研究均未實施盲法,會帶來實施偏倚,所以另外4個非“低質量”研究可能質量并不高,而結果部分又未對此解釋,故此項回答“否”。
因此,該系統評價的數據合成可能會忽略一些研究的結果,不能判斷數據合成和分析方法是否提前確定且被遵循了,部分合并的結果不穩定,原始研究存在較明顯的偏倚,故系統評價偏倚風險程度“高”。
3 階段三:判斷偏倚風險
最后這一階段是判斷系統評價整體的偏倚風險。如果所有標志性問題的回答是“是”或“可能是”,則系統評價偏倚風險程度為“低”;若有任一標志性問題的回答是“可能否”或“否”,則系統評價存在相關偏倚風險;若提供的信息不足以判斷,則系統評價偏倚風險“不確定”。
3.1.1 問題1:結果解釋中處理了階段二中所有偏倚風險嗎?
此問題首先要回顧階段二中領域1~4的所有偏倚風險程度。如果所有領域的偏倚風險程度是“低”,則回答“是”;如果有1個以上是“高”或“不確定”,系統評價的作者應該在解釋結果時合理地處理這些偏倚風險。例如,如果系統評價使用了研究設計的濾器來限制檢索,這意味著會漏掉相關研究,但若承認這是局限性,并討論了這點如何影響結果和結論,則可回答“是”。
階段二各領域偏倚風險程度見表 2。作者在討論部分解釋了領域4的問題5中部分結果不穩定和影響結果可靠性的情況。雖然該系統評價制作時Cochrane偏倚風險評價工具尚未發表 [5],但所使用的Juni量表這一評價工具所產生的偏倚仍存在。文中并未對其他偏倚風險作出相應解釋。此項回答“否”。

3.1.2 問題2:合理地考慮到了納入研究與系統評價研究問題的相關性嗎?
結果解釋部分的一個重要方面是考慮納入研究和系統評價研究問題的相關性(外部有效性)。如果納入的研究并不直接適用于系統評價的問題,而且在結果解釋時沒有考慮這一情況,就可能產生偏倚。
該系統評價在結果解釋部分對各結局指標分別考慮了所納入的研究存在的問題、是否能做出結論。可認為考慮到了系統評價的外部有效性,此項回答“是”。
3.1.3 問題3:評價者避免強調有統計學意義的結果了嗎?
如果一個系統評價中有多個統計分析,系統評價的作者應該平衡地敘述所有統計分析。有時系統評價作者可能會強調有統計學意義的結果,這會致使讀者對系統評價的真正結果產生誤解。
該系統評價在討論和結論部分對所有“有統計學意義”和“無統計學意義”的統計分析均進行客觀描述,避免強調有統計學意義的結果。此項回答“是”。
綜合以上3個問題,系統評價未對階段二中部分偏倚風險作出相應解釋和處理,此系統評價偏倚風險程度“高”。
4 小結
本文選取2006年發表的一篇系統評價,使用ROBIS工具評估其偏倚風險,其風險程度為“高”,主要存在于研究的檢索和篩選、數據提取和質量評價、數據合成和結果呈現部分。基于此,我們建議系統評價制作者在制定系統評價前應該制定計劃書并進行注冊或發表;此外,系統評價制作者應該接受系統的檢索培訓,掌握檢索方法;并且數據檢索、文獻篩選和納入、數據提取和質量評價等步驟需嚴格獨立實施;建議在制定系統評價時,先對ROBIS工具進行系統學習和研究,以降低系統評價的偏倚風險、提高系統評價結果和結論的可信度。
我們在應用ROBIS工具評估此系統評價時,先由一人進行評估,另一人核對,有分歧或不確定時相互討論或咨詢第三方。我們發現評價過程耗時較長,工作量較大;ROBIS工具沒有提供詳細的資料來幫助評價者確定“系統評價是否有計劃書”;在確定“數據合成是否包括了所有應該包括的研究”時,難以判斷是否存在發表偏倚和選擇性報告。ROBIS工具需在應用過程中逐漸完善。本文評估的是一篇干預性系統評價,未體現該工具在評估非干預性系統評價的優越性,日后可進一步探討。
ROBIS工具是一種評估系統評價偏倚風險的新工具,為使讀者更好地理解和使用該工具,本文以《環磷酰胺治療兒童腎病綜合征隨機對照試驗的系統評價》 [1]為例,采用ROBIS對其偏倚風險進行評價。
1 階段一:評估相關性(根據情況選擇)
由于系統評價針對的問題(包括干預性、病因性、診斷性和預后性)不同,評估要素也不同(參見《ROBIS:評估系統評價偏倚風險的新工具》一文)。評價者需找到系統評價擬解決的問題,并與目標問題比較,確定是否匹配。比較結果以“是”、“否”、“部分”和“不確定”表示。若兩個問題完全匹配則為“是”;若有一個或多個要素不匹配,則為“否”;若兩個問題的同一要素部分符合,其他要素完全匹配,則為“部分”(如,目標問題的人群是成年人,系統評價問題的人群是60歲以上的人);若系統評價問題的某一要素不清楚,則不能確定是否匹配,表示為“不確定”。
假定我們需要制定一個關于“環磷酰胺(CXT)治療兒童腎病綜合征(NIS)的有效性和安全性”的系統評價再評價,主要針對激素不敏感或復發的難治性腎病綜合征。目標問題與系統評價問題見表 1。由表 1可知,問題的4個要素均匹配,故此問題回答“是”。

2 階段二:確定系統評價制作過程中偏倚風險的程度
這一階段主要確定系統評價制作過程中可能產生的偏倚,涉及4個領域,需要按順序但不能孤立地評價每個領域。標志性問題的回答以“是”、“可能是”、“可能否”、“否”和“無信息”表示。最后判斷該領域的偏倚風險程度時,分為“低”、“高”、“不確定”。如果所有標志性問題的回答是“是”或“可能是”,則該領域偏倚風險程度為“低”;若有任一標志性問題的回答是“可能否”或“否”,則偏倚風險程度為“高”;若提供的信息不足以判斷,則偏倚風險程度為“不確定”。
2.1 領域1:研究的納入標準
這一領域旨在評估系統評價的納入標準是否預先確定,是否清晰且適合于系統評價的問題。預先確定納入標準是為了保證納入原始研究是基于提前設定的統一標準,而不是基于原始研究本身的情況。具體評價內容如下:
2.1.1 問題1:系統評價遵循了預先確定的目的和納入標準嗎?
預先確定的信息應體現在系統評價計劃書中,一般包括研究設計、研究對象、干預措施或暴露因素、結局指標(當作為納入標準時)等。排除標準也應提前確定。當可獲取提供此類信息的計劃書時,則回答“是”;若不能獲取相關計劃書,但提供了預先確定的目的和納入標準,且有理由相信是提前確定的可信,系統評價制定全過程也遵循了該目的和納入排除標準,則回答“可能是”;如果沒有檢索到計劃書,目的和納入排除標準僅在系統評價發表之后可獲得,且沒有理由相信這些信息是提前確定且在實施過程中被遵循,則回答為“可能否”;若系統評價沒有目的和納入排除標準,則回答“否”。
該系統評價在摘要和背景部分闡述了系統評價的目的是“對國內外CTX治療兒童NIS的隨機對照試驗(RCT)進行Meta分析,評價CTX的療效和不良反應”。該系統評價在資料與方法部分描述了研究對象的納入排除標準,納入研究限定為RCT,干預措施和對照措施均列出,主要和次要結局指標也清晰陳述。通過閱讀全文,可判斷系統評價制作遵循了且其結果體現了該目的和納入排除標準,但由于未提供系統評價計劃書,故此項回答“可能是”。
2.1.2 問題2:納入標準適合系統評價的問題嗎?
納入標準應源于系統評價的問題,而且應該足夠詳細(例如,描述研究對象的年齡、疾病診斷標準、研究實施的環境、藥物的劑量或暴露的頻率等),才能判斷是否適合系統評價的問題。評價者可能需要掌握相關專業知識來回答這一問題。
該系統評價的問題是探討CTX治療兒童NIS的有效性和安全性,主要針對激素不敏感或復發的難治性NIS。納入標準中研究對象限定為3個月至18歲的兒童,且排除了激素敏感且不復發、先天性和繼發性NIS的兒童;疾病確診以國際兒科腎病協作中心和中華醫學會兒科分會腎臟病學組制定的標準為依據;研究實施的環境未作限定;藥物的劑量和療程為干預變量,未作限定;結局指標圍繞有效性和安全性。納入標準適合系統評價的問題,此項回答“是”。
2.1.3 問題3:納入標準明確嗎?
納入標準應盡可能地對研究設計、研究對象、干預措施或暴露因素、對照措施和結局指標提供明確、詳細的信息,并具有可重復性。例如,對于某一疾病如有不同診斷方法,系統評價制定者應該預先確定一個合適的診斷方法,以避免偏倚的產生;對于干預措施或暴露因素,制定者也應該提供關于劑量、使用頻次、同時使用的其他治療方法等信息。同樣,評價者可能需要掌握相關專業知識來回答這一問題。
該系統評價中,研究設計、研究對象、干預組和對照組的情況、結局指標均清晰描述,疾病診斷標準明確(見問題2的解讀),故此項回答“是”。
2.1.4 問題4:納入標準中所有基于研究特征的限制合適嗎?
所有基于納入研究特征的限制(例如,對研究設計、研究發表的時間、樣本量、研究的質量和結局指標的限制)必須描述清晰,而且需要提供合理的理由,以幫助評價者判斷這些限制是否合理。若納入標準足夠詳細且未進行限制,則回答“是”;若提供的信息足以判斷這些限制的合理性,則回答“是”或“可能是”;如果未對限制陳述理由或提供的信息不足以判斷其合理性,則回答“可能否”或“否”。
RCT為臨床療效研究的金標準 [2],該系統評價為研究臨床療效的干預性系統評價,其研究設計限定為RCT,排除回顧性的、沒有設置正確治療對照的、非隨機或隨機方法不正確的文獻,此限定合理。文中未報告其他研究特征的限制信息,可認為未進行限制。此項回答“是”。
2.1.5 問題5:納入標準中所有與研究來源相關的限制合適嗎?
任何基于信息來源的限制(發表狀態或形式、語言和數據可得性等)必須描述清晰,且需提供理由,從而幫助評價者判斷這些限制是否合理。對問題的回答情況同問題4。
該系統評價未報告發表狀態、形式和語言的限制信息,可認為未作限制。對于在不同期刊上出現的同一作者的相近內容的文獻,制定者納入了數據最全的1篇。對于同一作者的同一研究,其結果出現在不同期刊上,為排除重復文獻或研究,選擇數據最全的研究是合理的,此項回答“是”。
因此,該領域中,納入標準可能是提前確定,且符合系統評價的問題,所有標志性問題的回答為“是”或“可能是”,其偏倚風險程度為“低”。
2.2 領域2:研究的檢索和篩選
這一領域旨在評估系統評價是否遺漏了滿足納入標準的原始研究,以及是否納入了不符合納入標準的研究。此領域包括如下內容:
2.2.1 問題1:檢索已發表和未發表的研究時所包含的數據庫或電子資源的范圍合適嗎?
對于不同系統評價的問題,檢索要包含的數據庫或電子資源的范圍不同,評價者需要對此作出判斷。一般至少要檢索 MEDLINE和 EMbase數據庫,還應該檢索會議報告和臨床試驗注冊平臺。具體可參考系統評價相關指導,如Cochrane手冊 [
該系統評價檢索了MEDLINE、EMbase、中國期刊全文數據庫、中國優秀博碩士論文庫,檢索了相關腎臟會議論文,未檢索臨床注冊平臺,故此項回答“否”。
2.2.2 問題2:使用了除數據庫檢索以外的其他方法來確定相關研究嗎?
檢索時還應使用其他方法如引文檢索、聯系專家、追溯參考文獻、手工檢索等。
該系統評價除檢索數據庫外,還直接給作者寫信、手工檢索國內外系統評價的參考文獻和相關腎臟會議論文和參考文獻,故此項回答“是”。
2.2.3 問題3:檢索策略的檢索詞和結構能盡可能多地檢索到符合的研究嗎?
完整的檢索策略應該十分詳細且具有可重復性。評價者應該判斷檢索詞的范圍、檢索詞的組合(例如,是否進行了主題檢索和自由檢索)、使用的濾器是否合適(例如,診斷性系統評價不能使用濾器 [4])。如果提供的信息不全,則回答“可能否”或“否”。檢索策略的評價指導可從電子檢索策略同行評審(Peer Review of Electronic Search Strategies,PRESS) [5]循證清單上獲取。
該系統評價在“1.5.2文獻檢索”部分提供的檢索詞不完整,未列出中文檢索詞,英文檢索未對環磷酰胺的同義詞(endoxan,cytoxan,cyclophosphamidum)進行檢索,且未說明是否進行了主題檢索和自由檢索,未報告是否使用濾器。檢索策略并不能保證盡可能多地檢索到符合的研究,此項回答“否”。
2.2.4 問題4:基于時間、發表形式、語言的限制合適嗎?
該項要與領域1中的問題5相區別,領域1的問題5針對的是系統評價的納入排除標準,而此處針對的是系統評價的檢索策略。時間、發表形式、語言這三類信息都應有所描述。對時間的限制可能合理,但應該描述理由(例如,某藥物在某個時間點后才應用)。如對后兩者進行限制(例如,限制為有全文的研究、限制為英文),一般認為不合理。
該系統評價報告檢索時間是從建庫到2005年,可認為是截至系統評價制定時的時間(該系統評價于2006年發表);未限制語言,非英語文獻先請專人翻譯成英語或中文;未提供發表形式的限制信息;此項回答“是”。
2.2.5 問題5:研究的篩選中盡可能地減小了誤差嗎?
標題或摘要篩選應該由至少2名研究人員獨立進行;全文篩選應該由至少2名研究人員開展(2人獨立進行,或者1人篩選1人核對)。
該系統評價的文獻檢索和文獻篩選由2人獨立完成,有爭議時咨詢專家小組。可認為篩選時盡可能地減小了誤差,故此項回答“是”。
因此,該領域中,檢索的數據庫不全面,檢索詞的范圍和組合不完善,不能保證盡可能地檢索到滿足納入標準的研究,故其偏倚風險程度“高”。
2.3 領域3:數據提取和質量評價
這一領域主要評價數據提取和原始研究質量評價時是否產生了偏倚。
2.3.1 問題1:數據提取中盡可能地減小了誤差嗎?
數據提取過程應該由至少2名研究人員進行,應該先進行預試驗以完善數據提取表。理論上,2名研究人員應該獨立進行數據提取,但也可以由1名提取信息,另1名仔細核對,但核對時不僅需要確定所提取信息的準確性,還須保證沒有遺漏其他相關信息。
該系統評價未提供數據提取的相關信息,此項回答“無信息”。
2.3.2 問題2:系統評價作者和讀者能獲取足夠的研究特征來解讀結果嗎?
納入研究的基本特征對解釋系統評價的結果十分重要,因為這有助于檢測異質性和結果的外部有效性。這些信息可能出現在系統評價的方法學部分、納入研究的基本特征表或結果部分,甚至需要通過其他資源(例如網上的附件)來獲取。
該系統評價的基本特征表提供了研究的作者、年份、人群對激素的反應程度、是否復發、NIS病理類型、干預和對照措施、隨訪等信息。研究特征詳細,此項回答“是”。
2.3.3 問題3:提取了所有相關的研究結果來進行數據合成嗎?
系統評價的作者應該報告需要什么數據以及何種數據格式。如果要提取的數據的格式不符合(例如,需要提取連續型變量的均值差,而原始研究中是以95%可信區間表示),系統評價應詳細描述通過什么方法來獲取,如轉換格式、聯系作者等。
該系統評價中二分類變量以相對危險度(RR)和95%可信區間(CI)表示效應量,連續性變量以加權均數差和95%CI表示,相關數據均被提取,格式正確,此項回答“是”。
2.3.4 問題4:使用了合適的工具來正規地評價原始研究的偏倚風險(或方法學質量)嗎?
正規地評價納入研究的偏倚風險是系統評價的重要部分。若未進行正規評價,則回答“否”;若評價了,則需要判斷評價的標準是否合適。如果對某研究設計使用的是公認的已發表的工具(例如,針對RCT的Cochrane偏倚風險評估工具 [6]或針對診斷試驗準確性研究的QUADAS-2工具 [7]),則回答“是”;如果僅僅列出評價條目,使用的是未發表或不再推薦的工具,評價者需要判斷該標準是否能識別原始研究的偏倚。例如,曾經廣泛使用的Jadad量表并不包含分配隱藏,這會忽略嚴重的偏倚 [8],但若系統評價使用了Jadad量表,還評價了分配隱藏,則可回答“是”。
該系統評價采用Juni量表 [9]評價RCT的偏倚風險,對RCT的4條質量評價標準進行分析評價:① 評價研究的隨機方法是否正確;② 是否做到分配隱藏、方法是否正確;③ 是否采用盲法;④ 有無失訪或退出,如失訪或退出時,是否采用ITT分析。而Juni量表不包含對選擇性報告和其他偏倚的評價,且未分別評價患者、實施者、結果測量者的施盲情況,此項回答“否”。
2.3.5 問題5:偏倚風險評價中盡可能地減小了誤差嗎?
偏倚風險評價也應該由至少2名研究人員獨立進行或者1名評價,另1名核對。
該系統評價未提供相關信息,此項回答“無信息”。
因此,該領域中,無法得知是否數據提取和質量評價盡可能地減小了誤差,未使用合適的工具來評價RCT的偏倚風險,故其偏倚風險程度“高”。
2.4 領域4:數據合成和結果呈現
這一領域主要評估系統評價制作者是否使用了合適的方法來合并原始研究的數據,包括定性和定量綜合。
2.4.1 問題1:數據合成包括了所有應該包括的研究嗎?
數據合成時可能會忽略一些研究的結果,其原因是:① 系統評價制作者不知道該研究的存在,所以無法獲取數據。如果研究因為結果的問題而未得到發表,那么合成的結果會產生偏倚(即發表偏倚)。實際操作過程中很難發現這種未納入的研究。② 不能獲取到納入研究的具體結果。需注意的是,未報告研究結果是因為結果的問題還是單純未報告。如果因為結果無統計學意義而未報告,則會出現選擇性報告的偏倚。③ 未能提取到數據(同領域3中的問題3),這可能是由于系統評價制作者經驗不足。如果漏掉的結果與合并的結果不同,會影響最終的結果。④ 系統評價制作者有意排除結果,例如研究的臨床異質性大時,制作者可能會排除這一研究的結果。納入研究≥ 10個的系統評價可以通過漏斗圖及其數據分析來判斷是否有發表偏倚和選擇性報告 [10];其他判斷數據遺漏的方法有剪補法、回歸方法 [11]等。
該系統評價在檢索時存在遺漏滿足納入標準的文獻的風險(見領域2);系統評價在結果“2.1.1 CTX聯合激素治療和單用激素治療比較”部分未將文獻15和18納入數據合并,是由于各患兒終點指標測量時間不同,而非選擇性報告;由于系統評價制作者提取了所有能提取的數據,不存在因其經驗不足而漏掉結果;系統評價中未進行漏斗圖分析,不能判斷是否有發表偏倚。此項回答“可能否”。
2.4.2 問題2:遵循了所有預先確定的分析方法嗎?未遵循的部分解釋了嗎?
系統評價制作者可能會選擇某種分析方法以弱化或替換不理想的研究結果,此時會產生偏倚。若系統評價的結果分析遵循了已發表或可獲得的計劃書,則回答“是”;如果無法獲取計劃書,但有提示說明系統評價遵循了預先確定的分析方法(例如,方法學部分嚴謹且所有分析在結果中均有所闡述),則回答“可能是”;若明確沒有預先確定的計劃書,則回答“否”;若系統評價未提及是否有計劃書,則回答“無信息”。
盡管該系統評價的方法學部分描述了分析方法,結果部分也有所體現,但系統評價未提及是否有計劃書,不能判斷分析方法是否提前確定、是否被遵循,此項回答“無信息”。
2.4.3 問題3:鑒于納入研究的問題、研究設計和結局指標的性質和相似性,數據合成方法恰當嗎?
此問題主要解決數據合成的方法學問題。如果進行定量合成,需要考慮是否能夠進行(是否在研究問題、設計和結局指標等方面一致,即臨床異質性),以及其統計學方法是否合理。若為定性合成,則需考慮此時應用定量合成是否更合適,以及敘述的方法是否合理。如果使用了合理的合成研究的統計方法,包括分配各研究權重的方法,則回答“是”。例如,納入研究存在異質性,但各研究的效應量大小或方向分布一致,應該使用隨機效應模型;對于診斷試驗準確性的研究,通常使用雙變量方法說明敏感度和特異度的相關性。
該系統評價“資料與方法”部分“統計學處理”中提到,試驗結果不存在異質性,則以固定效應模型描述,存在異質性時,則用隨機效應模型表達。數據合成方法恰當,此項回答“是”。
2.4.4 問題4:數據合成中研究之間的差異(異質性)是最小的或者經過處理了嗎?
Meta分析時忽略了研究的異質性會導致結論不正確或不準確。如果研究存在異質性,且進行了亞組分析或Meta回歸分析處理,之后使用了隨機效應模型,則回答“是”;若存在異質性,卻使用了固定效應模型,系統評價的作者應該承認這點,而且應該補充異質性相關的結果,并合理地解釋固定效應模型產生的結果。如果因為臨床異質性而進行敘述性合成,也回答“是”(即對異質性進行了處理)。
該系統評價中用于Meta分析的研究均無臨床異質性的,數據合成使用固定效應模型,此項回答“是”。
2.4.5 問題5:結果穩定嗎?
例如是否通過敏感性分析來證明?此問題評價當改變數據合并方法時是否會改變結果。例如,單個研究可能對合并的結果影響很大,若排除該研究則會改變結論。可使用敏感性分析檢驗非正規診斷標準或高偏倚風險的研究被排除后,結果是否穩定。若使用敏感性分析后證明結果是穩定的,則回答“是”;如果研究數量很少或異質性很大,即使不做敏感性分析也可判斷結果不穩定。若進行敘述性綜合,應該考慮使用不同合成方法時是否會導致不同的結論,以及單個研究是否影響結論。
該系統評價的結果部分用于Meta分析的研究均進行了敏感性分析,低質量研究被排除后未改變結果。但“2.1.2 CTX靜脈給藥與口服給藥治療后緩解率比較”僅對2個研究進行合并,且排除文獻13后,結果從差異有統計學變為無統計學意義,說明部分結果尚不穩定。此項回答“否”。
2.4.6 問題6:原始研究的偏倚最小嗎?或者在數據合成中處理了嗎?
如果系統評價作者忽略了原始研究的重大偏倚風險,或者作者評價了偏倚風險,但未在文章的結果或討論部分清晰地闡述,則回答“否”;如果所有原始研究均為低偏倚風險,或者對高偏倚風險的研究進行了敏感性分析或使用了校準方法,則回答“是”。
該系統評價對14個納入研究采用Juni量表評價后有10個為低質量,結果部分對低質量研究進行了敏感性分析或詳細闡述;但由于Juni量表非現有公認的評價工具,相較于Cochrane偏倚風險評價工具,選擇性報告等偏倚可能無法識別,而且所有納入的14個研究均未實施盲法,會帶來實施偏倚,所以另外4個非“低質量”研究可能質量并不高,而結果部分又未對此解釋,故此項回答“否”。
因此,該系統評價的數據合成可能會忽略一些研究的結果,不能判斷數據合成和分析方法是否提前確定且被遵循了,部分合并的結果不穩定,原始研究存在較明顯的偏倚,故系統評價偏倚風險程度“高”。
3 階段三:判斷偏倚風險
最后這一階段是判斷系統評價整體的偏倚風險。如果所有標志性問題的回答是“是”或“可能是”,則系統評價偏倚風險程度為“低”;若有任一標志性問題的回答是“可能否”或“否”,則系統評價存在相關偏倚風險;若提供的信息不足以判斷,則系統評價偏倚風險“不確定”。
3.1.1 問題1:結果解釋中處理了階段二中所有偏倚風險嗎?
此問題首先要回顧階段二中領域1~4的所有偏倚風險程度。如果所有領域的偏倚風險程度是“低”,則回答“是”;如果有1個以上是“高”或“不確定”,系統評價的作者應該在解釋結果時合理地處理這些偏倚風險。例如,如果系統評價使用了研究設計的濾器來限制檢索,這意味著會漏掉相關研究,但若承認這是局限性,并討論了這點如何影響結果和結論,則可回答“是”。
階段二各領域偏倚風險程度見表 2。作者在討論部分解釋了領域4的問題5中部分結果不穩定和影響結果可靠性的情況。雖然該系統評價制作時Cochrane偏倚風險評價工具尚未發表 [5],但所使用的Juni量表這一評價工具所產生的偏倚仍存在。文中并未對其他偏倚風險作出相應解釋。此項回答“否”。

3.1.2 問題2:合理地考慮到了納入研究與系統評價研究問題的相關性嗎?
結果解釋部分的一個重要方面是考慮納入研究和系統評價研究問題的相關性(外部有效性)。如果納入的研究并不直接適用于系統評價的問題,而且在結果解釋時沒有考慮這一情況,就可能產生偏倚。
該系統評價在結果解釋部分對各結局指標分別考慮了所納入的研究存在的問題、是否能做出結論。可認為考慮到了系統評價的外部有效性,此項回答“是”。
3.1.3 問題3:評價者避免強調有統計學意義的結果了嗎?
如果一個系統評價中有多個統計分析,系統評價的作者應該平衡地敘述所有統計分析。有時系統評價作者可能會強調有統計學意義的結果,這會致使讀者對系統評價的真正結果產生誤解。
該系統評價在討論和結論部分對所有“有統計學意義”和“無統計學意義”的統計分析均進行客觀描述,避免強調有統計學意義的結果。此項回答“是”。
綜合以上3個問題,系統評價未對階段二中部分偏倚風險作出相應解釋和處理,此系統評價偏倚風險程度“高”。
4 小結
本文選取2006年發表的一篇系統評價,使用ROBIS工具評估其偏倚風險,其風險程度為“高”,主要存在于研究的檢索和篩選、數據提取和質量評價、數據合成和結果呈現部分。基于此,我們建議系統評價制作者在制定系統評價前應該制定計劃書并進行注冊或發表;此外,系統評價制作者應該接受系統的檢索培訓,掌握檢索方法;并且數據檢索、文獻篩選和納入、數據提取和質量評價等步驟需嚴格獨立實施;建議在制定系統評價時,先對ROBIS工具進行系統學習和研究,以降低系統評價的偏倚風險、提高系統評價結果和結論的可信度。
我們在應用ROBIS工具評估此系統評價時,先由一人進行評估,另一人核對,有分歧或不確定時相互討論或咨詢第三方。我們發現評價過程耗時較長,工作量較大;ROBIS工具沒有提供詳細的資料來幫助評價者確定“系統評價是否有計劃書”;在確定“數據合成是否包括了所有應該包括的研究”時,難以判斷是否存在發表偏倚和選擇性報告。ROBIS工具需在應用過程中逐漸完善。本文評估的是一篇干預性系統評價,未體現該工具在評估非干預性系統評價的優越性,日后可進一步探討。