隨著外科學領域文獻數量的快速增長,越來越需要對現有證據進行評價和總結,使其能夠更適用于臨床。當針對某一臨床問題的高質量臨床試驗很少時,對系統評價的結果解釋就比較困難。若堅持使用嚴格的評價方法(包括全面的文獻檢索、主要研究的質量評價、恰當的統計學方法、對估計值和偏倚風險的信度評估等),就可以將偏倚風險降到最低,并可能得出有用結論。因此,本文的目的是:(1)總結外科學領域全面嚴格的系統評價和meta分析的重要特征;(2)強調幾個未廣泛應用的統計學方法,相對于傳統的兩兩對照數據合成,這些方法可能會開拓更廣泛有趣的視野;(3)為全面分析和結果撰寫提供一個指南。
引用本文: KevinPhan, DavidH. Tian, ChristopherCao, DeborahBlack, TristanD. Yan. 學術型外科醫師如何撰寫系統評價和Meta分析?. 中國胸心血管外科臨床雜志, 2015, 22(5): 409-417. doi: 10.7507/1007-4848.20150110 復制
隨著外科學領域文獻數量的快速增長,越來越需要對現有證據進行總結和評價,使其能夠更適于臨床應用[1-2]。循證醫學即是慎重、清晰、明智地應用可獲得的最佳研究證據來指導衛生保健決策。臨床決策應當基于現有的全面證據,而非基于任何單一研究結果[3]。現代循證外科方法中的正規全面文獻匯總評價(無論是否伴有額外統計分析)對于外科醫生臨床實踐而言非常重要。這些文獻匯總評價為外科醫生提供不斷更新的診斷、預后和健康干預效益知識[4]。
系統評價和meta分析雖然日趨普及,仍有一定局限性。外科醫生在臨床上直接應用其結論之前,必須謹記其局限性。系統評價和meta分析質量不僅源于原始研究的質量,還取決于系統評價制作的嚴謹程度[5]。一項制作質量較差的系統評價和meta分析往往采用了可信度較差的制作方法和統計分析,這可能會得出誤導的結果和結論[6-7]。當針對某一臨床問題的高質量臨床試驗很少時,系統評價的結果解釋就比較困難。如果采用嚴格的評價方法,就可以將偏倚風險降到最低,并可能得出有用的結論。這些評價方法包括:全面的文獻檢索、原始研究質量評價、恰當的統計分析、對估計值和偏倚風險的信度評估。
因此,本文的目的是:(1)總結外科學領域全面嚴格的系統評價和meta分析的重要特征;(2)強調幾個未廣泛應用的統計學方法,相對于傳統的兩兩對照數據合成,這些方法可能會開拓更廣泛有趣的視野;(3)為全面分析和結果撰寫提供一個指南。
1 構建臨床問題
在檢索文獻之前,必須先構建好既清晰準確又適于做系統評價或meta分析的臨床問題。為了改善現有臨床認知、實踐、指南和決策,仔細評估臨床問題的意義和適用性非常重要。
構建臨床問題有一個公認方法就是采取PICO格式。PICO即清晰定義研究人群(P)、干預(I)、對照(C)、結局(O)[1]。例如,在最近一篇無縫合主動脈瓣置換的系統評價和meta分析[8]中,研究人群定義為需要進行外科主動脈瓣置換的患者(P),干預是微創主動脈瓣置換(I),對照是傳統主動脈瓣置換(C),結局包括圍手術期死亡率和并發癥(O)。
構建一個好的臨床問題的難點在于定義研究人群和干預方式的范圍。為了確定問題的范圍,評價者必須充分理解現有文獻證據、潛在不足和不確定因素,并了解系統評價或meta分析或許可以補充哪些不足、回答哪些問題。
范圍綜述(scoping review)有助于探索現有證據的范圍并幫助確定臨床問題的范圍。當構建臨床問題時,需要考慮現有證據等級和研究設計。例如,如果有可以納入足夠的隨機對照試驗(RCT),則可將系統評價的范圍限定為僅納入RCT,這樣可以避免非隨機研究帶來的選擇性偏倚。相反,如果可納入RCT較少,而證據主要局限于觀察性研究時,評價者則可以考慮將范圍擴展到同時納入RCT和觀察性研究。為了分析非隨機設計對結局效應量的影響,可以進行二次分析,即亞組分析和敏感性分析[10-11]。當進行meta分析時,問題可能會更窄,例如僅納入對比兩種干預方式的試驗。
相似的邏輯也適用于設定研究人群、干預、對照及結果的范圍。例如,如果人群定義過寬,則眾多危險因素會影響結局效應估計值,進而產生錯誤的趨勢和結論[12-13]。例如,年輕患者( < 50歲)和老年患者( > 70歲)因為潛在合并疾病及手術風險不同,所以植入的主動脈瓣耐用度方面也存在著差異。因此若合成所有年齡患者的無再手術率數據,則會所得出一個不準確的全年齡組瓣膜耐用度[14]。
一個清晰的問題應該既有臨床意義又有嚴格定義的研究人群、干預方式、對照和結局指標。當問題不清晰時,系統評價就會模糊、結構差、異質性強,此時會產生一系列風險,并且得出無效的結果。我們推薦在制作系統評價之前先寫作或發表一個研究計劃書[15-16]。此研究計劃書應充分定義納入排除標準、研究對象、干預、結局指標和統計分析策略。
2 文獻檢索
下一步,作者應根據要回答的臨床問題預先設定納入及排除標準,并在最終文稿中寫明。此標準可能包括:擬納入研究的設計(RCT還是所有研究類型;僅對照研究)、研究人群特點(性別、年齡、疾病)、研究發表語言以及發表時間(比如納入2000年以后發表的研究)。排除標準包括但不限于:低級證據(如僅有摘要)、會議論文,社論及專家觀點、重復隨訪報道同一組人群的研究、每組少于10個樣本的研究等等。應該考慮到納入排除標準所引起的潛在偏倚,并與系統評價結果一同討論。
為了全面系統的檢索原始研究,推薦檢索多個數據庫[17]。經典的電子數據庫包括MEDLINE,EMbase,PubMed,Cochrane Central Register of Controlled trials和ACP。如果僅檢索一個數據庫,則很可能存在漏檢,因此是不推薦的[17-19]。非常重要的是,評價者應該根據其預設的臨床問題使用關鍵詞、MeSH詞以及布爾邏輯符,比如“AND”,“OR”和“NOT”。根據PRISMA指南[20],在系統評價中需至少提供一個檢索策略,可以作為文章表格或補充表格或者附錄數據。文獻檢索應該至少由兩個評價者分別獨立完成。兩人對最終納入文章的任何不一致意見都應該由討論和協商解決。而且,需要進行附加檢索,包括檢索注冊試驗、納入研究的參考文獻、外文文獻和與領域內專家交流等[21-23]。在終稿中,應該按照PRISMA流程圖標明整體檢索策略。
3 研究質量評價
納入研究的內在偏倚風險會影響最終結果的真實性(validity)。因此,需要依據Cochrane或觀察性研究報告指南(MOOSE)指南對納入研究進行質量評價。
許多不同的清單和工具可以用來評估研究內部偏倚[24-25]。考克蘭協作組Review Manager軟件內置有RCT質量評價工具,其包括如下方面:隨機序列生成、分配隱藏、受試者盲法、結局評估盲法、不完整結果數據、選擇性報告結果以及其他偏倚來源。RCT常被認為是系統評價和meta分析該納入的最佳高質量金標準研究。但不同的RCT在方法學和報告質量上有差異。因此,對所有納入的RCT進行質量評估非常重要。高質量RCT應該遵循隨機對照試驗報告規范(CONSORT),CONSORT標準包括22個清單條目和流程圖[28]。
也有許多清單可以評估觀察性研究[29-31]。其中一個是荷蘭考克蘭協作組建立的,而另一個常用清單是觀察性研究質量評價(STROBE)[29]。MOOSE工具[31]的主要方面包括:(1)清晰定義研究人群;(2)清晰定義結局以及結局評估;(3)獨立評估結局參數;(4)足夠的隨訪;(5)隨訪時無選擇性失訪;(6)識別重要混雜因素和預后因素。強烈推薦采用這些清單來嚴格評估納入研究的質量。完整清單應該以文中表格或者補充表格形式出現在系統評價中。應該由至少兩個評價者獨立進行偏倚風險評估,而且任何差異都應該通過討論達成共識。表 1是最近發表的外科領域系統評價[8, 32]中的風險評估表單。對于不符合預先設定的質量要求的研究,需要謹慎考慮在進一步的統計分析中是否合納入,比如可以通過敏感性分析識別異質性或通過累積meta分析[33-35]來識別時間對效應量的影響[34, 36-37]。

4 數據提取
數據提取應該基于預先做好的提取表格進行,此表格內容包括預先定好的人口學數據、手術參數和結局指標等。數據提取應該至少由兩個評價者獨立進行,并通過協商解決不一致意見。這樣可以降低評價者偏倚風險、錯誤和主觀性。
5 統計學方法
5.1 概括統計量
需要基于系統評價類型和可用數據選擇統計方法。當系統評價研究某外科干預而沒有對照組時,可以采用描述性統計方法報道連續性變量的均數、標準差及范圍。如果研究間的人群特點或納入/排除標準足夠相似,則可以進行加權率的meta分析,即采用隨機效應模型合并單臂隊列研究。此類meta分析的一個例子就是采用加權合并分析無縫合主動脈瓣置換術(SU-AVR)[8]后隨訪12個月的瓣周漏發生率(圖 1)。

注:加權瓣周漏率是3.0%,95%置信區間為1.0%~5.8%,差異有統計學意義(I2=72%,P<0.001);SU-AVR為無縫合主動脈瓣置換術
對于基于對照研究的系統評價和meta分析,概要統計量的最佳表達形式就是森林圖[38]。森林圖包括每個納入研究效應量的加權合并,也能夠提示研究間的異質性。圖 2是微創主動脈瓣置換時采用胸骨小切口還是胸廓小切口對比的meta分析森林圖[39]。在森林圖中,以方塊表示其每個研究的效應量均數,以水平線表示每個研究的效應量95%置信區間。方塊大小代表著該研究在meta分析中所占的權重比例。黑色菱形代表meta分析的合成效應量,其寬度是整體置信區間。如果此菱形方塊全部在中心垂直實線的一側,則說明兩干預方式對比的效應量差異有統計學意義[38]。

注:采用加權均數差作為統計量,注意采用了亞組分析比較胸骨小切口和胸廓小切口兩種MIAVR方法,此圖所有亞組都可以看到顯著的異質性;MIAVR為微創主動脈瓣置換術;CAVR為傳統主動脈瓣置換術
點估計的典型概括統計量為描述二分類變量的相對危險度(RR)或優勢比(OR)和描述連續數據的加權均數差(WMD)。Meta分析的統計模型可以為固定效應模型或隨機效應模型。前者假設納入研究間的真實效應相似,而后者則假設納入研究描繪的是效應量的隨機樣本。隨機效應模型最適用于當效應量存在異質性時。
為了評估納入研究間的效應量是否存在一致性,需要對異質性進行量化評估[40]。常用的評估異質性的檢驗有兩種。考克蘭Q檢驗可以判斷該效應量異質性的有或無[41]。而I2統計量表示變異的量級,0%說明任何變異都源于機遇(chance),I2值越高則說明無法解釋的變異越大。通常來講,I2值大于50%說明該效應量存在顯著的異質性。
當存在顯著異質性時,需要解釋異質性的來源[40]。一些方法可以用來識別異質性的潛在來源。首先就是亞組分析[42]。對不同亞組的結局進行相同的統計分析,并在亞組間作交互式檢驗來識別亞組間是否存在顯著性差異。如果P值是顯著性,則很大可能會在特別亞組和目標結局之間存在相關性。另一個可以評估異質性的方法是下面要說的meta回歸。
5.2 Meta回歸分析
Meta回歸分析是另一個評估異質性的方法。Meta回歸分析判斷自變量與因變量間是否存在顯著的關聯性。自變量為研究或者干預的特點(例如年齡、研究時間點、手術時間),因變量為結局指標[43]。構建回歸模型時可以采用P值和回歸系數(r)評估相關性的強度。顯著關系表明研究變量可能是觀察到的變異性來源[8, 43-45]。如圖 3的meta回歸分析表明,采用Perceval S內植物時,研究時期中點與瓣周漏率呈顯著負相關[8]。這說明,對于瓣周漏的合并結局而言,SU-AVR學習曲線可能是異質性的來源。

注:呈顯著負相關(r=?0.853,P=0.031),表明瓣周漏率隨時間增加而減少。這是圖 1中率的meta分析的一個潛在異質性來源,這說明瓣周漏與學習時間曲線相關。
5.3 網絡meta分析
網絡meta分析可能適合于評估多個干預方式( > 2)治療同一種疾病或獲得同一種結局的情況。眾所周知,網絡meta分析是一種多種干預方式比較的meta分析,其目的是合并所有可能的含有多個干預方式的直接或間接對照結果,并進行整體比較[46-48]。相對于傳統的兩兩對比meta分析,網絡meta分析的優點是采用了間接證據,合成所有可獲得的數據,可以為目前還沒有頭對頭直接比較試驗的干預方式間的對照計算效應估計值。
盡管本文范圍不包括網絡meta分析的統計學細節,但是仍需指出:可用的直接證據(A比B)和間接證據(A比C,C比B)可以采用貝葉斯統計模型運行蒙特卡羅模擬[49]。此模型會收斂似然估計效應量,并提供一個A比B比C模式的對照。此方法的前提假設是干預方式的對照組(比如C)在間接對比試驗間是相似的[50]。
網絡meta分析特有軟件包包括WinBUGS和GeMTC包。網絡meta分析的制作過程與傳統meta分析相似,包括(I)從直接和間接對照研究中提取數據;(II)將數據輸入軟件例如WinBUGS或GeMTC;(III)運行貝葉斯模型和蒙特卡羅模擬。
在這個首次對比中位胸骨切開、微創胸骨切開、微創胸廓切開進行微創主動脈瓣置換的系統評價中,采用了基于直接和間接證據的貝葉斯網絡meta分析[39]。因為既往很少有研究針對微創胸骨切開和微創胸廓切開進行了頭對頭對比,所以這種情況特別適于做網狀meta分析。此網絡meta分析整合直接對照和間接對照證據,得出了微創胸骨切開與微創胸廓切開術對比的效應量。
網絡meta分析的注意事項是,其比兩種干預方式對照meta分析更容易受異質性的影響[51-52]。在進行網絡meta分析時,可以用幾個不同的模型來評估異質性。這些統計模型包括一致性模型、不一致性模型和節點拆分模型(node-splitting model)。如果發現了顯著的異質性,則需要說明不一致性模型和節點拆分模型的結果,并且要慎重得出文章結論[53]。
5.4 時間事件數據分析
在系統評價和meta分析中,時間事件結局如生存數據等一般用風險比(HR)來進行合并。但是,很多研究并沒有報道HR,而且也無法獲得個體患者數據(IPD)。某些系統評價和meta分析簡單的從Kaplan-Meier圖中視覺上估計實際生存結局。但是,這個方法沒有考慮到刪失和失訪,而且無法估計HR。為了解決這個問題,已發表文獻推薦了幾個統計方法,這些方法能夠基于其他發表的概要統計量來估計HR[54-57]。這樣,就可以從已發表文獻中提取估計HR并進行meta分析。
Tierney等在2007年提出并驗證了一個常用的HR估計方法[58]。此方法是采取Digitizelt軟件數字化提取Kaplan Meier曲線的數據,并且從文章中提取風險患者數。因此,可以準確估計出數字化提取的實際生存率和隨訪期間的風險患者數目。Tierney等也制作了Excel電子表格[58],當在表格中輸入這些數據并且假設刪失數據不變,就可推導出此特定研究原始IPD的估計值。對所有納入研究采用相似的提取和推導重建數據IPD過程,重建的數據可以用于進行時間事件結局的meta分析。
Guyot和他的同事們在2012年提出了另一個新方法也可以重新估計IPD數據[59]。這個團隊設計出一種迭代算法,其可以解開根據原始研究數據繪制圖形的Kaplan-Meier方程。與Tierney等的方法相似,他們采用Digitizelt軟件來數字化提取Kaplan-Meier曲線數據,然后將這些數據輸入迭代算法運算得出理想的Kaplan-Meier方程解。同樣,此算法假定刪失數據不變,而且可以在R統計軟件上運行。重新得出的患者生存軟件能夠整合形成組合生存曲線。最近一篇文章采用這個方法來提取開放手術修復慢性B型主動脈夾層的長期時間事件生存數據,其產生的整合Kaplan-Meier曲線見圖 4[60]。最近,心胸外科系統評價[61]也已經開始采用這種方法。希望在不遠的將來,隨著時間事件數據的合成需求增加,此方法也能得到推廣。

注:對開放外科手術修復慢性B型主動脈夾層的7個研究中458例患者數據做了重建和呈現。虛線代表單個研究的KaplanMeier曲線,而實線代表整體隊列的整合重建生存數據
5.5 發表偏倚
系統評價的另外一個先天不足是發表偏倚[62-63]。相對于得出陽性結論的研究,那些得出陰性結論的研究文章常常更難被發表。常常導致是陰性結果研究更容易“丟失”,這常常會使得meta分析結果偏移,并得出誤導的結論。
因此,在系統評價或meta分析中,評估發表偏倚的潛在影響非常重要。評估發表偏倚最常用的方法是漏斗圖法[64]。漏斗圖標明了處理效應的精確度和大小,其形似倒漏斗。水平軸表示干預效果,垂直軸表示標準誤差。理想情況下,當發表偏倚很小時,漏斗圖的點圍繞平均效應值對稱分布。非對稱分布表明可能存在潛在的發表偏倚,而發表偏倚會破壞結論的真實性(validity)。Begg和Egger檢驗可以被一起用來在統計學上判定是否存在漏斗圖不對稱[65]。
為了評估計算某效應量發表偏倚的“丟失的研究”效應,可以采用剪補分析法[66]。這是一種漏斗圖方法的拓展,即在對稱的漏斗圖上識別和估計“丟失的研究”。將推理出的丟失研究填入漏斗圖,此時判斷效應量的結果改變是否顯著,以此來幫助評價發表偏倚。例如最近心胸外科領域的meta分析采用此方法評估發表偏倚的效應及“丟失的研究”,例子如圖 5[60, 67-68]。此方法的注意事項是,其完全基于前提假設:當漏斗圖完美對稱時,不存在發表偏倚。然而此假設或許成立也或許不成立。而且,發表偏倚的來源和機制并沒有充分闡明,因此需要謹慎解釋漏斗圖和剪補分析法的結果。

注:開放外科手術修復慢性B型主動脈夾層系統評價納入所有19個研究的漏斗圖。橫軸為死亡率的對數值,縱軸為標準誤的對數值。標準誤與研究大小乘負相關。漏斗圖不對稱可以表示發表偏倚。空心圓代表納入的研究,實行圓代表通過剪補分析法估算添加的研究
6 結果解釋
當對系統評價和meta分析的結果進行解釋時,需要考慮一下幾個因素。第一,評價者應該評估結果的臨床意義。例如,如果兩種干預方式的手術時間差異有統計學意義,相差5 min,那么這會顯著影響患者的結局嗎?既往研究曾建議,在臨床試驗的計劃和結果解釋中應該包含治療或者干預方式的最小臨床意義變化值(MCID)[69]。第二,評價者應該在討論部分討論和解釋異質性的潛在來源。這可能包括亞組分析或meta回歸來判定哪些因素影響目標結果。第三,系統評價應該討論其相對于既往系統評價(如果有的話)的優點以及此評價的不足。不足之處可能包括但不限于如下:納入非隨機研究(可能會導致偏倚風險)、較小的患者樣本量、比較隊列間人群基線的顯著差異,隨訪時間短、納入研究間采用外科干預的異質性等。
6.1 結局指標的GRADE評估
科學證據和結局指標的質量可以采用GRADE工具進行評估[70-71]。這是針對某特定結局的一種透明、結構化的證據評級方法。GRADE方法采用證據升級和降級的方法來為某結局進行證據評級。證據升級的指標包括大效應量和劑量反應關系。證據降級的指標包括嚴重的偏倚風險、研究嚴重的不一致性、嚴重的間接性、嚴重的不準確性和可能的發表偏倚。GRADE工具可能會使評價者對系統評價的效應量增加或減少信心,也就是說,對真實的關聯性有較高的信心[71-72]。
6.2 結果撰寫
圖 6是系統評價和meta分析的整體過程。為了輔助外科醫生嚴格制作系統評價和meta分析,我們推薦結構化的結果撰寫(表 2)。


6.3 結論
系統評價和meta分析可以合成研究數據和評估現有證據質量,因此在外科領域越來越重要。但是,外科醫生應該注意系統評價的質量。較差的系統評價質量可能會嚴重破環結果和結論的真實性。為了獲得高質量系統評價及可靠的結論,必須嚴格執行標準化的制作過程。本文中我們對系統評價制作過程進行了概述,以確保優化系統評價和meta分析的質量和結果。
隨著外科學領域文獻數量的快速增長,越來越需要對現有證據進行總結和評價,使其能夠更適于臨床應用[1-2]。循證醫學即是慎重、清晰、明智地應用可獲得的最佳研究證據來指導衛生保健決策。臨床決策應當基于現有的全面證據,而非基于任何單一研究結果[3]。現代循證外科方法中的正規全面文獻匯總評價(無論是否伴有額外統計分析)對于外科醫生臨床實踐而言非常重要。這些文獻匯總評價為外科醫生提供不斷更新的診斷、預后和健康干預效益知識[4]。
系統評價和meta分析雖然日趨普及,仍有一定局限性。外科醫生在臨床上直接應用其結論之前,必須謹記其局限性。系統評價和meta分析質量不僅源于原始研究的質量,還取決于系統評價制作的嚴謹程度[5]。一項制作質量較差的系統評價和meta分析往往采用了可信度較差的制作方法和統計分析,這可能會得出誤導的結果和結論[6-7]。當針對某一臨床問題的高質量臨床試驗很少時,系統評價的結果解釋就比較困難。如果采用嚴格的評價方法,就可以將偏倚風險降到最低,并可能得出有用的結論。這些評價方法包括:全面的文獻檢索、原始研究質量評價、恰當的統計分析、對估計值和偏倚風險的信度評估。
因此,本文的目的是:(1)總結外科學領域全面嚴格的系統評價和meta分析的重要特征;(2)強調幾個未廣泛應用的統計學方法,相對于傳統的兩兩對照數據合成,這些方法可能會開拓更廣泛有趣的視野;(3)為全面分析和結果撰寫提供一個指南。
1 構建臨床問題
在檢索文獻之前,必須先構建好既清晰準確又適于做系統評價或meta分析的臨床問題。為了改善現有臨床認知、實踐、指南和決策,仔細評估臨床問題的意義和適用性非常重要。
構建臨床問題有一個公認方法就是采取PICO格式。PICO即清晰定義研究人群(P)、干預(I)、對照(C)、結局(O)[1]。例如,在最近一篇無縫合主動脈瓣置換的系統評價和meta分析[8]中,研究人群定義為需要進行外科主動脈瓣置換的患者(P),干預是微創主動脈瓣置換(I),對照是傳統主動脈瓣置換(C),結局包括圍手術期死亡率和并發癥(O)。
構建一個好的臨床問題的難點在于定義研究人群和干預方式的范圍。為了確定問題的范圍,評價者必須充分理解現有文獻證據、潛在不足和不確定因素,并了解系統評價或meta分析或許可以補充哪些不足、回答哪些問題。
范圍綜述(scoping review)有助于探索現有證據的范圍并幫助確定臨床問題的范圍。當構建臨床問題時,需要考慮現有證據等級和研究設計。例如,如果有可以納入足夠的隨機對照試驗(RCT),則可將系統評價的范圍限定為僅納入RCT,這樣可以避免非隨機研究帶來的選擇性偏倚。相反,如果可納入RCT較少,而證據主要局限于觀察性研究時,評價者則可以考慮將范圍擴展到同時納入RCT和觀察性研究。為了分析非隨機設計對結局效應量的影響,可以進行二次分析,即亞組分析和敏感性分析[10-11]。當進行meta分析時,問題可能會更窄,例如僅納入對比兩種干預方式的試驗。
相似的邏輯也適用于設定研究人群、干預、對照及結果的范圍。例如,如果人群定義過寬,則眾多危險因素會影響結局效應估計值,進而產生錯誤的趨勢和結論[12-13]。例如,年輕患者( < 50歲)和老年患者( > 70歲)因為潛在合并疾病及手術風險不同,所以植入的主動脈瓣耐用度方面也存在著差異。因此若合成所有年齡患者的無再手術率數據,則會所得出一個不準確的全年齡組瓣膜耐用度[14]。
一個清晰的問題應該既有臨床意義又有嚴格定義的研究人群、干預方式、對照和結局指標。當問題不清晰時,系統評價就會模糊、結構差、異質性強,此時會產生一系列風險,并且得出無效的結果。我們推薦在制作系統評價之前先寫作或發表一個研究計劃書[15-16]。此研究計劃書應充分定義納入排除標準、研究對象、干預、結局指標和統計分析策略。
2 文獻檢索
下一步,作者應根據要回答的臨床問題預先設定納入及排除標準,并在最終文稿中寫明。此標準可能包括:擬納入研究的設計(RCT還是所有研究類型;僅對照研究)、研究人群特點(性別、年齡、疾病)、研究發表語言以及發表時間(比如納入2000年以后發表的研究)。排除標準包括但不限于:低級證據(如僅有摘要)、會議論文,社論及專家觀點、重復隨訪報道同一組人群的研究、每組少于10個樣本的研究等等。應該考慮到納入排除標準所引起的潛在偏倚,并與系統評價結果一同討論。
為了全面系統的檢索原始研究,推薦檢索多個數據庫[17]。經典的電子數據庫包括MEDLINE,EMbase,PubMed,Cochrane Central Register of Controlled trials和ACP。如果僅檢索一個數據庫,則很可能存在漏檢,因此是不推薦的[17-19]。非常重要的是,評價者應該根據其預設的臨床問題使用關鍵詞、MeSH詞以及布爾邏輯符,比如“AND”,“OR”和“NOT”。根據PRISMA指南[20],在系統評價中需至少提供一個檢索策略,可以作為文章表格或補充表格或者附錄數據。文獻檢索應該至少由兩個評價者分別獨立完成。兩人對最終納入文章的任何不一致意見都應該由討論和協商解決。而且,需要進行附加檢索,包括檢索注冊試驗、納入研究的參考文獻、外文文獻和與領域內專家交流等[21-23]。在終稿中,應該按照PRISMA流程圖標明整體檢索策略。
3 研究質量評價
納入研究的內在偏倚風險會影響最終結果的真實性(validity)。因此,需要依據Cochrane或觀察性研究報告指南(MOOSE)指南對納入研究進行質量評價。
許多不同的清單和工具可以用來評估研究內部偏倚[24-25]。考克蘭協作組Review Manager軟件內置有RCT質量評價工具,其包括如下方面:隨機序列生成、分配隱藏、受試者盲法、結局評估盲法、不完整結果數據、選擇性報告結果以及其他偏倚來源。RCT常被認為是系統評價和meta分析該納入的最佳高質量金標準研究。但不同的RCT在方法學和報告質量上有差異。因此,對所有納入的RCT進行質量評估非常重要。高質量RCT應該遵循隨機對照試驗報告規范(CONSORT),CONSORT標準包括22個清單條目和流程圖[28]。
也有許多清單可以評估觀察性研究[29-31]。其中一個是荷蘭考克蘭協作組建立的,而另一個常用清單是觀察性研究質量評價(STROBE)[29]。MOOSE工具[31]的主要方面包括:(1)清晰定義研究人群;(2)清晰定義結局以及結局評估;(3)獨立評估結局參數;(4)足夠的隨訪;(5)隨訪時無選擇性失訪;(6)識別重要混雜因素和預后因素。強烈推薦采用這些清單來嚴格評估納入研究的質量。完整清單應該以文中表格或者補充表格形式出現在系統評價中。應該由至少兩個評價者獨立進行偏倚風險評估,而且任何差異都應該通過討論達成共識。表 1是最近發表的外科領域系統評價[8, 32]中的風險評估表單。對于不符合預先設定的質量要求的研究,需要謹慎考慮在進一步的統計分析中是否合納入,比如可以通過敏感性分析識別異質性或通過累積meta分析[33-35]來識別時間對效應量的影響[34, 36-37]。

4 數據提取
數據提取應該基于預先做好的提取表格進行,此表格內容包括預先定好的人口學數據、手術參數和結局指標等。數據提取應該至少由兩個評價者獨立進行,并通過協商解決不一致意見。這樣可以降低評價者偏倚風險、錯誤和主觀性。
5 統計學方法
5.1 概括統計量
需要基于系統評價類型和可用數據選擇統計方法。當系統評價研究某外科干預而沒有對照組時,可以采用描述性統計方法報道連續性變量的均數、標準差及范圍。如果研究間的人群特點或納入/排除標準足夠相似,則可以進行加權率的meta分析,即采用隨機效應模型合并單臂隊列研究。此類meta分析的一個例子就是采用加權合并分析無縫合主動脈瓣置換術(SU-AVR)[8]后隨訪12個月的瓣周漏發生率(圖 1)。

注:加權瓣周漏率是3.0%,95%置信區間為1.0%~5.8%,差異有統計學意義(I2=72%,P<0.001);SU-AVR為無縫合主動脈瓣置換術
對于基于對照研究的系統評價和meta分析,概要統計量的最佳表達形式就是森林圖[38]。森林圖包括每個納入研究效應量的加權合并,也能夠提示研究間的異質性。圖 2是微創主動脈瓣置換時采用胸骨小切口還是胸廓小切口對比的meta分析森林圖[39]。在森林圖中,以方塊表示其每個研究的效應量均數,以水平線表示每個研究的效應量95%置信區間。方塊大小代表著該研究在meta分析中所占的權重比例。黑色菱形代表meta分析的合成效應量,其寬度是整體置信區間。如果此菱形方塊全部在中心垂直實線的一側,則說明兩干預方式對比的效應量差異有統計學意義[38]。

注:采用加權均數差作為統計量,注意采用了亞組分析比較胸骨小切口和胸廓小切口兩種MIAVR方法,此圖所有亞組都可以看到顯著的異質性;MIAVR為微創主動脈瓣置換術;CAVR為傳統主動脈瓣置換術
點估計的典型概括統計量為描述二分類變量的相對危險度(RR)或優勢比(OR)和描述連續數據的加權均數差(WMD)。Meta分析的統計模型可以為固定效應模型或隨機效應模型。前者假設納入研究間的真實效應相似,而后者則假設納入研究描繪的是效應量的隨機樣本。隨機效應模型最適用于當效應量存在異質性時。
為了評估納入研究間的效應量是否存在一致性,需要對異質性進行量化評估[40]。常用的評估異質性的檢驗有兩種。考克蘭Q檢驗可以判斷該效應量異質性的有或無[41]。而I2統計量表示變異的量級,0%說明任何變異都源于機遇(chance),I2值越高則說明無法解釋的變異越大。通常來講,I2值大于50%說明該效應量存在顯著的異質性。
當存在顯著異質性時,需要解釋異質性的來源[40]。一些方法可以用來識別異質性的潛在來源。首先就是亞組分析[42]。對不同亞組的結局進行相同的統計分析,并在亞組間作交互式檢驗來識別亞組間是否存在顯著性差異。如果P值是顯著性,則很大可能會在特別亞組和目標結局之間存在相關性。另一個可以評估異質性的方法是下面要說的meta回歸。
5.2 Meta回歸分析
Meta回歸分析是另一個評估異質性的方法。Meta回歸分析判斷自變量與因變量間是否存在顯著的關聯性。自變量為研究或者干預的特點(例如年齡、研究時間點、手術時間),因變量為結局指標[43]。構建回歸模型時可以采用P值和回歸系數(r)評估相關性的強度。顯著關系表明研究變量可能是觀察到的變異性來源[8, 43-45]。如圖 3的meta回歸分析表明,采用Perceval S內植物時,研究時期中點與瓣周漏率呈顯著負相關[8]。這說明,對于瓣周漏的合并結局而言,SU-AVR學習曲線可能是異質性的來源。

注:呈顯著負相關(r=?0.853,P=0.031),表明瓣周漏率隨時間增加而減少。這是圖 1中率的meta分析的一個潛在異質性來源,這說明瓣周漏與學習時間曲線相關。
5.3 網絡meta分析
網絡meta分析可能適合于評估多個干預方式( > 2)治療同一種疾病或獲得同一種結局的情況。眾所周知,網絡meta分析是一種多種干預方式比較的meta分析,其目的是合并所有可能的含有多個干預方式的直接或間接對照結果,并進行整體比較[46-48]。相對于傳統的兩兩對比meta分析,網絡meta分析的優點是采用了間接證據,合成所有可獲得的數據,可以為目前還沒有頭對頭直接比較試驗的干預方式間的對照計算效應估計值。
盡管本文范圍不包括網絡meta分析的統計學細節,但是仍需指出:可用的直接證據(A比B)和間接證據(A比C,C比B)可以采用貝葉斯統計模型運行蒙特卡羅模擬[49]。此模型會收斂似然估計效應量,并提供一個A比B比C模式的對照。此方法的前提假設是干預方式的對照組(比如C)在間接對比試驗間是相似的[50]。
網絡meta分析特有軟件包包括WinBUGS和GeMTC包。網絡meta分析的制作過程與傳統meta分析相似,包括(I)從直接和間接對照研究中提取數據;(II)將數據輸入軟件例如WinBUGS或GeMTC;(III)運行貝葉斯模型和蒙特卡羅模擬。
在這個首次對比中位胸骨切開、微創胸骨切開、微創胸廓切開進行微創主動脈瓣置換的系統評價中,采用了基于直接和間接證據的貝葉斯網絡meta分析[39]。因為既往很少有研究針對微創胸骨切開和微創胸廓切開進行了頭對頭對比,所以這種情況特別適于做網狀meta分析。此網絡meta分析整合直接對照和間接對照證據,得出了微創胸骨切開與微創胸廓切開術對比的效應量。
網絡meta分析的注意事項是,其比兩種干預方式對照meta分析更容易受異質性的影響[51-52]。在進行網絡meta分析時,可以用幾個不同的模型來評估異質性。這些統計模型包括一致性模型、不一致性模型和節點拆分模型(node-splitting model)。如果發現了顯著的異質性,則需要說明不一致性模型和節點拆分模型的結果,并且要慎重得出文章結論[53]。
5.4 時間事件數據分析
在系統評價和meta分析中,時間事件結局如生存數據等一般用風險比(HR)來進行合并。但是,很多研究并沒有報道HR,而且也無法獲得個體患者數據(IPD)。某些系統評價和meta分析簡單的從Kaplan-Meier圖中視覺上估計實際生存結局。但是,這個方法沒有考慮到刪失和失訪,而且無法估計HR。為了解決這個問題,已發表文獻推薦了幾個統計方法,這些方法能夠基于其他發表的概要統計量來估計HR[54-57]。這樣,就可以從已發表文獻中提取估計HR并進行meta分析。
Tierney等在2007年提出并驗證了一個常用的HR估計方法[58]。此方法是采取Digitizelt軟件數字化提取Kaplan Meier曲線的數據,并且從文章中提取風險患者數。因此,可以準確估計出數字化提取的實際生存率和隨訪期間的風險患者數目。Tierney等也制作了Excel電子表格[58],當在表格中輸入這些數據并且假設刪失數據不變,就可推導出此特定研究原始IPD的估計值。對所有納入研究采用相似的提取和推導重建數據IPD過程,重建的數據可以用于進行時間事件結局的meta分析。
Guyot和他的同事們在2012年提出了另一個新方法也可以重新估計IPD數據[59]。這個團隊設計出一種迭代算法,其可以解開根據原始研究數據繪制圖形的Kaplan-Meier方程。與Tierney等的方法相似,他們采用Digitizelt軟件來數字化提取Kaplan-Meier曲線數據,然后將這些數據輸入迭代算法運算得出理想的Kaplan-Meier方程解。同樣,此算法假定刪失數據不變,而且可以在R統計軟件上運行。重新得出的患者生存軟件能夠整合形成組合生存曲線。最近一篇文章采用這個方法來提取開放手術修復慢性B型主動脈夾層的長期時間事件生存數據,其產生的整合Kaplan-Meier曲線見圖 4[60]。最近,心胸外科系統評價[61]也已經開始采用這種方法。希望在不遠的將來,隨著時間事件數據的合成需求增加,此方法也能得到推廣。

注:對開放外科手術修復慢性B型主動脈夾層的7個研究中458例患者數據做了重建和呈現。虛線代表單個研究的KaplanMeier曲線,而實線代表整體隊列的整合重建生存數據
5.5 發表偏倚
系統評價的另外一個先天不足是發表偏倚[62-63]。相對于得出陽性結論的研究,那些得出陰性結論的研究文章常常更難被發表。常常導致是陰性結果研究更容易“丟失”,這常常會使得meta分析結果偏移,并得出誤導的結論。
因此,在系統評價或meta分析中,評估發表偏倚的潛在影響非常重要。評估發表偏倚最常用的方法是漏斗圖法[64]。漏斗圖標明了處理效應的精確度和大小,其形似倒漏斗。水平軸表示干預效果,垂直軸表示標準誤差。理想情況下,當發表偏倚很小時,漏斗圖的點圍繞平均效應值對稱分布。非對稱分布表明可能存在潛在的發表偏倚,而發表偏倚會破壞結論的真實性(validity)。Begg和Egger檢驗可以被一起用來在統計學上判定是否存在漏斗圖不對稱[65]。
為了評估計算某效應量發表偏倚的“丟失的研究”效應,可以采用剪補分析法[66]。這是一種漏斗圖方法的拓展,即在對稱的漏斗圖上識別和估計“丟失的研究”。將推理出的丟失研究填入漏斗圖,此時判斷效應量的結果改變是否顯著,以此來幫助評價發表偏倚。例如最近心胸外科領域的meta分析采用此方法評估發表偏倚的效應及“丟失的研究”,例子如圖 5[60, 67-68]。此方法的注意事項是,其完全基于前提假設:當漏斗圖完美對稱時,不存在發表偏倚。然而此假設或許成立也或許不成立。而且,發表偏倚的來源和機制并沒有充分闡明,因此需要謹慎解釋漏斗圖和剪補分析法的結果。

注:開放外科手術修復慢性B型主動脈夾層系統評價納入所有19個研究的漏斗圖。橫軸為死亡率的對數值,縱軸為標準誤的對數值。標準誤與研究大小乘負相關。漏斗圖不對稱可以表示發表偏倚。空心圓代表納入的研究,實行圓代表通過剪補分析法估算添加的研究
6 結果解釋
當對系統評價和meta分析的結果進行解釋時,需要考慮一下幾個因素。第一,評價者應該評估結果的臨床意義。例如,如果兩種干預方式的手術時間差異有統計學意義,相差5 min,那么這會顯著影響患者的結局嗎?既往研究曾建議,在臨床試驗的計劃和結果解釋中應該包含治療或者干預方式的最小臨床意義變化值(MCID)[69]。第二,評價者應該在討論部分討論和解釋異質性的潛在來源。這可能包括亞組分析或meta回歸來判定哪些因素影響目標結果。第三,系統評價應該討論其相對于既往系統評價(如果有的話)的優點以及此評價的不足。不足之處可能包括但不限于如下:納入非隨機研究(可能會導致偏倚風險)、較小的患者樣本量、比較隊列間人群基線的顯著差異,隨訪時間短、納入研究間采用外科干預的異質性等。
6.1 結局指標的GRADE評估
科學證據和結局指標的質量可以采用GRADE工具進行評估[70-71]。這是針對某特定結局的一種透明、結構化的證據評級方法。GRADE方法采用證據升級和降級的方法來為某結局進行證據評級。證據升級的指標包括大效應量和劑量反應關系。證據降級的指標包括嚴重的偏倚風險、研究嚴重的不一致性、嚴重的間接性、嚴重的不準確性和可能的發表偏倚。GRADE工具可能會使評價者對系統評價的效應量增加或減少信心,也就是說,對真實的關聯性有較高的信心[71-72]。
6.2 結果撰寫
圖 6是系統評價和meta分析的整體過程。為了輔助外科醫生嚴格制作系統評價和meta分析,我們推薦結構化的結果撰寫(表 2)。


6.3 結論
系統評價和meta分析可以合成研究數據和評估現有證據質量,因此在外科領域越來越重要。但是,外科醫生應該注意系統評價的質量。較差的系統評價質量可能會嚴重破環結果和結論的真實性。為了獲得高質量系統評價及可靠的結論,必須嚴格執行標準化的制作過程。本文中我們對系統評價制作過程進行了概述,以確保優化系統評價和meta分析的質量和結果。