引用本文: 徐暢, 周小芹, ZorzelaLiliane, 鞠珂, Furuya-KanamoriLuis, LinLifeng, 盧存存, MusaOmran A.H., VohraSunita. 不良事件 Meta 分析中零事件研究證據的使用偏好:一項實證調查*. 中國胸心血管外科臨床雜志, 2021, 28(12): 1494-1502. doi: 10.7507/1007-4848.202105085 復制
在循證醫學領域,系統評價和 Meta 分析是最重要的證據來源,它們已被廣泛用于評價衛生保健干預措施的有效性和安全性[1]。Meta 分析對同一主題相關研究的數據進行定量合并,可達到減少不確定性并提高結果準確性的目的[2-3]。標準的 Meta 分析方法基于大樣本漸近理論,在干預有效性的評價中可以獲得較好的統計性能。然而對于安全性的評價,由于事件發生率低、樣本量有限,觀察到的結局事件往往很少,甚至為零,因此相關假設不再成立,這給數據合并帶來了極大挑戰[4-5]。
對基于經典兩組設計的單個研究而言,零事件研究可分為單臂零事件研究和雙臂零事件研究[6]。前者指在一項研究中的一組未發生結局事件;后者指兩組均未發生任何結局事件。對于單臂零事件研究,已有幾種成熟的方法(例如Peto 比值比[7-9])可用來將此類研究中的信息進行合并,并且統計學家一致同意不應剔除此類研究[5, 10]。但對于雙臂零事件研究,是否在 Meta 分析中納入合并目前尚存在爭議[11]。因為標準的 Meta 分析方法側重于干預效應,并不考慮單個組別的事件發生風險;導致在使用相對效應(即比值比、風險比)作為效應量時,其效應及方差無法被定義,從而在 Meta 分析中它們被視為不攜帶任何信息。但越來越多的證據已經表明,無論從臨床還是統計學角度,此類研究并不一定無信息[6, 12-13],而是取決于采用的合并方法或統計學假設(例如廣義線性混合模型[6, 14-19])。
雙臂零事件研究處理方式的矛盾觀點使系統評價作者和決策者的決策變得復雜,而他們的決策最終決定了如何進行臨床實踐[20-21]。同時,對此類研究處理的偏好可能會進一步影響將來的系統評價作者。因此,及時了解當前 Meta 分析中零事件研究如何被處理,并提出建議可促進更好的循證實踐。本研究對不良事件的系統評價進行了實證調查以探討零事件研究的發生頻率,以及這些系統評價的 Meta 分析如何處理零事件研究。此外,我們進一步探討了應該如何處理 Meta 分析中的零事件研究。
1 資料與方法
1.1 研究計劃
本研究按照預先制定的研究計劃進行開展,用以規范研究的設計和實施過程。研究計劃可在英文原版附件中獲取。本研究參照 PRIO-harms 清單[22]進行報告。
1.2 數據來源
計算機檢索 PubMed 2015 年 1 月 1 日至 2020 年 1 月 1 日發表的、以安全性作為唯一結局的系統評價。該檢索時限較為主觀,但考慮到樣本量較大,其仍具備較好的代表性。檢索策略由一位信息學專家制定,在與一位方法學家進行討論后完成。完整的檢索策略可在英文原版附件中獲取。為了進一步了解零事件研究處理方法偏好在 10 年間的變化趨勢,本研究使用 2011 年建立的一個數據集進行對比,該數據庫包括 2008 年 1 月 1 日至 2011 年 4 月 25 日間發表的安全性系統評價。詳細信息請參考已經發表的論文[20]。
1.3 納入標準
納入關于任何醫療干預措施、以安全性為唯一結局指標、且進行了至少一項 Meta 分析的系統評價。不限制系統評價中納入的原始研究類型。將不良事件定義為“患者或受試者在臨床實踐中發生的任何不良醫療事件”[23],它包括與任何衛生保健干預措施相關的副作用、不良反應或并發癥[24]。僅考慮結局為二分類型結局的系統評價。不考慮同時包含有效性和安全性的 Meta 分析、率的 Meta 分析,也不考慮包含原始研究的系統評價和未進行 Meta 分析的系統評價[25]。由于本研究僅考慮已發表的系統評價,因此未對灰色文獻進行檢索,也未進行手工查漏。
兩位作者通過在線應用程序 Rayyan 對文獻進行篩選。首先閱讀標題和摘要排除明顯不符合納入標準的研究(例如普通綜述、有效性 Meta 分析)。其次對剩余和無法達成共識的研究通過閱讀全文以進一步判斷。任何不一致由兩位作者進行討論直到達成共識[26]。
1.4 數據收集
基線信息由一位作者提取并由另一位核對,這些包括作者姓名、發表年份、通訊作者所在地區、Meta 分析的類型、納入 Meta 分析的原始研究類型、研究計劃、效應量(例如比值比、風險比、風險差)及資金信息。本研究關注的重點是納入的系統評價中包含的 Meta 分析中零事件研究的處理方法,因此與此相關的信息更具價值。對每項系統評價,本研究進一步提取了以下信息:(1)在該系統評價中是否有 Meta 分析涉及零事件研究?(2)如果其涉及零事件研究,其屬于哪種類型的零事件研究(例如單臂或雙臂零事件)?(3)如果涉及零事件研究,作者是否指定了處理零事件研究的方法?(4)如果作者指定了處理方法,他們是否闡釋了選擇該方法的原因?(5)如果涉及零事件研究,作者如何處理零事件研究?(6)如果涉及零事件研究,作者是否使用了至少一種不同的方法進行敏感性分析?(7)對于直接剔除零事件研究的系統評價,作者是否討論了剔除此類研究對結果的潛在影響?
上述信息由一名方法學家提取,并由兩名統計學家進行核對。值得注意的是,每項系統評價可能包含兩個或多個 Meta 分析。針對上述信息,每項系統評價僅計數一次,因為在同一篇系統評價中所有 Meta 分析使用的方法一致。本研究根據森林圖,基線表和(或)方法學部分的描述來判斷 Meta 分析中零事件研究的處理方法。
1.5 統計學分析
基線信息使用頻次和比例進行描述。主要結局指標為Meta 分析中零事件的處理方法。相關信息仍用頻次和比例及其 95% 置信區間(confidence interval,CI)進行匯總。考慮到可能出現零事件,本研究使用確切法計算置信區間[27]。
為探討零事件研究處理方法隨時間變化的趨勢,本研究比較了兩個不同時間段的數據集(2015~2020 年與 2008~2011 年)中零事件研究被剔除的比例。考慮到研究計劃可能對零事件研究的處理方法存在一定程度影響,我們進一步比較了有研究計劃和無研究計劃的系統評價中零事件研究被剔除的比例。同樣考慮到該比較中可能存在零事件,本研究使用比例差(proportion difference,PD)對組間差異進行衡量[26, 28]。當結局事件發生數極少(即少于 5)時,考慮使用 Fisher 確切概率法用于敏感性分析。本研究未使用連續性校正或 Peto 法,因為這兩種方法在樣本不均衡的情況下會導致較大的偏倚[6, 29]。鑒于 Meta 分析中剔除零事件研究的比例較高,本研究預期不會涉及雙臂零事件。統計分析均由 Stata 14.0/SE 和 MetaXL 5.3 完成,α=0.05 為統計學顯著性水準。
2 結果
2.1 納入系統評價的基本特征
2011 年收集的數據集中,309 篇系統評價與主題相關,其中 17 篇缺失,剩余 292 篇通過閱讀全文進行篩選。進一步排除未進行 Meta 分析、結局指標為連續性變量、包含原始研究或僅探討不良事件發生率的系統評價。最終納入 184 篇系統評價進行分析(圖 1)。在新數據集中,511 篇系統評價符合標準。排除 55 篇不良事件發生率的系統評價后,獲得 456 篇納入分析(圖 1)。

在最終納入的 640 篇系統評價中,483 篇(75.47%)為藥物干預,108 篇(16.88%)為手術或器械干預,49 篇(7.66%)為其它干預。多數(n=585,91.41%)系統評價僅涉及普通兩兩比較的 Meta 分析。166 篇(25.94%)系統評價報告了研究計劃,而多數(n=474,74.06%)未提及任何關于制定研究計劃的信息。多數系統評價基于隨機對照試驗(n=460,71.88%,表 1)。

在最終納入的 640 篇系統評價中,146 篇(22.80%)未提供足夠的信息來表明其Meta分析中是否納入了零事件研究。剩余的系統評價中,406 篇(63.45%)涉及了零事件研究。在這 406 篇系統評價中,90 篇為 2008~2011 年發表,316 篇為 2015~2020 發表。在 2015~2020 年發表的系統評價中,零事件研究的比例明顯高于 2008~2011 年(67.11% vs. 48.91%,P<0.001)。有零事件研究的 406 篇系統評價的 Meta 分析中,174 篇(42.86%)僅納入了單臂零事件研究,7 篇(1.72%)僅納入了雙臂零事件研究,而 208 篇(51.23%)同時納入了單臂零事件和雙臂零事件研究。僅 131 篇(32.27%)的系統評價報告了 Meta 分析中處理零事件研究的方法。在這 131 篇系統評價中,只有 44 篇(33.59%)給出了選擇相關處理零事件研究方法的理由(表 2)。

2.2 Meta 分析中零事件研究的處理:過去
2008~2011 年的 90 篇涉及零事件研究系統評價的 Meta 分析中,84 篇涉及單臂零事件研究,54 篇涉及雙臂零事件研究。圖 2呈現了用于處理零事件研究的方法。在 84 篇涉及單臂零事件研究的系統評價中,83 篇將單臂零事件研究在 Meta 分析中進行了合并, 1 篇(1.19%)未對單臂零事件進行合并。處理單臂零事件研究最常用的方法是連續性校正或其改良方法(例如經驗性校正、對照組樣本倒數校正[29])(n=72),其次為 Peto 比值比法(n=6,7.14%)。少數使用了其它方法,例如廣義線性混合模型(n=1,1.19%)和 Mantel-Haenszel 風險差(n=2,2.38%),1 篇無法判斷。值得注意的是,本研究發現 2 篇(2.38%)系統評價使用“樣本疊加”(treat-as-one-trial)的方法進行合并;但該方法并未進行加權處理,可能會因為辛普森悖論而產生誤導(即一種趨勢出現在單個研究中,但在不經加權合并時消失或逆轉)[30]。

對于 54 篇雙臂零事件研究的系統評價,最常用的方法是從 Meta 分析中排除這些零事件研究(n=45,83.33%)。重要的是,這 45 篇系統評價中有 40 篇(88.89%)未討論排除此類研究對結果的潛在影響。其余 9 篇系統評價使用了連續性校正或其改良方法(n=4,7.4%),Mantel-Haenszel 風險差(n=2,3.70%),“樣本疊加”(n=2,3.70%)或廣義線性混合模型(n=1,1.85%)在 Meta 分析中合并來自這些研究的證據(圖 2)。
2.3 Meta 分析中零事件研究的處理:現在
2015~2020 年的 316 項涉及零事件研究系統評價的 Meta 分析中,305 項涉及單臂零事件研究,169 項涉及雙臂零事件研究。在這 305 項系統評價中,處理單臂零事件研究的最常用方法仍然是連續性校正或其改良方法(n=263,86.23%),其次是 Peto 比值比(n=23,7.54%)及 Mantel-Haenszel 風險差(n=11,3.61%)。少數使用了其它方法,例如,“樣本疊加”(n=2,0.66%)、分層條件 logistic 回歸(n=1,0.33%)以及使用非不良反應事件作為結局(n=1,0.33%)。同樣尚存 1 篇(0.33%)無法判斷其使用的方法。2 篇(0.66%)系統評價未對單臂零事件研究進行合并。
對 169 篇涉及雙臂零事件研究的系統評價,最常用的方法為直接對其進行剔除處理(n=125,73.96%)。在這 125 篇直接剔除雙臂零事件研究的系統評價中,108 篇(86.40%)未討論排除零事件研究對結果的潛在影響。剩余的 41 篇中,主要使用連續性校正或其改良方法(n=27,15.98%)、Mantel-Haenszel 風險差(n=9,5.33%)、“樣本疊加”法(n=2,1.18%)、基于 0.5 校正的 Peto 比值比法(n=2,1.18%)和 β-二項分布模型(n=1,0.59%)對雙臂零事件研究進行合并。3 篇(1.78%)系統評價無法判斷(圖 2)。
2.4 現在和過去 Meta 分析中零事件研究處理的比較
與過去相比,有更多的系統評價將雙臂零事件研究證據納入 Meta 分析。這種變化主要歸因于對連續性校正(或其改良方法)和 Mantel-Haenszel 風險差的使用增加(圖 2)。進一步比較這兩個時期(2015~2020 年vs. 2008~2011 年)排除零事件研究的比例后,結果表明,盡管最近的系統評價傾向于將零事件研究納入 Meta 分析,但從臨床或統計的角度來看,差異均無統計學意義[單臂零事件:PD=–0.01,95%CI(–0.03,0.02),P=0.67;雙臂零事件:PD=–0.09,95%CI(–0.21,0.03),P=0.12]。基于 Fisher 確切概率法的敏感性分析結果與該結果一致(P=0.52)。
2.5 其它分析
基于系統評價中是否報告研究計劃進行分層比較,結果表明制定了研究計劃的系統評價與未制定研究計劃的系統評價在處理零事件研究的偏好上不存在差異[單臂零事件:PD=–0.00,95%CI(–0.02,0.01),P=0.64;雙臂零事件:PD=–0.07,95%CI(–0.19,0.06),P=0.29]。基于 Fisher 確切概率法的敏感性分析結果與該結果一致(P=1.00)。
3 討論
本研究對多種醫療干預措施相關不良事件的系統評價進行了大規模實證調查,以了解它們如何處理零事件研究。結果表明,大多數系統評價的 Meta 分析(76.23%)直接對雙臂零事件研究進行了剔除處理。在早期發表的系統評價(83.33%)中,這種情況更加常見。盡管近年來越來越多的系統評價試圖合并來自雙臂零事件研究中的證據,但大多數系統評價(73.95%)仍將此類研究排除在外。
多數排除零事件研究的系統評價中僅少數(12.94%,表 2)討論了排除雙臂零事件研究對其結果的潛在影響。盡管在統計學家之間關于是否應該在 Meta 分析中合并雙臂零事件研究仍存在爭議,但對于系統評價作者是否應該報告和討論此類研究結果的意見是一致的[20]。臨床試驗相關學術報告更傾向于減少或者不報告發生的不良事件數[31-32],因此零事件可能是由選擇性報告所致。這種做法很危險,因為這樣的選擇性報告可能會導致 Meta 分析的結果存在很大的偏倚。從這一點出發,簡單將零事件研究視為“無信息性”研究可能是不合理的,因為這會導致系統評價作者忽視此類研究。
處理雙臂零事件研究的爭議主要歸因于所使用的方法和假設。正如我們前面提及,標準方法沒有對研究各組的發生風險作任何假設;如果雙臂均為零事件,則無法定義相對效應指標。B?hning 和 Sangnawakij 通過數學推導比較了排除(基于條件二項分布模型)和納入(基于 Poisson 回歸模型)雙臂零事件研究的似然值;他們發現雙臂零事件研究不貢獻任何似然[19],因而支持排除雙臂零事件研究。但對于其它模型(例如,多水平 logistic 回歸模型[14])并非如此,這些模型可以定義相對效應,并且雙臂零事件的似然并不為零。當前已有許多方法可納入雙臂零事件研究,且多項研究比較了納入和排除此類研究的結果,提示排除雙臂零事件研究會導致結果和結論的改變[6, 11-13, 18, 33-35]。考慮到這兩種截然不同的觀點,應考慮采用不同的方法進行敏感性分析,且至少應使用一種能合并雙臂零事件研究信息的方法[29, 36]。
我們注意到,對于那些合并了零事件研究信息的 Meta 分析,多數使用了連續性校正或其改良方法。但連續性校正因其人為增加了虛構的樣本,可能導致參數估計出現較大偏差,特別是在兩組樣本不均衡的時候更為明顯[6, 11]。統計學家提倡在這種情況下應避免使用連續性校正,并提供了更好的解決方案(例如 β-二項分布模型[18])。不幸的是,似乎越來越多的系統評價(目前為 16%,過去為 7.4%)作者繼續使用連續性校正進行零事件研究的合并。這意味著大多數系統評價作者可能不了解連續性校正的問題,而未來需要更多努力來改善這種情況。
本研究中,我們發現研究計劃的制定不能改善這一狀況。但這并不意外,因為我們最近的一項研究[27]表明,多數關于干預措施安全的系統評價研究計劃并未制定用于處理零事件研究的統計分析計劃。這再次表明,系統評價作者通常忽略零事件研究,或者可能沒有經驗進行此類分析。但我們相信,制定完善的研究計劃及明確的統計分析計劃將有益于不良事件系統評價的數據合并質量。
當前有多種方法可用于雙臂零事件研究的合并,包括 Mantel-Haenszel 風險差[37]、確切概率函數法[38]及 one-stage 法[6, 11, 14-19]。Mantel-Haenszel 風險差在處理雙臂零事件研究中有著明顯優勢,因為風險差是可以明確定義的,不需要任何事后校正或先驗信息。Bradburn 等[39]發現 Mantel-Haenszel 風險差可以實現幾乎無偏倚的估計,而局限性是風險差表現出較低的統計效能,這使其未被考慮為處理雙臂零事件的最佳選擇。風險差的另一個問題是,當干預組和對照組干預時間相同時,使用風險比時可以抵消時間影響,而風險差則無法抵消,這導致其結果會受到不同干預時間的影響[19]。但在 two-stage 方法中,也許風險差是較好的選擇之一,并且在某些情況下(例如所有研究均為零事件研究),它可能是唯一的方法,因為多數 two-stage 法無法定義零事件研究的比值比和風險比[40- 41]。
Kuss[6]總結了現有無需先驗信息及后驗信息即可處理雙臂零事件研究的方法。與此同時 B?hning 等[11, 19]提出了零膨脹Poisson模型以處理雙臂零事件研究的問題。當涉及零事件研究時,我們強烈建議系統評價作者參考這些方法進行 Meta 分析。對這些方法的使用存在一個障礙,即不同的方法適用性有較大差異,導致系統評價作者無法判斷使用哪種方法更合理。例如,當 Meta 分析試驗組或對照組中任意一組(或同時)的總事件數為零時,one-stage 法無法用于合并[42-43]。系統評價作者可參考由本團隊最近提出的零事件 Meta 分析框架[21],該框架可幫助系統評價作者合理地選擇相關方法對零事件研究證據進行合并。
本研究是首個對系統評價中零事件研究處理方法進行實證調查的研究。本研究結果明確了早期發表的系統評價及近期發表的系統評價中對零事件研究的處理方法的差異和變化趨勢,同時提供了實用的建議以幫助系統評價作者更好地利用零事件研究的信息進行合理的決策。該研究將對相關方法學指南、循證實踐及衛生保健政策產生積極影響。
本研究的局限性。首先,本研究的部分數據嚴重依賴于系統評價作者對結果報告的完整性。我們發現約有 23% 的系統評價未報告單個研究的事件數和樣本量,因此難以確定它們是否涉及零事件研究。在某種程度上,這是一種缺失數據(非隨機缺失[44-45]),因此應謹慎對待由這些缺失數據引起的潛在偏倚。其次,有關如何處理零事件研究的信息是由一名方法學家收集,并由兩名統計學家進行了驗證。即使如此,仍有 5 篇系統評價關于零事件的處理方法無法判斷。此外,盡管我們重復了每個涉及零事件研究的 Meta 分析,但 12 篇系統評價無法根據文中報告的方法重復其結果。這些可能對本研究的結果造成一些偏倚。但我們認為這些偏倚無法改變多數系統評價直接排除零事件研究這一事實。
基于本研究的發現,多數系統評價作者在 Meta 分析中直接排除了雙臂零事件研究,并簡單將其視為“無信息”研究。這種偏好在 10 年前的系統評價中極為普遍,在當前仍然常見。Meta 分析中的零事件研究是否存在信息在很大程度上取決于所使用的合并方法和假設。因此,在將來的 Meta 分析中應考慮使用不同的合并方法實施敏感性分析。
利益沖突:本文翻譯已經征得原文所有作者及英文期刊的同意。相關附件見原文期刊官網。
作者貢獻:徐暢進行研究設計、文獻篩選、統計分析、圖表繪制、撰寫論文、尋找經費支持;周小芹進行文獻篩選、提取基線信息;Zorzela Liliane 進行研究設計、方法學指導、修改論文;鞠珂提取基線數據;Furuya-Kanamor Luis 進行數據核對、統計學指導、論文修改;Lin Lifeng 進行數據核對、統計學指導、論文修改;盧存存制定檢索策略;Musa Omran A.H. 修訂格式;Vohra Sunita 進行研究設計、方法學指導、論文修改;盧存存、周小芹、徐暢將英文譯成中文。
在循證醫學領域,系統評價和 Meta 分析是最重要的證據來源,它們已被廣泛用于評價衛生保健干預措施的有效性和安全性[1]。Meta 分析對同一主題相關研究的數據進行定量合并,可達到減少不確定性并提高結果準確性的目的[2-3]。標準的 Meta 分析方法基于大樣本漸近理論,在干預有效性的評價中可以獲得較好的統計性能。然而對于安全性的評價,由于事件發生率低、樣本量有限,觀察到的結局事件往往很少,甚至為零,因此相關假設不再成立,這給數據合并帶來了極大挑戰[4-5]。
對基于經典兩組設計的單個研究而言,零事件研究可分為單臂零事件研究和雙臂零事件研究[6]。前者指在一項研究中的一組未發生結局事件;后者指兩組均未發生任何結局事件。對于單臂零事件研究,已有幾種成熟的方法(例如Peto 比值比[7-9])可用來將此類研究中的信息進行合并,并且統計學家一致同意不應剔除此類研究[5, 10]。但對于雙臂零事件研究,是否在 Meta 分析中納入合并目前尚存在爭議[11]。因為標準的 Meta 分析方法側重于干預效應,并不考慮單個組別的事件發生風險;導致在使用相對效應(即比值比、風險比)作為效應量時,其效應及方差無法被定義,從而在 Meta 分析中它們被視為不攜帶任何信息。但越來越多的證據已經表明,無論從臨床還是統計學角度,此類研究并不一定無信息[6, 12-13],而是取決于采用的合并方法或統計學假設(例如廣義線性混合模型[6, 14-19])。
雙臂零事件研究處理方式的矛盾觀點使系統評價作者和決策者的決策變得復雜,而他們的決策最終決定了如何進行臨床實踐[20-21]。同時,對此類研究處理的偏好可能會進一步影響將來的系統評價作者。因此,及時了解當前 Meta 分析中零事件研究如何被處理,并提出建議可促進更好的循證實踐。本研究對不良事件的系統評價進行了實證調查以探討零事件研究的發生頻率,以及這些系統評價的 Meta 分析如何處理零事件研究。此外,我們進一步探討了應該如何處理 Meta 分析中的零事件研究。
1 資料與方法
1.1 研究計劃
本研究按照預先制定的研究計劃進行開展,用以規范研究的設計和實施過程。研究計劃可在英文原版附件中獲取。本研究參照 PRIO-harms 清單[22]進行報告。
1.2 數據來源
計算機檢索 PubMed 2015 年 1 月 1 日至 2020 年 1 月 1 日發表的、以安全性作為唯一結局的系統評價。該檢索時限較為主觀,但考慮到樣本量較大,其仍具備較好的代表性。檢索策略由一位信息學專家制定,在與一位方法學家進行討論后完成。完整的檢索策略可在英文原版附件中獲取。為了進一步了解零事件研究處理方法偏好在 10 年間的變化趨勢,本研究使用 2011 年建立的一個數據集進行對比,該數據庫包括 2008 年 1 月 1 日至 2011 年 4 月 25 日間發表的安全性系統評價。詳細信息請參考已經發表的論文[20]。
1.3 納入標準
納入關于任何醫療干預措施、以安全性為唯一結局指標、且進行了至少一項 Meta 分析的系統評價。不限制系統評價中納入的原始研究類型。將不良事件定義為“患者或受試者在臨床實踐中發生的任何不良醫療事件”[23],它包括與任何衛生保健干預措施相關的副作用、不良反應或并發癥[24]。僅考慮結局為二分類型結局的系統評價。不考慮同時包含有效性和安全性的 Meta 分析、率的 Meta 分析,也不考慮包含原始研究的系統評價和未進行 Meta 分析的系統評價[25]。由于本研究僅考慮已發表的系統評價,因此未對灰色文獻進行檢索,也未進行手工查漏。
兩位作者通過在線應用程序 Rayyan 對文獻進行篩選。首先閱讀標題和摘要排除明顯不符合納入標準的研究(例如普通綜述、有效性 Meta 分析)。其次對剩余和無法達成共識的研究通過閱讀全文以進一步判斷。任何不一致由兩位作者進行討論直到達成共識[26]。
1.4 數據收集
基線信息由一位作者提取并由另一位核對,這些包括作者姓名、發表年份、通訊作者所在地區、Meta 分析的類型、納入 Meta 分析的原始研究類型、研究計劃、效應量(例如比值比、風險比、風險差)及資金信息。本研究關注的重點是納入的系統評價中包含的 Meta 分析中零事件研究的處理方法,因此與此相關的信息更具價值。對每項系統評價,本研究進一步提取了以下信息:(1)在該系統評價中是否有 Meta 分析涉及零事件研究?(2)如果其涉及零事件研究,其屬于哪種類型的零事件研究(例如單臂或雙臂零事件)?(3)如果涉及零事件研究,作者是否指定了處理零事件研究的方法?(4)如果作者指定了處理方法,他們是否闡釋了選擇該方法的原因?(5)如果涉及零事件研究,作者如何處理零事件研究?(6)如果涉及零事件研究,作者是否使用了至少一種不同的方法進行敏感性分析?(7)對于直接剔除零事件研究的系統評價,作者是否討論了剔除此類研究對結果的潛在影響?
上述信息由一名方法學家提取,并由兩名統計學家進行核對。值得注意的是,每項系統評價可能包含兩個或多個 Meta 分析。針對上述信息,每項系統評價僅計數一次,因為在同一篇系統評價中所有 Meta 分析使用的方法一致。本研究根據森林圖,基線表和(或)方法學部分的描述來判斷 Meta 分析中零事件研究的處理方法。
1.5 統計學分析
基線信息使用頻次和比例進行描述。主要結局指標為Meta 分析中零事件的處理方法。相關信息仍用頻次和比例及其 95% 置信區間(confidence interval,CI)進行匯總。考慮到可能出現零事件,本研究使用確切法計算置信區間[27]。
為探討零事件研究處理方法隨時間變化的趨勢,本研究比較了兩個不同時間段的數據集(2015~2020 年與 2008~2011 年)中零事件研究被剔除的比例。考慮到研究計劃可能對零事件研究的處理方法存在一定程度影響,我們進一步比較了有研究計劃和無研究計劃的系統評價中零事件研究被剔除的比例。同樣考慮到該比較中可能存在零事件,本研究使用比例差(proportion difference,PD)對組間差異進行衡量[26, 28]。當結局事件發生數極少(即少于 5)時,考慮使用 Fisher 確切概率法用于敏感性分析。本研究未使用連續性校正或 Peto 法,因為這兩種方法在樣本不均衡的情況下會導致較大的偏倚[6, 29]。鑒于 Meta 分析中剔除零事件研究的比例較高,本研究預期不會涉及雙臂零事件。統計分析均由 Stata 14.0/SE 和 MetaXL 5.3 完成,α=0.05 為統計學顯著性水準。
2 結果
2.1 納入系統評價的基本特征
2011 年收集的數據集中,309 篇系統評價與主題相關,其中 17 篇缺失,剩余 292 篇通過閱讀全文進行篩選。進一步排除未進行 Meta 分析、結局指標為連續性變量、包含原始研究或僅探討不良事件發生率的系統評價。最終納入 184 篇系統評價進行分析(圖 1)。在新數據集中,511 篇系統評價符合標準。排除 55 篇不良事件發生率的系統評價后,獲得 456 篇納入分析(圖 1)。

在最終納入的 640 篇系統評價中,483 篇(75.47%)為藥物干預,108 篇(16.88%)為手術或器械干預,49 篇(7.66%)為其它干預。多數(n=585,91.41%)系統評價僅涉及普通兩兩比較的 Meta 分析。166 篇(25.94%)系統評價報告了研究計劃,而多數(n=474,74.06%)未提及任何關于制定研究計劃的信息。多數系統評價基于隨機對照試驗(n=460,71.88%,表 1)。

在最終納入的 640 篇系統評價中,146 篇(22.80%)未提供足夠的信息來表明其Meta分析中是否納入了零事件研究。剩余的系統評價中,406 篇(63.45%)涉及了零事件研究。在這 406 篇系統評價中,90 篇為 2008~2011 年發表,316 篇為 2015~2020 發表。在 2015~2020 年發表的系統評價中,零事件研究的比例明顯高于 2008~2011 年(67.11% vs. 48.91%,P<0.001)。有零事件研究的 406 篇系統評價的 Meta 分析中,174 篇(42.86%)僅納入了單臂零事件研究,7 篇(1.72%)僅納入了雙臂零事件研究,而 208 篇(51.23%)同時納入了單臂零事件和雙臂零事件研究。僅 131 篇(32.27%)的系統評價報告了 Meta 分析中處理零事件研究的方法。在這 131 篇系統評價中,只有 44 篇(33.59%)給出了選擇相關處理零事件研究方法的理由(表 2)。

2.2 Meta 分析中零事件研究的處理:過去
2008~2011 年的 90 篇涉及零事件研究系統評價的 Meta 分析中,84 篇涉及單臂零事件研究,54 篇涉及雙臂零事件研究。圖 2呈現了用于處理零事件研究的方法。在 84 篇涉及單臂零事件研究的系統評價中,83 篇將單臂零事件研究在 Meta 分析中進行了合并, 1 篇(1.19%)未對單臂零事件進行合并。處理單臂零事件研究最常用的方法是連續性校正或其改良方法(例如經驗性校正、對照組樣本倒數校正[29])(n=72),其次為 Peto 比值比法(n=6,7.14%)。少數使用了其它方法,例如廣義線性混合模型(n=1,1.19%)和 Mantel-Haenszel 風險差(n=2,2.38%),1 篇無法判斷。值得注意的是,本研究發現 2 篇(2.38%)系統評價使用“樣本疊加”(treat-as-one-trial)的方法進行合并;但該方法并未進行加權處理,可能會因為辛普森悖論而產生誤導(即一種趨勢出現在單個研究中,但在不經加權合并時消失或逆轉)[30]。

對于 54 篇雙臂零事件研究的系統評價,最常用的方法是從 Meta 分析中排除這些零事件研究(n=45,83.33%)。重要的是,這 45 篇系統評價中有 40 篇(88.89%)未討論排除此類研究對結果的潛在影響。其余 9 篇系統評價使用了連續性校正或其改良方法(n=4,7.4%),Mantel-Haenszel 風險差(n=2,3.70%),“樣本疊加”(n=2,3.70%)或廣義線性混合模型(n=1,1.85%)在 Meta 分析中合并來自這些研究的證據(圖 2)。
2.3 Meta 分析中零事件研究的處理:現在
2015~2020 年的 316 項涉及零事件研究系統評價的 Meta 分析中,305 項涉及單臂零事件研究,169 項涉及雙臂零事件研究。在這 305 項系統評價中,處理單臂零事件研究的最常用方法仍然是連續性校正或其改良方法(n=263,86.23%),其次是 Peto 比值比(n=23,7.54%)及 Mantel-Haenszel 風險差(n=11,3.61%)。少數使用了其它方法,例如,“樣本疊加”(n=2,0.66%)、分層條件 logistic 回歸(n=1,0.33%)以及使用非不良反應事件作為結局(n=1,0.33%)。同樣尚存 1 篇(0.33%)無法判斷其使用的方法。2 篇(0.66%)系統評價未對單臂零事件研究進行合并。
對 169 篇涉及雙臂零事件研究的系統評價,最常用的方法為直接對其進行剔除處理(n=125,73.96%)。在這 125 篇直接剔除雙臂零事件研究的系統評價中,108 篇(86.40%)未討論排除零事件研究對結果的潛在影響。剩余的 41 篇中,主要使用連續性校正或其改良方法(n=27,15.98%)、Mantel-Haenszel 風險差(n=9,5.33%)、“樣本疊加”法(n=2,1.18%)、基于 0.5 校正的 Peto 比值比法(n=2,1.18%)和 β-二項分布模型(n=1,0.59%)對雙臂零事件研究進行合并。3 篇(1.78%)系統評價無法判斷(圖 2)。
2.4 現在和過去 Meta 分析中零事件研究處理的比較
與過去相比,有更多的系統評價將雙臂零事件研究證據納入 Meta 分析。這種變化主要歸因于對連續性校正(或其改良方法)和 Mantel-Haenszel 風險差的使用增加(圖 2)。進一步比較這兩個時期(2015~2020 年vs. 2008~2011 年)排除零事件研究的比例后,結果表明,盡管最近的系統評價傾向于將零事件研究納入 Meta 分析,但從臨床或統計的角度來看,差異均無統計學意義[單臂零事件:PD=–0.01,95%CI(–0.03,0.02),P=0.67;雙臂零事件:PD=–0.09,95%CI(–0.21,0.03),P=0.12]。基于 Fisher 確切概率法的敏感性分析結果與該結果一致(P=0.52)。
2.5 其它分析
基于系統評價中是否報告研究計劃進行分層比較,結果表明制定了研究計劃的系統評價與未制定研究計劃的系統評價在處理零事件研究的偏好上不存在差異[單臂零事件:PD=–0.00,95%CI(–0.02,0.01),P=0.64;雙臂零事件:PD=–0.07,95%CI(–0.19,0.06),P=0.29]。基于 Fisher 確切概率法的敏感性分析結果與該結果一致(P=1.00)。
3 討論
本研究對多種醫療干預措施相關不良事件的系統評價進行了大規模實證調查,以了解它們如何處理零事件研究。結果表明,大多數系統評價的 Meta 分析(76.23%)直接對雙臂零事件研究進行了剔除處理。在早期發表的系統評價(83.33%)中,這種情況更加常見。盡管近年來越來越多的系統評價試圖合并來自雙臂零事件研究中的證據,但大多數系統評價(73.95%)仍將此類研究排除在外。
多數排除零事件研究的系統評價中僅少數(12.94%,表 2)討論了排除雙臂零事件研究對其結果的潛在影響。盡管在統計學家之間關于是否應該在 Meta 分析中合并雙臂零事件研究仍存在爭議,但對于系統評價作者是否應該報告和討論此類研究結果的意見是一致的[20]。臨床試驗相關學術報告更傾向于減少或者不報告發生的不良事件數[31-32],因此零事件可能是由選擇性報告所致。這種做法很危險,因為這樣的選擇性報告可能會導致 Meta 分析的結果存在很大的偏倚。從這一點出發,簡單將零事件研究視為“無信息性”研究可能是不合理的,因為這會導致系統評價作者忽視此類研究。
處理雙臂零事件研究的爭議主要歸因于所使用的方法和假設。正如我們前面提及,標準方法沒有對研究各組的發生風險作任何假設;如果雙臂均為零事件,則無法定義相對效應指標。B?hning 和 Sangnawakij 通過數學推導比較了排除(基于條件二項分布模型)和納入(基于 Poisson 回歸模型)雙臂零事件研究的似然值;他們發現雙臂零事件研究不貢獻任何似然[19],因而支持排除雙臂零事件研究。但對于其它模型(例如,多水平 logistic 回歸模型[14])并非如此,這些模型可以定義相對效應,并且雙臂零事件的似然并不為零。當前已有許多方法可納入雙臂零事件研究,且多項研究比較了納入和排除此類研究的結果,提示排除雙臂零事件研究會導致結果和結論的改變[6, 11-13, 18, 33-35]。考慮到這兩種截然不同的觀點,應考慮采用不同的方法進行敏感性分析,且至少應使用一種能合并雙臂零事件研究信息的方法[29, 36]。
我們注意到,對于那些合并了零事件研究信息的 Meta 分析,多數使用了連續性校正或其改良方法。但連續性校正因其人為增加了虛構的樣本,可能導致參數估計出現較大偏差,特別是在兩組樣本不均衡的時候更為明顯[6, 11]。統計學家提倡在這種情況下應避免使用連續性校正,并提供了更好的解決方案(例如 β-二項分布模型[18])。不幸的是,似乎越來越多的系統評價(目前為 16%,過去為 7.4%)作者繼續使用連續性校正進行零事件研究的合并。這意味著大多數系統評價作者可能不了解連續性校正的問題,而未來需要更多努力來改善這種情況。
本研究中,我們發現研究計劃的制定不能改善這一狀況。但這并不意外,因為我們最近的一項研究[27]表明,多數關于干預措施安全的系統評價研究計劃并未制定用于處理零事件研究的統計分析計劃。這再次表明,系統評價作者通常忽略零事件研究,或者可能沒有經驗進行此類分析。但我們相信,制定完善的研究計劃及明確的統計分析計劃將有益于不良事件系統評價的數據合并質量。
當前有多種方法可用于雙臂零事件研究的合并,包括 Mantel-Haenszel 風險差[37]、確切概率函數法[38]及 one-stage 法[6, 11, 14-19]。Mantel-Haenszel 風險差在處理雙臂零事件研究中有著明顯優勢,因為風險差是可以明確定義的,不需要任何事后校正或先驗信息。Bradburn 等[39]發現 Mantel-Haenszel 風險差可以實現幾乎無偏倚的估計,而局限性是風險差表現出較低的統計效能,這使其未被考慮為處理雙臂零事件的最佳選擇。風險差的另一個問題是,當干預組和對照組干預時間相同時,使用風險比時可以抵消時間影響,而風險差則無法抵消,這導致其結果會受到不同干預時間的影響[19]。但在 two-stage 方法中,也許風險差是較好的選擇之一,并且在某些情況下(例如所有研究均為零事件研究),它可能是唯一的方法,因為多數 two-stage 法無法定義零事件研究的比值比和風險比[40- 41]。
Kuss[6]總結了現有無需先驗信息及后驗信息即可處理雙臂零事件研究的方法。與此同時 B?hning 等[11, 19]提出了零膨脹Poisson模型以處理雙臂零事件研究的問題。當涉及零事件研究時,我們強烈建議系統評價作者參考這些方法進行 Meta 分析。對這些方法的使用存在一個障礙,即不同的方法適用性有較大差異,導致系統評價作者無法判斷使用哪種方法更合理。例如,當 Meta 分析試驗組或對照組中任意一組(或同時)的總事件數為零時,one-stage 法無法用于合并[42-43]。系統評價作者可參考由本團隊最近提出的零事件 Meta 分析框架[21],該框架可幫助系統評價作者合理地選擇相關方法對零事件研究證據進行合并。
本研究是首個對系統評價中零事件研究處理方法進行實證調查的研究。本研究結果明確了早期發表的系統評價及近期發表的系統評價中對零事件研究的處理方法的差異和變化趨勢,同時提供了實用的建議以幫助系統評價作者更好地利用零事件研究的信息進行合理的決策。該研究將對相關方法學指南、循證實踐及衛生保健政策產生積極影響。
本研究的局限性。首先,本研究的部分數據嚴重依賴于系統評價作者對結果報告的完整性。我們發現約有 23% 的系統評價未報告單個研究的事件數和樣本量,因此難以確定它們是否涉及零事件研究。在某種程度上,這是一種缺失數據(非隨機缺失[44-45]),因此應謹慎對待由這些缺失數據引起的潛在偏倚。其次,有關如何處理零事件研究的信息是由一名方法學家收集,并由兩名統計學家進行了驗證。即使如此,仍有 5 篇系統評價關于零事件的處理方法無法判斷。此外,盡管我們重復了每個涉及零事件研究的 Meta 分析,但 12 篇系統評價無法根據文中報告的方法重復其結果。這些可能對本研究的結果造成一些偏倚。但我們認為這些偏倚無法改變多數系統評價直接排除零事件研究這一事實。
基于本研究的發現,多數系統評價作者在 Meta 分析中直接排除了雙臂零事件研究,并簡單將其視為“無信息”研究。這種偏好在 10 年前的系統評價中極為普遍,在當前仍然常見。Meta 分析中的零事件研究是否存在信息在很大程度上取決于所使用的合并方法和假設。因此,在將來的 Meta 分析中應考慮使用不同的合并方法實施敏感性分析。
利益沖突:本文翻譯已經征得原文所有作者及英文期刊的同意。相關附件見原文期刊官網。
作者貢獻:徐暢進行研究設計、文獻篩選、統計分析、圖表繪制、撰寫論文、尋找經費支持;周小芹進行文獻篩選、提取基線信息;Zorzela Liliane 進行研究設計、方法學指導、修改論文;鞠珂提取基線數據;Furuya-Kanamor Luis 進行數據核對、統計學指導、論文修改;Lin Lifeng 進行數據核對、統計學指導、論文修改;盧存存制定檢索策略;Musa Omran A.H. 修訂格式;Vohra Sunita 進行研究設計、方法學指導、論文修改;盧存存、周小芹、徐暢將英文譯成中文。