引用本文: 劉曼, 陳文松, 劉玉秀, 劉雅琦, 袁陽丹. 單組率研究含零事件的 Meta 分析方法. 中國循證醫學雜志, 2020, 20(10): 1226-1233. doi: 10.7507/1672-2531.202005059 復制
近年,對于單組率研究進行 Meta 分析的研究越來越多[1-4]。但是,當遇到單項研究中出現零事件發生率時,現有的一些常用 Meta 分析方法只是進行簡單處理、多有不當,甚至出現錯誤,難以達到統計學性能要求。本文首先回顧梳理單組率研究 Meta 分析的現有常用方法,然后針對單項研究出現零事件率的特殊情形,在多種分析場景設定下,通過 Monte-Carlo 模擬評價不同方法的統計性能,為正確選擇 Meta 分析方法提供依據。
1 單組率 Meta 分析的理論基礎和常見方法
假設對i=1,···,K個獨立的單組率研究進行 Meta 分析,各研究的效應參數(事件率)對應的估計值為
,標準誤為si。就標準的隨機效應模型而言,假設
服從均值θi 和方差為
的正態分布[5]。由于納入研究各研究人群、研究設計等可能會存在差異,不同研究的θi 可能會有所不同,因此θi 也被假設是一隨機變量,并服從均數為θ(總體率)、方差為σ2(不同研究θi的方差)的正態分布。這里的假設是構建 Meta 分析方法的理論基礎。由于在研究內和研究間的效應參數均假定呈正態分布,故又稱為正態-正態模型[6]。顯而易見,當σ2為 0 時,該模型就是固定效應模型。
對于單組率研究 Meta 分析,如果事件發生率不滿足該條件,即原始率不服從正態分布時,可借助數據轉換方法使其服從或近似正態分布,從而提高參數估計的可靠性。在現有的單組率研究 Meta 分析方法中,除了直接使用不做轉換的原始率外,還有 4 種常見的率轉換方法,分別是對數(Log)轉換、Logit 轉換[7]、Freeman-Tukey 雙重反正弦轉換(FT 轉換)[8]和反正弦轉換[9],具體轉換公式見表 1。

單組率研究 Meta 分析最常用的合并方法是倒方差法,它考慮到各個研究間抽樣誤差大小的不同,對每個研究根據誤差大小進行加權合并計算[10, 11]。
按照固定效應模型 Meta 分析的假定,不同研究是同質的,即來自同一總體,各研究效應量的差異為隨機誤差。采用加權平均法估計合并效應量為公式(1):
![]() |
其中是研究i的權重,該權重為各單項研究方差
的倒數,這也是倒方差法的由來。不同轉換方法的標準誤(s)計算公式見表 1。
有研究表明,不同研究合并效應量點估計對應的方差可由各研究原始權重總和的倒數求算,即:
![]() |
因此,根據中心極限定理,不同研究合并效應量的置信區間可采用 Wald 正態近似方法獲得,其 100()% 置信區間下限和上限分別為
![]() |
![]() |
對上述轉換后的參數估計結果進行逆轉換即可獲得原始尺度下參數的點估計和置信區間估計結果。有關對數、Logit 和反正弦轉換的逆轉換公式見表 2。

對 FT 轉換后結果為 t 的逆轉換,Miller 給出公式(5)[12]:
![]() |
該公式需要用到。對于單個研究直接用樣本量代入即可,但是在具有不同樣本量的多項研究的 Meta 分析中,如何指定該量則成為難點。Miller 曾建議用各單項研究樣本量的調和均數,但該法在一些特殊情況下會出現較大問題,例如,當研究間樣本量相差懸殊時,結果不合情理[13];由于三角函數的周期性,當研究的事件發生率很小或很大尤其是接近 0 或 1 時,甚至會出現區間上限小于下限的嚴重錯誤等。鑒此,有人提出用各研究樣本量的幾何均數或算術均數代替調和均數,也有人提出直接套用反正弦轉換的逆轉換,但結果都不夠理想。Barendregt 等[7]提出了一種改良方法,可以較好地解決上述問題,其對 FT 轉換的逆轉換過程及相關公式如[公式(6)]:
![]() |
這里,是 Meta 分析時采用 FT 轉換后的合并率,則對其進行逆轉換后即可獲得原始尺度下的合并率點估計為[公式(7)]:
![]() |
其中,V是采用 FT 轉換后的合并方差,對應于倒方差法中各研究權重之和的倒數。因單項研究 FT 轉換后的的方差為 1/(n+0.5),類似地,可考慮用替代原來逆轉換公式中的
,這樣就規避了使用調和均數產生的不合理性。
相應合并率的 100()% 置信區間下限和上限分別為:
![]() |
![]() |
2 單組率 Meta 分析的常見校正方法
對于單組率研究的 Meta 分析,如果沒有零事件研究出現,前面提到的 5 種轉換方法從單純的計算上看均沒有問題。當出現零事件時,反正弦轉換、FT 轉換在合并計算過程中不涉及除以 0 的問題,仍可繼續計算,而對于不做轉換、對數轉換、Logit 轉換的 3 種方法,在合并計算過程則會遭遇除以零的問題。為解決遇零計算困難的問題,遂提出校正處理方法。
目前常用以下幾種校正方法:
① 直接舍棄事件數為 0 的研究數據(drop):該舍棄法在 STATA 軟件中是默認的,若不另外設定,軟件輸出的合并結果中就不包含事件數為 0 的研究。對四格表資料 Meta 分析零事件的處理,Whitehead[14]指出如果兩組都為零事件,該研究應該剔除。但多數人認為,這些研究畢竟貢獻了信息,不應簡單刪除,理應包括在 Meta 分析中[15],只是需要校正處理。簡單粗暴式刪除研究的處理方式會喪失事件數為 0 的研究的信息,顯然不夠合理。
② 只對事件數為 0 的研究做加 0.5 的連續性校正(1/2 校正)[16, 17]:該方法在 Meta 分析中被廣泛應用,也是 R 軟件默認對零事件的處理方法。值得注意的是,其中具體的處理方式根據轉換方法的不同也不同,具體公式可見表 1。對于這種加固定值的校正,R 軟件中還提供了另外兩種選擇,一種是當研究中一旦有零事件研究出現時,即對所有參與分析的研究都做加固定值的校正,其校正方式同上;另一種是,無論該 Meta 分析中有無 0 事件,對所有研究都做上述校正。R 中單組率的 Meta 分析使用的是“meta”包中的“metaprop”函數,而其中校正的選項有“incr”、“allincr”、“addincr”,分別對應于上述三種方法。
③ 對事件數為 0 的研究做加 10?8校正(超小值校正):Agresti[18]建議校正量采用非常小的常量(例如 10?8);該方法在目前的軟件和文獻中并不常用,但從理論上講加一個很小的校正值就可以避免無定義的問題,也是一種可行選擇。
④ Bartlett 校正:Bartlett 建議[19],當事件發生率為 0 時,直接用 1/(4n)替換,當事件發生率為 100% 時,用 1?1/(4n)替換。
3 Monte-Carlo 模擬研究
3.1 模擬場景參數設置
所有 Monte-Carlo 模擬均在 SAS 9.4 軟件系統環境下實現。模擬時,將 Meta 分析的研究個數(10)、置信度(95%)設置為固定參數,將各單項研究的樣本量、總體率設定為變化參數。考慮到樣本量對校正的影響,我們設置了兩個不同的總樣本量(2 000 和 20 000),每種樣本量又分為平衡和不平衡兩種不同結構。具體設置時,對總樣本量為 2 000 的情形,平衡結構的 10 個單項研究的樣本量均為 200,不平衡結構的最小樣本量為 20,其他樣本以 40 為增量依次遞增至 380;對總樣本量為 20 000 的情形,相應設置擴大 10 倍即可。模擬研究的總體率(p)選擇非常罕見的事件率(0.1%、0.5%、1%)和相對常見的事件率(5%、10%、30%、50%)(為方便起見,模擬時的事件率均用小數表示)。進行 Meta 分析時采用倒方差法估計合并率及 95% 可信區間,考慮 5 種轉換方法,設置 3 種零事件校正方法(1/2 校正、超小值校正和 Bartlett 校正,采用反正弦轉換、FT 轉換時無須校正)。
基于以上的模擬參數設置,共需模擬 2×2×11×7=308 種場景。
3.2 模擬過程
在每種場景下,進行 10 000 次模擬。為簡單起見,假定 Meta 分析采用的是固定效應模型,即認為所有研究來自同一總體,各研究間不存在異質性。
根據不同的場景參數設置,在研究個數 K=10 和不同研究樣本量 n 設置下,按照某一總體率(例如 p=0.01)對各單項研究產生服從二項分布的隨機數作為事件發生數[]。基于這樣隨機產生的 Meta 分析數據集,分別采用不同的變化參數設定進行 Meta 分析,獲得相應的點估計和 95% 可信區間估計。該隨機模擬過程反復多次進行,直至達到規定的模擬次數,然后根據各次的模擬結果計算各性能評價指標。
3.3 Meta 分析方法的性能評估
參考單組率參數估計 Monte-Carlo 模擬研究方法的文獻[20],我們考慮采用 3 個度量值作為 Meta 分析不同方法性能的評價指標[21],分別為:① 相對偏倚:是一種系統誤差,以估計值與真實值之間的差值占真實值的百分比計算。該指標值越接近 0,性能越好。② 置信區間覆蓋率:指得到的置信區間包含總體參數值次數的比例,用于衡量置信區間估計的準確性。該指標值越接近事先設定的置信度(本文用 95%),性能越好。③ 置信區間寬度:指上限和下限之間的差值,通常用平均寬度來比較不同方法間的精確度。不同方法間比較時,該指標值越小,性能越好。
4 結果
在不同的模擬場景下,通過 Monte-Carlo 模擬 Meta 分析,獲得的不同方法的相對偏倚、可信區間覆蓋率和可信區間平均寬度結果分別見圖 1、圖 2 和圖 3。總的來看,在總樣本量相同的情況下,平衡和不平衡兩種樣本量結構下的各種方法的統計性能行為都非常接近,而在總樣本量不同的情況下,不同方法間的行為表現則存在明顯的差別。

行:對應不同樣本量和樣本量結構;列:對應不同轉換方法;連點線:對應不同校正方法;橫實線:表示 0 參照線;橫軸:表示不同總體率。

行:對應不同樣本量和樣本量結構;列:對應不同轉換方法;連點線:對應不同校正方法;橫實線:表示置信區間名義水平 95% 參照線;橫軸:表示不同總體率。

行:對應不同樣本量和樣本量結構;列:對應不同總體率;連點線:對應不同校正方法;橫軸:表示不同轉換方法。
從圖 1 可見,總樣本量為 2 000 時,當總體率在 5% 以上時,各種方法的點估計均接近無偏。隨著總體率的降低,各種方法均產生不同程度的偏倚,其中 FT 轉換和反正弦轉換的偏倚相對較小,而其余方法的偏倚均較大。總樣本量為 20 000 時,當總體率在 0.5% 以上時,各種方法的點估計均接近無偏倚;當總體率為 0.1% 時,只有 FT 轉換保持無偏倚。
從圖 2 可見,總樣本量為 2 000 時,當總體率在 30% 以上時,各種方法的區間估計的覆蓋率均接近名義水平;在不低于 5% 時,對數轉換、Logit 轉換和反正弦轉換方法的覆蓋率表現依然良好;但當總體率在 5% 以下時,只有 FT 轉換的覆蓋率接近名義水平。總樣本量為 20 000 時,當總體率在 5% 以上時,各種方法區間估計的覆蓋率表現均較好,隨著總體率的降低,在不低于 0.5% 時,對數轉換、Logit 轉換和反正弦轉換方法的覆蓋率依然接近名義水平,但當總體率在 0.5% 以下時,只有 FT 轉換的覆蓋率接近名義水平。
從圖 3 可見,總樣本量為 2 000 時,當總體率在 5% 以上時,各種方法區間估計的平均寬度相近,而隨著事件發生率的降低,超小值校正在各種轉換方法下區間估計的平均寬度差別較大,尤其是對數轉換和 Logit 轉換的寬度增大明顯,其余轉換方法差別不大。總樣本量為 20 000 時,各種方法區間估計的平均寬度相差無幾。
5 軟件應用
對于單組率研究的 Meta 分析,盡管許多軟件如 R、STATA、CMA、Meta-DiSc 等均可容易實現,但當含零事件出現時其結果的可靠性則存在問題,而且均不能實現 Barendregt 等提出的改良 FT 轉換的 Meta 分析。事實上,現有的一些通用 Meta 分析軟件一般設置了 FT 轉換功能,但其算法均采用的是 Miller 公式,在特殊情況下[樣本量相差懸殊或公式中的 sin(t)接近 0 時]可能會產生錯誤的結果,因此我們建議這些軟件應更新,采用 FT 轉換的改良算法。實踐中可采用 MetaXL 軟件完整實現改良 FT 轉換的 Meta 分析,該軟件基于 Microsoft Excel 環境運行,專用于 Meta 分析,其規范化的 Meta 分析結果輸出完全符合論文發表要求,可從“http://www.epigear.com”中免費下載。
6 討論
本文梳理分析了當前單組率研究出現零事件時進行 Meta 分析常用的各種不同轉換方法和校正方法,并在盡量涵蓋現實研究可能的諸多場景設定下,重點針對低事件發生率,通過 Monte-Carlo 模擬,借助相對偏倚、可信區間估計的覆蓋率和平均寬度 3 個統計性能評價指標,對不同的 Meta 分析方法進行了統計性能的比較和評價。結果表明,當總體事件發生率在 30% 以上時,各種方法均表現出較優的統計性能。隨著事件發生率的降低,在不低于 5% 時,對數轉換、Logit 轉換和反正弦轉換方法尚能保持性能良好,但當事件發生率在 5% 以下時,只有 FT 轉換在各種情況下依然能穩健地表現出優越的統計性能。我們推薦 FT 轉換作為單組率研究含零事件時 Meta 分析的首選轉換方法。
對于低事件發生率尤其是含零事件的 Meta 分析,既往研究多關注兩組比較四格表資料的情形[22-25]。對于單組率研究的 Meta 分析,Barendregt等[7]在 3 種轉換方法(未轉、Logit 轉換和 FT 轉換)下,比較了采用倒方差法進行 Meta 分析的統計性能,推薦 FT 轉換法作為首選方法。但該研究沒有充分考慮低事件發生率的情形,更未很好考慮 0 事件校正的問題,其模擬的設定也較為局限。我們在其基礎上除了增加對數轉換、反正弦轉換,還充分考慮到對 0 事件的不同校正方法,并在更廣泛的設定下進行了足量模擬,結論具有更強的證據強度和更好的代表性。
除文中進行的模擬外,我們還利用編寫的 Meta 分析 Monte-Carlo 模擬 SAS 宏程序進行了其他的大量模擬,例如結合文獻中的實例進行小樣本量(500 例)和更大樣本量(5~10 萬)的模擬。考慮到有的軟件進行單組率研究 Meta 分析,當出現零事件時采用的是對原始數據進行校正的方法,即按照前述的校正規則,修改原始數據中的研究記錄,然后把原始數據當做不含零事件的數據進行不予校正的 Meta 分析。該做法對對數轉換和 Logit 轉換沒有影響,但對不轉換、反正弦轉換和 FT 轉換而言,其計算過程則發生改變。我們也對該校正原始數據的方式進行了模擬。總的情況看來,Meta 分析的樣本量結構對不同方法的表現行為影響不大,但總樣本量大小卻對結果存在明顯影響;對于采用校正原始數據的方式,在各研究樣本量相差懸殊時,基于 Bartlett 校正的反正弦轉換甚至優于 FT 轉換的統計性能。
基于 FT 轉換的 Meta 分析方法不需要對零事件進行校正,其優異的統計性能成為單組率研究 Meta 分析的首選。但該方法也并非完美,對于較小的樣本量、極低的事件發生率,也存在偏倚較大的問題,好在這一問題在極低事件率時并不重要。另外,值得注意的是,目前許多常用的 Meta 分析軟件使用的 FT 轉換方法與本文模擬推薦的 FT 轉換方法并不完全相同,建議這些 Meta 分析軟件更新算法。
當然,本研究只討論了目標事件率較低、出現事件數為 0 時的解決辦法,由于零事件發生(0%)和全事件發生(100%)是完全對立的,兩者的統計實質是一樣的,因此當進行目標事件率較高或遇到全事件發生的研究合并時,可將其先按零事件發生進行 Meta 分析,然后對估計的參數結果進行簡單換算即可。
此外,本研究只考慮了固定效應模型下單組率研究含零事件的 Meta 分析問題,并沒有考慮研究間的異質性,未在隨機效應模型下進行模擬研究。考慮到隨機效應模型只是在固定效應模型的基礎上增加了研究間的隨機效應,對于服從正態分布的隨機效應,各單項研究的效應量分布并未改變,理論上在正態-正態分布模型下,Meta 分析合并方法的統計性能應保持不變。當然,其性能行為到底如何,尚需要在隨機效應模型下進一步進行驗證。
近年,對于單組率研究進行 Meta 分析的研究越來越多[1-4]。但是,當遇到單項研究中出現零事件發生率時,現有的一些常用 Meta 分析方法只是進行簡單處理、多有不當,甚至出現錯誤,難以達到統計學性能要求。本文首先回顧梳理單組率研究 Meta 分析的現有常用方法,然后針對單項研究出現零事件率的特殊情形,在多種分析場景設定下,通過 Monte-Carlo 模擬評價不同方法的統計性能,為正確選擇 Meta 分析方法提供依據。
1 單組率 Meta 分析的理論基礎和常見方法
假設對i=1,···,K個獨立的單組率研究進行 Meta 分析,各研究的效應參數(事件率)對應的估計值為
,標準誤為si。就標準的隨機效應模型而言,假設
服從均值θi 和方差為
的正態分布[5]。由于納入研究各研究人群、研究設計等可能會存在差異,不同研究的θi 可能會有所不同,因此θi 也被假設是一隨機變量,并服從均數為θ(總體率)、方差為σ2(不同研究θi的方差)的正態分布。這里的假設是構建 Meta 分析方法的理論基礎。由于在研究內和研究間的效應參數均假定呈正態分布,故又稱為正態-正態模型[6]。顯而易見,當σ2為 0 時,該模型就是固定效應模型。
對于單組率研究 Meta 分析,如果事件發生率不滿足該條件,即原始率不服從正態分布時,可借助數據轉換方法使其服從或近似正態分布,從而提高參數估計的可靠性。在現有的單組率研究 Meta 分析方法中,除了直接使用不做轉換的原始率外,還有 4 種常見的率轉換方法,分別是對數(Log)轉換、Logit 轉換[7]、Freeman-Tukey 雙重反正弦轉換(FT 轉換)[8]和反正弦轉換[9],具體轉換公式見表 1。

單組率研究 Meta 分析最常用的合并方法是倒方差法,它考慮到各個研究間抽樣誤差大小的不同,對每個研究根據誤差大小進行加權合并計算[10, 11]。
按照固定效應模型 Meta 分析的假定,不同研究是同質的,即來自同一總體,各研究效應量的差異為隨機誤差。采用加權平均法估計合并效應量為公式(1):
![]() |
其中是研究i的權重,該權重為各單項研究方差
的倒數,這也是倒方差法的由來。不同轉換方法的標準誤(s)計算公式見表 1。
有研究表明,不同研究合并效應量點估計對應的方差可由各研究原始權重總和的倒數求算,即:
![]() |
因此,根據中心極限定理,不同研究合并效應量的置信區間可采用 Wald 正態近似方法獲得,其 100()% 置信區間下限和上限分別為
![]() |
![]() |
對上述轉換后的參數估計結果進行逆轉換即可獲得原始尺度下參數的點估計和置信區間估計結果。有關對數、Logit 和反正弦轉換的逆轉換公式見表 2。

對 FT 轉換后結果為 t 的逆轉換,Miller 給出公式(5)[12]:
![]() |
該公式需要用到。對于單個研究直接用樣本量代入即可,但是在具有不同樣本量的多項研究的 Meta 分析中,如何指定該量則成為難點。Miller 曾建議用各單項研究樣本量的調和均數,但該法在一些特殊情況下會出現較大問題,例如,當研究間樣本量相差懸殊時,結果不合情理[13];由于三角函數的周期性,當研究的事件發生率很小或很大尤其是接近 0 或 1 時,甚至會出現區間上限小于下限的嚴重錯誤等。鑒此,有人提出用各研究樣本量的幾何均數或算術均數代替調和均數,也有人提出直接套用反正弦轉換的逆轉換,但結果都不夠理想。Barendregt 等[7]提出了一種改良方法,可以較好地解決上述問題,其對 FT 轉換的逆轉換過程及相關公式如[公式(6)]:
![]() |
這里,是 Meta 分析時采用 FT 轉換后的合并率,則對其進行逆轉換后即可獲得原始尺度下的合并率點估計為[公式(7)]:
![]() |
其中,V是采用 FT 轉換后的合并方差,對應于倒方差法中各研究權重之和的倒數。因單項研究 FT 轉換后的的方差為 1/(n+0.5),類似地,可考慮用替代原來逆轉換公式中的
,這樣就規避了使用調和均數產生的不合理性。
相應合并率的 100()% 置信區間下限和上限分別為:
![]() |
![]() |
2 單組率 Meta 分析的常見校正方法
對于單組率研究的 Meta 分析,如果沒有零事件研究出現,前面提到的 5 種轉換方法從單純的計算上看均沒有問題。當出現零事件時,反正弦轉換、FT 轉換在合并計算過程中不涉及除以 0 的問題,仍可繼續計算,而對于不做轉換、對數轉換、Logit 轉換的 3 種方法,在合并計算過程則會遭遇除以零的問題。為解決遇零計算困難的問題,遂提出校正處理方法。
目前常用以下幾種校正方法:
① 直接舍棄事件數為 0 的研究數據(drop):該舍棄法在 STATA 軟件中是默認的,若不另外設定,軟件輸出的合并結果中就不包含事件數為 0 的研究。對四格表資料 Meta 分析零事件的處理,Whitehead[14]指出如果兩組都為零事件,該研究應該剔除。但多數人認為,這些研究畢竟貢獻了信息,不應簡單刪除,理應包括在 Meta 分析中[15],只是需要校正處理。簡單粗暴式刪除研究的處理方式會喪失事件數為 0 的研究的信息,顯然不夠合理。
② 只對事件數為 0 的研究做加 0.5 的連續性校正(1/2 校正)[16, 17]:該方法在 Meta 分析中被廣泛應用,也是 R 軟件默認對零事件的處理方法。值得注意的是,其中具體的處理方式根據轉換方法的不同也不同,具體公式可見表 1。對于這種加固定值的校正,R 軟件中還提供了另外兩種選擇,一種是當研究中一旦有零事件研究出現時,即對所有參與分析的研究都做加固定值的校正,其校正方式同上;另一種是,無論該 Meta 分析中有無 0 事件,對所有研究都做上述校正。R 中單組率的 Meta 分析使用的是“meta”包中的“metaprop”函數,而其中校正的選項有“incr”、“allincr”、“addincr”,分別對應于上述三種方法。
③ 對事件數為 0 的研究做加 10?8校正(超小值校正):Agresti[18]建議校正量采用非常小的常量(例如 10?8);該方法在目前的軟件和文獻中并不常用,但從理論上講加一個很小的校正值就可以避免無定義的問題,也是一種可行選擇。
④ Bartlett 校正:Bartlett 建議[19],當事件發生率為 0 時,直接用 1/(4n)替換,當事件發生率為 100% 時,用 1?1/(4n)替換。
3 Monte-Carlo 模擬研究
3.1 模擬場景參數設置
所有 Monte-Carlo 模擬均在 SAS 9.4 軟件系統環境下實現。模擬時,將 Meta 分析的研究個數(10)、置信度(95%)設置為固定參數,將各單項研究的樣本量、總體率設定為變化參數。考慮到樣本量對校正的影響,我們設置了兩個不同的總樣本量(2 000 和 20 000),每種樣本量又分為平衡和不平衡兩種不同結構。具體設置時,對總樣本量為 2 000 的情形,平衡結構的 10 個單項研究的樣本量均為 200,不平衡結構的最小樣本量為 20,其他樣本以 40 為增量依次遞增至 380;對總樣本量為 20 000 的情形,相應設置擴大 10 倍即可。模擬研究的總體率(p)選擇非常罕見的事件率(0.1%、0.5%、1%)和相對常見的事件率(5%、10%、30%、50%)(為方便起見,模擬時的事件率均用小數表示)。進行 Meta 分析時采用倒方差法估計合并率及 95% 可信區間,考慮 5 種轉換方法,設置 3 種零事件校正方法(1/2 校正、超小值校正和 Bartlett 校正,采用反正弦轉換、FT 轉換時無須校正)。
基于以上的模擬參數設置,共需模擬 2×2×11×7=308 種場景。
3.2 模擬過程
在每種場景下,進行 10 000 次模擬。為簡單起見,假定 Meta 分析采用的是固定效應模型,即認為所有研究來自同一總體,各研究間不存在異質性。
根據不同的場景參數設置,在研究個數 K=10 和不同研究樣本量 n 設置下,按照某一總體率(例如 p=0.01)對各單項研究產生服從二項分布的隨機數作為事件發生數[]。基于這樣隨機產生的 Meta 分析數據集,分別采用不同的變化參數設定進行 Meta 分析,獲得相應的點估計和 95% 可信區間估計。該隨機模擬過程反復多次進行,直至達到規定的模擬次數,然后根據各次的模擬結果計算各性能評價指標。
3.3 Meta 分析方法的性能評估
參考單組率參數估計 Monte-Carlo 模擬研究方法的文獻[20],我們考慮采用 3 個度量值作為 Meta 分析不同方法性能的評價指標[21],分別為:① 相對偏倚:是一種系統誤差,以估計值與真實值之間的差值占真實值的百分比計算。該指標值越接近 0,性能越好。② 置信區間覆蓋率:指得到的置信區間包含總體參數值次數的比例,用于衡量置信區間估計的準確性。該指標值越接近事先設定的置信度(本文用 95%),性能越好。③ 置信區間寬度:指上限和下限之間的差值,通常用平均寬度來比較不同方法間的精確度。不同方法間比較時,該指標值越小,性能越好。
4 結果
在不同的模擬場景下,通過 Monte-Carlo 模擬 Meta 分析,獲得的不同方法的相對偏倚、可信區間覆蓋率和可信區間平均寬度結果分別見圖 1、圖 2 和圖 3。總的來看,在總樣本量相同的情況下,平衡和不平衡兩種樣本量結構下的各種方法的統計性能行為都非常接近,而在總樣本量不同的情況下,不同方法間的行為表現則存在明顯的差別。

行:對應不同樣本量和樣本量結構;列:對應不同轉換方法;連點線:對應不同校正方法;橫實線:表示 0 參照線;橫軸:表示不同總體率。

行:對應不同樣本量和樣本量結構;列:對應不同轉換方法;連點線:對應不同校正方法;橫實線:表示置信區間名義水平 95% 參照線;橫軸:表示不同總體率。

行:對應不同樣本量和樣本量結構;列:對應不同總體率;連點線:對應不同校正方法;橫軸:表示不同轉換方法。
從圖 1 可見,總樣本量為 2 000 時,當總體率在 5% 以上時,各種方法的點估計均接近無偏。隨著總體率的降低,各種方法均產生不同程度的偏倚,其中 FT 轉換和反正弦轉換的偏倚相對較小,而其余方法的偏倚均較大。總樣本量為 20 000 時,當總體率在 0.5% 以上時,各種方法的點估計均接近無偏倚;當總體率為 0.1% 時,只有 FT 轉換保持無偏倚。
從圖 2 可見,總樣本量為 2 000 時,當總體率在 30% 以上時,各種方法的區間估計的覆蓋率均接近名義水平;在不低于 5% 時,對數轉換、Logit 轉換和反正弦轉換方法的覆蓋率表現依然良好;但當總體率在 5% 以下時,只有 FT 轉換的覆蓋率接近名義水平。總樣本量為 20 000 時,當總體率在 5% 以上時,各種方法區間估計的覆蓋率表現均較好,隨著總體率的降低,在不低于 0.5% 時,對數轉換、Logit 轉換和反正弦轉換方法的覆蓋率依然接近名義水平,但當總體率在 0.5% 以下時,只有 FT 轉換的覆蓋率接近名義水平。
從圖 3 可見,總樣本量為 2 000 時,當總體率在 5% 以上時,各種方法區間估計的平均寬度相近,而隨著事件發生率的降低,超小值校正在各種轉換方法下區間估計的平均寬度差別較大,尤其是對數轉換和 Logit 轉換的寬度增大明顯,其余轉換方法差別不大。總樣本量為 20 000 時,各種方法區間估計的平均寬度相差無幾。
5 軟件應用
對于單組率研究的 Meta 分析,盡管許多軟件如 R、STATA、CMA、Meta-DiSc 等均可容易實現,但當含零事件出現時其結果的可靠性則存在問題,而且均不能實現 Barendregt 等提出的改良 FT 轉換的 Meta 分析。事實上,現有的一些通用 Meta 分析軟件一般設置了 FT 轉換功能,但其算法均采用的是 Miller 公式,在特殊情況下[樣本量相差懸殊或公式中的 sin(t)接近 0 時]可能會產生錯誤的結果,因此我們建議這些軟件應更新,采用 FT 轉換的改良算法。實踐中可采用 MetaXL 軟件完整實現改良 FT 轉換的 Meta 分析,該軟件基于 Microsoft Excel 環境運行,專用于 Meta 分析,其規范化的 Meta 分析結果輸出完全符合論文發表要求,可從“http://www.epigear.com”中免費下載。
6 討論
本文梳理分析了當前單組率研究出現零事件時進行 Meta 分析常用的各種不同轉換方法和校正方法,并在盡量涵蓋現實研究可能的諸多場景設定下,重點針對低事件發生率,通過 Monte-Carlo 模擬,借助相對偏倚、可信區間估計的覆蓋率和平均寬度 3 個統計性能評價指標,對不同的 Meta 分析方法進行了統計性能的比較和評價。結果表明,當總體事件發生率在 30% 以上時,各種方法均表現出較優的統計性能。隨著事件發生率的降低,在不低于 5% 時,對數轉換、Logit 轉換和反正弦轉換方法尚能保持性能良好,但當事件發生率在 5% 以下時,只有 FT 轉換在各種情況下依然能穩健地表現出優越的統計性能。我們推薦 FT 轉換作為單組率研究含零事件時 Meta 分析的首選轉換方法。
對于低事件發生率尤其是含零事件的 Meta 分析,既往研究多關注兩組比較四格表資料的情形[22-25]。對于單組率研究的 Meta 分析,Barendregt等[7]在 3 種轉換方法(未轉、Logit 轉換和 FT 轉換)下,比較了采用倒方差法進行 Meta 分析的統計性能,推薦 FT 轉換法作為首選方法。但該研究沒有充分考慮低事件發生率的情形,更未很好考慮 0 事件校正的問題,其模擬的設定也較為局限。我們在其基礎上除了增加對數轉換、反正弦轉換,還充分考慮到對 0 事件的不同校正方法,并在更廣泛的設定下進行了足量模擬,結論具有更強的證據強度和更好的代表性。
除文中進行的模擬外,我們還利用編寫的 Meta 分析 Monte-Carlo 模擬 SAS 宏程序進行了其他的大量模擬,例如結合文獻中的實例進行小樣本量(500 例)和更大樣本量(5~10 萬)的模擬。考慮到有的軟件進行單組率研究 Meta 分析,當出現零事件時采用的是對原始數據進行校正的方法,即按照前述的校正規則,修改原始數據中的研究記錄,然后把原始數據當做不含零事件的數據進行不予校正的 Meta 分析。該做法對對數轉換和 Logit 轉換沒有影響,但對不轉換、反正弦轉換和 FT 轉換而言,其計算過程則發生改變。我們也對該校正原始數據的方式進行了模擬。總的情況看來,Meta 分析的樣本量結構對不同方法的表現行為影響不大,但總樣本量大小卻對結果存在明顯影響;對于采用校正原始數據的方式,在各研究樣本量相差懸殊時,基于 Bartlett 校正的反正弦轉換甚至優于 FT 轉換的統計性能。
基于 FT 轉換的 Meta 分析方法不需要對零事件進行校正,其優異的統計性能成為單組率研究 Meta 分析的首選。但該方法也并非完美,對于較小的樣本量、極低的事件發生率,也存在偏倚較大的問題,好在這一問題在極低事件率時并不重要。另外,值得注意的是,目前許多常用的 Meta 分析軟件使用的 FT 轉換方法與本文模擬推薦的 FT 轉換方法并不完全相同,建議這些 Meta 分析軟件更新算法。
當然,本研究只討論了目標事件率較低、出現事件數為 0 時的解決辦法,由于零事件發生(0%)和全事件發生(100%)是完全對立的,兩者的統計實質是一樣的,因此當進行目標事件率較高或遇到全事件發生的研究合并時,可將其先按零事件發生進行 Meta 分析,然后對估計的參數結果進行簡單換算即可。
此外,本研究只考慮了固定效應模型下單組率研究含零事件的 Meta 分析問題,并沒有考慮研究間的異質性,未在隨機效應模型下進行模擬研究。考慮到隨機效應模型只是在固定效應模型的基礎上增加了研究間的隨機效應,對于服從正態分布的隨機效應,各單項研究的效應量分布并未改變,理論上在正態-正態分布模型下,Meta 分析合并方法的統計性能應保持不變。當然,其性能行為到底如何,尚需要在隨機效應模型下進一步進行驗證。