固定效應模型的假設前提是各項研究的真實效應值是相同的,而隨機效應模型的假設前提是各項研究的真實效應呈正態分布。隨機效應模型下總方差是研究內方差與研究間方差之和,而研究間方差的估算方法有多種,各有優缺點。本文簡要介紹隨機效應模型試驗序貫分析中研究間方差的估算方法,并對其進行比較研究。
引用本文: 翁鴻, 蔡林, 吳開杰, 方程, 曾光, 曾憲濤. 隨機效應模型試驗序貫分析中研究間方差估算方法的比較研究. 中國循證醫學雜志, 2017, 17(3): 369-372. doi: 10.7507/1672-2531.201607063 復制
試驗序貫分析(trial sequential analysis,TSA)被用來檢驗 Meta 分析的結論是否“足夠”、“充足”[1]。在 TSA 軟件中提供了 DerSimonian-Laird 法(DL 法)、Sidik-Jonkman 法(SJ 法)和 Biggerstaff-Tweedie 法(BT 法)來進行隨機效應模型的方差估計[2]。DL 法計算方法較為簡便,解釋也較為方便,因此最為流行,在眾多 Meta 分析軟件中被應用,如 Revman、Stata 軟件等[3]。這些估算方法各有優缺點,本文主要介紹這些估算方法,并對其進行比較研究。
1 固定效應模型和隨機效應模型
1.1 固定效應模型
固定效應模型下,假設所有納入研究的真實效應值相同,即影響各納入研究效應值大小的因素相同。假設共有 k 個研究,真實效應值用 θi 表示,觀察效應值用 Yi 表示,抽樣誤差為 ε,i 表示納入研究(i=1,2,…k),則有:
${{\rm{Y}}_{\rm{i}}} = {{\rm{\theta }}_{\rm{i}}} + {{\rm{\varepsilon }}_{\rm{i}}}$ |
固定效應模型 Meta 分析的權重為 , 為研究 i 的研究內方差,加權均值 M 的計算公式為:
${\rm{M}} = \frac{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {{\rm{W}}_{\rm{i}}}{{\rm{Y}}_{\rm{i}}}}}{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {{\rm{W}}_{\rm{i}}}}}$ |
合并結果的方差為 ,其標準誤為 ,合并結果的 95% 可信區間(CI)為 ,推斷真實效應值 θ 是否為 0 的假設檢驗統計量 。
1.2 隨機效應模型
隨機效應模型下,假設所有納入研究的真實效應值是正態分布的。假設共有 k 個研究,真實效應值用 θi 表示,給定總均值為 μ,觀察效應值用 Yi 表示,抽樣誤差為 εi,研究的真實效應值與給定的總均值的差值為 ξi,i 表示納入研究(i=1,2,…k),則有:
${{\rm{Y}}_{\rm{i}}} = {\rm{\mu }} + {{\rm{\xi }}_{\rm{i}}} + {{\rm{\varepsilon }}_{\rm{i}}}$ |
ξi 表示從 μ 到 θi 的距離,其依賴于不同研究真實效應值分布的標準差(即 τ),方差即為 τ2,即研究間方差。在 TSA 分析中估計的樣本研究間方差表示為 。εi 為真實效應值(θi)到觀察值(Yi)之間的距離。
為了與固定效應模型區別,采用星號(*)表示隨機效應模型。在隨機效應模型下,每個研究的權重為 , 是研究 i 間的方差 加上研究 i 內的方差( ),加權后的均值 M* 的計算公式為:
${{\rm{M}}^{\rm{*}}} = \frac{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {\rm{W}}_{\rm{i}}^{\rm{*}}{{\rm{Y}}_{\rm{i}}}}}{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {\rm{W}}_{\rm{i}}^{\rm{*}}}}$ |
合并結果的方差為 ,其標準誤為 ,其 95%CI 為 ,真實效應值 θ 是否為 0 的假設檢驗統計量 。權重的計算與總方差有關,而在隨機效應模型下,總方差等于研究間方差與研究內方差之和,因此,研究間方差的不同估算可以影響 Meta 分析的合并結果。
2 估算方法
2.1 DL 法
DL 法由 DerSimonian 和 Laird 于 1986 年提出[4],是目前最為流行的估算方法,其公式為:
${\rm{\hat \tau }}_{{\rm{DL}}}^2 = {\rm{max}}\left\{ {0,\;\frac{{\mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_\rm {i}}{{\left( {{{\rm{Y}}_{\rm{i}}} - {{\rm{Y}}_{\rm{W}}}} \right)}^2} - \left( {{\rm{k}} - 1} \right)}}{{\mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_{\rm{i}}} - \mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_{\rm{i}}}^2/\mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_{\rm{i}}}}}} \right\}$ |
其中 , 。該方法的優點是計算簡便且易于解釋。但越來越多的研究表明,DL 法易于低估研究間方差[5-9]。
2.2 SJ 法
SJ 法由 Sidik 和 Jonkman 提出[5,6],也被稱為模型誤差方差法(model error variance,MV)。該方法較為簡單,基于干預措施效應觀察值總方差的再參數化,其公式為:
${\rm{\hat \tau }}_{{\rm{SJ}}}^2 = \mathop \sum \nolimits^ {{\rm{v}}_{\rm{i}}}{\left( {{{\rm{Y}}_{\rm{i}}} - {{\rm{\mu }}_0}} \right)^2}/\left( {{\rm{k}} - 1} \right)$ |
其中 , , 為研究間方差的起始估計值,定義為:
${\rm{\tau }}_0^2 = \sum {{{\left( {{{\rm{Y}}_{\rm{i}}} - {{\rm{\mu }}_{{\rm{uw}}}}} \right)}^2}/{\rm{k}}} $ |
其中 μuw 為觀察效應值的非加權均數,μ0 為采用 作為研究間方差進行加權后的隨機效應模型效應值。當納入研究間有中到高度異質性時,與 DL 法比較,該方法不易于低估研究間方差[10]。基于 DL 法的 95%CI 的覆蓋范圍常常低于所需的期望水平[5,7,11,12],而基于 SJ 法的 95%CI 的覆蓋范圍與所需的期望水平接近[6,13]。模擬研究結果發現,基于 DL法的 95%CI 的覆蓋范圍為 80%~92%,相當于 8%~20% 的假陽性錯誤率,遠大于傳統的 5% 水平[6,13]。
2.3 BT 法
由于多數 Meta 分析的納入研究數量較少,研究間方差的估計容易受到隨機誤差的影響[14]。因此,隨機效應模型下的合并會受到研究間方差的不確定性的影響。Biggerstaff 和 Tweedie 提出了 BT 法[14],衍生出基于 DL 法估算得到的 的概率分布 fDL,定義研究的權重 ,t 為假設 τ2 所有可能值的變量,使用 fDL 和獲得的研究權重將估計 τ2 的不確定性考慮進去。相對于 DL 法,BT 法將權重更多地分配到大型研究。此外,Biggerstaff和 Tweedie 還提出了對 Meta 分析干預效應方差的校正公式,TSA 軟件使用該方法提供 TSA 校正置信區間[2]。
3 不同方法估算示例
我們采用 15 項關于急性心肌梗死后靜脈應用鎂離子對病死率影響的臨床試驗為例,數據格式如表 1 所示。

我們采用 TSA 軟件 0.9β 版本進行分析。結果如表 2 所示,WFEM 為固定效應模型下各研究的權重,WDL、WSJ、WBT 分別為隨機效應模型 DL 法、SJ 法、BT 法計算的各納入研究的權重。在固定效應模型下,樣本量大的研究所給予的權重較大,如 ISIS-4 的權重為 89.742%、LIMIT-2 的權重為 5.035%,其他研究的權重均小于 1%;而隨機效應模型下,基于 DL 法估算的 ISIS-4 的權重為 17.218%,LIMIT-2 的權重 15.806%,其他研究的權重均在 1.7%~9.9% 之間;基于 SJ 法估算的 ISIS-4 的權重為 14.546%,LIMIT-2 的權重 13.728%,其他研究的權重均在 2.1%~9.7% 之間;基于 BT 法估算的 ISIS-4 的權重為 79.084%,LIMIT-2 的權重 7.749%,其他研究的權重均在 0.3%~2.2% 之間。

DL 法、SJ 法、BT 法三種方法估算的 τ2 分別為 0.228、0.343、0.228(表 3)。結果顯示,與 DL 法比較,SJ 法估算的 τ2 值較高,而 BT 法與 DL 法結果相近。此外,我們還出給了異質性的指標 I2 以及 TSA 中的差異指標 D2。這三種方法下異質性指標 I2 值相同,但差異指標 D2 不同,DL 法、SJ 法、BT 法下的 D2 分別為 0.976、0.981、0.864,SJ 法下 D2 值最大。而 D2 值與差異校正信息量的計算有關,因此,在 SJ 法下,TSA 的所需信息量也較其他兩種方法大。

4 小結
這些估算研究間方差的方法各有優缺點。SJ 法和 BT 法都有相對于 DL 的優點,然而在特定的情況下 SJ 法和 BT 法也有其局限性。當研究間異質性為中度時,SJ 法易高估研究間方差,可能會得出較為寬泛的置信區間;BT 法的結果與 DL 法相似,但當納入研究的樣本量差異較大及受到偏倚影響的情況下,BT 法會給予大型研究較多的權重。因此,在實踐中,我們可以將這幾種方法進行敏感性分析,如果這些方法的結果相似,說明研究結果較為穩定,可信度較高。如果所得結果不同,如 DL 法與 SJ 法結果有差異,那么可能的原因是:(1)該 Meta 分析具有中到高度異質性,而 DL 法低估了研究間方差,產生的置信區間較窄;(2)該 Meta 分析具有較低異質性,SJ 法高估了研究間方差,產生了較寬泛的置信區間[2]。這種情況下,我們應該同時使用這幾種方法,然后進行比較,并討論其可能的原因,并探索真實的情況。
試驗序貫分析(trial sequential analysis,TSA)被用來檢驗 Meta 分析的結論是否“足夠”、“充足”[1]。在 TSA 軟件中提供了 DerSimonian-Laird 法(DL 法)、Sidik-Jonkman 法(SJ 法)和 Biggerstaff-Tweedie 法(BT 法)來進行隨機效應模型的方差估計[2]。DL 法計算方法較為簡便,解釋也較為方便,因此最為流行,在眾多 Meta 分析軟件中被應用,如 Revman、Stata 軟件等[3]。這些估算方法各有優缺點,本文主要介紹這些估算方法,并對其進行比較研究。
1 固定效應模型和隨機效應模型
1.1 固定效應模型
固定效應模型下,假設所有納入研究的真實效應值相同,即影響各納入研究效應值大小的因素相同。假設共有 k 個研究,真實效應值用 θi 表示,觀察效應值用 Yi 表示,抽樣誤差為 ε,i 表示納入研究(i=1,2,…k),則有:
${{\rm{Y}}_{\rm{i}}} = {{\rm{\theta }}_{\rm{i}}} + {{\rm{\varepsilon }}_{\rm{i}}}$ |
固定效應模型 Meta 分析的權重為 , 為研究 i 的研究內方差,加權均值 M 的計算公式為:
${\rm{M}} = \frac{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {{\rm{W}}_{\rm{i}}}{{\rm{Y}}_{\rm{i}}}}}{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {{\rm{W}}_{\rm{i}}}}}$ |
合并結果的方差為 ,其標準誤為 ,合并結果的 95% 可信區間(CI)為 ,推斷真實效應值 θ 是否為 0 的假設檢驗統計量 。
1.2 隨機效應模型
隨機效應模型下,假設所有納入研究的真實效應值是正態分布的。假設共有 k 個研究,真實效應值用 θi 表示,給定總均值為 μ,觀察效應值用 Yi 表示,抽樣誤差為 εi,研究的真實效應值與給定的總均值的差值為 ξi,i 表示納入研究(i=1,2,…k),則有:
${{\rm{Y}}_{\rm{i}}} = {\rm{\mu }} + {{\rm{\xi }}_{\rm{i}}} + {{\rm{\varepsilon }}_{\rm{i}}}$ |
ξi 表示從 μ 到 θi 的距離,其依賴于不同研究真實效應值分布的標準差(即 τ),方差即為 τ2,即研究間方差。在 TSA 分析中估計的樣本研究間方差表示為 。εi 為真實效應值(θi)到觀察值(Yi)之間的距離。
為了與固定效應模型區別,采用星號(*)表示隨機效應模型。在隨機效應模型下,每個研究的權重為 , 是研究 i 間的方差 加上研究 i 內的方差( ),加權后的均值 M* 的計算公式為:
${{\rm{M}}^{\rm{*}}} = \frac{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {\rm{W}}_{\rm{i}}^{\rm{*}}{{\rm{Y}}_{\rm{i}}}}}{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {\rm{W}}_{\rm{i}}^{\rm{*}}}}$ |
合并結果的方差為 ,其標準誤為 ,其 95%CI 為 ,真實效應值 θ 是否為 0 的假設檢驗統計量 。權重的計算與總方差有關,而在隨機效應模型下,總方差等于研究間方差與研究內方差之和,因此,研究間方差的不同估算可以影響 Meta 分析的合并結果。
2 估算方法
2.1 DL 法
DL 法由 DerSimonian 和 Laird 于 1986 年提出[4],是目前最為流行的估算方法,其公式為:
${\rm{\hat \tau }}_{{\rm{DL}}}^2 = {\rm{max}}\left\{ {0,\;\frac{{\mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_\rm {i}}{{\left( {{{\rm{Y}}_{\rm{i}}} - {{\rm{Y}}_{\rm{W}}}} \right)}^2} - \left( {{\rm{k}} - 1} \right)}}{{\mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_{\rm{i}}} - \mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_{\rm{i}}}^2/\mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_{\rm{i}}}}}} \right\}$ |
其中 , 。該方法的優點是計算簡便且易于解釋。但越來越多的研究表明,DL 法易于低估研究間方差[5-9]。
2.2 SJ 法
SJ 法由 Sidik 和 Jonkman 提出[5,6],也被稱為模型誤差方差法(model error variance,MV)。該方法較為簡單,基于干預措施效應觀察值總方差的再參數化,其公式為:
${\rm{\hat \tau }}_{{\rm{SJ}}}^2 = \mathop \sum \nolimits^ {{\rm{v}}_{\rm{i}}}{\left( {{{\rm{Y}}_{\rm{i}}} - {{\rm{\mu }}_0}} \right)^2}/\left( {{\rm{k}} - 1} \right)$ |
其中 , , 為研究間方差的起始估計值,定義為:
${\rm{\tau }}_0^2 = \sum {{{\left( {{{\rm{Y}}_{\rm{i}}} - {{\rm{\mu }}_{{\rm{uw}}}}} \right)}^2}/{\rm{k}}} $ |
其中 μuw 為觀察效應值的非加權均數,μ0 為采用 作為研究間方差進行加權后的隨機效應模型效應值。當納入研究間有中到高度異質性時,與 DL 法比較,該方法不易于低估研究間方差[10]。基于 DL 法的 95%CI 的覆蓋范圍常常低于所需的期望水平[5,7,11,12],而基于 SJ 法的 95%CI 的覆蓋范圍與所需的期望水平接近[6,13]。模擬研究結果發現,基于 DL法的 95%CI 的覆蓋范圍為 80%~92%,相當于 8%~20% 的假陽性錯誤率,遠大于傳統的 5% 水平[6,13]。
2.3 BT 法
由于多數 Meta 分析的納入研究數量較少,研究間方差的估計容易受到隨機誤差的影響[14]。因此,隨機效應模型下的合并會受到研究間方差的不確定性的影響。Biggerstaff 和 Tweedie 提出了 BT 法[14],衍生出基于 DL 法估算得到的 的概率分布 fDL,定義研究的權重 ,t 為假設 τ2 所有可能值的變量,使用 fDL 和獲得的研究權重將估計 τ2 的不確定性考慮進去。相對于 DL 法,BT 法將權重更多地分配到大型研究。此外,Biggerstaff和 Tweedie 還提出了對 Meta 分析干預效應方差的校正公式,TSA 軟件使用該方法提供 TSA 校正置信區間[2]。
3 不同方法估算示例
我們采用 15 項關于急性心肌梗死后靜脈應用鎂離子對病死率影響的臨床試驗為例,數據格式如表 1 所示。

我們采用 TSA 軟件 0.9β 版本進行分析。結果如表 2 所示,WFEM 為固定效應模型下各研究的權重,WDL、WSJ、WBT 分別為隨機效應模型 DL 法、SJ 法、BT 法計算的各納入研究的權重。在固定效應模型下,樣本量大的研究所給予的權重較大,如 ISIS-4 的權重為 89.742%、LIMIT-2 的權重為 5.035%,其他研究的權重均小于 1%;而隨機效應模型下,基于 DL 法估算的 ISIS-4 的權重為 17.218%,LIMIT-2 的權重 15.806%,其他研究的權重均在 1.7%~9.9% 之間;基于 SJ 法估算的 ISIS-4 的權重為 14.546%,LIMIT-2 的權重 13.728%,其他研究的權重均在 2.1%~9.7% 之間;基于 BT 法估算的 ISIS-4 的權重為 79.084%,LIMIT-2 的權重 7.749%,其他研究的權重均在 0.3%~2.2% 之間。

DL 法、SJ 法、BT 法三種方法估算的 τ2 分別為 0.228、0.343、0.228(表 3)。結果顯示,與 DL 法比較,SJ 法估算的 τ2 值較高,而 BT 法與 DL 法結果相近。此外,我們還出給了異質性的指標 I2 以及 TSA 中的差異指標 D2。這三種方法下異質性指標 I2 值相同,但差異指標 D2 不同,DL 法、SJ 法、BT 法下的 D2 分別為 0.976、0.981、0.864,SJ 法下 D2 值最大。而 D2 值與差異校正信息量的計算有關,因此,在 SJ 法下,TSA 的所需信息量也較其他兩種方法大。

4 小結
這些估算研究間方差的方法各有優缺點。SJ 法和 BT 法都有相對于 DL 的優點,然而在特定的情況下 SJ 法和 BT 法也有其局限性。當研究間異質性為中度時,SJ 法易高估研究間方差,可能會得出較為寬泛的置信區間;BT 法的結果與 DL 法相似,但當納入研究的樣本量差異較大及受到偏倚影響的情況下,BT 法會給予大型研究較多的權重。因此,在實踐中,我們可以將這幾種方法進行敏感性分析,如果這些方法的結果相似,說明研究結果較為穩定,可信度較高。如果所得結果不同,如 DL 法與 SJ 法結果有差異,那么可能的原因是:(1)該 Meta 分析具有中到高度異質性,而 DL 法低估了研究間方差,產生的置信區間較窄;(2)該 Meta 分析具有較低異質性,SJ 法高估了研究間方差,產生了較寬泛的置信區間[2]。這種情況下,我們應該同時使用這幾種方法,然后進行比較,并討論其可能的原因,并探索真實的情況。