網狀Meta分析(network meta-analysis,NMA)作為一種新興的統計學方法,既繼承了傳統Meta分析所面臨的方法學挑戰,又因同時涉及多個干預比較而更具復雜性。樣本量和統計效能的重要性在原始研究和傳統Meta分析中已被公認,然而相關問題在NMA中尚未受到足夠重視。本文將重點介紹實現NMA樣本量及統計效能計算的方法學原理,并通過實例演示介紹具體實施步驟。
引用本文: 田旭, 易莉娟, 宋國敏, 王新田, 張超, 曾憲濤. 網狀Meta分析中樣本量與統計效能計算方法及軟件實現簡介. 中國循證醫學雜志, 2015, 15(5): 592-599. doi: 10.7507/1672-2531.20150098 復制
網狀Meta分析(network meta-analysis,NMA)是將具有相同研究目的的多種獨立干預措施間的間接比較(indirect treatment comparison,ITC)和直接比較(head to head treatment comparison,HTC)結果進行綜合分析的一種統計方法 [1-3]。由于NMA可以同時比較多種干預措施的療效,因而迅速得到臨床研究者、臨床實踐者、流行病學家、統計學家、衛生決策者等的重視與青睞 [4-10]。近30年來,國內外相關學者對Meta分析中基礎與高級統計學方法進行了廣泛而深入的研究 [11, 12],NMA作為一種新興的方法 [1, 4],既繼承了傳統Meta分析所面臨的方法學挑戰,同時又因處理數據量大、所涉及統計學方法復雜而比傳統Meta分析更難理解與掌握 [11, 13]。
樣本量和統計效能的重要性在原始研究中已被公認 [14],在HTC的Meta分析中亦受到廣泛關注與重視 [14-16],然而在NMA中諸類問題尚未引起研究者的重視。NMA需同時對多個干預措施的效果進行比較,納入了較HTC的Meta分析更多的原始研究,加上其復雜的證據網絡圖 [1, 3, 4],使得NMA證據網絡中的不同比較組的統計效能和精確性通常存在差異,因此定量估算NMA統計效能及精確性變得極為困難 [17, 18]。Mills與其同事通過模擬研究發現,NMA合并結果往往因統計效能不足而缺乏可信性 [19]。NMA制作者及證據使用者謹慎的評價NMA合并結果的統計效能,對判斷證據的真實性和臨床價值顯得尤為重要。鑒于此,Thorlund與Mills在前期模擬研究基礎上提出了一套有效的NMA統計效能和精確性(有效樣本量)計算方案 [20, 21],本文將結合實例對相關方法涉及到的基本原理和實現過程進行講解,以期為相關研究者及使用者提供參考。
1 ITC與NMA基本概念及原理
ITC和NMA的概念、原理及軟件實現請參閱李勝等的文章 [1, 3, 4, 22, 23]。
2 樣本量及統計效能計算方法原理
當前,ITC和NMA的樣本量及統計效能的計算包括有效合并研究數量法、有效樣本量法和有效統計信息量法。
2.1 有效合并研究數量法
顧名思義,有效合并研究數量法(the effective number of trials,ENT)即為了使ITC獲得與單個HTC相同統計效能和精確性,估算出所需的合并研究數。該方法需滿足兩個應用假設條件:① 納入合并的各個研究方差相等;② 納入合并的研究具有同質性。
Glenny等 [24]研究表明,當實現ITC(A vs. B,C為橋梁)的兩個HTC(A vs. C與B vs. C)具有相等合并研究個數時,為了使ITC獲得與HTC相當的檢驗效能,那么ITC需要比相同規模的HTC多納入4倍的研究數目,即1∶4的有效研究數目比值(亦稱精確性比率)。但實際中實現ITC的兩個HTC所納入的合并研究個數往往并不相等,此種情況下1∶4的精確性比率已不再適用。例如,假設A vs. C納入研究是B vs. C的2倍(1∶2),那么一方面基于HTC(A vs. C與B vs. C)實現的ITC(A vs. B)需納入4.5倍的相同規模HTC研究納入的研究數量方能達到與之相當的檢驗效能;另一方面為了滿足1∶2的有效研究數目比值,ITC則至少需納入6個研究(2∶4)才能獲得對應HTC所達到的檢驗效能。推算過程如下:
假設存在干預措施A、B、C相互間HTC的研究,且每個研究的方差均為V,那么納入2k個研究的HTC的Meta分析所得合并效應量的方差為V/2k(基于倒方差法),以兩個均納入了k個研究的HTC(A vs. C與B vs. C)為基礎而實現的ITC(A vs. B)所得效應量的方差則為V/k+V/k=2V/k。假設R為直接與間接效應量精確性的相關系數,則:
R×(V/2k)=2V/k
R=4
上述計算的應用假設是A vs. C與B vs. C納入了相等的合并研究數量。事實上,這一假設在實際情況下成立的概率很低,因此通過變換上述公式以適用于各比較組合并研究數量不等的情況,更具現實意義。
假設kAC和kBC分別表示A vs. C和B vs. C納入的研究數量,那么納入了(kAC+kBC)個研究的ITC的合并效應量的方差則為V/(kAC+kBC),將該方差代入上述公式中:
R×(V/(kAC+kBC))=V/kAC+V/kBC
R=(kAC+kBC)2/(kAC×kBC)
因此,當有效研究數目比值為1∶2時,對應的精確性比率則為4.5:
R=(k+2k)2/(k×2k)=9k2/2k2=4.5
ITC要達到一個同等規模HTC相當的檢驗效能所需納入研究則為(1×4.5),在1∶2的研究數目比值的基礎上,可知需求研究為6個(2∶4)。
同理,若期望上述ITC達到相當于兩個相同規模HTC的檢驗效能水平,根據上面變換后的公式可知,該ITC需納入9(2×4.5)個研究(3∶6)。
由上述公式可知,為了保證特定的有效研究數目比值,上式求得的有效ITC數量多數情況下均多于同等規模的HTC所含研究數量。例如當有效研究數目比值為1∶3時,相應的精確性比率為5.33,ITC要獲得相當于納入了2個HTC研究的同等規模Meta分析相同的檢驗效能所需的有效合并研究數量為10.66,為滿足1∶3的有效研究數目比值,該ITC需納入12(3∶9)個研究。
綜上,有效合并研究數量法的計算主要包括3步:① 根據有效研究數目比值確定精確性比率;② 根據ITC需要達到的檢驗效能水平,結合精確性比率計算有效合并研究數量理論值;③ 根據理論值確定最終的有效合并研究數量。
2.2 有效樣本量法
有效樣本量法(the effective sample size,ESS)是指把NMA證據網絡中的每一個比較組視為一個臨床研究,通過估算每一個比較組的需求樣本量(有效樣本量)(required sample size)來計算ITC的統計效能和精確性的方法。有效樣本量法涉及的公式推算與有效合并研究數量法的推算過程類似,而且有效樣本量法中的直接和間接比較精確性相關系數值與有效合并研究數量法中的對應值互為倒數。推算過程如下:
假設存在3種干預措施A、B、C相互間HTC的RCT研究,A vs. B,B vs. C及A vs. C的總體方差(population variance)相等(V),且假定選用固定效應模型執行Meta分析的合并研究,可視為一個設計良好的大樣本臨床研究。設R為HTC與ITC精確性的相關系數,VAC=VBC=VAC=V,nAC、nBC分別為A vs. C與B vs. C的樣本量,則:
V/(R×(nAC+nBC))=V/nAC+V/nBC
R=(nAC×nBC)/(nAC+nBC)2
因此,若ITC要達到與樣本量為1 000例受試者HTC的Meta分析相當的檢驗效能和精確性,則需納入4 000例受試者(1000/(1/4) ),為滿足1∶1的樣本量比值,作為實現該ITC基礎的兩個HTC均需納入2 000例受試者。通過逆運算將上式進行變換后,可以通過實現ITC的兩個HTC所含樣本量,簡單的計算出與該ITC同規模的HTC的Meta分析所需樣本量。例如,基于HTC研究A vs. C與B vs. C,實現了A vs. B的ITC,設A vs. C與B vs. C均納入1 000例受試者,那么同等規模的HTC類型Meta分析要達到相同的檢驗效能則需納入500例受試者[(1000+1000) ×1/4]。
實際上,作為實現ITC的兩個HTC的Meta分析的樣本量與精確性比率并非呈線性遞增關系,因此通過總體間接樣本量乘以精確性相關系數求取有效間接樣本量:
n=R×(nAC+nBC)=(nAC×nBC)(nAC+nBC)
上述推算的假設條件是各比較組納入研究具有同質性,若存在統計學異質性,用于估算間接效應量的直接效應量會遭受更大程度的變異,因此,真實的有效間接樣本量將小于用上述樣本量公式計算得到的樣本量數值。基于已被證實的HTC的Meta分析需求樣本量計算所用的異質性矯正樣本量計算公式,我們將用異質性校正因子(1-I2)對實現ITC的兩個HTC所含的實際樣本量進行懲罰,以獲得真實的有效間接樣本量:
[(nAC×(1-IAC2 )+nBC×(1-I BC2))/Rcorrected]
上式中,nAC、nBC分別代表A vs. C與B vs. C的實際樣本量,Rcorrected是指基于異質性矯正后的樣本量求取的精確性比率。然而,異質性矯正后所求的有效間接樣本量與精確性比值依然不成線性遞增關系,因此需對上述公式進一步轉換:
[(nAC×(1-I AC2))×(nBC×(1-I BC2))]/[(nAC×(1-I AC2))+ (nBC×(1-I BC2))]
盡管通過異質性校正可獲得真實的有效間接樣本量,但依然不能彌補有效樣本量法存在的兩個局限:第一,若HTC的Meta分析納入合并的研究數量較少時,將導致I2缺乏穩定性和可信性,而且I2對研究結局指標所用的效應尺度依賴性極大。因此,在綜合考慮臨床意義(clinical consideration)的基礎上,對I2值做出合理的假設不失為一種更可取的方法。在樣本量計算過程中,假設I2為25%或50%通常是合理的。第二,有效樣本量法應用的假設條件是:樣本量是良好的精確性替代指標(surrogate index)。然而,在事件發生率(二分類資料)、計數(計數資料)等顯著不同時,上述假設并不成立。
綜上所述,有效樣本量法包括非校正和異質性矯正兩種模式,其計算過程主要包括3步:首先,根據樣本量比值計算精確性比率;然后,分析各比較組是否存在異質性;最后,對具有同質性的比較組,用總體間接樣本量乘以精確性比率即可獲得有效間接樣本量,對于存在異質性的比較組,則通過異質性校正因子對實際樣本進行懲罰后,再計算有效間接樣本量。
2.3 有效統計信息量法
統計信息量(statistical information,SI)是用于估算指定數據集(data set)精確性的較為復雜的統計學測度(statistical measure),亦稱Fisher信息量。基于ITC的Meta分析的SI計算實現的統計效能計算即為有效統計信息量法(the effective statistical information,ESI)。對于HTC的Meta分析而言,SI等于合并效應量對應方差的倒數(即精確性),在ITC的Meta分析中,則為間接效應量方差的倒數。假定VAB-indirect、VAC-direct和VBC-direct分別為A vs. B的ITC、A vs. C與B vs. C的HTC的合并效應量方差,ESIAB-indirect代表A vs. BDEITC的ESI,根據HTC的Meta分析結果,可知得A vs. C的ITC效應量方差值為:
VAB-indirect=VAC-direct+VBC-direct
那么B vs. C的ITC的ESI則為:
$ES{{I}_{AB-indirect}}=\frac{1}{{{V}_{AC-direct}}+{{V}_{BC-direct}}}$ |
異質性是方差的一部分,且方差的大小與納入合并的研究數量和樣本量密切相關,因此ESI不需要做任何轉換即可應用。該方法有2個優勢:① ESI類似于需求樣本量,因此可通過SI計算ESI,從而推斷需求效樣本量;② 可用ITC的SI與足夠的統計效能標準作比較。
2.4 3種方法的優缺點
以上介紹的3種用于計算ITC的樣本量及統計效能的方法均有各自的優缺點,具體情況總結如表 1。

3 樣本量及統計效能計算基礎問題及實現步驟
3.1 弱鏈
上文介紹了最簡單的ITC形式(一個共同對照)的樣本量及統計效能計算方法,然而,實際上通過兩個及其以上共同對照連接而實現的干預措施之間ITC的情況更為常見(圖 1)。例如,我們期望比較干預措施A與B的效果,也存在A vs. C、C vs. D及D vs. B的HTC研究,因此將干預C和D視為共同對照,便可實現干預A與B效果的ITC。然而由多個共同對照實現的ITC與HTC的精確性比率將隨著共同對照的增加而呈線性遞增,因此其對精確性的貢獻將變得微乎其微,以至于在計算ITC和NMA樣本量和統計效能過程中通常將其忽略不計,我們將這種現象定義為“弱鏈”。基于多共同對照實現的ITC與HTC的精確性比率的計算,有興趣的作者可根據ENT中提供的精確性比率公式完成,在此便不再贅述。

3.2 不同證據網絡中的有效樣本量和統計效能問題
3.2.1 三處理因素閉合環
由3種處理因素相互HTC構成的閉合環是最簡單的直接與間接證據的合并形式,無論是選用有ENT、ESS還是ESI作為處理因素閉合環中任一比較組精確性的測度,其值均等于直接和間接證據包含信息量之和,即為了計算閉合環中任一比較組(如A vs. B)的有效合并研究數量,僅需將HTC和ITC的有效合并研究數量加總。例如,期望比較干預A和B的效果,當可同時獲得A vs. B的HTC研究及A vs. C和B vs. C的HTC研究時,則可共同對照實現A vs. B的ITC,假設nAB-direct和nAB-indirect分別為干預A與B的HTC和ITC的有效樣本量,nAB為A vs. B比較組的總有效樣本量,則:
nAB=nAB-direct+nAB-indirect
如果有效間接樣本量為異質性矯正后所求值,則只需將異質性矯正后的有效間接樣本量與有效直接樣本量加總。
同理,若要計算某一比較組(如A vs. B)的有效信息量和有效合并研究數量,則分別將ITC合并方差倒數(1/Vindirect-pooled)與HTC合并方差倒數(1/Vdirect-pooled)、ITC納入合并的研究數與HTC納入合并的研究數加總即可。
3.2.2 多路徑證據來源ITC
上文中主要介紹了基于一個共同對照實現的ITC模型,事實上ITC通常基于多路徑來源的HTC實現特定干預的效果比較。例如期望比較干預A與B的效果,通過A vs. C與B vs. C(C為共同對照)的HTC實現,亦可基于A vs. D與B vs. D(D為共同對照)完成。此種情況下,同時存在兩條實現干預A與B效果ITC的HTC來源路徑,將其定義為“雙路徑證據來源”ITC(圖 2)。以此類推,便形成了“多路徑證據來源”ITC(圖 3)。通過加總構成間接證據的所有來源的ITC和HTC的SI即可獲得間接證據的總體有效信息量。同理,若間接證據僅由ITC構成,那么僅需將構成間接證據的所有ITC所含的信息量加總。


3.2.3 HTC的Meta分析的樣本量及統計效能
為保證Meta分析合成證據的可靠性和可信性,樣本量和統計效能問題在HTC的Meta分析中的重要性已得到廣泛關注和認可 [14, 25, 26]。研究一致認為,HTC的Meta分析的需求樣本量至少應等于一項設計良好的多中心大樣本臨床研究所納入的受試數 [14, 27, 28]。假設d為區分度,σ為對應的方差,允許的一類錯誤為α,二類錯誤為β,則依據臨床研究總體樣本量計算公式可求出HTC的Meta分析的需求樣本量:
$N=4\times {{\left[ \frac{\left( {{z}_{1-a/2}}+{{z}_{1-\beta }} \right)\times \sigma }{d} \right]}^{2}}$ |
上式為隨機分配比為1∶1的雙臂研究需求樣本量的計算式,z1-α/2與z1-β為標準正態分布的第(1-α/2)和(1-β)百分位數。然而,臨床研究中隨機分配比與干預臂會依據研究目的而改變,因此應將上式一般化:
$N=C\times {{\left[ \frac{\left( {{z}_{1-a/2}}+{{z}_{1-\beta }} \right)\times \sigma }{d} \right]}^{2}}$ |
上式中,C為取決于隨機分配比和干預臂數的常數,假設r與narm分別代表隨機分配比和干預臂數,那么得到C的計算式:
$C=\frac{{{\left( 1+r \right)}^{2}}}{r}\times \left( {{n}_{arm}}-1 \right)$ |
以隨機分配比為1∶1的雙臂研究為例,其對應的C值等于:
$C=\frac{{{\left( 1+1 \right)}^{2}}}{1}\times \left( 2-1 \right)=4$ |
若納入HTC的Meta分析的研究間存在異質性,可以通過將需求樣本量乘以異質性校正因子對樣本量加以調整 [27],其計算式如下:
Ncorrected=N×[(1/(1-I2) )]
上式中,1/(1-I2) 為異質性校正因子,其中I2為總變異中能被異質性解釋的變異百分比,其計算式為:
${{I}^{2}}=\frac{\left[ Q-\left( k-1 \right) \right]}{Q}$ |
上式中,Q為Cochrane同質性檢驗統計量,k為納入合并的研究數量。
另外一種處理異質性的方法是計算需求統計信息量(required information,RI) [29],HTC的Meta分析的RI為合并效應量方差的倒數(即精確性),其具體計算式如下:
RI=C×(z1-α/2+z1-β)2/d2
3.2.4 HTC的Meta分析的信息分數與統計效能
當HTC的Meta分析累計樣本量未達到需求樣本量(類似于試驗序貫分析中的需求信息量)時,可以通過計算兩個指標去估計證據強度:
第一,信息分數(information fraction,IF)。為累計樣本量(或統計信息量)與需求樣本量之比:
IF=n/N
第二,后驗統計學效能。通過變換需求樣本量公式,可以求得后驗統計學效能:
$Powe{{r}_{hoc}}={{\Phi }^{-1}}\left( -{{z}_{1-a/2}}+\sqrt{\left( n\times {{d}^{2}} \right)\times \left( C\times {{\sigma }^{2}} \right)} \right)$ |
上式中Φ為累計標準正態分布函數。
3.2.5 ITC的Meta分析的IF與統計效能
為了計算ITC的Meta分析的IF和統計效能,可依據上文介紹的方法將計算得到的有效間接樣本量、HTC的Meta分析的需求樣本量等指標綜合應用。通過4步即可獲得ITC的Meta分析的IF和統計效能:① 計算有效間接樣本量;② 計算HTC的Meta分析的需求樣本量;③ 計算有效間接IF,為HTC的Meta分析有效樣本量與有效總體樣本量之比;④ 計算ITC的統計效能,只需將HTC的Meta分析統計效能計算式中的n替換為有效間接樣本量即可。
3.2.6 NMA的IF與統計效能
NMA的IF與統計效能計算步驟與ITC對應指標計算過程相同,只需將每一步的計算內容更換即可:① 計算證據網絡中每一個比較組的有效樣本量;② 計算HTC的Meta分析的需求樣本量;③ 計算有效IF,為有效樣本量與需求樣本量之比;④ 計算統計效能,將HTC的Meta分析統計效能計算式中的n替換為有效樣本量即可。
4 實例演示
以《網狀Meta分析在R軟件中的實現》一文 [30]提供的數據為例(表 2)進行軟件實現的演示(囿于篇幅,同時為保證充分的簡明性,僅采用證據網絡圖中的一個間接比較對有效合并研究數、有效樣本量及信息量分數的計算過程進行演示。有興趣的讀者可依據本文介紹的相關原理計算其他指標)。

將示例數據標準化整理后,分別采用Stata軟件和Microsoft Excel軟件NetMetaXL宏命令(選擇模糊先驗隨機模型)實現HTC的Meta分析與NMA,然后依據計算結果分別繪制呈現HTC納入研究數、合并樣本量的證據網絡圖(圖 4~5)。由于兩個干預效果比較只存在一個HTC證據,因此不考慮異質性。假定Clarithromycin及Azithromycin與Rifabutin相比,至少要降低20%的事件發生率方為有效,允許的一類錯誤和二類錯誤分別為0.05和0.2。


4.1 有效合并研究數量計算實例
從圖 4可知,欲比較藥物Rifabutin與Azithromycin的效果,可同時獲得HTC和ITC證據(C vs. A與B vs. A)。根據實現B vs. C的HTV和ITC(C vs. A與B vs. A)納入的研究數量(有效研究數目比值為1∶1),可求得精確性比率:
R=(1+1) 2/(1×1) =4
由此可知,為使B vs. C的ITC獲得與其HTC相當的檢驗效能,ITC需納入合并的研究數為4個(1×4),要滿足1∶1的有效研究數目比值,則C vs. A與B vs. A應分別納入2個研究。剩余ITC的ENT計算與此相同,在此不再贅述。
4.2 有效樣本量及統計效能計算實例
從圖 5可知,B與C同時存在ITC和HTC,HTC納入受試人數為446例,實現兩種藥物ITC的HTC(C vs. A與B vs. A) 納入受試人數分別為174和573例,上述HTC不存在異質性,因此不需要對樣本量進行校正。由此,我們可以計算有效間接樣本量:
nAB-indirect=(174×573) /(174+573) =134
那么,總的有效樣本量則為:
ntotal=134+446=580
總的有效樣本量對應的IF為:
IF=(446/580) =0.7690
對應的方差為:
σ2=[(UL-LL)/3.92]2
σ2=[(2.18-1.36) /3.92]2=0.04
因此,總的有效樣本對應的統計效能為:
$\begin{align} & Powe{{r}_{hoc}}={{\Phi }^{-1}}\left( -1.96+\sqrt{\left( 580\times {{0.2}^{2}} \right)\times \left( 4\times 0.04 \right)} \right) \\ & =0.4867 \\ \end{align}$ |
4.3 有統計信息量計算實例
針對干預B vs. C效果的比較,為了計算其有效統計信息量,則需現行計算實現該ITC的HTC的合并效應量方差值。假定VBC-indirect、VCA-direct和VBA-direct分別為B vs. C的ITC、C vs. A與B vs. A的HTC合并效應量方差,VBC-indirect代表B vs. C的ITC有效統計信息量,根據HTC的Meta分析結果,可知得B vs. C的ITC效應量方差值為:
VBC-indirect=VCA-direct+VBA-direct
那么B vs. C的ITC有效統計信息量則為:
$ES{{I}_{BC-indirect}}=\frac{1}{{{V}_{CA-direct}}+{{V}_{BA-direct}}}$ |
$ES{{I}_{BC-indirect}}=\frac{1}{2.06+1.02}=0.3248$ |
剩余ITC的ENT、ESS與統計效能及ESI的計算類似于上述過程,有興趣的讀者可依據原文數據和相關公式自行演算。但值得注意的是,如果只能獲得干預A vs. B的ITC,而不存在二者效果的HTC,那么首先應計算有效HTC樣本量,然后計算ESI。
5 小結
隨著生物醫學的快速發展,用于解決特定臨床問題的不同干預措施相繼出現構成了復雜的干預網絡,NMA的出現為證據合成者比較不同干預的療效及臨床實踐者選擇最佳的干預措施提供了方法學基礎。筆者通過檢索PubMed發現,NMA論文數量呈現顯著增長趨勢,但尚無包括合并結果統計效能與有效樣本量評價的NMA論文發表。該結果表明,盡管NMA已成為比較多種干預措施療效并將其綜合排序的新興統計學方法,如何定量評估其結果的可信性(統計效能)與精確性(樣本量)依然是該領域的難點。NMA復雜的統計學基礎及比較網絡使得其統計效能及有效樣本量計算的難度遠遠超過了原始研究及傳統Meta分析相應指標的實現過程。
本文通過理論分析和實例演示,對當前可用于估算NMA樣本量及統計效能的3種方法進行了詳細介紹。通過對3種方法的優缺點進加以分析可知,有效研究合并數量法和有效研究樣本法的實現均基于各自的假設,這些假設較低的真實世界成立概率將直接影響二者所得結果的真實性和適用性,但有效樣本量法的估算結果(樣本量)與有效合并研究數目法所得指標相比,具備更佳的可解釋性。有效統計信息量法的實現基于精確地方差估計或Bayesian方差先驗假設,盡管其結果理論上更具統計和理性,卻因缺乏可解釋性和簡明性而難于臨床推廣應用。通過我們的綜合分析可知,基于有效合并樣本量計算來評價NMA的證據強度(精確性和統計效能)是最易理解和解釋的一種方法,更利于推廣應用。
當前有諸多軟件、程序或宏命令可用于實現原始研究和傳統Meta分析統計效能和有效樣本量的計算,這也使得該類研究統計效能和有效樣本量的計算在臨床研究者和實踐者中的受重視程度日益提高,同時在其常規推廣中也起到了舉足輕重的作用。隨著NMA在臨床研究和實踐中地位的日益凸顯,為提高政策制定者、臨床研究者和實踐者等人群對NMA統計效能和有效樣本量計算的重視,對上述實現NMA統計效能及有效樣本量計算的方法學加以完善,在此基礎上設計Excel計算程序、常用統計學軟件代碼或宏命令,簡化其實現過程將是接下來應予以解決的重點。
網狀Meta分析(network meta-analysis,NMA)是將具有相同研究目的的多種獨立干預措施間的間接比較(indirect treatment comparison,ITC)和直接比較(head to head treatment comparison,HTC)結果進行綜合分析的一種統計方法 [1-3]。由于NMA可以同時比較多種干預措施的療效,因而迅速得到臨床研究者、臨床實踐者、流行病學家、統計學家、衛生決策者等的重視與青睞 [4-10]。近30年來,國內外相關學者對Meta分析中基礎與高級統計學方法進行了廣泛而深入的研究 [11, 12],NMA作為一種新興的方法 [1, 4],既繼承了傳統Meta分析所面臨的方法學挑戰,同時又因處理數據量大、所涉及統計學方法復雜而比傳統Meta分析更難理解與掌握 [11, 13]。
樣本量和統計效能的重要性在原始研究中已被公認 [14],在HTC的Meta分析中亦受到廣泛關注與重視 [14-16],然而在NMA中諸類問題尚未引起研究者的重視。NMA需同時對多個干預措施的效果進行比較,納入了較HTC的Meta分析更多的原始研究,加上其復雜的證據網絡圖 [1, 3, 4],使得NMA證據網絡中的不同比較組的統計效能和精確性通常存在差異,因此定量估算NMA統計效能及精確性變得極為困難 [17, 18]。Mills與其同事通過模擬研究發現,NMA合并結果往往因統計效能不足而缺乏可信性 [19]。NMA制作者及證據使用者謹慎的評價NMA合并結果的統計效能,對判斷證據的真實性和臨床價值顯得尤為重要。鑒于此,Thorlund與Mills在前期模擬研究基礎上提出了一套有效的NMA統計效能和精確性(有效樣本量)計算方案 [20, 21],本文將結合實例對相關方法涉及到的基本原理和實現過程進行講解,以期為相關研究者及使用者提供參考。
1 ITC與NMA基本概念及原理
ITC和NMA的概念、原理及軟件實現請參閱李勝等的文章 [1, 3, 4, 22, 23]。
2 樣本量及統計效能計算方法原理
當前,ITC和NMA的樣本量及統計效能的計算包括有效合并研究數量法、有效樣本量法和有效統計信息量法。
2.1 有效合并研究數量法
顧名思義,有效合并研究數量法(the effective number of trials,ENT)即為了使ITC獲得與單個HTC相同統計效能和精確性,估算出所需的合并研究數。該方法需滿足兩個應用假設條件:① 納入合并的各個研究方差相等;② 納入合并的研究具有同質性。
Glenny等 [24]研究表明,當實現ITC(A vs. B,C為橋梁)的兩個HTC(A vs. C與B vs. C)具有相等合并研究個數時,為了使ITC獲得與HTC相當的檢驗效能,那么ITC需要比相同規模的HTC多納入4倍的研究數目,即1∶4的有效研究數目比值(亦稱精確性比率)。但實際中實現ITC的兩個HTC所納入的合并研究個數往往并不相等,此種情況下1∶4的精確性比率已不再適用。例如,假設A vs. C納入研究是B vs. C的2倍(1∶2),那么一方面基于HTC(A vs. C與B vs. C)實現的ITC(A vs. B)需納入4.5倍的相同規模HTC研究納入的研究數量方能達到與之相當的檢驗效能;另一方面為了滿足1∶2的有效研究數目比值,ITC則至少需納入6個研究(2∶4)才能獲得對應HTC所達到的檢驗效能。推算過程如下:
假設存在干預措施A、B、C相互間HTC的研究,且每個研究的方差均為V,那么納入2k個研究的HTC的Meta分析所得合并效應量的方差為V/2k(基于倒方差法),以兩個均納入了k個研究的HTC(A vs. C與B vs. C)為基礎而實現的ITC(A vs. B)所得效應量的方差則為V/k+V/k=2V/k。假設R為直接與間接效應量精確性的相關系數,則:
R×(V/2k)=2V/k
R=4
上述計算的應用假設是A vs. C與B vs. C納入了相等的合并研究數量。事實上,這一假設在實際情況下成立的概率很低,因此通過變換上述公式以適用于各比較組合并研究數量不等的情況,更具現實意義。
假設kAC和kBC分別表示A vs. C和B vs. C納入的研究數量,那么納入了(kAC+kBC)個研究的ITC的合并效應量的方差則為V/(kAC+kBC),將該方差代入上述公式中:
R×(V/(kAC+kBC))=V/kAC+V/kBC
R=(kAC+kBC)2/(kAC×kBC)
因此,當有效研究數目比值為1∶2時,對應的精確性比率則為4.5:
R=(k+2k)2/(k×2k)=9k2/2k2=4.5
ITC要達到一個同等規模HTC相當的檢驗效能所需納入研究則為(1×4.5),在1∶2的研究數目比值的基礎上,可知需求研究為6個(2∶4)。
同理,若期望上述ITC達到相當于兩個相同規模HTC的檢驗效能水平,根據上面變換后的公式可知,該ITC需納入9(2×4.5)個研究(3∶6)。
由上述公式可知,為了保證特定的有效研究數目比值,上式求得的有效ITC數量多數情況下均多于同等規模的HTC所含研究數量。例如當有效研究數目比值為1∶3時,相應的精確性比率為5.33,ITC要獲得相當于納入了2個HTC研究的同等規模Meta分析相同的檢驗效能所需的有效合并研究數量為10.66,為滿足1∶3的有效研究數目比值,該ITC需納入12(3∶9)個研究。
綜上,有效合并研究數量法的計算主要包括3步:① 根據有效研究數目比值確定精確性比率;② 根據ITC需要達到的檢驗效能水平,結合精確性比率計算有效合并研究數量理論值;③ 根據理論值確定最終的有效合并研究數量。
2.2 有效樣本量法
有效樣本量法(the effective sample size,ESS)是指把NMA證據網絡中的每一個比較組視為一個臨床研究,通過估算每一個比較組的需求樣本量(有效樣本量)(required sample size)來計算ITC的統計效能和精確性的方法。有效樣本量法涉及的公式推算與有效合并研究數量法的推算過程類似,而且有效樣本量法中的直接和間接比較精確性相關系數值與有效合并研究數量法中的對應值互為倒數。推算過程如下:
假設存在3種干預措施A、B、C相互間HTC的RCT研究,A vs. B,B vs. C及A vs. C的總體方差(population variance)相等(V),且假定選用固定效應模型執行Meta分析的合并研究,可視為一個設計良好的大樣本臨床研究。設R為HTC與ITC精確性的相關系數,VAC=VBC=VAC=V,nAC、nBC分別為A vs. C與B vs. C的樣本量,則:
V/(R×(nAC+nBC))=V/nAC+V/nBC
R=(nAC×nBC)/(nAC+nBC)2
因此,若ITC要達到與樣本量為1 000例受試者HTC的Meta分析相當的檢驗效能和精確性,則需納入4 000例受試者(1000/(1/4) ),為滿足1∶1的樣本量比值,作為實現該ITC基礎的兩個HTC均需納入2 000例受試者。通過逆運算將上式進行變換后,可以通過實現ITC的兩個HTC所含樣本量,簡單的計算出與該ITC同規模的HTC的Meta分析所需樣本量。例如,基于HTC研究A vs. C與B vs. C,實現了A vs. B的ITC,設A vs. C與B vs. C均納入1 000例受試者,那么同等規模的HTC類型Meta分析要達到相同的檢驗效能則需納入500例受試者[(1000+1000) ×1/4]。
實際上,作為實現ITC的兩個HTC的Meta分析的樣本量與精確性比率并非呈線性遞增關系,因此通過總體間接樣本量乘以精確性相關系數求取有效間接樣本量:
n=R×(nAC+nBC)=(nAC×nBC)(nAC+nBC)
上述推算的假設條件是各比較組納入研究具有同質性,若存在統計學異質性,用于估算間接效應量的直接效應量會遭受更大程度的變異,因此,真實的有效間接樣本量將小于用上述樣本量公式計算得到的樣本量數值。基于已被證實的HTC的Meta分析需求樣本量計算所用的異質性矯正樣本量計算公式,我們將用異質性校正因子(1-I2)對實現ITC的兩個HTC所含的實際樣本量進行懲罰,以獲得真實的有效間接樣本量:
[(nAC×(1-IAC2 )+nBC×(1-I BC2))/Rcorrected]
上式中,nAC、nBC分別代表A vs. C與B vs. C的實際樣本量,Rcorrected是指基于異質性矯正后的樣本量求取的精確性比率。然而,異質性矯正后所求的有效間接樣本量與精確性比值依然不成線性遞增關系,因此需對上述公式進一步轉換:
[(nAC×(1-I AC2))×(nBC×(1-I BC2))]/[(nAC×(1-I AC2))+ (nBC×(1-I BC2))]
盡管通過異質性校正可獲得真實的有效間接樣本量,但依然不能彌補有效樣本量法存在的兩個局限:第一,若HTC的Meta分析納入合并的研究數量較少時,將導致I2缺乏穩定性和可信性,而且I2對研究結局指標所用的效應尺度依賴性極大。因此,在綜合考慮臨床意義(clinical consideration)的基礎上,對I2值做出合理的假設不失為一種更可取的方法。在樣本量計算過程中,假設I2為25%或50%通常是合理的。第二,有效樣本量法應用的假設條件是:樣本量是良好的精確性替代指標(surrogate index)。然而,在事件發生率(二分類資料)、計數(計數資料)等顯著不同時,上述假設并不成立。
綜上所述,有效樣本量法包括非校正和異質性矯正兩種模式,其計算過程主要包括3步:首先,根據樣本量比值計算精確性比率;然后,分析各比較組是否存在異質性;最后,對具有同質性的比較組,用總體間接樣本量乘以精確性比率即可獲得有效間接樣本量,對于存在異質性的比較組,則通過異質性校正因子對實際樣本進行懲罰后,再計算有效間接樣本量。
2.3 有效統計信息量法
統計信息量(statistical information,SI)是用于估算指定數據集(data set)精確性的較為復雜的統計學測度(statistical measure),亦稱Fisher信息量。基于ITC的Meta分析的SI計算實現的統計效能計算即為有效統計信息量法(the effective statistical information,ESI)。對于HTC的Meta分析而言,SI等于合并效應量對應方差的倒數(即精確性),在ITC的Meta分析中,則為間接效應量方差的倒數。假定VAB-indirect、VAC-direct和VBC-direct分別為A vs. B的ITC、A vs. C與B vs. C的HTC的合并效應量方差,ESIAB-indirect代表A vs. BDEITC的ESI,根據HTC的Meta分析結果,可知得A vs. C的ITC效應量方差值為:
VAB-indirect=VAC-direct+VBC-direct
那么B vs. C的ITC的ESI則為:
$ES{{I}_{AB-indirect}}=\frac{1}{{{V}_{AC-direct}}+{{V}_{BC-direct}}}$ |
異質性是方差的一部分,且方差的大小與納入合并的研究數量和樣本量密切相關,因此ESI不需要做任何轉換即可應用。該方法有2個優勢:① ESI類似于需求樣本量,因此可通過SI計算ESI,從而推斷需求效樣本量;② 可用ITC的SI與足夠的統計效能標準作比較。
2.4 3種方法的優缺點
以上介紹的3種用于計算ITC的樣本量及統計效能的方法均有各自的優缺點,具體情況總結如表 1。

3 樣本量及統計效能計算基礎問題及實現步驟
3.1 弱鏈
上文介紹了最簡單的ITC形式(一個共同對照)的樣本量及統計效能計算方法,然而,實際上通過兩個及其以上共同對照連接而實現的干預措施之間ITC的情況更為常見(圖 1)。例如,我們期望比較干預措施A與B的效果,也存在A vs. C、C vs. D及D vs. B的HTC研究,因此將干預C和D視為共同對照,便可實現干預A與B效果的ITC。然而由多個共同對照實現的ITC與HTC的精確性比率將隨著共同對照的增加而呈線性遞增,因此其對精確性的貢獻將變得微乎其微,以至于在計算ITC和NMA樣本量和統計效能過程中通常將其忽略不計,我們將這種現象定義為“弱鏈”。基于多共同對照實現的ITC與HTC的精確性比率的計算,有興趣的作者可根據ENT中提供的精確性比率公式完成,在此便不再贅述。

3.2 不同證據網絡中的有效樣本量和統計效能問題
3.2.1 三處理因素閉合環
由3種處理因素相互HTC構成的閉合環是最簡單的直接與間接證據的合并形式,無論是選用有ENT、ESS還是ESI作為處理因素閉合環中任一比較組精確性的測度,其值均等于直接和間接證據包含信息量之和,即為了計算閉合環中任一比較組(如A vs. B)的有效合并研究數量,僅需將HTC和ITC的有效合并研究數量加總。例如,期望比較干預A和B的效果,當可同時獲得A vs. B的HTC研究及A vs. C和B vs. C的HTC研究時,則可共同對照實現A vs. B的ITC,假設nAB-direct和nAB-indirect分別為干預A與B的HTC和ITC的有效樣本量,nAB為A vs. B比較組的總有效樣本量,則:
nAB=nAB-direct+nAB-indirect
如果有效間接樣本量為異質性矯正后所求值,則只需將異質性矯正后的有效間接樣本量與有效直接樣本量加總。
同理,若要計算某一比較組(如A vs. B)的有效信息量和有效合并研究數量,則分別將ITC合并方差倒數(1/Vindirect-pooled)與HTC合并方差倒數(1/Vdirect-pooled)、ITC納入合并的研究數與HTC納入合并的研究數加總即可。
3.2.2 多路徑證據來源ITC
上文中主要介紹了基于一個共同對照實現的ITC模型,事實上ITC通常基于多路徑來源的HTC實現特定干預的效果比較。例如期望比較干預A與B的效果,通過A vs. C與B vs. C(C為共同對照)的HTC實現,亦可基于A vs. D與B vs. D(D為共同對照)完成。此種情況下,同時存在兩條實現干預A與B效果ITC的HTC來源路徑,將其定義為“雙路徑證據來源”ITC(圖 2)。以此類推,便形成了“多路徑證據來源”ITC(圖 3)。通過加總構成間接證據的所有來源的ITC和HTC的SI即可獲得間接證據的總體有效信息量。同理,若間接證據僅由ITC構成,那么僅需將構成間接證據的所有ITC所含的信息量加總。


3.2.3 HTC的Meta分析的樣本量及統計效能
為保證Meta分析合成證據的可靠性和可信性,樣本量和統計效能問題在HTC的Meta分析中的重要性已得到廣泛關注和認可 [14, 25, 26]。研究一致認為,HTC的Meta分析的需求樣本量至少應等于一項設計良好的多中心大樣本臨床研究所納入的受試數 [14, 27, 28]。假設d為區分度,σ為對應的方差,允許的一類錯誤為α,二類錯誤為β,則依據臨床研究總體樣本量計算公式可求出HTC的Meta分析的需求樣本量:
$N=4\times {{\left[ \frac{\left( {{z}_{1-a/2}}+{{z}_{1-\beta }} \right)\times \sigma }{d} \right]}^{2}}$ |
上式為隨機分配比為1∶1的雙臂研究需求樣本量的計算式,z1-α/2與z1-β為標準正態分布的第(1-α/2)和(1-β)百分位數。然而,臨床研究中隨機分配比與干預臂會依據研究目的而改變,因此應將上式一般化:
$N=C\times {{\left[ \frac{\left( {{z}_{1-a/2}}+{{z}_{1-\beta }} \right)\times \sigma }{d} \right]}^{2}}$ |
上式中,C為取決于隨機分配比和干預臂數的常數,假設r與narm分別代表隨機分配比和干預臂數,那么得到C的計算式:
$C=\frac{{{\left( 1+r \right)}^{2}}}{r}\times \left( {{n}_{arm}}-1 \right)$ |
以隨機分配比為1∶1的雙臂研究為例,其對應的C值等于:
$C=\frac{{{\left( 1+1 \right)}^{2}}}{1}\times \left( 2-1 \right)=4$ |
若納入HTC的Meta分析的研究間存在異質性,可以通過將需求樣本量乘以異質性校正因子對樣本量加以調整 [27],其計算式如下:
Ncorrected=N×[(1/(1-I2) )]
上式中,1/(1-I2) 為異質性校正因子,其中I2為總變異中能被異質性解釋的變異百分比,其計算式為:
${{I}^{2}}=\frac{\left[ Q-\left( k-1 \right) \right]}{Q}$ |
上式中,Q為Cochrane同質性檢驗統計量,k為納入合并的研究數量。
另外一種處理異質性的方法是計算需求統計信息量(required information,RI) [29],HTC的Meta分析的RI為合并效應量方差的倒數(即精確性),其具體計算式如下:
RI=C×(z1-α/2+z1-β)2/d2
3.2.4 HTC的Meta分析的信息分數與統計效能
當HTC的Meta分析累計樣本量未達到需求樣本量(類似于試驗序貫分析中的需求信息量)時,可以通過計算兩個指標去估計證據強度:
第一,信息分數(information fraction,IF)。為累計樣本量(或統計信息量)與需求樣本量之比:
IF=n/N
第二,后驗統計學效能。通過變換需求樣本量公式,可以求得后驗統計學效能:
$Powe{{r}_{hoc}}={{\Phi }^{-1}}\left( -{{z}_{1-a/2}}+\sqrt{\left( n\times {{d}^{2}} \right)\times \left( C\times {{\sigma }^{2}} \right)} \right)$ |
上式中Φ為累計標準正態分布函數。
3.2.5 ITC的Meta分析的IF與統計效能
為了計算ITC的Meta分析的IF和統計效能,可依據上文介紹的方法將計算得到的有效間接樣本量、HTC的Meta分析的需求樣本量等指標綜合應用。通過4步即可獲得ITC的Meta分析的IF和統計效能:① 計算有效間接樣本量;② 計算HTC的Meta分析的需求樣本量;③ 計算有效間接IF,為HTC的Meta分析有效樣本量與有效總體樣本量之比;④ 計算ITC的統計效能,只需將HTC的Meta分析統計效能計算式中的n替換為有效間接樣本量即可。
3.2.6 NMA的IF與統計效能
NMA的IF與統計效能計算步驟與ITC對應指標計算過程相同,只需將每一步的計算內容更換即可:① 計算證據網絡中每一個比較組的有效樣本量;② 計算HTC的Meta分析的需求樣本量;③ 計算有效IF,為有效樣本量與需求樣本量之比;④ 計算統計效能,將HTC的Meta分析統計效能計算式中的n替換為有效樣本量即可。
4 實例演示
以《網狀Meta分析在R軟件中的實現》一文 [30]提供的數據為例(表 2)進行軟件實現的演示(囿于篇幅,同時為保證充分的簡明性,僅采用證據網絡圖中的一個間接比較對有效合并研究數、有效樣本量及信息量分數的計算過程進行演示。有興趣的讀者可依據本文介紹的相關原理計算其他指標)。

將示例數據標準化整理后,分別采用Stata軟件和Microsoft Excel軟件NetMetaXL宏命令(選擇模糊先驗隨機模型)實現HTC的Meta分析與NMA,然后依據計算結果分別繪制呈現HTC納入研究數、合并樣本量的證據網絡圖(圖 4~5)。由于兩個干預效果比較只存在一個HTC證據,因此不考慮異質性。假定Clarithromycin及Azithromycin與Rifabutin相比,至少要降低20%的事件發生率方為有效,允許的一類錯誤和二類錯誤分別為0.05和0.2。


4.1 有效合并研究數量計算實例
從圖 4可知,欲比較藥物Rifabutin與Azithromycin的效果,可同時獲得HTC和ITC證據(C vs. A與B vs. A)。根據實現B vs. C的HTV和ITC(C vs. A與B vs. A)納入的研究數量(有效研究數目比值為1∶1),可求得精確性比率:
R=(1+1) 2/(1×1) =4
由此可知,為使B vs. C的ITC獲得與其HTC相當的檢驗效能,ITC需納入合并的研究數為4個(1×4),要滿足1∶1的有效研究數目比值,則C vs. A與B vs. A應分別納入2個研究。剩余ITC的ENT計算與此相同,在此不再贅述。
4.2 有效樣本量及統計效能計算實例
從圖 5可知,B與C同時存在ITC和HTC,HTC納入受試人數為446例,實現兩種藥物ITC的HTC(C vs. A與B vs. A) 納入受試人數分別為174和573例,上述HTC不存在異質性,因此不需要對樣本量進行校正。由此,我們可以計算有效間接樣本量:
nAB-indirect=(174×573) /(174+573) =134
那么,總的有效樣本量則為:
ntotal=134+446=580
總的有效樣本量對應的IF為:
IF=(446/580) =0.7690
對應的方差為:
σ2=[(UL-LL)/3.92]2
σ2=[(2.18-1.36) /3.92]2=0.04
因此,總的有效樣本對應的統計效能為:
$\begin{align} & Powe{{r}_{hoc}}={{\Phi }^{-1}}\left( -1.96+\sqrt{\left( 580\times {{0.2}^{2}} \right)\times \left( 4\times 0.04 \right)} \right) \\ & =0.4867 \\ \end{align}$ |
4.3 有統計信息量計算實例
針對干預B vs. C效果的比較,為了計算其有效統計信息量,則需現行計算實現該ITC的HTC的合并效應量方差值。假定VBC-indirect、VCA-direct和VBA-direct分別為B vs. C的ITC、C vs. A與B vs. A的HTC合并效應量方差,VBC-indirect代表B vs. C的ITC有效統計信息量,根據HTC的Meta分析結果,可知得B vs. C的ITC效應量方差值為:
VBC-indirect=VCA-direct+VBA-direct
那么B vs. C的ITC有效統計信息量則為:
$ES{{I}_{BC-indirect}}=\frac{1}{{{V}_{CA-direct}}+{{V}_{BA-direct}}}$ |
$ES{{I}_{BC-indirect}}=\frac{1}{2.06+1.02}=0.3248$ |
剩余ITC的ENT、ESS與統計效能及ESI的計算類似于上述過程,有興趣的讀者可依據原文數據和相關公式自行演算。但值得注意的是,如果只能獲得干預A vs. B的ITC,而不存在二者效果的HTC,那么首先應計算有效HTC樣本量,然后計算ESI。
5 小結
隨著生物醫學的快速發展,用于解決特定臨床問題的不同干預措施相繼出現構成了復雜的干預網絡,NMA的出現為證據合成者比較不同干預的療效及臨床實踐者選擇最佳的干預措施提供了方法學基礎。筆者通過檢索PubMed發現,NMA論文數量呈現顯著增長趨勢,但尚無包括合并結果統計效能與有效樣本量評價的NMA論文發表。該結果表明,盡管NMA已成為比較多種干預措施療效并將其綜合排序的新興統計學方法,如何定量評估其結果的可信性(統計效能)與精確性(樣本量)依然是該領域的難點。NMA復雜的統計學基礎及比較網絡使得其統計效能及有效樣本量計算的難度遠遠超過了原始研究及傳統Meta分析相應指標的實現過程。
本文通過理論分析和實例演示,對當前可用于估算NMA樣本量及統計效能的3種方法進行了詳細介紹。通過對3種方法的優缺點進加以分析可知,有效研究合并數量法和有效研究樣本法的實現均基于各自的假設,這些假設較低的真實世界成立概率將直接影響二者所得結果的真實性和適用性,但有效樣本量法的估算結果(樣本量)與有效合并研究數目法所得指標相比,具備更佳的可解釋性。有效統計信息量法的實現基于精確地方差估計或Bayesian方差先驗假設,盡管其結果理論上更具統計和理性,卻因缺乏可解釋性和簡明性而難于臨床推廣應用。通過我們的綜合分析可知,基于有效合并樣本量計算來評價NMA的證據強度(精確性和統計效能)是最易理解和解釋的一種方法,更利于推廣應用。
當前有諸多軟件、程序或宏命令可用于實現原始研究和傳統Meta分析統計效能和有效樣本量的計算,這也使得該類研究統計效能和有效樣本量的計算在臨床研究者和實踐者中的受重視程度日益提高,同時在其常規推廣中也起到了舉足輕重的作用。隨著NMA在臨床研究和實踐中地位的日益凸顯,為提高政策制定者、臨床研究者和實踐者等人群對NMA統計效能和有效樣本量計算的重視,對上述實現NMA統計效能及有效樣本量計算的方法學加以完善,在此基礎上設計Excel計算程序、常用統計學軟件代碼或宏命令,簡化其實現過程將是接下來應予以解決的重點。