介紹一種利用中位數、極差和樣本量估算均數和標準差的方法,由此使定量資料在Meta分析中得到更好的利用。通過實例分析,示范該估算方法的應用過程。
引用本文: 侯曉雯, 時景璞, 陳欣. 在Meta分析中如何利用中位數、極差和樣本量估算均數、標準差. 中國循證醫學雜志, 2015, 15(4): 484-487. doi: 10.7507/1672-2531.20150080 復制
Meta分析中,對定量資料進行合并分析時,需要已知單個研究里樣本的均數和標準差,并經過統計軟件進行合并分析 [1]。但一些相關原始研究并未直接提供樣本的均數和標準差,只提供了中位數、極差和樣本量,無法直接利用所提供的參數完成Meta分析。在聯系通訊作者,索要所需參數無果的情況下,如果選擇剔除這些文獻,就會失去部分相關證據,降低了Meta分析的統計效能,可能造成Meta分析結果出現偏倚。
本文旨在介紹一種已被驗證的利用中位數、極差和樣本量來估算均數和標準差的方法 [2],從而使得更多原始研究中的數據在Meta分析中被合理利用。
1 基本原理
1.1 參數定義
假設有如下樣本:
a = x1≤ x2≤ Λ≤ xN-1≤ xN = M≤ xN+1≤ xN+2≤ Λ≤ xn-1≤ xn = b
其中,M表示中位數;a表示樣本最小值;b表示樣本最大值;n表示樣本量。此外,假設樣本量n為奇數,那么第N個數的值就為中位數,N=(n+1) /2。
1.2 均數的計算
當n≤ 25時,用公式估算;
當n>25時,用M估計m。
1.3 標準差的計算
當n≤ 15時,用公式
估計;
當15<n≤ 70時,用公式估算;
當n>70時,用公式估算。
2 實例分析
2.1 實例1
利用Meta分析評價血清中視黃醇結合蛋白(retinol-binding protein 4,RBP4)與冠心病的關系在中國人群中是否存在,按照納入與排除標準納入相關文獻,見表 1。在列出的9篇文獻 [3-11]中,8篇 [3-5, 7-11]提供了均數和標準差,1篇 [6]只提供了中位數、最小值和最大值。

如果將只提供了中位數、最小值和最大值的文獻 [6]按文獻排除標準中的“數據信息不全”處理,文獻將被直接剔除;若按該文獻中已提供的參數做如下處理,可估算均數和標準差的數值:
冠心病患者:
由于n=30>25,用M估計m,故RBP4的均值約為17.56 μg/mL。
由于15<n=30<70,用公式估算,SD≈ (32.48-12.80) /4=4.92 μg/mL,故RBP4的標準差約為4.92μg/ml。
健康體檢者:
由于n=30>25,用M估計m,故RBP4的均值約為16.50 μg/mL。
由于15<n=30<70,用公式估算,SD≈ (31.42-0.01) /4=7.85 μg/mL,故RBP4的標準差約為7.85 μg/mL。
采用亞組分析可看出該方法估算均數和標準差對Meta分析結果的影響:
見圖 1。亞組A由剔除該文獻后剩余的8篇文獻組成;亞組B由該文獻 [6]數據經參數估算保留后,共9篇文獻組成。RevMan 5.2軟件進行的Meta分析結果顯示,將文獻 [6]中的參數轉換后,異質性和統計學意義沒有本質改變,但統計學效能有所提高。

2.2 實例2
利用Meta分析評價HIV感染的既往獻血員在治療前后CD4+ T淋巴細胞計數(個/μg)是否發生變化,按照納入與排除標準納入相關文獻,見表 2。在列出的12篇文獻中,10篇提供了均數和標準差,2篇只提供了中位數、最小值和最大值。

如果將只提供了中位數、最小值和最大值的2篇文獻 [11, 12]按文獻排除標準中的“數據信息不全”處理,2篇文獻將被直接剔除;若按文獻中已提供的參數做如下處理,可估算所需均數和標準差的數值:
文獻 [11]均值、標準差的估算:
治療前:
由于n=14<25,用估算,故治療前淋巴細胞計數的均值約為254.2個/μg。
由于n=14<15,用公式估算SD,SD≈71.3個/μg,故治療前淋巴細胞計數的標準差約為71.3個/μg。
治療后:
由于n=14<25,用估算m,故治療后淋巴細胞計數的均值約為440.7個/μg。
由于n=14<15,用公式估算SD,SD≈76.0個/μg,故治療后淋巴細胞計數的標準差約為76.0個/μg。
文獻 [12]均值、標準差的估算:
治療前:
由于n=90>25,用M估計m,故治療前淋巴細胞計數的均值約為247.5個/μg。
由于n=90>70,用公式估算SD,SD≈ (447.5-113.7) /6=55.6個/μg,故治療前淋巴細胞計數的標準差約為55.6個/μg。
治療后:
由于n=90>25,用M估計m,故治療后淋巴細胞計數的均值約為443.9個/μg。
由于n=90>70,用公式估算SD,SD≈ (596.7-235.3) /6=60.2個/μg,故治療后淋巴細胞計數的標準差約為60.2個/μg。
采用亞組分析可看出該方法估算均數和標準差對Meta分析結果的影響:
見圖 2。亞組C由剔除2篇文獻 [11, 12]后剩余的10篇文獻組成;亞組D由2篇文獻數據經參數估算保留后,總共的12篇文獻組成。RevMan 5.2軟件進行的Meta分析結果顯示,將2篇文獻中的參數轉換后,異質性和統計學意義沒有本質改變,但統計學效能有所提高。

3 討論
對定量資料進行Meta分析時,若經過納入與排除標準納入的部分文獻只提供了中位數、最小值和最大值,可通過本文所介紹的方法進行參數估算得到均數和標準差,并與其他文獻中已提供的數據合并起來,完成Meta分析。該方法對文獻樣本的分布類型沒有特殊要求,經證實正態分布和其他分布類型(Log分布、二項分布、指數分布和韋伯分布)都可以利用此方法進行均數和標準差的估算 [2],從而更好的利用現有證據,并對現有證據進行更客觀的評價。
值得注意的是,該方法僅可得到均數和標準差的近似估計值。對于未直接提供均數和標準差的文獻,建議先聯系通訊作者,索要所需參數,盡可能選用參數的真值進行Meta分析。在聯系通訊作者無果的情況下,可利用該方法估算所需參數,以實現更好的利用現有證據進行客觀評價的目的。
Meta分析中,對定量資料進行合并分析時,需要已知單個研究里樣本的均數和標準差,并經過統計軟件進行合并分析 [1]。但一些相關原始研究并未直接提供樣本的均數和標準差,只提供了中位數、極差和樣本量,無法直接利用所提供的參數完成Meta分析。在聯系通訊作者,索要所需參數無果的情況下,如果選擇剔除這些文獻,就會失去部分相關證據,降低了Meta分析的統計效能,可能造成Meta分析結果出現偏倚。
本文旨在介紹一種已被驗證的利用中位數、極差和樣本量來估算均數和標準差的方法 [2],從而使得更多原始研究中的數據在Meta分析中被合理利用。
1 基本原理
1.1 參數定義
假設有如下樣本:
a = x1≤ x2≤ Λ≤ xN-1≤ xN = M≤ xN+1≤ xN+2≤ Λ≤ xn-1≤ xn = b
其中,M表示中位數;a表示樣本最小值;b表示樣本最大值;n表示樣本量。此外,假設樣本量n為奇數,那么第N個數的值就為中位數,N=(n+1) /2。
1.2 均數的計算
當n≤ 25時,用公式估算;
當n>25時,用M估計m。
1.3 標準差的計算
當n≤ 15時,用公式
估計;
當15<n≤ 70時,用公式估算;
當n>70時,用公式估算。
2 實例分析
2.1 實例1
利用Meta分析評價血清中視黃醇結合蛋白(retinol-binding protein 4,RBP4)與冠心病的關系在中國人群中是否存在,按照納入與排除標準納入相關文獻,見表 1。在列出的9篇文獻 [3-11]中,8篇 [3-5, 7-11]提供了均數和標準差,1篇 [6]只提供了中位數、最小值和最大值。

如果將只提供了中位數、最小值和最大值的文獻 [6]按文獻排除標準中的“數據信息不全”處理,文獻將被直接剔除;若按該文獻中已提供的參數做如下處理,可估算均數和標準差的數值:
冠心病患者:
由于n=30>25,用M估計m,故RBP4的均值約為17.56 μg/mL。
由于15<n=30<70,用公式估算,SD≈ (32.48-12.80) /4=4.92 μg/mL,故RBP4的標準差約為4.92μg/ml。
健康體檢者:
由于n=30>25,用M估計m,故RBP4的均值約為16.50 μg/mL。
由于15<n=30<70,用公式估算,SD≈ (31.42-0.01) /4=7.85 μg/mL,故RBP4的標準差約為7.85 μg/mL。
采用亞組分析可看出該方法估算均數和標準差對Meta分析結果的影響:
見圖 1。亞組A由剔除該文獻后剩余的8篇文獻組成;亞組B由該文獻 [6]數據經參數估算保留后,共9篇文獻組成。RevMan 5.2軟件進行的Meta分析結果顯示,將文獻 [6]中的參數轉換后,異質性和統計學意義沒有本質改變,但統計學效能有所提高。

2.2 實例2
利用Meta分析評價HIV感染的既往獻血員在治療前后CD4+ T淋巴細胞計數(個/μg)是否發生變化,按照納入與排除標準納入相關文獻,見表 2。在列出的12篇文獻中,10篇提供了均數和標準差,2篇只提供了中位數、最小值和最大值。

如果將只提供了中位數、最小值和最大值的2篇文獻 [11, 12]按文獻排除標準中的“數據信息不全”處理,2篇文獻將被直接剔除;若按文獻中已提供的參數做如下處理,可估算所需均數和標準差的數值:
文獻 [11]均值、標準差的估算:
治療前:
由于n=14<25,用估算,故治療前淋巴細胞計數的均值約為254.2個/μg。
由于n=14<15,用公式估算SD,SD≈71.3個/μg,故治療前淋巴細胞計數的標準差約為71.3個/μg。
治療后:
由于n=14<25,用估算m,故治療后淋巴細胞計數的均值約為440.7個/μg。
由于n=14<15,用公式估算SD,SD≈76.0個/μg,故治療后淋巴細胞計數的標準差約為76.0個/μg。
文獻 [12]均值、標準差的估算:
治療前:
由于n=90>25,用M估計m,故治療前淋巴細胞計數的均值約為247.5個/μg。
由于n=90>70,用公式估算SD,SD≈ (447.5-113.7) /6=55.6個/μg,故治療前淋巴細胞計數的標準差約為55.6個/μg。
治療后:
由于n=90>25,用M估計m,故治療后淋巴細胞計數的均值約為443.9個/μg。
由于n=90>70,用公式估算SD,SD≈ (596.7-235.3) /6=60.2個/μg,故治療后淋巴細胞計數的標準差約為60.2個/μg。
采用亞組分析可看出該方法估算均數和標準差對Meta分析結果的影響:
見圖 2。亞組C由剔除2篇文獻 [11, 12]后剩余的10篇文獻組成;亞組D由2篇文獻數據經參數估算保留后,總共的12篇文獻組成。RevMan 5.2軟件進行的Meta分析結果顯示,將2篇文獻中的參數轉換后,異質性和統計學意義沒有本質改變,但統計學效能有所提高。

3 討論
對定量資料進行Meta分析時,若經過納入與排除標準納入的部分文獻只提供了中位數、最小值和最大值,可通過本文所介紹的方法進行參數估算得到均數和標準差,并與其他文獻中已提供的數據合并起來,完成Meta分析。該方法對文獻樣本的分布類型沒有特殊要求,經證實正態分布和其他分布類型(Log分布、二項分布、指數分布和韋伯分布)都可以利用此方法進行均數和標準差的估算 [2],從而更好的利用現有證據,并對現有證據進行更客觀的評價。
值得注意的是,該方法僅可得到均數和標準差的近似估計值。對于未直接提供均數和標準差的文獻,建議先聯系通訊作者,索要所需參數,盡可能選用參數的真值進行Meta分析。在聯系通訊作者無果的情況下,可利用該方法估算所需參數,以實現更好的利用現有證據進行客觀評價的目的。