引用本文: 陸彬, 周曉彬, 張英英. 中文腫瘤專業期刊中生存分析的報告質量評價. 中國循證醫學雜志, 2015, 15(9): 1098-1102. doi: 10.7507/1672-2531.20150181 復制
醫學研究中涉及到腫瘤及其他慢性疾病療效評價和預后分析的研究大多都會應用生存分析,但是在一些公開發表的論文中存在著生存分析方法使用不規范、不完善,甚至錯誤應用的現象,嚴重影響了這些研究的質量。近年,國內外發表了許多醫學研究報告質量評價類論文 [1-3],但評價生存分析類研究質量的研究較少。1995年,Altman等 [2]首次對醫學期刊中生存分析類研究的報告質量進行了評價,之后,此類研究少有報道,國內更是未見此類研究報道。本研究旨在調查我國腫瘤專業期刊所發表論著中生存分析方法的應用現狀,評價其在生存分析方面的報告質量,總結存在的問題,以提高生存分析相關統計方法的應用水平和報告質量。
1 資料與方法
1.1 文獻來源
選擇中國科技期刊引證報告(CJCR)腫瘤專業期刊中的影響因子較高且發表生存分析類研究較多的《中國腫瘤臨床》(IF=0.724)、《中華放射腫瘤學雜志》(IF=0.678)、《中華腫瘤防治雜志》(IF=0.611)和《中華腫瘤雜志》(IF=0.387)4種腫瘤專業期刊,對其2013年發表的生存分析類研究進行評價。
1.2 納入與排除標準
納入標準:① 文題中描述使用了生存分析方法;② 摘要的方法學部分描述使用了生存分析方法;③ 正文的方法學部分描述使用了生存分析方法。常用生存分析方法見表 1。排除標準:① 綜述和會議摘要;② 生存分析方法學介紹;③ 研究對象為動物的文獻。

1.3 評價內容
本研究參考Altman等 [2]的研究及相關文獻 [4-8]制定了以下評價內容:① 使用生存分析方法的類型;② 使用Cox比例風險模型的論文是否報告PH假定;③ 是否進行了單因素分析或多因素分析;④ 使用生存時間的類型(如總生存時間、無病生存時間、局部控制生存時間等),是否對生存時間進行定義;⑤ 隨訪終止時間、中位生存時間、生存時間的極值、隨訪方式及隨訪率等隨訪信息的報告情況;⑥ 樣本量的大小及是否報告計算樣本量的方法;⑦ 是否報告刪失情況;⑧ 生存曲線及軟件應用等信息的報告;⑨ 作者中是否包含統計學和流行病學人員。
1.4 統計分析
采用SPSS 21.0軟件進行統計分析。本研究以頻數、率和構成比進行統計描述,率的組間比較采用卡方檢驗。
2 結果
2.1 國內4種腫瘤專業期刊論文生存分析使用情況
在1 492篇論文中,有242篇(16.22%)使用了生存分析。其中《中華腫瘤防治雜志》生存分析使用率最低,為9.09%;《中華腫瘤雜志》使用率最高,為26.48%。4種期刊的生存分析使用率差異有統計學意義(χ2=48.26,P<0.001)(表 2)。

2.2 生存分析類論文采用的生存分析方法
在使用生存分析的242篇論文中,222篇(91.74%)使用Kaplan-Meier法計算生存率,9篇(3.72%)使用壽命表法計算生存率,190篇(78.51%)使用Log-rank法進行多組生存資料比較,僅1篇(0.41%)使用Breslow法進行多組比較,112篇(46.28%)使用Cox比例風險模型進行多因素分析(表 3)。

106篇(43.80%)論文只進行了單因素分析,有110(45.45%)篇論文既進行了單因素分析又進行了多因素分析;僅有2篇(0.83%)論文未進行單因素分析,但進行了多因素分析;24篇(9.92%)論文既未進行單因素分析也未進行多因素分析。
2.3 生存分析類論文報告的生存時間類型
242篇使用生存分析的論文中最多報告了5種類型的生存時間,最少1種。128篇(52.89%)論文僅報告了1種類型的生存時間,88篇(36.36%)報告了2種類型的生存時間,4篇(1.65%)報告了5種類型的生存時間(表 4)。

242篇論文共包含396個終點,有10種類型的生存時間。223篇(92.15%)論文報告了總生存時間,58篇(23.97%)報告了無進展生存時間,37篇(15.29%)報告了無病生存時間,25篇(10.33%)報告了局部控制生存時間。其余類型的生存時間報告率均不足10%,其中,無事件生存時間和復發后生存時間報告率最低,均僅為0.41%。103篇(42.56%)論文的158個(39.90%)終點對生存時間進行了定義(表 5)。

242篇論文中86篇(35.54%)論文報告了研究中每一終點的終點事件的數目,至少報告一個終點相應的終點事件發生數目的論文僅有109篇,占45.04%。176個(44.44%)終點報告了相應的終點事件發生數,220個(55.56%)終點沒有報告相應的終點事件發生數。
2.4 隨訪信息的報告情況
174篇(71.90%)論文報告了隨訪終止時間,129篇(53.30%)報告了隨訪方式,124篇(51.24%)報告了中位隨訪時間,11篇(4.55%)報告了平均隨訪時間,126篇(52.07%)報告了隨訪時間的極差(表 6)。

155篇(64.05%)論文報告了隨訪率,隨訪率低于80%的論文有4篇,最低隨訪率為75.25%,其余均大于80%,其中55篇論文隨訪率為100%。存在失訪的100篇論文中僅有11篇報告了失訪的處理情況。
2.5 樣本量和樣本量的計算
采用了生存分析的242篇論文中,樣本量最小6例,最大14 802例。其中61篇(25.21%)樣本量≤ 50例,僅6篇(2.48%)樣本量>1 000例,72.31%的論文樣本量為50~1 000例(表 7)。沒有論文報告樣本量的計算方法。

2.6 生存曲線的繪制情況
采用了生存分析的242篇論文中,164篇(67.8%)繪制了生存曲線,其中76篇(46.3%)未對截尾數據進行標注。
2.7 統計軟件使用情況及作者中包含統計專業人員情況
采用了生存分析的242篇論文中,91.32%采用SPSS軟件進行統計分析,其他幾種軟件的使用率均很低,11篇(4.55%)論文未報告采用的統計軟件(表 8)。5篇(2.07%)論文的作者中包含了統計專業人員。

3 討論
對于生存資料的分析,生存分析方法具有不可替代的作用,且生存分析已形成較為完善的理論體系,尤其對于含有刪失數據的生存資料,更應該加強生存分析方法的推廣應用。本研究中4種期刊生存分析的使用率存在差異,其中《中華腫瘤防治雜志》使用率較低。
目前生存率計算方法主要采用壽命表法和Kaplan-Meier法。本研究中,生存分析論文計算生存率的方法主要是Kaplan-Meier法,僅少數論文使用壽命表法。Kaplan-Meier法既適用于小樣本資料又適用于大樣本資料,而壽命表法僅適用于大樣本(n>100)資料 [7, 9]。在本研究使用壽命表法的9篇論文中,有4篇樣本量<100例,其中孟慧敏等 [10]研究的樣本量僅為22例,會影響結果的可靠性,此種情況宜用Kaplan-Meier法。
在對多組生存資料比較方面,本次研究僅有一篇論文使用了Breslow法進行檢驗,其余論文均使用Log-rank法。這兩種方法的應用是有差別的,Log-rank法重視遠期效應,而Breslow法相對重視近期效應 [11]。研究人員可以根據研究的側重點來選擇方法,也可以同采用兩種方法進行計算,當兩者結果一致時,可認為近期與遠期療效都有差別。若Log-rank法拒絕H0而Breslow法不拒絕H0,則說明遠期療效有差別而近期療效無差別,反之亦然。
在生存分析中,對患者生存情況影響因素的研究不應僅針對某一因素,還必須考慮其他因素的混雜和交互等影響,應建立多因素分析模型,才能對醫學問題進行深層次的研究。本研究表明,只采用單因素分析的論文還占很大比例,少數論文既未進行單因素分析也未進行多因素分析。本研究納入的242篇采用了生存分析的論文中112篇進行了多因素分析,且都使用了Cox比例風險模型。應用Cox比例風險模型必須要滿足比例風險假定,否則結果會產生嚴重偏倚,導致錯誤的推斷,降低檢驗效能 [12, 13]。而112篇使用Cox比例風險模型的論文均未報告比例風險假定檢驗情況,該問題應引起作者、審稿者及編輯的重視。一些學者對假定的檢驗方法進行了研究總結,提出了一些方法,如schoenfeld殘差圖法及score殘差圖法 [14-16]。同樣應受到重視的問題還有參數方法的應用。和半參數模型相比,參數模型可利用更多的數據信息,尤其在樣本量有限的情況下;與非參數方法計算的生存率相比,參數方法計算的生存率考慮了其他相關因素的影響,結果更為準確 [17, 18]。本研究中沒有論文使用參數方法進行分析,這種現象可能與作者對統計軟件的熟悉程度不高有關。本研究納入的242采用了生存分析的論文中221篇(91.3%)采用的統計分析軟件為SPSS,SPSS使用較多的原因是其使用相對其他軟件簡單,但SPSS的SURVIVAL菜單未提供參數回歸相關項目,可通過SAS的LIFEREG過程進行參數回歸分析。
本研究顯示,很多論文報告了不只一種類型的生存時間,最多的有5種。總生存時間報告率最高,396個終點中有223個(56.4%)終點是關于總生存時間的,這與Simone等 [19]的研究結果相似。但相對于其他類型的生存時間,總生存時間需要更多的樣本量和隨訪時間。根據研究目的,可同時選用其他類型的生存時間。很多研究表明 [19, 20],事件的定義對研究結果有重要影響。不同的研究對于生存時間的定義不全相同,且很多研究不只一類生存時間,所以對生存時間進行明確定義有利于讀者更好地理解研究內容和結果。本研究顯示,僅有39.9%的終點定義了生存時間。Simone等 [19]的研究也顯示僅有27%的終點定義了生存時間。因此,對生存時間的詳細定義應引起國內外學者的重視。
對于醫學研究,隨訪信息非常重要,應該對其進行詳細描述 [2, 21]。本研究納入的242篇采用了生存分析的論文中僅有55.7%報告了隨訪時間的集中趨勢,且11篇論文使用了平均隨訪時間表示隨訪時間的集中趨勢,隨訪時間一般不滿足正態分布,報告中位隨訪時間較為準確;很多論文未報告失訪情況,隨訪率的報告率為64%,報告失訪的論文中僅有11篇報告了對失訪的處理情況,報告率太低;隨訪方式、隨訪終止時間及隨訪時間的離散趨勢等也是非常重要的信息,很多論文未對其進行描述。
醫學研究中估算樣本量非常重要,樣本量太大會造成資源浪費,樣本量太小又會造成把握度過低,所以應該預先對樣本量進行估計。本研究中沒有論文報告樣本量的估計方法。由于生存數據同時考慮生存結局和生存時間,生存時間亦可能含有刪失數據,生存時間的分布和常見的統計分布也有明顯不同,所以樣本含量的估算比較復雜 [22]。國內外很多學者對生存分析樣本量估計方法進行了研究,提出了很多方法 [22, 23]。論文進行生存分析時應對樣本量估計的方法進行描述。生存數據的刪失情況對研究結果也有重要影響。刪失率過大會造成生存分析模型分析結果的準確性、有效性下降,偏倚風險增大 [8]。因此,論文應對刪失率進行報告。本研究結果顯示,沒有論文對刪失率進行報告,但很多論文存在刪失率過大的現象。例如,通過計算,梁雪霞等 [24]的研究刪失率達84%,嚴重影響了研究結果。
綜上所述,國內關于生存分析的論文尚存在不足,這些問題與作者、審稿者的統計學水平有關,也與醫學期刊是否設置統計學審稿程序有關。本研究納入的242采用了生存分析的論文中僅5篇(2%)作者中有統計學相關人員。因此,應鼓勵研究者加強與統計學專業人員的合作和對統計學知識的學習,同時也建議醫學期刊盡早制訂生存分析類論文的報告指南,增設統計學審稿程序,提高論文質量。
醫學研究中涉及到腫瘤及其他慢性疾病療效評價和預后分析的研究大多都會應用生存分析,但是在一些公開發表的論文中存在著生存分析方法使用不規范、不完善,甚至錯誤應用的現象,嚴重影響了這些研究的質量。近年,國內外發表了許多醫學研究報告質量評價類論文 [1-3],但評價生存分析類研究質量的研究較少。1995年,Altman等 [2]首次對醫學期刊中生存分析類研究的報告質量進行了評價,之后,此類研究少有報道,國內更是未見此類研究報道。本研究旨在調查我國腫瘤專業期刊所發表論著中生存分析方法的應用現狀,評價其在生存分析方面的報告質量,總結存在的問題,以提高生存分析相關統計方法的應用水平和報告質量。
1 資料與方法
1.1 文獻來源
選擇中國科技期刊引證報告(CJCR)腫瘤專業期刊中的影響因子較高且發表生存分析類研究較多的《中國腫瘤臨床》(IF=0.724)、《中華放射腫瘤學雜志》(IF=0.678)、《中華腫瘤防治雜志》(IF=0.611)和《中華腫瘤雜志》(IF=0.387)4種腫瘤專業期刊,對其2013年發表的生存分析類研究進行評價。
1.2 納入與排除標準
納入標準:① 文題中描述使用了生存分析方法;② 摘要的方法學部分描述使用了生存分析方法;③ 正文的方法學部分描述使用了生存分析方法。常用生存分析方法見表 1。排除標準:① 綜述和會議摘要;② 生存分析方法學介紹;③ 研究對象為動物的文獻。

1.3 評價內容
本研究參考Altman等 [2]的研究及相關文獻 [4-8]制定了以下評價內容:① 使用生存分析方法的類型;② 使用Cox比例風險模型的論文是否報告PH假定;③ 是否進行了單因素分析或多因素分析;④ 使用生存時間的類型(如總生存時間、無病生存時間、局部控制生存時間等),是否對生存時間進行定義;⑤ 隨訪終止時間、中位生存時間、生存時間的極值、隨訪方式及隨訪率等隨訪信息的報告情況;⑥ 樣本量的大小及是否報告計算樣本量的方法;⑦ 是否報告刪失情況;⑧ 生存曲線及軟件應用等信息的報告;⑨ 作者中是否包含統計學和流行病學人員。
1.4 統計分析
采用SPSS 21.0軟件進行統計分析。本研究以頻數、率和構成比進行統計描述,率的組間比較采用卡方檢驗。
2 結果
2.1 國內4種腫瘤專業期刊論文生存分析使用情況
在1 492篇論文中,有242篇(16.22%)使用了生存分析。其中《中華腫瘤防治雜志》生存分析使用率最低,為9.09%;《中華腫瘤雜志》使用率最高,為26.48%。4種期刊的生存分析使用率差異有統計學意義(χ2=48.26,P<0.001)(表 2)。

2.2 生存分析類論文采用的生存分析方法
在使用生存分析的242篇論文中,222篇(91.74%)使用Kaplan-Meier法計算生存率,9篇(3.72%)使用壽命表法計算生存率,190篇(78.51%)使用Log-rank法進行多組生存資料比較,僅1篇(0.41%)使用Breslow法進行多組比較,112篇(46.28%)使用Cox比例風險模型進行多因素分析(表 3)。

106篇(43.80%)論文只進行了單因素分析,有110(45.45%)篇論文既進行了單因素分析又進行了多因素分析;僅有2篇(0.83%)論文未進行單因素分析,但進行了多因素分析;24篇(9.92%)論文既未進行單因素分析也未進行多因素分析。
2.3 生存分析類論文報告的生存時間類型
242篇使用生存分析的論文中最多報告了5種類型的生存時間,最少1種。128篇(52.89%)論文僅報告了1種類型的生存時間,88篇(36.36%)報告了2種類型的生存時間,4篇(1.65%)報告了5種類型的生存時間(表 4)。

242篇論文共包含396個終點,有10種類型的生存時間。223篇(92.15%)論文報告了總生存時間,58篇(23.97%)報告了無進展生存時間,37篇(15.29%)報告了無病生存時間,25篇(10.33%)報告了局部控制生存時間。其余類型的生存時間報告率均不足10%,其中,無事件生存時間和復發后生存時間報告率最低,均僅為0.41%。103篇(42.56%)論文的158個(39.90%)終點對生存時間進行了定義(表 5)。

242篇論文中86篇(35.54%)論文報告了研究中每一終點的終點事件的數目,至少報告一個終點相應的終點事件發生數目的論文僅有109篇,占45.04%。176個(44.44%)終點報告了相應的終點事件發生數,220個(55.56%)終點沒有報告相應的終點事件發生數。
2.4 隨訪信息的報告情況
174篇(71.90%)論文報告了隨訪終止時間,129篇(53.30%)報告了隨訪方式,124篇(51.24%)報告了中位隨訪時間,11篇(4.55%)報告了平均隨訪時間,126篇(52.07%)報告了隨訪時間的極差(表 6)。

155篇(64.05%)論文報告了隨訪率,隨訪率低于80%的論文有4篇,最低隨訪率為75.25%,其余均大于80%,其中55篇論文隨訪率為100%。存在失訪的100篇論文中僅有11篇報告了失訪的處理情況。
2.5 樣本量和樣本量的計算
采用了生存分析的242篇論文中,樣本量最小6例,最大14 802例。其中61篇(25.21%)樣本量≤ 50例,僅6篇(2.48%)樣本量>1 000例,72.31%的論文樣本量為50~1 000例(表 7)。沒有論文報告樣本量的計算方法。

2.6 生存曲線的繪制情況
采用了生存分析的242篇論文中,164篇(67.8%)繪制了生存曲線,其中76篇(46.3%)未對截尾數據進行標注。
2.7 統計軟件使用情況及作者中包含統計專業人員情況
采用了生存分析的242篇論文中,91.32%采用SPSS軟件進行統計分析,其他幾種軟件的使用率均很低,11篇(4.55%)論文未報告采用的統計軟件(表 8)。5篇(2.07%)論文的作者中包含了統計專業人員。

3 討論
對于生存資料的分析,生存分析方法具有不可替代的作用,且生存分析已形成較為完善的理論體系,尤其對于含有刪失數據的生存資料,更應該加強生存分析方法的推廣應用。本研究中4種期刊生存分析的使用率存在差異,其中《中華腫瘤防治雜志》使用率較低。
目前生存率計算方法主要采用壽命表法和Kaplan-Meier法。本研究中,生存分析論文計算生存率的方法主要是Kaplan-Meier法,僅少數論文使用壽命表法。Kaplan-Meier法既適用于小樣本資料又適用于大樣本資料,而壽命表法僅適用于大樣本(n>100)資料 [7, 9]。在本研究使用壽命表法的9篇論文中,有4篇樣本量<100例,其中孟慧敏等 [10]研究的樣本量僅為22例,會影響結果的可靠性,此種情況宜用Kaplan-Meier法。
在對多組生存資料比較方面,本次研究僅有一篇論文使用了Breslow法進行檢驗,其余論文均使用Log-rank法。這兩種方法的應用是有差別的,Log-rank法重視遠期效應,而Breslow法相對重視近期效應 [11]。研究人員可以根據研究的側重點來選擇方法,也可以同采用兩種方法進行計算,當兩者結果一致時,可認為近期與遠期療效都有差別。若Log-rank法拒絕H0而Breslow法不拒絕H0,則說明遠期療效有差別而近期療效無差別,反之亦然。
在生存分析中,對患者生存情況影響因素的研究不應僅針對某一因素,還必須考慮其他因素的混雜和交互等影響,應建立多因素分析模型,才能對醫學問題進行深層次的研究。本研究表明,只采用單因素分析的論文還占很大比例,少數論文既未進行單因素分析也未進行多因素分析。本研究納入的242篇采用了生存分析的論文中112篇進行了多因素分析,且都使用了Cox比例風險模型。應用Cox比例風險模型必須要滿足比例風險假定,否則結果會產生嚴重偏倚,導致錯誤的推斷,降低檢驗效能 [12, 13]。而112篇使用Cox比例風險模型的論文均未報告比例風險假定檢驗情況,該問題應引起作者、審稿者及編輯的重視。一些學者對假定的檢驗方法進行了研究總結,提出了一些方法,如schoenfeld殘差圖法及score殘差圖法 [14-16]。同樣應受到重視的問題還有參數方法的應用。和半參數模型相比,參數模型可利用更多的數據信息,尤其在樣本量有限的情況下;與非參數方法計算的生存率相比,參數方法計算的生存率考慮了其他相關因素的影響,結果更為準確 [17, 18]。本研究中沒有論文使用參數方法進行分析,這種現象可能與作者對統計軟件的熟悉程度不高有關。本研究納入的242采用了生存分析的論文中221篇(91.3%)采用的統計分析軟件為SPSS,SPSS使用較多的原因是其使用相對其他軟件簡單,但SPSS的SURVIVAL菜單未提供參數回歸相關項目,可通過SAS的LIFEREG過程進行參數回歸分析。
本研究顯示,很多論文報告了不只一種類型的生存時間,最多的有5種。總生存時間報告率最高,396個終點中有223個(56.4%)終點是關于總生存時間的,這與Simone等 [19]的研究結果相似。但相對于其他類型的生存時間,總生存時間需要更多的樣本量和隨訪時間。根據研究目的,可同時選用其他類型的生存時間。很多研究表明 [19, 20],事件的定義對研究結果有重要影響。不同的研究對于生存時間的定義不全相同,且很多研究不只一類生存時間,所以對生存時間進行明確定義有利于讀者更好地理解研究內容和結果。本研究顯示,僅有39.9%的終點定義了生存時間。Simone等 [19]的研究也顯示僅有27%的終點定義了生存時間。因此,對生存時間的詳細定義應引起國內外學者的重視。
對于醫學研究,隨訪信息非常重要,應該對其進行詳細描述 [2, 21]。本研究納入的242篇采用了生存分析的論文中僅有55.7%報告了隨訪時間的集中趨勢,且11篇論文使用了平均隨訪時間表示隨訪時間的集中趨勢,隨訪時間一般不滿足正態分布,報告中位隨訪時間較為準確;很多論文未報告失訪情況,隨訪率的報告率為64%,報告失訪的論文中僅有11篇報告了對失訪的處理情況,報告率太低;隨訪方式、隨訪終止時間及隨訪時間的離散趨勢等也是非常重要的信息,很多論文未對其進行描述。
醫學研究中估算樣本量非常重要,樣本量太大會造成資源浪費,樣本量太小又會造成把握度過低,所以應該預先對樣本量進行估計。本研究中沒有論文報告樣本量的估計方法。由于生存數據同時考慮生存結局和生存時間,生存時間亦可能含有刪失數據,生存時間的分布和常見的統計分布也有明顯不同,所以樣本含量的估算比較復雜 [22]。國內外很多學者對生存分析樣本量估計方法進行了研究,提出了很多方法 [22, 23]。論文進行生存分析時應對樣本量估計的方法進行描述。生存數據的刪失情況對研究結果也有重要影響。刪失率過大會造成生存分析模型分析結果的準確性、有效性下降,偏倚風險增大 [8]。因此,論文應對刪失率進行報告。本研究結果顯示,沒有論文對刪失率進行報告,但很多論文存在刪失率過大的現象。例如,通過計算,梁雪霞等 [24]的研究刪失率達84%,嚴重影響了研究結果。
綜上所述,國內關于生存分析的論文尚存在不足,這些問題與作者、審稿者的統計學水平有關,也與醫學期刊是否設置統計學審稿程序有關。本研究納入的242采用了生存分析的論文中僅5篇(2%)作者中有統計學相關人員。因此,應鼓勵研究者加強與統計學專業人員的合作和對統計學知識的學習,同時也建議醫學期刊盡早制訂生存分析類論文的報告指南,增設統計學審稿程序,提高論文質量。