引用本文: 王應強, 羅倩倩, 李幼平, 鄧紹林, 李向蓮, 韋詩友. 對射頻消融術與肝切除術治療小肝癌系統評價/Meta分析的方法學質量再評價△. 中國循證醫學雜志, 2014, 14(5): 561-574. doi: 10.7507/1672-2531.20140095 復制
全球癌癥疾病負擔逐年增加,每年新發癌癥患者1 090萬,與癌癥相關死亡人數達670萬[1]。2008年,全球估計因癌癥損失1.69億健康生命年,亞洲和歐洲因腫瘤損失的傷殘調整生命年(DALY)占總損失DALY的73%,中國占25%,印度占11% [2]。肝癌位居全球37個國家男性患者損失DALY疾病負擔的首位,占全球總DALY的28% [2]。肝癌的全球發病率居第7位(男性居第5位,女性居第7位)[3],肝癌也是全球第3大最常見致死的腫瘤,其死亡率與發病率之比為0.93 [4]。85%的肝癌病例在發展中國家,男女性別比為2.4 [3, 4]。中國肝癌發病率為25.7/10萬(402 208例),居第4位,死亡率為23.7/10萬(372 079例),居第3位[4]。
美國肝病研究學會[5]和歐洲肝臟研究協會[1]指南對早期肝癌推薦肝切除術(hepatic resection,HR)和肝移植,其5年生存率可達50%~75%。但因肝癌患者肝功能儲備較差,且早期癥狀不明顯,診斷率低,僅20%~35%適合肝手術切除治療[6]。西方國家非肝硬化肝癌患者僅5%選擇手術切除治療,亞洲選擇手術治療占40%,但切除后腫瘤5年復發率(包括播散和新生腫瘤)超過70% [7]。我國因肝源有限、費用昂貴,且有嚴格納入標準(Milan標準或UCSF標準、杭州標準、成都標準),肝移植僅作為補充治療[7]。
射頻消融術(radiofrequency ablation,RFA)被認為是對無法肝移植和手術切除的早期肝細胞癌的最佳治療選擇[8]。對可手術或肝移植患者,RFA仍被認為是一種安全、有效的方法[9]。最近1項RCT結果顯示,對腫瘤直徑≤4 cm,腫瘤結節≤2個的小肝癌,RFA與HR的療效相同[10]。Wang等[11]的研究表明,RFA和HR治療巴塞羅那臨床肝癌分期(BCLC)0~A級早期肝癌患者的總生存率差異無統計學意義,但HR的無病生存率更優。Peng等[12]的回顧性對照研究結果顯示:RFA治療單個肝癌(直徑≤2 cm)的有效性和安全性均優于HR,尤其是中央型肝癌。近年許多Meta分析比較了RFA和HR的療效,但因納入研究的質量各異,證據水平較低,很難得出一致的結論[13-18],對早期可手術切除的肝癌如何選擇最佳治療方式仍存爭議。
本文旨在系統檢索當前可得最佳證據,循證評價RFA與HR治療早期肝癌的系統評價(SR)/ Meta分析的方法學質量及其對結果的影響,為醫生和患者合理選擇最佳臨床方案提供參考依據。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究設計
衛生技術評估(health technology assessment,HTA)、SR和/或Meta分析。
1.1.2 研究對象
符合Milan標準(單個腫瘤直徑≤5 cm或腫瘤數≤3個,且最大直徑≤3 cm)或UCSF標準(單個腫瘤直徑≤6.5 cm,或腫瘤數≤3個,最大直徑≤4.5 cm,且腫瘤直徑之和≤8 cm),肝功能良好(Child-Pugh A或B),無大血管侵犯,無淋巴結或肝外轉移的原發性肝細胞癌患者。
1.1.3 干預措施
射頻消融術,肝切除術。
1.1.4 結局指標
有效性:1、3、5年總生存率,1、3、5年無復發生存率,1、3、5年無病生存率;安全性:死亡率;1、3、5年復發率;并發癥發生率。
1.1.5 排除標準
①轉移性肝癌(如結直腸癌肝轉移),肝切除后肝癌復發或不能手術切除的肝癌;②除射頻消融術和肝切除術外,干預組或對照組接受了其他輔助治療(如TACE);③隨訪時間<3年;④若兩篇或多篇文章的結果雷同,選擇質量最好的文獻;⑤除中英文以外的其他文獻。
1.2 數據來源和檢索策略
系統檢索PubMed、Web of Science、The Cochrane Library、CBM、CNKI和VIP 6個電子數據庫,并補充檢索INAHTA(http://www.inahta.net/)、HTAi(http://www.htai.org)、OMHALTC(http://www.health.gov.on.ca/en/)、ICES(http://www.ices.on.ca/index.html)和NIM(http://www.nlm.nih.gov/)官方網站。檢索時限均為建庫至2012年11月11日。檢索詞為:hepatic resection(肝切除)、surgical resection(手術切除)、liver resection(肝切除)、hepatectomy(肝切除術)、radiofrequency(射頻)、radiofrequency ablation(射頻消融)、catheter ablation(導管消融)、RFA。文獻類型限定為health technology assessment(衛生技術評估)、systematic review(系統評價),meta-analysis(Meta分析)、literature review、薈萃分析。文種不限。
1.3 文獻篩選與數據提取
按照PRISMA指南檢索及篩選文獻[19]。由兩名評價者(王應強和羅倩倩)根據預先設定好的納入與排除標準獨立瀏覽文題和摘要篩選文獻,必要時查看全文以便取舍。對符合納入標準的文獻,由這兩名評價者使用統一的數據提取表獨立提取數據,如遇分歧通過協商或由第三方(李幼平)裁定。提取內容包括第一作者、發表時間、研究類型、檢索周期、納入標準、隨訪、臨床結局等。
1.4 質量評價
由2名評價者(王應強和羅倩倩)使用OQAQ(Overview Quality Assessment of Questionnaire)量表[20, 21]獨立評價SR/ Meta分析的方法學質量,不一致時找第三方(李幼平)協商或裁定。OQAQ量表共10個條目,前9個條目分別用“是”、“部分”/“不清楚”、“否”評價,第10個條目根據前9個條目的評價情況,給出綜合評分(1~7分)。7分表示無缺陷,≥5分表示僅有極小或小缺陷(Good),3~4分表示有大缺陷(Poor),≤2分表示極大缺陷(Very poor)。
改良的MINORS量表[22]評價SR或Meta分析中納入的非隨機對照研究(NRCT)的方法學質量。Cochrane協作網的偏倚風險評估工具[23]評價RCT的方法學質量(隨機化、分配隱藏、盲法、不完整結果、選擇性報告、其他偏倚)。
1.5 統計分析
統一標化納入研究的效應指標為OR值及其95%CI。采用Stata 10.0軟件整合納入研究的Meta分析結果。采用SPSS 13.0軟件描述性分析其他定量資料,主要采用頻數、均值及其95%CI。I2>50%時采用隨機效應模型,I2≤50%時采用固定效應模型。P<0.05時認為差異有統計學意義。
2 結果
2.1 文獻檢索結果
初檢出483條記錄,初篩后共納入59個研究,經查閱全文后共排除40個,最終納入19個研究,發表于2008~2012年,包括1個HTA [18]、3個定性SR [24-26]及15個Meta分析[13-17, 27-35](圖 1)。這19個二次研究共納入39個原始研究,發表于2004~2011年(表 1),包括1個評論[36]、3個RCT [37-39]、35個NRCT [6, 9, 39-71],多數為回顧性對照研究。

INAHTA: International network of agencies for health technology assessment(國際衛生技術評估機構網絡);HTAi: Health technology assessment international(國際衛生技術評估);OMHALTC: Ontario ministry of health and long-term care(安大略健康與長期保健部);ICES: Institute for clinical evaluation sciences(臨床科學評估研究所);NLM: National library of medicine(國立醫學圖書館);RF:射頻消融;TACE:經導管肝動脈化療栓塞;PEI:經皮乙醇注射。

2.2 納入研究的基本特征
納入的19個研究中,4個研究[14, 27, 29, 34]僅納入RCT,15個研究同時納入了RCT和NRCT。其中8個研究[13-16, 27, 29, 34, 35](42.1%)評價了納入研究的質量,其評價工具主要為Jadad量表和Cochrane Handbook的偏倚風險的評估工具。僅8個研究[13-17, 29, 30, 33](42.1%)報道納入研究的發表偏倚。僅3個(15.8%)研究[17, 32, 35]較全面報道了納入患者的基本信息(肝功能、年齡、腫瘤平均直徑、平均隨訪時間等)。納入患者肝功能多數為Child-Pugh A/B,僅孫彪等[16]的研究報道了試驗組和對照組中各11例和1例的肝功能Child-Pugh C級。患者平均年齡在56.3~63.1歲,多數患者腫瘤直徑為3 cm左右,平均隨訪23.8~33.8個月(表 2)。

分析19個納入研究的原始文獻的設計類型時發現,僅5篇原始文獻[9, 37, 40, 41, 45]被>10個研究納入,11篇被5~9個研究納入。12篇原始文獻分別被不同納入研究者納入,但設計類型歸類不一。如Huang等[47]的研究被黃子明等[27]的SR納入時歸為RCT,但Xu等[13]和孫彪等[16]研究卻將其歸為NRCT。類似的情況也發生在其他研究[9, 41, 44, 45, 51-54, 62]。此外,還有納入研究將回顧性對照研究作為RCT納入[39, 72](表 3)。

2.3 納入研究的質量評價
如表 2所示,19個納入研究(SR/Meta分析)的總體質量較差,其OQAQ得分均值為3.3分,95%CI(2.6,4.1)。5個(26.3%)研究存在小缺陷(≥5分),方法學質量為“Good”;8個研究存在大缺陷(3~4分),方法學質量為“Poor”;6個研究存在極大缺陷(≤2分),方法學質量為“Very poor”。6個研究在I2>50%時錯誤選擇固定效應模型,3個研究在更正模型后改變原結局指標的方向(表 4)。

19個納入研究所納入的39篇原始文獻的方法學質量評價結果見表 3。有3個RCT均未實施盲法[37, 38, 72],其質量均為B級。35篇NRCT的MINORS得分均值為15.0分(總分18分),95%CI(14.6分,15.4分),其中2個(5.7%)研究得17分,11個(31.4%)得16分,13個(37.1%)得15分。另1篇為法語評論[36],無法評價質量。
這39個原始研究中,17個(43.6%)研究[36, 39, 42, 48-50, 55, 60, 63-67, 69-72]不符合這些二次研究的納入標準:9個研究不同程度混雜了其他有效處理措施,如Tashiro [69]、Takahashi [66]、Yamakado [63]等的研究中RFA組均有患者接受RFA和TACE聯合治療;而Wakai [65]、彭振維[60]、陳敏山[39]等的研究中RFA組接受了PEI治療。4個[48, 49, 64]納入非原發性肝癌人群(3個針對復發性肝癌,1個[70]含轉移性肝癌患者20例),其余2個未詳細描述患者基線特征[42, 71](表 3)。
2.4 臨床結局
2.4.1 生存率(OS)
① 1年總生存率:12個Meta分析報告治療小肝癌1年生存率RFA和HR均≥90%。僅2個研究報告RFA的療效低于HR,其OR值及其95%CI分別為0.51(0.29,0.86)和0.60(0.42,0.86),其余10個研究均報告差異無統計學意義(圖 2)。② 3年總生存率:13個研究報告了3年總生存率,RFA組在62.5%~77.9%之間,HR組在63.6%~82.9%之間。8個研究Meta分析報告RFA療效低于HR(P<0.05),但6個研究均存在不同程度的異質性(I2值在46.3%~64.0%)。Liu等[14]的研究在I2=53%時錯誤選擇固定效應模型,修正為隨機效應模型后,兩組差異無統計學意義[OR=0.65,95%CI(0.4,1.06),P=0.08](圖 2)。③ 5年總生存率:7個研究報道了5年總生存率,RFA組在41.3%~58.5%間,HR組在51.9%~65.9%。5個Meta分析結果顯示RFA療效低于HR(P<0.05),其中2個研究顯示其異質性較高,Xu等[13]的研究在I2=63.7%時錯誤選擇固定效應模型,因其提供數據有限,無法修正結果(圖 2)。

2.4.2 無病生存率(DFS)
① 1年無病生存率:7個研究報道1年無病生存率,RFA組在54.3%~93.0%之間,HR組在80.1%~94.8%之間。4個研究結果顯示RFA組低于HR組,其OR值在0.54~0.8之間,但孫彪[16]和Zhou [32]等的研究顯示高度異質性,I2分別為57%和59.2%(圖 3)。② 3年無病生存率:7個Meta分析報道3年無病生存率,RFA組在34.9%~59%之間,HR組在45.1%~73.6%之間。除杜鵑等[34]的研究外,其余6個Meta分析結果均顯示RFA組低于HR組(P<0.05),但5個研究均存在不同程度的異質性。黃子明等[27]的研究錯誤使用固定效應模型,修正為隨機效應模型后,兩組差異無統計學意義[OR=0.95,95%CI(0.46,1.96),P=0.88]。周大臣等[29]的研究修正后,兩組差異亦無統計學差異[OR=0.60,95%CI (0.3,1.2),P=0.15](圖 3)。③ 5年無病生存率:僅2個研究報道了5年無病生存率,均顯示RFA組低于HR組,其OR值及其95%CI分別為0.52(0.42,0.63)和0.64(0.42,0.99)(圖 3)。

2.4.3 無復發生存率(RFS)
2個Meta分析報道1年、3年和5年的無復發生存率,結果均顯示HR組的療效優于RFA組。但Liu等[14]的研究錯誤選擇固定效應模型。修正后1年和5年無復發生存率兩組差異均無統計學意義[OR=0.65,95%CI(0.34,1.24)和OR=0.74,95%CI(0.4,1.39)],但3年無復發生存率差異仍有統計學意義[OR=0.46,95%CI(0.27,0.79),P=0.005](圖 4)。

2.4.4 復發率
① 1年復發率:4個研究報道1年復發率,RFA組為19.6%~27.4%,HR組為17.4%~21.9%。2個研究結果顯示RFA組高于HR組,其OR值及其95%CI分別為1.81(1.6,2.05)和1.48(1.05,2.08),均存在不同程度高異質性。黃子明等[27]的研究錯誤選擇固定效應模型,修正后兩組差異仍有統計學意義[OR 2.67,95%CI(1.28,5.58),P=0.09](圖 5)。② 3年復發率:3個研究報道3年復發率,RFA組為54.9%~62.2%,HR組為52.7%~60.5%。僅1個研究(質量Poor)顯示RFA組高于HR組,其OR值及其95%CI為1.76(1.49,2.08),但存在高度異質性(I2=69.9%)(圖 5)。③ 5年復發率:僅1個Meta分析(質量Poor)報道5年復發率,結果顯示RFA組高于HR組,其OR值及其95%CI為1.68(1.21,2.34),I2=54.5%(圖 5)。

2.4.5 并發癥發生率
7個Meta分析報道了術后并發癥發生率,RFA組為4.1%~9.3%,HR組為5.6%~45.8%。4個研究結果顯示RFA組低于HR組,差異有統計學意義。但除孫彪等[16]的研究外,其余3個研究均有不同程度的異質性。黃子明[27]和周大臣[29]等研究錯誤選擇固定效應模型,修正后黃子明[27]等的研究顯示兩組無差異[OR=0.5,95%CI(0.11,2.15),P=0.35](圖 6)。

2.4.6 住院死亡率
僅2個研究報道了住院死亡率,RFA組為0.1%~0.3%,HR組為0.8%~1.3%。雖2個研究均顯示RFA組低于HR組,但差異無統計學意義(圖 7)。

2.4.7 亞組分析
HCC≤3 cm患者生存率:Li等[17]研究結果顯示RFA組1年、3年和5年生存率分別為93.8%、84%和59.9%,HR組分別為99%、93.3%和69.2%,但僅在第3年兩組差異有統計學意義[OR=0.56,95%CI(0.37,0.84)]。Xu等[13]的研究結果顯示1年、3年和5年生存率RFA組均低于HR組(P<0.05),但分析5年生存率時錯誤選擇固定效應模型,因數據有限,無法修正,結論尚需謹慎看待(圖 8)。

3 討論
SR/Meta分析被認為是高質量證據的重要來源之一,但其質量易受多方面混雜因素影響,尤其是偏倚[74]。迄今,許多Meta分析比較RFA和HR治療小肝癌的療效,但這些未經質量評價的研究結果被推薦作為最佳證據指導臨床實踐時可能會誤導臨床決策。
3.1 OQAQ量表主要評估SR中易產生偏倚的關鍵環節[21 , 74 ]
本次再評價納入的19個二次研究中,僅5個(23.6%)研究的方法學質量為Good [15-17, 31, 35],6個(55.6%)研究存在錯用統計模型的情況(I2>50%時選用固定效應模型)[13, 14, 27-29, 33]。這不僅會導致錯誤估計效應值,且會誤導臨床決策。如Liu等[14]的研究在合并3年總生存率,以及1年和5年無復發生存率的OR值時采用固定效應模型,得出HR優于RFA的結論,修正為隨機效應模型后,兩組差異并無統計學意義。同樣的情況也發生在黃子明等[27]的研究,修正為隨機效應模型后,3年無病生存率和并發癥發生率兩組差異并無統計學意義。
3.2 原始研究的設計類型和質量是影響Meta分析總體質量的重要因素
本次再評價納入的研究表明,大多數Meta分析納入的原始研究為NRCT,總體證據質量較差[MINORS得分均值為15分(總分為18分),95%CI(14.6,15.4)]。許多二次研究的作者在判斷所納入原始文獻的設計類型存在誤區:①多位二次研究作者將回顧性臨床對照研究作為RCT納入[14, 27, 29]。②同一原始文獻被不同二次研究的作者納入時,其設計類型的歸類亦不一樣[45, 47, 53, 62]。RCT被錯誤歸為NRCT的情況極少。一方面提示RCT的報道較規范,另一方面不排除二次研究作者有片面追求RCT的傾向。我們還發現,同一年發表的二次研究,其納入的原始文獻差異較大,原因可能是納入標準有差異,也可能因檢索不全所致。
3.3 不嚴格的納入標準是導致Meta分析高異質性的重要因素
我們仔細閱讀該39個原始研究全文后發現,17篇文獻(43.6%)根本不符合這些二次研究的納入標準,其中9個不同程度混雜了其他有效干預措施(TACE、PEI等)。這些都可能是大多數Meta分析高異質性的重要來源之一,對結局指標效應值估計和可信度也會產生一定偏倚。
3.4 每個結局指標的證據質量是臨床醫生和患者所關心的重點
目前,GRADE可“以結局為中心”對每一個結局做出評價,最后給出證據質量等級和推薦強度[75]。但遺憾的是,本文納入的所有Meta分析和SR均未做相關評價,這可能在一定程度上影響臨床的實用性。
3.5 本研究的局限性
本研究僅再次系統評價了各SR/ Meta分析的方法學質量和結局指標的效應值,無法定量合并分析其效應值。考慮到納入研究的特點,我們對NRCT方法學質量的評價工具MINORS進行了改良,去掉了前瞻性收集數據、盲法評價終點指標和前瞻性計算樣本量這3項內容。受所納入研究數據限制,本文未做更多的亞組分析,但將后續研究中深入分析當前Meta分析中存在的問題及其對結果的影響。
當前大多數證據認為RFA和HR治療早期可手術切除肝癌(≤5 cm)的1年生存率和無病生存率差異無統計學意義,但隨著隨訪時間延長,HR組的總生存率、無病生存率、無復發生存率更高,復發率更低;RFA組的并發癥發生率和手術相關死亡率低于HR組;對≤3 cm的早期肝癌,RFA組的長期生存率低于HR組。但多數二次研究作者對Meta分析的方法學理解不到位,不了解如何控制偏倚,導致總體質量較差;研究間異質性較高,證據水平較低。臨床醫生使用這些證據指導臨床決策時尚需謹慎。提示有必要基于原始數據和目前更新數據重做Meta分析,以減少偏倚,提高證據水平,正確指導臨床決策。SR或Meta分析的作者應運用GRADE分級工具量化SR或Meta分析的證據質量,以便讓臨床醫生和讀者能快速了解其結論的可信程度。
全球癌癥疾病負擔逐年增加,每年新發癌癥患者1 090萬,與癌癥相關死亡人數達670萬[1]。2008年,全球估計因癌癥損失1.69億健康生命年,亞洲和歐洲因腫瘤損失的傷殘調整生命年(DALY)占總損失DALY的73%,中國占25%,印度占11% [2]。肝癌位居全球37個國家男性患者損失DALY疾病負擔的首位,占全球總DALY的28% [2]。肝癌的全球發病率居第7位(男性居第5位,女性居第7位)[3],肝癌也是全球第3大最常見致死的腫瘤,其死亡率與發病率之比為0.93 [4]。85%的肝癌病例在發展中國家,男女性別比為2.4 [3, 4]。中國肝癌發病率為25.7/10萬(402 208例),居第4位,死亡率為23.7/10萬(372 079例),居第3位[4]。
美國肝病研究學會[5]和歐洲肝臟研究協會[1]指南對早期肝癌推薦肝切除術(hepatic resection,HR)和肝移植,其5年生存率可達50%~75%。但因肝癌患者肝功能儲備較差,且早期癥狀不明顯,診斷率低,僅20%~35%適合肝手術切除治療[6]。西方國家非肝硬化肝癌患者僅5%選擇手術切除治療,亞洲選擇手術治療占40%,但切除后腫瘤5年復發率(包括播散和新生腫瘤)超過70% [7]。我國因肝源有限、費用昂貴,且有嚴格納入標準(Milan標準或UCSF標準、杭州標準、成都標準),肝移植僅作為補充治療[7]。
射頻消融術(radiofrequency ablation,RFA)被認為是對無法肝移植和手術切除的早期肝細胞癌的最佳治療選擇[8]。對可手術或肝移植患者,RFA仍被認為是一種安全、有效的方法[9]。最近1項RCT結果顯示,對腫瘤直徑≤4 cm,腫瘤結節≤2個的小肝癌,RFA與HR的療效相同[10]。Wang等[11]的研究表明,RFA和HR治療巴塞羅那臨床肝癌分期(BCLC)0~A級早期肝癌患者的總生存率差異無統計學意義,但HR的無病生存率更優。Peng等[12]的回顧性對照研究結果顯示:RFA治療單個肝癌(直徑≤2 cm)的有效性和安全性均優于HR,尤其是中央型肝癌。近年許多Meta分析比較了RFA和HR的療效,但因納入研究的質量各異,證據水平較低,很難得出一致的結論[13-18],對早期可手術切除的肝癌如何選擇最佳治療方式仍存爭議。
本文旨在系統檢索當前可得最佳證據,循證評價RFA與HR治療早期肝癌的系統評價(SR)/ Meta分析的方法學質量及其對結果的影響,為醫生和患者合理選擇最佳臨床方案提供參考依據。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究設計
衛生技術評估(health technology assessment,HTA)、SR和/或Meta分析。
1.1.2 研究對象
符合Milan標準(單個腫瘤直徑≤5 cm或腫瘤數≤3個,且最大直徑≤3 cm)或UCSF標準(單個腫瘤直徑≤6.5 cm,或腫瘤數≤3個,最大直徑≤4.5 cm,且腫瘤直徑之和≤8 cm),肝功能良好(Child-Pugh A或B),無大血管侵犯,無淋巴結或肝外轉移的原發性肝細胞癌患者。
1.1.3 干預措施
射頻消融術,肝切除術。
1.1.4 結局指標
有效性:1、3、5年總生存率,1、3、5年無復發生存率,1、3、5年無病生存率;安全性:死亡率;1、3、5年復發率;并發癥發生率。
1.1.5 排除標準
①轉移性肝癌(如結直腸癌肝轉移),肝切除后肝癌復發或不能手術切除的肝癌;②除射頻消融術和肝切除術外,干預組或對照組接受了其他輔助治療(如TACE);③隨訪時間<3年;④若兩篇或多篇文章的結果雷同,選擇質量最好的文獻;⑤除中英文以外的其他文獻。
1.2 數據來源和檢索策略
系統檢索PubMed、Web of Science、The Cochrane Library、CBM、CNKI和VIP 6個電子數據庫,并補充檢索INAHTA(http://www.inahta.net/)、HTAi(http://www.htai.org)、OMHALTC(http://www.health.gov.on.ca/en/)、ICES(http://www.ices.on.ca/index.html)和NIM(http://www.nlm.nih.gov/)官方網站。檢索時限均為建庫至2012年11月11日。檢索詞為:hepatic resection(肝切除)、surgical resection(手術切除)、liver resection(肝切除)、hepatectomy(肝切除術)、radiofrequency(射頻)、radiofrequency ablation(射頻消融)、catheter ablation(導管消融)、RFA。文獻類型限定為health technology assessment(衛生技術評估)、systematic review(系統評價),meta-analysis(Meta分析)、literature review、薈萃分析。文種不限。
1.3 文獻篩選與數據提取
按照PRISMA指南檢索及篩選文獻[19]。由兩名評價者(王應強和羅倩倩)根據預先設定好的納入與排除標準獨立瀏覽文題和摘要篩選文獻,必要時查看全文以便取舍。對符合納入標準的文獻,由這兩名評價者使用統一的數據提取表獨立提取數據,如遇分歧通過協商或由第三方(李幼平)裁定。提取內容包括第一作者、發表時間、研究類型、檢索周期、納入標準、隨訪、臨床結局等。
1.4 質量評價
由2名評價者(王應強和羅倩倩)使用OQAQ(Overview Quality Assessment of Questionnaire)量表[20, 21]獨立評價SR/ Meta分析的方法學質量,不一致時找第三方(李幼平)協商或裁定。OQAQ量表共10個條目,前9個條目分別用“是”、“部分”/“不清楚”、“否”評價,第10個條目根據前9個條目的評價情況,給出綜合評分(1~7分)。7分表示無缺陷,≥5分表示僅有極小或小缺陷(Good),3~4分表示有大缺陷(Poor),≤2分表示極大缺陷(Very poor)。
改良的MINORS量表[22]評價SR或Meta分析中納入的非隨機對照研究(NRCT)的方法學質量。Cochrane協作網的偏倚風險評估工具[23]評價RCT的方法學質量(隨機化、分配隱藏、盲法、不完整結果、選擇性報告、其他偏倚)。
1.5 統計分析
統一標化納入研究的效應指標為OR值及其95%CI。采用Stata 10.0軟件整合納入研究的Meta分析結果。采用SPSS 13.0軟件描述性分析其他定量資料,主要采用頻數、均值及其95%CI。I2>50%時采用隨機效應模型,I2≤50%時采用固定效應模型。P<0.05時認為差異有統計學意義。
2 結果
2.1 文獻檢索結果
初檢出483條記錄,初篩后共納入59個研究,經查閱全文后共排除40個,最終納入19個研究,發表于2008~2012年,包括1個HTA [18]、3個定性SR [24-26]及15個Meta分析[13-17, 27-35](圖 1)。這19個二次研究共納入39個原始研究,發表于2004~2011年(表 1),包括1個評論[36]、3個RCT [37-39]、35個NRCT [6, 9, 39-71],多數為回顧性對照研究。

INAHTA: International network of agencies for health technology assessment(國際衛生技術評估機構網絡);HTAi: Health technology assessment international(國際衛生技術評估);OMHALTC: Ontario ministry of health and long-term care(安大略健康與長期保健部);ICES: Institute for clinical evaluation sciences(臨床科學評估研究所);NLM: National library of medicine(國立醫學圖書館);RF:射頻消融;TACE:經導管肝動脈化療栓塞;PEI:經皮乙醇注射。

2.2 納入研究的基本特征
納入的19個研究中,4個研究[14, 27, 29, 34]僅納入RCT,15個研究同時納入了RCT和NRCT。其中8個研究[13-16, 27, 29, 34, 35](42.1%)評價了納入研究的質量,其評價工具主要為Jadad量表和Cochrane Handbook的偏倚風險的評估工具。僅8個研究[13-17, 29, 30, 33](42.1%)報道納入研究的發表偏倚。僅3個(15.8%)研究[17, 32, 35]較全面報道了納入患者的基本信息(肝功能、年齡、腫瘤平均直徑、平均隨訪時間等)。納入患者肝功能多數為Child-Pugh A/B,僅孫彪等[16]的研究報道了試驗組和對照組中各11例和1例的肝功能Child-Pugh C級。患者平均年齡在56.3~63.1歲,多數患者腫瘤直徑為3 cm左右,平均隨訪23.8~33.8個月(表 2)。

分析19個納入研究的原始文獻的設計類型時發現,僅5篇原始文獻[9, 37, 40, 41, 45]被>10個研究納入,11篇被5~9個研究納入。12篇原始文獻分別被不同納入研究者納入,但設計類型歸類不一。如Huang等[47]的研究被黃子明等[27]的SR納入時歸為RCT,但Xu等[13]和孫彪等[16]研究卻將其歸為NRCT。類似的情況也發生在其他研究[9, 41, 44, 45, 51-54, 62]。此外,還有納入研究將回顧性對照研究作為RCT納入[39, 72](表 3)。

2.3 納入研究的質量評價
如表 2所示,19個納入研究(SR/Meta分析)的總體質量較差,其OQAQ得分均值為3.3分,95%CI(2.6,4.1)。5個(26.3%)研究存在小缺陷(≥5分),方法學質量為“Good”;8個研究存在大缺陷(3~4分),方法學質量為“Poor”;6個研究存在極大缺陷(≤2分),方法學質量為“Very poor”。6個研究在I2>50%時錯誤選擇固定效應模型,3個研究在更正模型后改變原結局指標的方向(表 4)。

19個納入研究所納入的39篇原始文獻的方法學質量評價結果見表 3。有3個RCT均未實施盲法[37, 38, 72],其質量均為B級。35篇NRCT的MINORS得分均值為15.0分(總分18分),95%CI(14.6分,15.4分),其中2個(5.7%)研究得17分,11個(31.4%)得16分,13個(37.1%)得15分。另1篇為法語評論[36],無法評價質量。
這39個原始研究中,17個(43.6%)研究[36, 39, 42, 48-50, 55, 60, 63-67, 69-72]不符合這些二次研究的納入標準:9個研究不同程度混雜了其他有效處理措施,如Tashiro [69]、Takahashi [66]、Yamakado [63]等的研究中RFA組均有患者接受RFA和TACE聯合治療;而Wakai [65]、彭振維[60]、陳敏山[39]等的研究中RFA組接受了PEI治療。4個[48, 49, 64]納入非原發性肝癌人群(3個針對復發性肝癌,1個[70]含轉移性肝癌患者20例),其余2個未詳細描述患者基線特征[42, 71](表 3)。
2.4 臨床結局
2.4.1 生存率(OS)
① 1年總生存率:12個Meta分析報告治療小肝癌1年生存率RFA和HR均≥90%。僅2個研究報告RFA的療效低于HR,其OR值及其95%CI分別為0.51(0.29,0.86)和0.60(0.42,0.86),其余10個研究均報告差異無統計學意義(圖 2)。② 3年總生存率:13個研究報告了3年總生存率,RFA組在62.5%~77.9%之間,HR組在63.6%~82.9%之間。8個研究Meta分析報告RFA療效低于HR(P<0.05),但6個研究均存在不同程度的異質性(I2值在46.3%~64.0%)。Liu等[14]的研究在I2=53%時錯誤選擇固定效應模型,修正為隨機效應模型后,兩組差異無統計學意義[OR=0.65,95%CI(0.4,1.06),P=0.08](圖 2)。③ 5年總生存率:7個研究報道了5年總生存率,RFA組在41.3%~58.5%間,HR組在51.9%~65.9%。5個Meta分析結果顯示RFA療效低于HR(P<0.05),其中2個研究顯示其異質性較高,Xu等[13]的研究在I2=63.7%時錯誤選擇固定效應模型,因其提供數據有限,無法修正結果(圖 2)。

2.4.2 無病生存率(DFS)
① 1年無病生存率:7個研究報道1年無病生存率,RFA組在54.3%~93.0%之間,HR組在80.1%~94.8%之間。4個研究結果顯示RFA組低于HR組,其OR值在0.54~0.8之間,但孫彪[16]和Zhou [32]等的研究顯示高度異質性,I2分別為57%和59.2%(圖 3)。② 3年無病生存率:7個Meta分析報道3年無病生存率,RFA組在34.9%~59%之間,HR組在45.1%~73.6%之間。除杜鵑等[34]的研究外,其余6個Meta分析結果均顯示RFA組低于HR組(P<0.05),但5個研究均存在不同程度的異質性。黃子明等[27]的研究錯誤使用固定效應模型,修正為隨機效應模型后,兩組差異無統計學意義[OR=0.95,95%CI(0.46,1.96),P=0.88]。周大臣等[29]的研究修正后,兩組差異亦無統計學差異[OR=0.60,95%CI (0.3,1.2),P=0.15](圖 3)。③ 5年無病生存率:僅2個研究報道了5年無病生存率,均顯示RFA組低于HR組,其OR值及其95%CI分別為0.52(0.42,0.63)和0.64(0.42,0.99)(圖 3)。

2.4.3 無復發生存率(RFS)
2個Meta分析報道1年、3年和5年的無復發生存率,結果均顯示HR組的療效優于RFA組。但Liu等[14]的研究錯誤選擇固定效應模型。修正后1年和5年無復發生存率兩組差異均無統計學意義[OR=0.65,95%CI(0.34,1.24)和OR=0.74,95%CI(0.4,1.39)],但3年無復發生存率差異仍有統計學意義[OR=0.46,95%CI(0.27,0.79),P=0.005](圖 4)。

2.4.4 復發率
① 1年復發率:4個研究報道1年復發率,RFA組為19.6%~27.4%,HR組為17.4%~21.9%。2個研究結果顯示RFA組高于HR組,其OR值及其95%CI分別為1.81(1.6,2.05)和1.48(1.05,2.08),均存在不同程度高異質性。黃子明等[27]的研究錯誤選擇固定效應模型,修正后兩組差異仍有統計學意義[OR 2.67,95%CI(1.28,5.58),P=0.09](圖 5)。② 3年復發率:3個研究報道3年復發率,RFA組為54.9%~62.2%,HR組為52.7%~60.5%。僅1個研究(質量Poor)顯示RFA組高于HR組,其OR值及其95%CI為1.76(1.49,2.08),但存在高度異質性(I2=69.9%)(圖 5)。③ 5年復發率:僅1個Meta分析(質量Poor)報道5年復發率,結果顯示RFA組高于HR組,其OR值及其95%CI為1.68(1.21,2.34),I2=54.5%(圖 5)。

2.4.5 并發癥發生率
7個Meta分析報道了術后并發癥發生率,RFA組為4.1%~9.3%,HR組為5.6%~45.8%。4個研究結果顯示RFA組低于HR組,差異有統計學意義。但除孫彪等[16]的研究外,其余3個研究均有不同程度的異質性。黃子明[27]和周大臣[29]等研究錯誤選擇固定效應模型,修正后黃子明[27]等的研究顯示兩組無差異[OR=0.5,95%CI(0.11,2.15),P=0.35](圖 6)。

2.4.6 住院死亡率
僅2個研究報道了住院死亡率,RFA組為0.1%~0.3%,HR組為0.8%~1.3%。雖2個研究均顯示RFA組低于HR組,但差異無統計學意義(圖 7)。

2.4.7 亞組分析
HCC≤3 cm患者生存率:Li等[17]研究結果顯示RFA組1年、3年和5年生存率分別為93.8%、84%和59.9%,HR組分別為99%、93.3%和69.2%,但僅在第3年兩組差異有統計學意義[OR=0.56,95%CI(0.37,0.84)]。Xu等[13]的研究結果顯示1年、3年和5年生存率RFA組均低于HR組(P<0.05),但分析5年生存率時錯誤選擇固定效應模型,因數據有限,無法修正,結論尚需謹慎看待(圖 8)。

3 討論
SR/Meta分析被認為是高質量證據的重要來源之一,但其質量易受多方面混雜因素影響,尤其是偏倚[74]。迄今,許多Meta分析比較RFA和HR治療小肝癌的療效,但這些未經質量評價的研究結果被推薦作為最佳證據指導臨床實踐時可能會誤導臨床決策。
3.1 OQAQ量表主要評估SR中易產生偏倚的關鍵環節[21 , 74 ]
本次再評價納入的19個二次研究中,僅5個(23.6%)研究的方法學質量為Good [15-17, 31, 35],6個(55.6%)研究存在錯用統計模型的情況(I2>50%時選用固定效應模型)[13, 14, 27-29, 33]。這不僅會導致錯誤估計效應值,且會誤導臨床決策。如Liu等[14]的研究在合并3年總生存率,以及1年和5年無復發生存率的OR值時采用固定效應模型,得出HR優于RFA的結論,修正為隨機效應模型后,兩組差異并無統計學意義。同樣的情況也發生在黃子明等[27]的研究,修正為隨機效應模型后,3年無病生存率和并發癥發生率兩組差異并無統計學意義。
3.2 原始研究的設計類型和質量是影響Meta分析總體質量的重要因素
本次再評價納入的研究表明,大多數Meta分析納入的原始研究為NRCT,總體證據質量較差[MINORS得分均值為15分(總分為18分),95%CI(14.6,15.4)]。許多二次研究的作者在判斷所納入原始文獻的設計類型存在誤區:①多位二次研究作者將回顧性臨床對照研究作為RCT納入[14, 27, 29]。②同一原始文獻被不同二次研究的作者納入時,其設計類型的歸類亦不一樣[45, 47, 53, 62]。RCT被錯誤歸為NRCT的情況極少。一方面提示RCT的報道較規范,另一方面不排除二次研究作者有片面追求RCT的傾向。我們還發現,同一年發表的二次研究,其納入的原始文獻差異較大,原因可能是納入標準有差異,也可能因檢索不全所致。
3.3 不嚴格的納入標準是導致Meta分析高異質性的重要因素
我們仔細閱讀該39個原始研究全文后發現,17篇文獻(43.6%)根本不符合這些二次研究的納入標準,其中9個不同程度混雜了其他有效干預措施(TACE、PEI等)。這些都可能是大多數Meta分析高異質性的重要來源之一,對結局指標效應值估計和可信度也會產生一定偏倚。
3.4 每個結局指標的證據質量是臨床醫生和患者所關心的重點
目前,GRADE可“以結局為中心”對每一個結局做出評價,最后給出證據質量等級和推薦強度[75]。但遺憾的是,本文納入的所有Meta分析和SR均未做相關評價,這可能在一定程度上影響臨床的實用性。
3.5 本研究的局限性
本研究僅再次系統評價了各SR/ Meta分析的方法學質量和結局指標的效應值,無法定量合并分析其效應值。考慮到納入研究的特點,我們對NRCT方法學質量的評價工具MINORS進行了改良,去掉了前瞻性收集數據、盲法評價終點指標和前瞻性計算樣本量這3項內容。受所納入研究數據限制,本文未做更多的亞組分析,但將后續研究中深入分析當前Meta分析中存在的問題及其對結果的影響。
當前大多數證據認為RFA和HR治療早期可手術切除肝癌(≤5 cm)的1年生存率和無病生存率差異無統計學意義,但隨著隨訪時間延長,HR組的總生存率、無病生存率、無復發生存率更高,復發率更低;RFA組的并發癥發生率和手術相關死亡率低于HR組;對≤3 cm的早期肝癌,RFA組的長期生存率低于HR組。但多數二次研究作者對Meta分析的方法學理解不到位,不了解如何控制偏倚,導致總體質量較差;研究間異質性較高,證據水平較低。臨床醫生使用這些證據指導臨床決策時尚需謹慎。提示有必要基于原始數據和目前更新數據重做Meta分析,以減少偏倚,提高證據水平,正確指導臨床決策。SR或Meta分析的作者應運用GRADE分級工具量化SR或Meta分析的證據質量,以便讓臨床醫生和讀者能快速了解其結論的可信程度。