引用本文: 李江, 蘇凱, 黃遙, 李放, 唐威, 王樂, 黃慧瑤, 代敏. 肺癌篩查領域系統評價的再評價. 中國循證醫學雜志, 2016, 16(7): 764-770. doi: 10.7507/1672-2531.20160119 復制
隨著全球工業化快速發展、環境污染日益加重、吸煙人口持續增加,肺癌已成為人類惡性腫瘤中發病率和死亡率增長最為迅速的一種。世界衛生組織國際癌癥研究署(WHO/IARC)發布GLOBOCAN 2012數據顯示,不論是發達國家還是欠發達國家,肺癌發病率呈直線上升趨勢,已位居男性惡性腫瘤首位和女性第三位;且不論男女,肺癌死亡率均在首位 [1]。我國國家癌癥中心腫瘤登記中心最新數據顯示我國肺癌發病率和死亡率為35.23/10萬和27.93/10萬,均居于惡性腫瘤之首 [2]。早期肺癌并無明顯臨床癥狀,大部分患者在有臨床癥狀時才去就診,確診后,基本為中晚期肺癌,而其中僅有不到25%的患者適合手術治療,5年生存率很低,治療產生的經濟負擔和社會負擔也非常嚴重 [3]。
最近研究結果指出,在篩選出具備高風險肺癌因素的人群中,采用低劑量螺旋CT進行篩查能降低人群死于肺癌的概率(約降低20%) [4]。隨著循證醫學的快速發展,循證腫瘤學的研究逐步深入。已有多個系統評價(systematic review,SR)的結果闡述肺癌篩查的有效性和安全性。本研究通過開展肺癌篩查系統評價再評價 [5],評估其納入SR的偏倚風險及其結論的可靠程度,探索肺癌篩查有效性和安全性特點和規律,為臨床更好地進行肺癌篩查提供參考依據。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究設計
基于隨機對照試驗(randomized controlled trial,RCT)和/或觀察性研究(包括隊列研究和病例對照研究)的SR。
1.1.2 研究對象
接受肺癌篩查方案的受試者,性別、種族和病例來源不限。年齡依據肺癌篩查高危險人群年齡55~80歲之間,吸煙量為30包/年且戒煙狀態在15年之內者 [6, 7]。
1.1.3 干預措施
干預組采用高頻率(6個月1次、4個月1次等)的胸部X線片(CXR)、低劑量螺旋CT(LDCT)及18F PET CT篩查聯合其他檢查;對照組采用低頻率(1年1次、3年1次等)的CXR/LDCT篩查,或是LDCT聯合CXR,聯合18F PET CT等。
1.1.4 結局指標
① 死亡率;② 檢出率;③ 生存率;④ 過度診斷;⑤ 潛在利益與危害。
1.1.5 排除標準
① 會議摘要;② 重復發表的文獻;③ 數據無法提取的文獻;④ 非中、英文文獻。
1.2 檢索策略
計算機檢索PubMed、EMbase、The Cochrane Library(2016年2期)、Web of Knowledge、CBM、WanFang Data和CNKI數據庫,搜集有關于肺癌篩查的SR,檢索時限均為從建庫至2016年2月29日。檢索策略采用主題詞和自由詞相結合的方式。中文檢索詞包括:肺癌(包括非小細胞肺癌和小細胞肺癌)、肺部腫瘤、篩查、早期檢測、早期診斷、系統評價、系統綜述、Meta分析、薈萃分析、元分析;英文檢索詞包括:lung cancer、lung neoplasm、screening、early detection、Cochrane database of systematic reviews、meta-analysis等。以PubMed為例,其具體檢索策略見框1。
框 1 PubMed檢索策略
Lung neoplasm[Mesh] lung cancer screening OR early detection #1 OR #2 #3 AND #4 systematic review OR meta-analysis #5 AND #6
1.3 文獻篩選和資料提取
由2位評價員獨立進行文獻篩選和資料提取,如遇分歧,則咨詢第三方協助判斷,缺乏的資料盡量與作者聯系予以補充。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。采用自制的資料提取表提取資料,資料提取內容主要包括:① 基本信息,包括題目、作者、發表年份、檢索策略、納入標準、質量評價方法、結局指標和結論等。② 納入SR的偏倚風險和證據質量情況。
1.4 納入SR的偏倚風險評價
由2位評價員采用ROBIS(Risk of Bias in Systematic Review)工具評價納入SR的偏倚風險,包括三個階段 [8]。階段一:評估相關性(視情況選擇),SR類型確定(包括干預性、病因性、診斷準確性試驗和預后性);階段二:確定SR制定過程中的偏倚風險程度(包括研究的納入排除標準、研究檢索和(或)篩選所使用方法、數據提取和質量評價所使用方法和數據合成和結果呈現這四個領域的21個標志性問題);階段三:判斷SR的偏倚風險的3個標志性問題。證據質量評價采用GRADE證據分級工具,包括5個降級因素和3個升級因素 [9]。RCT一開始為高質量,可因5個因素而降級:① 納入研究在隨機、分配隱藏和盲法方面存在較大偏倚;② 漏斗圖不對稱;③ 不同研究可信區間的重疊程度較差,且合并結果的I2值較大;④ 納入研究樣本量太小,可信區間較寬;⑤ 納入研究數量少,存在較大發表偏倚的可能。觀察性研究一開始為低質量,可因3個因素而升級:① 效應量大;② 劑量效應關系;③ 所有可能的混雜因素會降低效應量。將納入的證據質量分為A(高質量)、B(中等質量)、C(低質量)和D(極低質量)四個等級。此外,為保證評價結果的可靠性,從納入SR中隨機抽取2個進行獨立評估,共同衡量兩名評價人員間對評價結果的一致性。
2 結果
2.1 文獻篩選流程及結果
初檢出758篇文獻,經逐層篩選后,最終納入11個SR [10-20]。文獻篩選流程及結果見圖 1。

2.2 納入SR的基本特征
納入的11個SR中,10篇為期刊發表論文(英文9篇,中文1篇) [10-14, 16-20],1篇為碩士學位論文(中文) [15]。發表年份在2003~2014年之間,其中有5篇 [16-20](55%)為2012之后發表。
納入的SR中,北美地區有4個 [11, 13, 16, 19](45%),中國大陸2個 [14, 15](18%);10個SR [10-19]報告了篩查的隨訪時間。11個SR均進行了質量評價,其中3個SR [10, 18, 19]采用的是Cochrane 5.1.0推薦的偏倚風險評估工具,3個SR分別采用了QUORUM量表[11]、PRISMA量表[13]和STROBE量表[20],1個SR [15]采用影像學評分系統(非方法學評估標準),1個SR [16]采用GRADE方法進行了證據分級,其余則采用了其他評價工具。所納入SR的基本特征見表 1。

2.3 納入SR的偏倚風險評價
2.3.1 階段一:評估相關性
8個SR [11, 13, 15-20]細化了納入受試者人群的年齡、吸煙量及戒煙狀態;10個SR [11-20]中要解決的干預措施問題與目標干預措施匹配;7個SR [11-13, 15-16, 18-19]要解決的對照措施問題與目標對照措施匹配;2個SR [18, 19]要解決的結局指標全面包括了目標結局指標,其余為部分匹配(表 2)。

2.3.2 階段二:偏倚風險程度
領域1:3個SR [10, 16, 18]遵循了預先確定的目的和納入標準,4個 [11-12, 19-20]可能是遵循了預先確定的目的和納入標準,4個 [13-15, 17]無信息;8個SR [11, 13, 15-20]的納入標準適合SR的問題,3個 [10, 12, 14]可能適合;8個SR [10, 11, 14-19]納入標準明確且詳細,3個 [12-13, 20]較詳細;8個SR [10-12, 16, 20]納入標準中所有基于研究特征的限制合適,3個 [13-15]可能合適;6個SR [12, 14-15, 18-20]納入標準中所有與研究來源相關的限制合適,5個 [10-11, 13, 16-17]可能合適。因此,該領域中,納入標準可能是提前確定,和(或)符合SR的問題,絕大多數標志性問題的回答為“是”或“可能是”,6個SR [10, 11, 16, 18-20]的偏倚風險程度為“低”,2個 [13, 14]為“高”,3個 [12, 15, 17]為“不確定”(表 2)。
領域2:11個SR [10-20]檢索已發表和未發表的研究時所包含的數據庫或電子資源的范圍合適;8個SR [10-12, 15-19]使用了除數據庫檢索以外的其他方法來確定相關研究,3個 [13-14, 20]未報告信息;5個SR [11, 16-19]納入檢索策略的檢索詞和結構能盡可能多地檢索到符合的研究,4個 [10, 14, 15, 20]有可能,2個 [12, 13]無信息;8個SR [10-12, 16, 20]基于時間、發表形式、語言的限制合適,3個 [13-15]可能合適;8個SR [10-13, 15-19]研究的篩選中盡可能地減小了誤差,2個 [15, 20]可能合適,1個 [14]無信息;因此,該領域中,8個SR [10-12]其偏倚風險程度為“低”,3個SR [14, 15, 20]為“高”(表 2)。
領域3:5個SR [11, 16-19]數據提取盡可能地減小了誤差,2個 [14, 20]無信息;6個SR [11, 12, 16-19]的作者和讀者能獲取足夠的研究特征來解讀結果,5個 [10, 13-15, 20]可能是;11個SR [10-20]提取了所有相關的研究結果來進行數據合成;5個SR [10-11, 18-20]使用了合適的工具來評價原始研究的偏倚風險(或方法學質量),3個 [12, 16-17]可能合適,1個 [15]可能否,2個 [13, 14]無信息;2個SR [18, 19]偏倚風險評價中盡可能地減小了誤差,9個 [10-17, 20]無信息;因此,該領域中,3個SR [12, 18, 19]偏倚風險程度為“低”,6個SR [10, 13-16, 20]為“高”,2個 [11, 17]“不確定”(表 2)。
領域4:11個SR [10-20]數據合成包括了所有應該包括的研究;11個SR [10-20]遵循了所有預先確定的分析方法;6個SR [10-12, 16, 18, 19]鑒于納入研究的問題、研究設計和結局指標的性質和相似性,數據合成方法恰當,5個 [13-15, 17, 20]可能恰當;5個SR [10-12, 18, 19]數據合成中研究之間的差異(異質性)是最小的或者經過處理,6個 [13-17, 20]可能是;3個SR [14, 17, 18]做了敏感性分析,結果穩定,8個 [10-13, 15, 16, 19-20]無信息;1個SR [18]原始研究的偏倚最小,3個 [16, 17, 19]可能是,4個 [10-12, 14]無信息,3個 [13, 15, 20]否;因此,該領域中,5個SR [10-12, 18, 19]偏倚風險程度為“低”,4個SR[13-15, 20]為“高”,2個 [16, 17]“不確定”(表 2)。
2.3.3 階段三:偏倚風險判定
3個SR [16, 18, 19]遵循了結果解釋中處理了階段二中4個領域的偏倚風險;6個 [10-12, 16, 18, 19]合理地考慮到了納入研究與SR研究問題的相關性,6個 [10-12, 16, 18, 19]評價者避免強調有統計學意義的結果。綜合階段二的制作過程中的偏倚風險,最終得5個SR [10, 11, 16, 18, 19]為“低”偏倚風險,5個 [13-15, 17, 20]為“高”,1個 [12]“不確定”(表 2)。
2.4 主要觀察指標及證據質量分級
2.4.1 死亡率
4個SR關注了該結局,其中2個SR [10, 18]顯示胸部X線片聯合痰細胞學篩查與單獨使用X線片檢測無顯著差異[RR=0.88,95%CI(0.74,1.03),P=0.67;RR=0.83,95%CI(0.75,0.92),P=0.18],同時顯示頻繁的X線篩查與低頻率X線篩查在死亡率方面亦無顯著差異[RR=1.11,95%CI(1.00,1.23),P=0.05;RR=1.11,95%CI(1.00,1.23),P=0.95];2個SR [16, 19]顯示,與胸部X線片篩查相比,LDCT可顯著降低肺癌死亡率(P=0.002)。GRADE證據質量評價結果顯示,3個SR [16, 18, 19]的證據質量為A級,1個SR [10]的證據質量由于不精確性和存在發表偏倚而為C級(低質量證據)。
2.4.2 檢出率
7個SR [11-16, 20]均報告了肺癌篩查的靈敏度和特異度,CT靈敏度和特異度分別為0.77和0.87,另一個SR [14]顯示LDCT的靈敏度和特異度分別為0.74和0.79,1個SR [17]顯示靈敏度和特異度分別為83%和91%。其余SR只給出了P值,提供的數據有限,無法獲取具體效應量的詳細信息。GRADE證據質量評價結果顯示,1個納入隊列研究的SR [16]證據由于效應量大而升級,最終證據質量為A級;1個SR證據 [11]由于結果的不一致性和存在發表偏倚而為B級;其余5個SR [12-15, 20]由于不精確性、不一致性與存在發表偏倚,同時觀察性研究效應量不足,故最終為C級。
2.4.3 生存率
1個SR [18]結果顯示篩查組的生存率優于未接受篩查的人群[OR=0.91,95%CI(0.84,0.99),P=0.02],而且在每年X線檢測的基礎上接受痰細胞學檢測的生存率優于未接受痰細胞學檢測的人群[RR=0.83,95%CI(0.75,0.92),P<0.001]。GRADE證據質量評價結果顯示,研究所納入的RCT未降級,隊列研究由于效應量大而升級,故證據質量為A級。
2.4.4 過度篩查
3個SR [10, 13, 16]分析了過度篩查的危害,結果均給予的是粗率值平均25%。GRADE證據質量評價結果顯示,3個SR的證據質量由于不精確性和發表偏倚而降為C級。
2.4.5 篩查潛在利益
2個SR [16, 18]報告了篩查的潛在利益,均依據其納入的RCT獲得,未給出具體的效應量分析結果,證據質量為B級。
3 討論
自循證腫瘤學發展以來,在腫瘤藥物干預措施上取得了較為顯著的成果,但是循證方法在篩查領域的使用尚屬空白。國際癌癥組織推薦要大范圍的進行肺癌篩查,我國亦有較大規模的肺癌篩查項目,如何在吸取國外成功經驗,經濟有效地實施篩查項目是一個挑戰。在肺癌篩查領域引入循證醫學的方法和理念,提供篩查有效性和安全性的可靠、科學的依據,并積極開展篩查的循證評價將有利于提高國家及各省市肺癌篩查水平、促進我國篩查項目的國際化進程。世界衛生組織(World Health Organization,WHO)明確提出衛生健康實踐指南/推薦意見等必須基于循證的方法論構建,這是衛生防控領域的共識和趨勢。美國醫學科學院(Institute of Medicine,IOM)對指南新的定義中明確SR的重要作用之一是為臨床指南/推薦意見提供高質量的證據支持 [21]。但依據本研究結果,盡管肺癌篩查領域的SR數量有所增長,但能被用作推薦意見的高質量證據僅為少數。建議SR制作者在確定研究題目時,就應當考慮到所制作的SR將會作為實踐指南的參考依據,嚴格按照方法學評估工具與證據質量評價工具細致研究,以產生高質量證據,從而提高被引用的效率,另一方面也是避免對研究資源的浪費 [22]。
系統評價再評價是全面搜集針對同一疾病或同一健康問題的病因、診斷、治療或預后等方面的相關SR進行再評價的一種綜合研究方法,能夠鑒別SR存在的偏倚風險及其結論證據質量的高低,為決策者提供更為集中的高質量證據 [23]。目前多個單位和研究人員已經在使用該方法對現有的SR進行研究。自2010年以來,SR/Meta分析以平均每天11篇的速度發展 [24],亦有眾多評估其方法學質量的工具出現 [25]。ROBIS工具是2014年英國布里斯托爾大學(University of Bristol)社會醫學部制定發布的一種全新的評價工具,也是目前值得推薦的一個SR偏倚風險評價工具,在近兩屆Cochrane Colloquium均對其進行了專題討論和相關培訓。《中國循證醫學雜志》緊密跟進國際領先方法學,仔細研究后詳細介紹了有關于ROBIS的特征和使用方法,本研究依據其說明 [26]和舉例解讀 [27],在肺癌篩查領域的系統評價再評價中探索使用了ROBIS工具進行評估。本研究嚴格按照ROBIS工具要求進行,在目標問題與SR中擬解決的問題的吻合度、研究的納入標準、研究的檢索和篩選、數據提取和質量評價以及數據合成和結果呈現上對每個納入的SR均做出了細致的、一致性較高的評價,結果顯示ROBIS評估后所納入的SR高低偏倚風險程度各占一半,而肺癌篩查領域的SR多是由于原始研究的檢索和篩選、數據提取和質量評價、數據合成和結果呈現部分存在有較大的風險。基于此,我們建議今后肺癌篩查領域,乃至癌癥篩查領域的SR制作者在制定SR前應該制定計劃書并在專門的官方地址進行注冊 [28]或發表以避免研究相關性的偏倚。此外,篩查領域的SR制作者應該接受系統的檢索培訓以避免研究檢索和篩選過程中產生的偏倚;并且在文獻篩選和納入、數據提取和方法學質量評價等步驟時需嚴格遵循獨立性和一致性的實施原則;同時建議制作人員在制定SR前,對ROBIS工具進行學習和研討,以降低SR的偏倚風險程度,提高SR所得證據的可信度。
本研究納入SR的終點結局最主要是死亡率,4個SR納入了3個設計嚴謹的大樣本RCT,其他均基于隊列研究。雖然隊列研究結果在一定程度上證據質量能夠支持綜合證據的質量,但如果原始研究就為高質量RCT,那么所得結果在一定程度上就具備推廣意義 [29]。單從SR結論看,肺癌篩查具有確定的有效性,但安全性尚不得知。因為在健康人群或是高危險人群中進行篩查,需要的隨訪時間較長,實施隨機分配隱藏難度較大,隨訪率等問題堪憂,如在大規模依從性較好的高風險人群隊列中進行篩查,檢出率較高,能有效降低死亡率,但安全性需要更長的時間去驗證,現有SR中有探討安全性的問題,但由于原始研究的數據較少而未能給出確切結論。運用GRADE工具針對單個結局指標對SR結論的可靠性進行評價發現,納入的SR所包含的結局指標中,死亡率和檢出率尚有高質量證據支持,而安全性指標如潛在利益與危害和過度篩查無高質量證據。降級最多的因素是研究的不一致性和發表偏倚,說明SR納入的RCT和隊列研究等在時間以及人群綜合數據分析方面存在較大偏倚。基于此,我們建議篩查領域SR制作時,就應采用GRADE工具進行證據質量評價,以提高系統評價結論的可靠性,為相關篩查推薦意見的構建提供了可靠的證據支持。
本研究的局限性:① 納入SR未提供詳細的資料來幫助評價者確定“SR是否有計劃書”;② 在確定“數據合成和結果呈現”時,難以判斷是否存在發表偏倚和選擇性報告。
總之,當前針對肺癌篩查的SR存在的偏倚風險總體可以接受,但SR所評價結局指標的證據質量總體較低。因此,建議臨床醫生在使用這些證據進行臨床決策時尚需結合當地實際情況謹慎使用。
隨著全球工業化快速發展、環境污染日益加重、吸煙人口持續增加,肺癌已成為人類惡性腫瘤中發病率和死亡率增長最為迅速的一種。世界衛生組織國際癌癥研究署(WHO/IARC)發布GLOBOCAN 2012數據顯示,不論是發達國家還是欠發達國家,肺癌發病率呈直線上升趨勢,已位居男性惡性腫瘤首位和女性第三位;且不論男女,肺癌死亡率均在首位 [1]。我國國家癌癥中心腫瘤登記中心最新數據顯示我國肺癌發病率和死亡率為35.23/10萬和27.93/10萬,均居于惡性腫瘤之首 [2]。早期肺癌并無明顯臨床癥狀,大部分患者在有臨床癥狀時才去就診,確診后,基本為中晚期肺癌,而其中僅有不到25%的患者適合手術治療,5年生存率很低,治療產生的經濟負擔和社會負擔也非常嚴重 [3]。
最近研究結果指出,在篩選出具備高風險肺癌因素的人群中,采用低劑量螺旋CT進行篩查能降低人群死于肺癌的概率(約降低20%) [4]。隨著循證醫學的快速發展,循證腫瘤學的研究逐步深入。已有多個系統評價(systematic review,SR)的結果闡述肺癌篩查的有效性和安全性。本研究通過開展肺癌篩查系統評價再評價 [5],評估其納入SR的偏倚風險及其結論的可靠程度,探索肺癌篩查有效性和安全性特點和規律,為臨床更好地進行肺癌篩查提供參考依據。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究設計
基于隨機對照試驗(randomized controlled trial,RCT)和/或觀察性研究(包括隊列研究和病例對照研究)的SR。
1.1.2 研究對象
接受肺癌篩查方案的受試者,性別、種族和病例來源不限。年齡依據肺癌篩查高危險人群年齡55~80歲之間,吸煙量為30包/年且戒煙狀態在15年之內者 [6, 7]。
1.1.3 干預措施
干預組采用高頻率(6個月1次、4個月1次等)的胸部X線片(CXR)、低劑量螺旋CT(LDCT)及18F PET CT篩查聯合其他檢查;對照組采用低頻率(1年1次、3年1次等)的CXR/LDCT篩查,或是LDCT聯合CXR,聯合18F PET CT等。
1.1.4 結局指標
① 死亡率;② 檢出率;③ 生存率;④ 過度診斷;⑤ 潛在利益與危害。
1.1.5 排除標準
① 會議摘要;② 重復發表的文獻;③ 數據無法提取的文獻;④ 非中、英文文獻。
1.2 檢索策略
計算機檢索PubMed、EMbase、The Cochrane Library(2016年2期)、Web of Knowledge、CBM、WanFang Data和CNKI數據庫,搜集有關于肺癌篩查的SR,檢索時限均為從建庫至2016年2月29日。檢索策略采用主題詞和自由詞相結合的方式。中文檢索詞包括:肺癌(包括非小細胞肺癌和小細胞肺癌)、肺部腫瘤、篩查、早期檢測、早期診斷、系統評價、系統綜述、Meta分析、薈萃分析、元分析;英文檢索詞包括:lung cancer、lung neoplasm、screening、early detection、Cochrane database of systematic reviews、meta-analysis等。以PubMed為例,其具體檢索策略見框1。
框 1 PubMed檢索策略
Lung neoplasm[Mesh] lung cancer screening OR early detection #1 OR #2 #3 AND #4 systematic review OR meta-analysis #5 AND #6
1.3 文獻篩選和資料提取
由2位評價員獨立進行文獻篩選和資料提取,如遇分歧,則咨詢第三方協助判斷,缺乏的資料盡量與作者聯系予以補充。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。采用自制的資料提取表提取資料,資料提取內容主要包括:① 基本信息,包括題目、作者、發表年份、檢索策略、納入標準、質量評價方法、結局指標和結論等。② 納入SR的偏倚風險和證據質量情況。
1.4 納入SR的偏倚風險評價
由2位評價員采用ROBIS(Risk of Bias in Systematic Review)工具評價納入SR的偏倚風險,包括三個階段 [8]。階段一:評估相關性(視情況選擇),SR類型確定(包括干預性、病因性、診斷準確性試驗和預后性);階段二:確定SR制定過程中的偏倚風險程度(包括研究的納入排除標準、研究檢索和(或)篩選所使用方法、數據提取和質量評價所使用方法和數據合成和結果呈現這四個領域的21個標志性問題);階段三:判斷SR的偏倚風險的3個標志性問題。證據質量評價采用GRADE證據分級工具,包括5個降級因素和3個升級因素 [9]。RCT一開始為高質量,可因5個因素而降級:① 納入研究在隨機、分配隱藏和盲法方面存在較大偏倚;② 漏斗圖不對稱;③ 不同研究可信區間的重疊程度較差,且合并結果的I2值較大;④ 納入研究樣本量太小,可信區間較寬;⑤ 納入研究數量少,存在較大發表偏倚的可能。觀察性研究一開始為低質量,可因3個因素而升級:① 效應量大;② 劑量效應關系;③ 所有可能的混雜因素會降低效應量。將納入的證據質量分為A(高質量)、B(中等質量)、C(低質量)和D(極低質量)四個等級。此外,為保證評價結果的可靠性,從納入SR中隨機抽取2個進行獨立評估,共同衡量兩名評價人員間對評價結果的一致性。
2 結果
2.1 文獻篩選流程及結果
初檢出758篇文獻,經逐層篩選后,最終納入11個SR [10-20]。文獻篩選流程及結果見圖 1。

2.2 納入SR的基本特征
納入的11個SR中,10篇為期刊發表論文(英文9篇,中文1篇) [10-14, 16-20],1篇為碩士學位論文(中文) [15]。發表年份在2003~2014年之間,其中有5篇 [16-20](55%)為2012之后發表。
納入的SR中,北美地區有4個 [11, 13, 16, 19](45%),中國大陸2個 [14, 15](18%);10個SR [10-19]報告了篩查的隨訪時間。11個SR均進行了質量評價,其中3個SR [10, 18, 19]采用的是Cochrane 5.1.0推薦的偏倚風險評估工具,3個SR分別采用了QUORUM量表[11]、PRISMA量表[13]和STROBE量表[20],1個SR [15]采用影像學評分系統(非方法學評估標準),1個SR [16]采用GRADE方法進行了證據分級,其余則采用了其他評價工具。所納入SR的基本特征見表 1。

2.3 納入SR的偏倚風險評價
2.3.1 階段一:評估相關性
8個SR [11, 13, 15-20]細化了納入受試者人群的年齡、吸煙量及戒煙狀態;10個SR [11-20]中要解決的干預措施問題與目標干預措施匹配;7個SR [11-13, 15-16, 18-19]要解決的對照措施問題與目標對照措施匹配;2個SR [18, 19]要解決的結局指標全面包括了目標結局指標,其余為部分匹配(表 2)。

2.3.2 階段二:偏倚風險程度
領域1:3個SR [10, 16, 18]遵循了預先確定的目的和納入標準,4個 [11-12, 19-20]可能是遵循了預先確定的目的和納入標準,4個 [13-15, 17]無信息;8個SR [11, 13, 15-20]的納入標準適合SR的問題,3個 [10, 12, 14]可能適合;8個SR [10, 11, 14-19]納入標準明確且詳細,3個 [12-13, 20]較詳細;8個SR [10-12, 16, 20]納入標準中所有基于研究特征的限制合適,3個 [13-15]可能合適;6個SR [12, 14-15, 18-20]納入標準中所有與研究來源相關的限制合適,5個 [10-11, 13, 16-17]可能合適。因此,該領域中,納入標準可能是提前確定,和(或)符合SR的問題,絕大多數標志性問題的回答為“是”或“可能是”,6個SR [10, 11, 16, 18-20]的偏倚風險程度為“低”,2個 [13, 14]為“高”,3個 [12, 15, 17]為“不確定”(表 2)。
領域2:11個SR [10-20]檢索已發表和未發表的研究時所包含的數據庫或電子資源的范圍合適;8個SR [10-12, 15-19]使用了除數據庫檢索以外的其他方法來確定相關研究,3個 [13-14, 20]未報告信息;5個SR [11, 16-19]納入檢索策略的檢索詞和結構能盡可能多地檢索到符合的研究,4個 [10, 14, 15, 20]有可能,2個 [12, 13]無信息;8個SR [10-12, 16, 20]基于時間、發表形式、語言的限制合適,3個 [13-15]可能合適;8個SR [10-13, 15-19]研究的篩選中盡可能地減小了誤差,2個 [15, 20]可能合適,1個 [14]無信息;因此,該領域中,8個SR [10-12]其偏倚風險程度為“低”,3個SR [14, 15, 20]為“高”(表 2)。
領域3:5個SR [11, 16-19]數據提取盡可能地減小了誤差,2個 [14, 20]無信息;6個SR [11, 12, 16-19]的作者和讀者能獲取足夠的研究特征來解讀結果,5個 [10, 13-15, 20]可能是;11個SR [10-20]提取了所有相關的研究結果來進行數據合成;5個SR [10-11, 18-20]使用了合適的工具來評價原始研究的偏倚風險(或方法學質量),3個 [12, 16-17]可能合適,1個 [15]可能否,2個 [13, 14]無信息;2個SR [18, 19]偏倚風險評價中盡可能地減小了誤差,9個 [10-17, 20]無信息;因此,該領域中,3個SR [12, 18, 19]偏倚風險程度為“低”,6個SR [10, 13-16, 20]為“高”,2個 [11, 17]“不確定”(表 2)。
領域4:11個SR [10-20]數據合成包括了所有應該包括的研究;11個SR [10-20]遵循了所有預先確定的分析方法;6個SR [10-12, 16, 18, 19]鑒于納入研究的問題、研究設計和結局指標的性質和相似性,數據合成方法恰當,5個 [13-15, 17, 20]可能恰當;5個SR [10-12, 18, 19]數據合成中研究之間的差異(異質性)是最小的或者經過處理,6個 [13-17, 20]可能是;3個SR [14, 17, 18]做了敏感性分析,結果穩定,8個 [10-13, 15, 16, 19-20]無信息;1個SR [18]原始研究的偏倚最小,3個 [16, 17, 19]可能是,4個 [10-12, 14]無信息,3個 [13, 15, 20]否;因此,該領域中,5個SR [10-12, 18, 19]偏倚風險程度為“低”,4個SR[13-15, 20]為“高”,2個 [16, 17]“不確定”(表 2)。
2.3.3 階段三:偏倚風險判定
3個SR [16, 18, 19]遵循了結果解釋中處理了階段二中4個領域的偏倚風險;6個 [10-12, 16, 18, 19]合理地考慮到了納入研究與SR研究問題的相關性,6個 [10-12, 16, 18, 19]評價者避免強調有統計學意義的結果。綜合階段二的制作過程中的偏倚風險,最終得5個SR [10, 11, 16, 18, 19]為“低”偏倚風險,5個 [13-15, 17, 20]為“高”,1個 [12]“不確定”(表 2)。
2.4 主要觀察指標及證據質量分級
2.4.1 死亡率
4個SR關注了該結局,其中2個SR [10, 18]顯示胸部X線片聯合痰細胞學篩查與單獨使用X線片檢測無顯著差異[RR=0.88,95%CI(0.74,1.03),P=0.67;RR=0.83,95%CI(0.75,0.92),P=0.18],同時顯示頻繁的X線篩查與低頻率X線篩查在死亡率方面亦無顯著差異[RR=1.11,95%CI(1.00,1.23),P=0.05;RR=1.11,95%CI(1.00,1.23),P=0.95];2個SR [16, 19]顯示,與胸部X線片篩查相比,LDCT可顯著降低肺癌死亡率(P=0.002)。GRADE證據質量評價結果顯示,3個SR [16, 18, 19]的證據質量為A級,1個SR [10]的證據質量由于不精確性和存在發表偏倚而為C級(低質量證據)。
2.4.2 檢出率
7個SR [11-16, 20]均報告了肺癌篩查的靈敏度和特異度,CT靈敏度和特異度分別為0.77和0.87,另一個SR [14]顯示LDCT的靈敏度和特異度分別為0.74和0.79,1個SR [17]顯示靈敏度和特異度分別為83%和91%。其余SR只給出了P值,提供的數據有限,無法獲取具體效應量的詳細信息。GRADE證據質量評價結果顯示,1個納入隊列研究的SR [16]證據由于效應量大而升級,最終證據質量為A級;1個SR證據 [11]由于結果的不一致性和存在發表偏倚而為B級;其余5個SR [12-15, 20]由于不精確性、不一致性與存在發表偏倚,同時觀察性研究效應量不足,故最終為C級。
2.4.3 生存率
1個SR [18]結果顯示篩查組的生存率優于未接受篩查的人群[OR=0.91,95%CI(0.84,0.99),P=0.02],而且在每年X線檢測的基礎上接受痰細胞學檢測的生存率優于未接受痰細胞學檢測的人群[RR=0.83,95%CI(0.75,0.92),P<0.001]。GRADE證據質量評價結果顯示,研究所納入的RCT未降級,隊列研究由于效應量大而升級,故證據質量為A級。
2.4.4 過度篩查
3個SR [10, 13, 16]分析了過度篩查的危害,結果均給予的是粗率值平均25%。GRADE證據質量評價結果顯示,3個SR的證據質量由于不精確性和發表偏倚而降為C級。
2.4.5 篩查潛在利益
2個SR [16, 18]報告了篩查的潛在利益,均依據其納入的RCT獲得,未給出具體的效應量分析結果,證據質量為B級。
3 討論
自循證腫瘤學發展以來,在腫瘤藥物干預措施上取得了較為顯著的成果,但是循證方法在篩查領域的使用尚屬空白。國際癌癥組織推薦要大范圍的進行肺癌篩查,我國亦有較大規模的肺癌篩查項目,如何在吸取國外成功經驗,經濟有效地實施篩查項目是一個挑戰。在肺癌篩查領域引入循證醫學的方法和理念,提供篩查有效性和安全性的可靠、科學的依據,并積極開展篩查的循證評價將有利于提高國家及各省市肺癌篩查水平、促進我國篩查項目的國際化進程。世界衛生組織(World Health Organization,WHO)明確提出衛生健康實踐指南/推薦意見等必須基于循證的方法論構建,這是衛生防控領域的共識和趨勢。美國醫學科學院(Institute of Medicine,IOM)對指南新的定義中明確SR的重要作用之一是為臨床指南/推薦意見提供高質量的證據支持 [21]。但依據本研究結果,盡管肺癌篩查領域的SR數量有所增長,但能被用作推薦意見的高質量證據僅為少數。建議SR制作者在確定研究題目時,就應當考慮到所制作的SR將會作為實踐指南的參考依據,嚴格按照方法學評估工具與證據質量評價工具細致研究,以產生高質量證據,從而提高被引用的效率,另一方面也是避免對研究資源的浪費 [22]。
系統評價再評價是全面搜集針對同一疾病或同一健康問題的病因、診斷、治療或預后等方面的相關SR進行再評價的一種綜合研究方法,能夠鑒別SR存在的偏倚風險及其結論證據質量的高低,為決策者提供更為集中的高質量證據 [23]。目前多個單位和研究人員已經在使用該方法對現有的SR進行研究。自2010年以來,SR/Meta分析以平均每天11篇的速度發展 [24],亦有眾多評估其方法學質量的工具出現 [25]。ROBIS工具是2014年英國布里斯托爾大學(University of Bristol)社會醫學部制定發布的一種全新的評價工具,也是目前值得推薦的一個SR偏倚風險評價工具,在近兩屆Cochrane Colloquium均對其進行了專題討論和相關培訓。《中國循證醫學雜志》緊密跟進國際領先方法學,仔細研究后詳細介紹了有關于ROBIS的特征和使用方法,本研究依據其說明 [26]和舉例解讀 [27],在肺癌篩查領域的系統評價再評價中探索使用了ROBIS工具進行評估。本研究嚴格按照ROBIS工具要求進行,在目標問題與SR中擬解決的問題的吻合度、研究的納入標準、研究的檢索和篩選、數據提取和質量評價以及數據合成和結果呈現上對每個納入的SR均做出了細致的、一致性較高的評價,結果顯示ROBIS評估后所納入的SR高低偏倚風險程度各占一半,而肺癌篩查領域的SR多是由于原始研究的檢索和篩選、數據提取和質量評價、數據合成和結果呈現部分存在有較大的風險。基于此,我們建議今后肺癌篩查領域,乃至癌癥篩查領域的SR制作者在制定SR前應該制定計劃書并在專門的官方地址進行注冊 [28]或發表以避免研究相關性的偏倚。此外,篩查領域的SR制作者應該接受系統的檢索培訓以避免研究檢索和篩選過程中產生的偏倚;并且在文獻篩選和納入、數據提取和方法學質量評價等步驟時需嚴格遵循獨立性和一致性的實施原則;同時建議制作人員在制定SR前,對ROBIS工具進行學習和研討,以降低SR的偏倚風險程度,提高SR所得證據的可信度。
本研究納入SR的終點結局最主要是死亡率,4個SR納入了3個設計嚴謹的大樣本RCT,其他均基于隊列研究。雖然隊列研究結果在一定程度上證據質量能夠支持綜合證據的質量,但如果原始研究就為高質量RCT,那么所得結果在一定程度上就具備推廣意義 [29]。單從SR結論看,肺癌篩查具有確定的有效性,但安全性尚不得知。因為在健康人群或是高危險人群中進行篩查,需要的隨訪時間較長,實施隨機分配隱藏難度較大,隨訪率等問題堪憂,如在大規模依從性較好的高風險人群隊列中進行篩查,檢出率較高,能有效降低死亡率,但安全性需要更長的時間去驗證,現有SR中有探討安全性的問題,但由于原始研究的數據較少而未能給出確切結論。運用GRADE工具針對單個結局指標對SR結論的可靠性進行評價發現,納入的SR所包含的結局指標中,死亡率和檢出率尚有高質量證據支持,而安全性指標如潛在利益與危害和過度篩查無高質量證據。降級最多的因素是研究的不一致性和發表偏倚,說明SR納入的RCT和隊列研究等在時間以及人群綜合數據分析方面存在較大偏倚。基于此,我們建議篩查領域SR制作時,就應采用GRADE工具進行證據質量評價,以提高系統評價結論的可靠性,為相關篩查推薦意見的構建提供了可靠的證據支持。
本研究的局限性:① 納入SR未提供詳細的資料來幫助評價者確定“SR是否有計劃書”;② 在確定“數據合成和結果呈現”時,難以判斷是否存在發表偏倚和選擇性報告。
總之,當前針對肺癌篩查的SR存在的偏倚風險總體可以接受,但SR所評價結局指標的證據質量總體較低。因此,建議臨床醫生在使用這些證據進行臨床決策時尚需結合當地實際情況謹慎使用。