引用本文: 李夢琪, 賀豐泰, 吳雅楠, 張盡暉, 王琪. 基于機器學習方法建立慢性阻塞性肺疾病合并肺癌風險的預測模型. 中國呼吸與危重監護雜志, 2022, 21(11): 782-789. doi: 10.7507/1671-6205.202111050 復制
肺癌是世界上最常見的癌癥,5年生存率約為10%~20%。慢性阻塞性肺疾病(簡稱慢阻肺)是一種以不可逆的氣流受限為特點的肺部疾病,主要通過肺功能確診,研究表明慢阻肺是肺癌的驅動因素及獨立的危險因素,即使排除吸煙因素的干擾,與非慢阻肺人群相比,慢阻肺患者發生肺癌的風險增加了2~4倍。2011年美國國家肺癌篩查試驗(National Lung Screening Trial,NLST)隨機對照研究結果顯示,使用低劑量螺旋CT篩查具有高危因素的人群,肺癌相關病死率相較于使用胸部X光篩查的對照組降低20%[1]。隨著肺癌高風險人群定期復查胸部CT比例不斷上升,慢阻肺的定量成像生物標志物即胸部定量CT參數很可能為肺癌的早期篩查提供了更全面、更重要的信息[2]。基于目前機器學習在胸部CT定量分析領域的出色表現,結合臨床數據對慢阻肺患者進行肺癌早期篩查可提高可治愈期肺癌的診斷率,減少過度診斷,并降低肺癌患者的病死率。
近幾十年人工智能發展迅速,尤其卷積神經網絡(convolutional neural networks,CNN)技術在影像診斷中取得了較好結果。1980年Fukushima[3]受視神經模型啟發提出了第一個CNN的模型,2012年Krizhevsky等[4]將CNN成功應用于大規模多標簽的分類實驗,比之前的傳統方法有巨大的提升,引發了CNN在機器視覺領域的革命。發展至今,CNN已經廣泛應用于醫學輔助診斷,它可以從胸部CT影像中獲取患者肺部的影像學特征。Song 等[5]使用CNN識別肺結節的鈣化并對肺結節良惡性進行分類,其準確性、敏感性和特異性分別達到84.15%、83.96%和84.32%,對于輔助影像科醫生診斷及臨床的治療決策發揮了重要作用。使用CNN進行胸部CT定量分析,將胸部CT中的肺葉、氣道樹或氣腫區域分割出來,然后對分割出來的區域進行定量分析,基于此進行可視化和定量測量評估肺氣腫嚴重程度、氣道病變程度及鑒別慢阻肺的表型[6]。
不論是從臨床隊列研究或是發病機制方面,慢阻肺患者發生肺癌的風險升高都已有相關證據提出,因此我們對我院2010年1月—2021年5月收治的154例慢阻肺合并肺癌患者及慢阻肺患者臨床特征進行分析,應用CNN進行胸部CT定量分析,旨在建立基于機器學習的慢阻肺患者合并肺癌風險的預測模型,探索慢阻肺患者罹患肺癌的高風險因素,為早期發現慢阻肺患者肺癌發病風險提供智能預警奠定基礎。現報道如下。
1 資料與方法
1.1 臨床資料
自2010年1月—2021年5月于大連醫科大學附屬第二醫院呼吸科、胸外科及腫瘤科就診的慢阻肺及慢阻肺合并肺癌患者,病例組為55例慢阻肺合并肺癌患者,對照組為99例單純慢阻肺患者,慢阻肺合并肺癌患者是在慢阻肺基礎上發生原發性肺癌。納入標準:① 年齡50~85歲。② 完善肺功能檢查及高分辨率電子計算機斷層掃描(high resolution computed tomography,HRCT)檢查(層厚=1 mm),兩者最多相差15 d[7]。③ 確診為慢阻肺患者或者為慢阻肺合并肺癌的患者;慢阻肺患者診斷與2022年GOLD指南[8]診斷標準相符合,肺癌診斷標準參考中華醫學會肺癌臨床診療指南(2019版)[9],確診需病理,需有下述任意一項病理學依據:肺癌手術中取出的病理標本;CT引導下肺穿刺活檢;支氣管鏡下肺活檢;胸腔鏡取得病理活檢組織。取得病理活檢組織后,甲醛固定,石蠟包埋,切成大小合適的切片,使用顯微鏡觀察,當懷疑是惡性腫瘤細胞時,同時加做免疫組織化學輔助診斷。④ 肺癌患者收集數據為抗腫瘤治療及肺癌術前的數據。
排除標準:① 合并支氣管擴張、肺結核、間質性肺疾病、哮喘等可能會對肺功能造成干擾的疾病;② 合并有其他部位原發腫瘤的患者;③ 合并嚴重的肝腎疾病、心臟疾病等,可能會對檢驗數據造成干擾的患者。
倫理審批:本研究已通過醫院倫理委員會審核(大醫二院倫快審2018第048號),遵循知情同意原則,患者或其授權家屬同意并簽署知情同意書。
1.2 方法
1.2.1 胸部HRCT掃描技術
采用SIEMENS128層螺旋CT掃描儀進行胸部HRCT檢查。結果由1位住院醫師初寫報告,一位副高以上醫師審核。
1.2.2 肺功能檢查
采用德國Master Screen肺功能儀,對所有患者行肺功能檢測,檢查過程嚴格遵循肺功能檢查指南[10]。慢阻肺定義為吸入支氣管舒張劑后,第1秒用力呼氣容積(forced expiratory volume in the first second,FEV1)與用力肺活量(forced vital capacity,FVC)的比值(FEV1/FVC)<70%,FEV1占預計值百分比(FEV1%pred)≥80%為GOLD1級(輕度),50%≤FEV1%pred<79%為GOLD2級(中度),30%≤FEV1%pred<49%為GOLD3級(重度),FEV1%pred<30%為GOLD4級(極重度)。
1.2.3 實驗室檢查指標
(1)血常規檢測:需抽取首次清晨空腹肘靜脈血,使用SYSMEXXE-2100血細胞分析儀檢測。(2)肝生化檢測:患者在抽血前,禁食水12 h以上,并且抽血前無煙、酒、油膩物食用史,抽取肘靜脈2 mL全血進行肝生化的測定,抽取靜脈血后,需在10~30 min內送檢。使用我院德靈Dimension Xpand Plus型全自動生化分析儀,在嚴格質量控制下進行。(3)腫瘤標志物檢測:血清標本采集均為入院24 h內,清晨空腹采血,通過cobas e411羅氏全自動電化學發光免疫分析儀,應用電化學發光法測定。(4)血凝常規檢測:使用REvolution全自動血凝儀檢測。
1.2.4 體重指數、吸煙指數的計算
(1)體重指數(body mass index,BMI)計算方法:身高的測量方法為脫鞋后,采用垂直站立測量,使用cm表示,精確到1 cm。體重的測量方法為脫鞋后,穿薄衣,使用kg表示,精確到0.5 kg。BMI=體重/身高2。(2)吸煙指數的計算方法:每天吸煙支數×吸煙年數。吸煙指數在0~200支年為輕度,在200~400支年為中度,>400支年為重度。
1.2.5 CNN的計算方法
該方法與東北大學醫學與生物信息工程學院合作完成,是一種基于深度學習U-Net模型的生物醫學圖像分割方法,通過將胸部CT的原始數據歸一化,窗寬窗位等的預處理后,傳入nnU-Net模型[11]實現肺葉的分割。該模型對任何分割的任務自動實現預處理、網絡結構、訓練和后處理參數配置,自動將肺部五個肺葉及氣道樹分割出來,具體流程如圖1所示,基于以上分割的結果,測量出以下定量參數:全肺以及左肺,左肺上、下葉、右肺,右肺上、中、下葉的肺體積,以及氣道樹體積。當CT值低于–950 HU是為氣腫區域,基于此,計算全肺、左肺、左肺上、下葉、右肺、右肺上、中、下葉等的肺氣腫指數,最后計算出全肺的肺組織分布頻率圖中第15個百分位點所對應的CT值。以上基于Python 3.9、SimpleITK 2.1.1,NumPy 1.22.1和PyTorch 1.11實現。

1.3 統計學方法
采用SPSS 23.0統計軟件。符合正態分布的計量資料采用均數±標準差(±s)表示,組間比較采用t檢驗;不符合正態分布的變量以中位數(四分位數間距)[M(Q1,Q3)]表示,組間比較Mann-Whitney U檢驗;計數資料以例和百分比表示,率的比較采用χ2檢驗。P<0.05為差異有統計學意義。使用單因素logistic回歸分析及二元logistic回歸分析,建立出肺癌風險預測模型,使用2種機器學習方法(Logistic回歸和Gaussian過程)計算有顯著性差異指標與腫瘤標志物神經元特異性烯醇化酶(neuron-specific enolase,NSE)和細胞角蛋白19的可溶性片段(soluble fragment of cytokeratin 19,CYFRA21-1)聯合診斷肺癌的受試者操作特征(receiver operating characteristic,ROC)曲線下面積(area under ROC curve,AUC)的值。
2 結果
2.1 兩組患者基本臨床信息比較
慢阻肺合并肺癌組共有患者55例,其中腺癌25例(45.4%),鱗癌20例(36.4%),小細胞肺癌8例(14.5%),其他類型肺癌2例(3.6%);慢阻肺組患者共99例。慢阻肺合并肺癌組與慢阻肺組比較,性別、年齡、吸煙指數分層、BMI、CT是否存在視覺肺氣腫差異均無統計學意義(P>0.05),見表1。


2.2 兩組患者實驗室檢查結果比較
慢阻肺合并肺癌組凝血酶原時間(prothrombin time,PT)、凝血酶原時間比值(prothrombin time ratio,PT-R)、凝血酶原時間百分比活動度(prothrombin time percentage activity,PT%)、國際標準化比值(International ratio of prothrombin time,INR)、堿性磷酸酶(alkaline phosphatase,ALP)、NSE、CYFRA21-1均高于慢阻肺組,差異有統計學意義(P<0.05)。兩組間其余指標比較,差異無統計學意義(P>0.05)。結果見表2。


2.3 兩組患者肺功能及慢阻肺嚴重程度分級對比
慢阻肺合并肺癌組FVC、FEV1、用力呼氣50%肺活量的瞬間流量(forced expiratory flow from 50% of FVC,FEF50%)、補呼氣量(expiratory reserve volume,ERV)較慢阻肺組高,差異有統計學意義(P<0.05)。兩組間其余指標比較,差異無統計學意義(P>0.05)。結果見表3。


2.4 兩組患者胸部定量CT參數對比
肺癌合并慢阻肺患者全肺氣腫指數、右下肺氣腫指數、全肺平均密度、右上肺平均密度、右中肺葉平均密度、右肺下葉平均密度、左上肺葉平均密度較慢阻肺組患者差異有統計學意義(P<0.05)。肺癌合并慢阻肺患者右上肺氣腫指數、右中肺氣腫指數、左上肺氣腫指數、左下肺氣腫指數、氣道樹體積、全肺體積、右上肺葉體積、右中肺葉體積、左下肺葉體積、左上肺葉體積、左下肺葉平均密度、肺組織CT值分布頻率圖中第15個百分位點所對應的CT值差異無統計學意義(P>0.05),見表4。

2.5 慢阻肺合并肺癌患者logistic回歸分析
將單純慢阻肺組及慢阻肺合并肺癌組兩組之間具有統計學差異的16個指標PT、PT%、PT-R、INR、ALP、FVC、FEV1、FEF50%、ERV、全肺氣腫指數、右下肺氣腫指數、全肺平均密度、右上肺平均密度、右中肺葉平均密度、右肺下葉平均密度、左上肺葉平均密度及既往其他文獻中可能為慢阻肺患者合并肺癌的危險因素:BMI、年齡、性別、吸煙指數、胸部CT是否合并氣腫進行單因素logistic回歸分析,見表5,P<0.05的指標具有統計學意義:FVC、FEV1、FEF50%、BMI、ALP、PT%、全肺氣腫指數、右下肺氣腫指數、全肺平均密度、右下肺葉平均密度、左上肺葉平均密度升高為慢阻肺患者罹患肺癌的危險因素或保護性因素。使用SPSS 23.0軟件進行線性回歸共線性診斷,方差膨脹因子>3認為存在嚴重共線性,排除混雜因素后,最終納入二元logistic回歸中的指標為PT%、全肺氣腫指數、全肺平均肺密度、FVC、BMI。有吸煙史、年齡、CT有無氣腫診斷在單因素logistic回歸中無明顯統計學意義,但既往已有文獻表明,其為慢阻肺合并肺癌的危險因素,再次將其納入二元logistic回歸分析中,進行分析,分析結果顯示BMI下降是慢阻肺患者合并肺癌的危險性因素,PT%增加、全肺氣腫指數增大、全肺平均肺密度增大、FVC增大是慢阻肺患者合并肺癌的危險性因素,見表6。


2.6 慢阻肺合并肺癌機器學習預測模型ROC曲線分析
以是否發生肺癌作為結局變量,BMI、PT%、全肺氣腫指數、全肺平均密度、FVC作為檢測變量,繪制ROC曲線,上述變量用于預測肺癌發生AUC的值在0.6~0.7(表6)。以是否發生肺癌作為結局變量,BMI、PT%、全肺氣腫指數、全肺平均密度、FVC聯合NSE、CYFRA21-1作為檢測變量,以Logistic回歸和Gaussian過程等兩種機器學習模型作為分類器,繪制ROC曲線,AUC的值均為0.88(圖2)。


3 討論
本研究經過精確的統計學計算與驗證得出如下結論:慢阻肺合并肺癌患者常見于男性(81.8%),而且最常見的病理類型為腺癌(45.4%),與de-Torres等[12]和Bishawi 等[13]的結果一致。
國際上關于慢阻肺患者繼發肺癌危險因素的研究較多,de-Torres等[12]的研究發現慢阻肺患者罹患肺癌的高危因素為低BMI、高吸煙指數、年齡大以及CT提示視覺肺氣腫。本研究提示低BMI的慢阻肺患者合并肺癌的風險升高,OR=0.872(95%CI 0.771~0.987),P<0.05,與慢阻肺患者處于高消耗狀態,營養狀況差,機體免疫能力下降有關,因此BMI較低的慢阻肺患者,在飲食結構改變及肺功能鍛煉指導下,如果BMI仍有所下降,可考慮適當增加患者胸部薄掃CT篩查的頻率,以利于篩查出早期肺癌的慢阻肺患者,對于短期內慢阻肺患者體重顯著降低,應立即行肺癌篩查。Carr等[14]的研究中提出,肺氣腫的CT視覺嚴重程度也與慢阻肺患者繼發肺癌的風險相關,輕度胸部CT視覺肺氣腫的患者較無胸部CT視覺肺氣腫的患者罹患肺癌的概率升高,本研究中胸部CT提示是否存在視覺肺氣腫與慢阻肺合并肺癌無明顯相關,考慮與氣腫體積過小無法用肉眼觀測有關。修正后的PLCO肺癌-癌癥風險預測模型(PLCOM2012),可以更準確地預測肺癌,但是需要更詳細的吸煙指數和風險因素信息[15-16],本研究表明吸煙指數高的慢阻肺患者繼發肺癌的風險未見明顯提升,與患者在陳述病史時存在誤差,導致很難獲得正確的吸煙指數相關。但吸煙會加重肺部的炎癥反應,促進腫瘤基因啟動,從而增加慢阻肺患者繼發肺癌的概率。Carr等[14]的研究中提出,可以使慢阻肺患者繼發肺癌風險升高的特征包括FEV1/FVC降低,FEV1/FVC每下降10%,慢阻肺患者罹患肺癌的風險升高,OR=1.28(95%CI 1.12~1.46)。本研究中提示慢阻肺合并肺癌組患者FVC、FEV1、FEF50%、ERV均較慢阻肺組升高,二元logistic回歸顯示FVC升高為慢阻肺患者罹患肺癌的危險因素,與本研究納入的患者為住院患者,考慮與需入院治療的慢阻肺患者大多處于急性加重期,肺功能較差相關,而慢阻肺合并肺癌患者,多由于其他臨床癥狀加重入院,例如咯血、刺激性咳嗽、胸腔積液,對慢阻肺患者入院時肺功能指標良好但癥狀顯著者應提高警惕,完善肺癌篩查。
實驗室檢查指標中,本研究表明慢阻肺合并肺癌組PT、PT%、PT-R、INR均高于慢阻肺組,且PT%增加是慢阻肺患者患肺癌的高危因素,OR=1.039(95%CI 1.007~1.073),P<0.05。與慢阻肺合并肺癌的高凝狀態是由腫瘤細胞釋放的介質,例如組織因子、腫瘤促凝素、凝血酶、細胞因子和血細胞,引起患者的凝血、抗凝系統及纖溶系統失衡所致的高凝狀態相關[17]。提示在肺癌的早期篩查過程中,應重點關注存在血凝指標異常的慢阻肺患者。
胸部定量CT方面,本文的研究中表明慢阻肺患者中全肺氣腫指數越大,患肺癌的概率增加OR=379.576(95%CI 5.229~27552.424),P<0.05,與de-Torres等[12]的研究相符,同時Labaki等[18]的研究中也證實慢阻肺患者的低衰減區(肺部CT值<–950 HU)所占百分比每增加1%,與肺癌的發病率獨立相關危險比為1.02(95%CI 1.01~1.03),P=0.004。氣腫指數為CT值小于–950 HU的低衰減區占肺體積的比例,它相較于視覺肺氣腫及肺功能更能客觀的反映慢阻肺患者肺泡的破壞程度,因為肺組織有強大的代償能力,一般情況下肺組織破壞30%以上時才會出現肺功能異常[19],而視覺肺氣腫在評價肺組織破壞程度上具有一定的主觀性。慢阻肺與肺癌兩種疾病之間的驅動因素,主要是因為肺實質中的持續炎癥,為了填充被破壞的肺實質,支氣管肺泡干細胞增殖失控,最終導致腫瘤發生。胸部定量CT氣腫嚴重的慢阻肺患者繼發肺癌的概率顯著增加,所以臨床工作中應密切關注氣腫指數高的慢阻肺患者。同時本研究表明全肺平均密度高的慢阻肺患者得肺癌的概率升高,OR=1.020(95%CI 1.008~1.031),P<0.05,患者的全肺平均密度增高,往往提示肺部炎癥、結節、纖維化等改變,因此慢阻肺患者在胸部CT提示合并上述改變時,應警惕肺癌的發生風險。
本研究使用單純慢阻肺及慢阻肺合并肺癌患者的BMI、PT%、全肺氣腫指數、全肺平均密度及FVC指標,聯合腫瘤標志物NSE、CYFRA21-1,采用Logistic回歸和Gaussian過程兩種方法分析,得出肺癌風險預測模型AUC值均為0.88。在Guida等[19]的綜合風險預測模型中,結合吸煙暴露與4種生物標志物:糖類抗原125、CYFRA21-1、癌胚抗原和人表面活性物質關聯蛋白B的對肺癌進行篩查,得出的AUC為0.83(95%CI 0.76~0.90),本研究的預測效能較之提高,并且本研究納入的臨床信息為住院患者入院需完成的常規問診或檢查,胸部CT值的獲取同樣方便快捷易于傳輸,減輕了患者的經濟負擔。
NLST一直以來嘗試使用低劑量CT篩查降低肺癌病死率[1],目前在我國許多地區肺癌篩查已成為常規體檢項目。隨著我們對慢阻肺表型和肺癌風險的深入了解,肺癌篩查指南也應該不斷發展。研究表明肺癌的篩查研究中應加入視覺肺氣腫、氣流阻塞及急性呼吸加重病史[14]。而我們的研究表明有條件的情況下,慢阻肺患者的BMI、PT%、全肺的氣腫指數及全肺氣腫密度也應該被考慮在內。本研究的創新點在于,中國乃至全球范圍內,對臨床特征聯合胸部定量CT預測肺癌發生風險的相關研究較少,而本研究限制性在于臨床病例數較少,并且納入的患者均為住院患者,結果存在一定偏差,其次由于技術限制,只有層厚等于1 mm的胸部CT可以使用,喪失了大批有效數據。下一步可進一步開展前瞻性多中心大規模的相關研究,改進機器學習技術,將機器學習用于肺癌的早篩,建立影像學腫瘤標志物,與傳統的肺癌標志物聯合篩查肺癌,提高慢阻肺患者肺癌篩查的敏感性及特異性。
利益沖突:本研究不涉及任何利益沖突。
肺癌是世界上最常見的癌癥,5年生存率約為10%~20%。慢性阻塞性肺疾病(簡稱慢阻肺)是一種以不可逆的氣流受限為特點的肺部疾病,主要通過肺功能確診,研究表明慢阻肺是肺癌的驅動因素及獨立的危險因素,即使排除吸煙因素的干擾,與非慢阻肺人群相比,慢阻肺患者發生肺癌的風險增加了2~4倍。2011年美國國家肺癌篩查試驗(National Lung Screening Trial,NLST)隨機對照研究結果顯示,使用低劑量螺旋CT篩查具有高危因素的人群,肺癌相關病死率相較于使用胸部X光篩查的對照組降低20%[1]。隨著肺癌高風險人群定期復查胸部CT比例不斷上升,慢阻肺的定量成像生物標志物即胸部定量CT參數很可能為肺癌的早期篩查提供了更全面、更重要的信息[2]。基于目前機器學習在胸部CT定量分析領域的出色表現,結合臨床數據對慢阻肺患者進行肺癌早期篩查可提高可治愈期肺癌的診斷率,減少過度診斷,并降低肺癌患者的病死率。
近幾十年人工智能發展迅速,尤其卷積神經網絡(convolutional neural networks,CNN)技術在影像診斷中取得了較好結果。1980年Fukushima[3]受視神經模型啟發提出了第一個CNN的模型,2012年Krizhevsky等[4]將CNN成功應用于大規模多標簽的分類實驗,比之前的傳統方法有巨大的提升,引發了CNN在機器視覺領域的革命。發展至今,CNN已經廣泛應用于醫學輔助診斷,它可以從胸部CT影像中獲取患者肺部的影像學特征。Song 等[5]使用CNN識別肺結節的鈣化并對肺結節良惡性進行分類,其準確性、敏感性和特異性分別達到84.15%、83.96%和84.32%,對于輔助影像科醫生診斷及臨床的治療決策發揮了重要作用。使用CNN進行胸部CT定量分析,將胸部CT中的肺葉、氣道樹或氣腫區域分割出來,然后對分割出來的區域進行定量分析,基于此進行可視化和定量測量評估肺氣腫嚴重程度、氣道病變程度及鑒別慢阻肺的表型[6]。
不論是從臨床隊列研究或是發病機制方面,慢阻肺患者發生肺癌的風險升高都已有相關證據提出,因此我們對我院2010年1月—2021年5月收治的154例慢阻肺合并肺癌患者及慢阻肺患者臨床特征進行分析,應用CNN進行胸部CT定量分析,旨在建立基于機器學習的慢阻肺患者合并肺癌風險的預測模型,探索慢阻肺患者罹患肺癌的高風險因素,為早期發現慢阻肺患者肺癌發病風險提供智能預警奠定基礎。現報道如下。
1 資料與方法
1.1 臨床資料
自2010年1月—2021年5月于大連醫科大學附屬第二醫院呼吸科、胸外科及腫瘤科就診的慢阻肺及慢阻肺合并肺癌患者,病例組為55例慢阻肺合并肺癌患者,對照組為99例單純慢阻肺患者,慢阻肺合并肺癌患者是在慢阻肺基礎上發生原發性肺癌。納入標準:① 年齡50~85歲。② 完善肺功能檢查及高分辨率電子計算機斷層掃描(high resolution computed tomography,HRCT)檢查(層厚=1 mm),兩者最多相差15 d[7]。③ 確診為慢阻肺患者或者為慢阻肺合并肺癌的患者;慢阻肺患者診斷與2022年GOLD指南[8]診斷標準相符合,肺癌診斷標準參考中華醫學會肺癌臨床診療指南(2019版)[9],確診需病理,需有下述任意一項病理學依據:肺癌手術中取出的病理標本;CT引導下肺穿刺活檢;支氣管鏡下肺活檢;胸腔鏡取得病理活檢組織。取得病理活檢組織后,甲醛固定,石蠟包埋,切成大小合適的切片,使用顯微鏡觀察,當懷疑是惡性腫瘤細胞時,同時加做免疫組織化學輔助診斷。④ 肺癌患者收集數據為抗腫瘤治療及肺癌術前的數據。
排除標準:① 合并支氣管擴張、肺結核、間質性肺疾病、哮喘等可能會對肺功能造成干擾的疾病;② 合并有其他部位原發腫瘤的患者;③ 合并嚴重的肝腎疾病、心臟疾病等,可能會對檢驗數據造成干擾的患者。
倫理審批:本研究已通過醫院倫理委員會審核(大醫二院倫快審2018第048號),遵循知情同意原則,患者或其授權家屬同意并簽署知情同意書。
1.2 方法
1.2.1 胸部HRCT掃描技術
采用SIEMENS128層螺旋CT掃描儀進行胸部HRCT檢查。結果由1位住院醫師初寫報告,一位副高以上醫師審核。
1.2.2 肺功能檢查
采用德國Master Screen肺功能儀,對所有患者行肺功能檢測,檢查過程嚴格遵循肺功能檢查指南[10]。慢阻肺定義為吸入支氣管舒張劑后,第1秒用力呼氣容積(forced expiratory volume in the first second,FEV1)與用力肺活量(forced vital capacity,FVC)的比值(FEV1/FVC)<70%,FEV1占預計值百分比(FEV1%pred)≥80%為GOLD1級(輕度),50%≤FEV1%pred<79%為GOLD2級(中度),30%≤FEV1%pred<49%為GOLD3級(重度),FEV1%pred<30%為GOLD4級(極重度)。
1.2.3 實驗室檢查指標
(1)血常規檢測:需抽取首次清晨空腹肘靜脈血,使用SYSMEXXE-2100血細胞分析儀檢測。(2)肝生化檢測:患者在抽血前,禁食水12 h以上,并且抽血前無煙、酒、油膩物食用史,抽取肘靜脈2 mL全血進行肝生化的測定,抽取靜脈血后,需在10~30 min內送檢。使用我院德靈Dimension Xpand Plus型全自動生化分析儀,在嚴格質量控制下進行。(3)腫瘤標志物檢測:血清標本采集均為入院24 h內,清晨空腹采血,通過cobas e411羅氏全自動電化學發光免疫分析儀,應用電化學發光法測定。(4)血凝常規檢測:使用REvolution全自動血凝儀檢測。
1.2.4 體重指數、吸煙指數的計算
(1)體重指數(body mass index,BMI)計算方法:身高的測量方法為脫鞋后,采用垂直站立測量,使用cm表示,精確到1 cm。體重的測量方法為脫鞋后,穿薄衣,使用kg表示,精確到0.5 kg。BMI=體重/身高2。(2)吸煙指數的計算方法:每天吸煙支數×吸煙年數。吸煙指數在0~200支年為輕度,在200~400支年為中度,>400支年為重度。
1.2.5 CNN的計算方法
該方法與東北大學醫學與生物信息工程學院合作完成,是一種基于深度學習U-Net模型的生物醫學圖像分割方法,通過將胸部CT的原始數據歸一化,窗寬窗位等的預處理后,傳入nnU-Net模型[11]實現肺葉的分割。該模型對任何分割的任務自動實現預處理、網絡結構、訓練和后處理參數配置,自動將肺部五個肺葉及氣道樹分割出來,具體流程如圖1所示,基于以上分割的結果,測量出以下定量參數:全肺以及左肺,左肺上、下葉、右肺,右肺上、中、下葉的肺體積,以及氣道樹體積。當CT值低于–950 HU是為氣腫區域,基于此,計算全肺、左肺、左肺上、下葉、右肺、右肺上、中、下葉等的肺氣腫指數,最后計算出全肺的肺組織分布頻率圖中第15個百分位點所對應的CT值。以上基于Python 3.9、SimpleITK 2.1.1,NumPy 1.22.1和PyTorch 1.11實現。

1.3 統計學方法
采用SPSS 23.0統計軟件。符合正態分布的計量資料采用均數±標準差(±s)表示,組間比較采用t檢驗;不符合正態分布的變量以中位數(四分位數間距)[M(Q1,Q3)]表示,組間比較Mann-Whitney U檢驗;計數資料以例和百分比表示,率的比較采用χ2檢驗。P<0.05為差異有統計學意義。使用單因素logistic回歸分析及二元logistic回歸分析,建立出肺癌風險預測模型,使用2種機器學習方法(Logistic回歸和Gaussian過程)計算有顯著性差異指標與腫瘤標志物神經元特異性烯醇化酶(neuron-specific enolase,NSE)和細胞角蛋白19的可溶性片段(soluble fragment of cytokeratin 19,CYFRA21-1)聯合診斷肺癌的受試者操作特征(receiver operating characteristic,ROC)曲線下面積(area under ROC curve,AUC)的值。
2 結果
2.1 兩組患者基本臨床信息比較
慢阻肺合并肺癌組共有患者55例,其中腺癌25例(45.4%),鱗癌20例(36.4%),小細胞肺癌8例(14.5%),其他類型肺癌2例(3.6%);慢阻肺組患者共99例。慢阻肺合并肺癌組與慢阻肺組比較,性別、年齡、吸煙指數分層、BMI、CT是否存在視覺肺氣腫差異均無統計學意義(P>0.05),見表1。


2.2 兩組患者實驗室檢查結果比較
慢阻肺合并肺癌組凝血酶原時間(prothrombin time,PT)、凝血酶原時間比值(prothrombin time ratio,PT-R)、凝血酶原時間百分比活動度(prothrombin time percentage activity,PT%)、國際標準化比值(International ratio of prothrombin time,INR)、堿性磷酸酶(alkaline phosphatase,ALP)、NSE、CYFRA21-1均高于慢阻肺組,差異有統計學意義(P<0.05)。兩組間其余指標比較,差異無統計學意義(P>0.05)。結果見表2。


2.3 兩組患者肺功能及慢阻肺嚴重程度分級對比
慢阻肺合并肺癌組FVC、FEV1、用力呼氣50%肺活量的瞬間流量(forced expiratory flow from 50% of FVC,FEF50%)、補呼氣量(expiratory reserve volume,ERV)較慢阻肺組高,差異有統計學意義(P<0.05)。兩組間其余指標比較,差異無統計學意義(P>0.05)。結果見表3。


2.4 兩組患者胸部定量CT參數對比
肺癌合并慢阻肺患者全肺氣腫指數、右下肺氣腫指數、全肺平均密度、右上肺平均密度、右中肺葉平均密度、右肺下葉平均密度、左上肺葉平均密度較慢阻肺組患者差異有統計學意義(P<0.05)。肺癌合并慢阻肺患者右上肺氣腫指數、右中肺氣腫指數、左上肺氣腫指數、左下肺氣腫指數、氣道樹體積、全肺體積、右上肺葉體積、右中肺葉體積、左下肺葉體積、左上肺葉體積、左下肺葉平均密度、肺組織CT值分布頻率圖中第15個百分位點所對應的CT值差異無統計學意義(P>0.05),見表4。

2.5 慢阻肺合并肺癌患者logistic回歸分析
將單純慢阻肺組及慢阻肺合并肺癌組兩組之間具有統計學差異的16個指標PT、PT%、PT-R、INR、ALP、FVC、FEV1、FEF50%、ERV、全肺氣腫指數、右下肺氣腫指數、全肺平均密度、右上肺平均密度、右中肺葉平均密度、右肺下葉平均密度、左上肺葉平均密度及既往其他文獻中可能為慢阻肺患者合并肺癌的危險因素:BMI、年齡、性別、吸煙指數、胸部CT是否合并氣腫進行單因素logistic回歸分析,見表5,P<0.05的指標具有統計學意義:FVC、FEV1、FEF50%、BMI、ALP、PT%、全肺氣腫指數、右下肺氣腫指數、全肺平均密度、右下肺葉平均密度、左上肺葉平均密度升高為慢阻肺患者罹患肺癌的危險因素或保護性因素。使用SPSS 23.0軟件進行線性回歸共線性診斷,方差膨脹因子>3認為存在嚴重共線性,排除混雜因素后,最終納入二元logistic回歸中的指標為PT%、全肺氣腫指數、全肺平均肺密度、FVC、BMI。有吸煙史、年齡、CT有無氣腫診斷在單因素logistic回歸中無明顯統計學意義,但既往已有文獻表明,其為慢阻肺合并肺癌的危險因素,再次將其納入二元logistic回歸分析中,進行分析,分析結果顯示BMI下降是慢阻肺患者合并肺癌的危險性因素,PT%增加、全肺氣腫指數增大、全肺平均肺密度增大、FVC增大是慢阻肺患者合并肺癌的危險性因素,見表6。


2.6 慢阻肺合并肺癌機器學習預測模型ROC曲線分析
以是否發生肺癌作為結局變量,BMI、PT%、全肺氣腫指數、全肺平均密度、FVC作為檢測變量,繪制ROC曲線,上述變量用于預測肺癌發生AUC的值在0.6~0.7(表6)。以是否發生肺癌作為結局變量,BMI、PT%、全肺氣腫指數、全肺平均密度、FVC聯合NSE、CYFRA21-1作為檢測變量,以Logistic回歸和Gaussian過程等兩種機器學習模型作為分類器,繪制ROC曲線,AUC的值均為0.88(圖2)。


3 討論
本研究經過精確的統計學計算與驗證得出如下結論:慢阻肺合并肺癌患者常見于男性(81.8%),而且最常見的病理類型為腺癌(45.4%),與de-Torres等[12]和Bishawi 等[13]的結果一致。
國際上關于慢阻肺患者繼發肺癌危險因素的研究較多,de-Torres等[12]的研究發現慢阻肺患者罹患肺癌的高危因素為低BMI、高吸煙指數、年齡大以及CT提示視覺肺氣腫。本研究提示低BMI的慢阻肺患者合并肺癌的風險升高,OR=0.872(95%CI 0.771~0.987),P<0.05,與慢阻肺患者處于高消耗狀態,營養狀況差,機體免疫能力下降有關,因此BMI較低的慢阻肺患者,在飲食結構改變及肺功能鍛煉指導下,如果BMI仍有所下降,可考慮適當增加患者胸部薄掃CT篩查的頻率,以利于篩查出早期肺癌的慢阻肺患者,對于短期內慢阻肺患者體重顯著降低,應立即行肺癌篩查。Carr等[14]的研究中提出,肺氣腫的CT視覺嚴重程度也與慢阻肺患者繼發肺癌的風險相關,輕度胸部CT視覺肺氣腫的患者較無胸部CT視覺肺氣腫的患者罹患肺癌的概率升高,本研究中胸部CT提示是否存在視覺肺氣腫與慢阻肺合并肺癌無明顯相關,考慮與氣腫體積過小無法用肉眼觀測有關。修正后的PLCO肺癌-癌癥風險預測模型(PLCOM2012),可以更準確地預測肺癌,但是需要更詳細的吸煙指數和風險因素信息[15-16],本研究表明吸煙指數高的慢阻肺患者繼發肺癌的風險未見明顯提升,與患者在陳述病史時存在誤差,導致很難獲得正確的吸煙指數相關。但吸煙會加重肺部的炎癥反應,促進腫瘤基因啟動,從而增加慢阻肺患者繼發肺癌的概率。Carr等[14]的研究中提出,可以使慢阻肺患者繼發肺癌風險升高的特征包括FEV1/FVC降低,FEV1/FVC每下降10%,慢阻肺患者罹患肺癌的風險升高,OR=1.28(95%CI 1.12~1.46)。本研究中提示慢阻肺合并肺癌組患者FVC、FEV1、FEF50%、ERV均較慢阻肺組升高,二元logistic回歸顯示FVC升高為慢阻肺患者罹患肺癌的危險因素,與本研究納入的患者為住院患者,考慮與需入院治療的慢阻肺患者大多處于急性加重期,肺功能較差相關,而慢阻肺合并肺癌患者,多由于其他臨床癥狀加重入院,例如咯血、刺激性咳嗽、胸腔積液,對慢阻肺患者入院時肺功能指標良好但癥狀顯著者應提高警惕,完善肺癌篩查。
實驗室檢查指標中,本研究表明慢阻肺合并肺癌組PT、PT%、PT-R、INR均高于慢阻肺組,且PT%增加是慢阻肺患者患肺癌的高危因素,OR=1.039(95%CI 1.007~1.073),P<0.05。與慢阻肺合并肺癌的高凝狀態是由腫瘤細胞釋放的介質,例如組織因子、腫瘤促凝素、凝血酶、細胞因子和血細胞,引起患者的凝血、抗凝系統及纖溶系統失衡所致的高凝狀態相關[17]。提示在肺癌的早期篩查過程中,應重點關注存在血凝指標異常的慢阻肺患者。
胸部定量CT方面,本文的研究中表明慢阻肺患者中全肺氣腫指數越大,患肺癌的概率增加OR=379.576(95%CI 5.229~27552.424),P<0.05,與de-Torres等[12]的研究相符,同時Labaki等[18]的研究中也證實慢阻肺患者的低衰減區(肺部CT值<–950 HU)所占百分比每增加1%,與肺癌的發病率獨立相關危險比為1.02(95%CI 1.01~1.03),P=0.004。氣腫指數為CT值小于–950 HU的低衰減區占肺體積的比例,它相較于視覺肺氣腫及肺功能更能客觀的反映慢阻肺患者肺泡的破壞程度,因為肺組織有強大的代償能力,一般情況下肺組織破壞30%以上時才會出現肺功能異常[19],而視覺肺氣腫在評價肺組織破壞程度上具有一定的主觀性。慢阻肺與肺癌兩種疾病之間的驅動因素,主要是因為肺實質中的持續炎癥,為了填充被破壞的肺實質,支氣管肺泡干細胞增殖失控,最終導致腫瘤發生。胸部定量CT氣腫嚴重的慢阻肺患者繼發肺癌的概率顯著增加,所以臨床工作中應密切關注氣腫指數高的慢阻肺患者。同時本研究表明全肺平均密度高的慢阻肺患者得肺癌的概率升高,OR=1.020(95%CI 1.008~1.031),P<0.05,患者的全肺平均密度增高,往往提示肺部炎癥、結節、纖維化等改變,因此慢阻肺患者在胸部CT提示合并上述改變時,應警惕肺癌的發生風險。
本研究使用單純慢阻肺及慢阻肺合并肺癌患者的BMI、PT%、全肺氣腫指數、全肺平均密度及FVC指標,聯合腫瘤標志物NSE、CYFRA21-1,采用Logistic回歸和Gaussian過程兩種方法分析,得出肺癌風險預測模型AUC值均為0.88。在Guida等[19]的綜合風險預測模型中,結合吸煙暴露與4種生物標志物:糖類抗原125、CYFRA21-1、癌胚抗原和人表面活性物質關聯蛋白B的對肺癌進行篩查,得出的AUC為0.83(95%CI 0.76~0.90),本研究的預測效能較之提高,并且本研究納入的臨床信息為住院患者入院需完成的常規問診或檢查,胸部CT值的獲取同樣方便快捷易于傳輸,減輕了患者的經濟負擔。
NLST一直以來嘗試使用低劑量CT篩查降低肺癌病死率[1],目前在我國許多地區肺癌篩查已成為常規體檢項目。隨著我們對慢阻肺表型和肺癌風險的深入了解,肺癌篩查指南也應該不斷發展。研究表明肺癌的篩查研究中應加入視覺肺氣腫、氣流阻塞及急性呼吸加重病史[14]。而我們的研究表明有條件的情況下,慢阻肺患者的BMI、PT%、全肺的氣腫指數及全肺氣腫密度也應該被考慮在內。本研究的創新點在于,中國乃至全球范圍內,對臨床特征聯合胸部定量CT預測肺癌發生風險的相關研究較少,而本研究限制性在于臨床病例數較少,并且納入的患者均為住院患者,結果存在一定偏差,其次由于技術限制,只有層厚等于1 mm的胸部CT可以使用,喪失了大批有效數據。下一步可進一步開展前瞻性多中心大規模的相關研究,改進機器學習技術,將機器學習用于肺癌的早篩,建立影像學腫瘤標志物,與傳統的肺癌標志物聯合篩查肺癌,提高慢阻肺患者肺癌篩查的敏感性及特異性。
利益沖突:本研究不涉及任何利益沖突。