借助計算機輔助診斷系統將肺腫瘤進行分類對于惡性肺腫瘤的早期診斷與治療非常重要。目前對肺腫瘤分類的主要研究方向是基于深度學習的模型融合技術借助影像組學知識對肺腫瘤的多模態融合數據進行分類。本文對肺腫瘤分類近幾年常用的研究算法進行了綜述和匯總,介紹了機器學習、影像組學、深度學習、多模態融合等概念和技術,最后指出肺腫瘤分類領域現階段存在的問題與困難,并展望肺腫瘤分類的發展前景與未來的研究方向。
引用本文: 崔冬梅, 魏國輝, 張喜科, 馬志慶. 肺部腫瘤影像輔助診斷分類算法研究進展. 中國胸心血管外科臨床雜志, 2022, 29(7): 892-898. doi: 10.7507/1007-4848.202201049 復制
近年來,隨著環境污染不斷加重,全球肺癌發病率不斷上升,肺癌已成為嚴重威脅人類健康的惡性腫瘤之一。肺癌死亡率在所有惡性腫瘤中最高,根據研究統計,早期肺癌手術后5年生存率可達70%以上,中晚期肺腫瘤卻約20%。因此,臨床上對惡性肺腫瘤早發現、早治療可以提高肺癌患者的存活率。由于肺腫瘤影像數據集數量龐大,肺腫瘤位置不定、形態各異,醫生閱片難免受到個人主觀因素的影響,對部分肺腫瘤準確快速的檢測存在一定困難。因此,借助計算機輔助診斷(computer-aided diagnosis,CAD)系統對肺腫瘤進行診斷已經成為國內外研究的熱點之一[1]。
大量研究[2-3]表明,CAD系統能夠有效地幫助醫生對肺腫瘤進行分類,提升分類準確率,極大程度地減少漏診和誤診,有助于對患者提供精準醫療;提高診斷效率及醫生工作效率,節省醫患雙方的寶貴時間。尹柯等[4]通過試驗對比卷積神經網絡(convolutional neural network,CNN)分類模型與2位放射科醫生對肺腺癌進行分類的效能,曲線下面積(area under the curve,AUC)值分別為0.866、0.742及0.769,結果證明CNN分類模型比人工分類表現更佳。Bhat等[5]運用CNN分類器對肺結節進行分類的準確率達96.6%。
本文將對近幾年國內外學者對肺腫瘤分類所做的研究從機器學習、深度學習、融合技術等方面進行綜述。
1 基于機器學習的分類方法
機器學習即讓計算機模仿人類大腦的思維方式,是一門多學科交叉的學科。機器學習中主要有遷移學習、強化學習、半監督學習、監督學習、無監督學習等。監督學習是指通過標記的數據訓練出最佳模型,運用訓練好的模型可以對未知的數據進行預測以實現分類。無監督學習則沒有標記好的訓練樣本。監督學習運用在醫學圖像分類中的算法模型主要有多層感知器算法、決策樹算法、人工神經網絡算法、支持向量機算法、隨機森林算法、K近鄰算法等。
機器學習技術在肺腫瘤分類領域有著極好的分類效果,其中支持向量機算法正逐漸發展成為機器學習的主流技術[6]。Li等[7]基于支持向量機算法提出Relief-支持向量機算法分類模型,該模型對數據集較小的肺組織病理圖像的分類效果較好。其中,肺鱗狀細胞癌-肺腺鱗癌分類準確率為73.91%,肺鱗狀細胞癌-小細胞肺癌的分類準確率為83.91%,肺腺鱗癌-小細胞肺癌分類準確率為73.67%。Gopi 等[8]針對肺部CT圖像,用灰度共生矩陣提取感興趣區域,用EK均值聚類算法(EK-means)進行分割,然后用支持向量機算法進行分類,準確率達到92.46%。Easwaran等[9] 運用分水嶺變換對肺腫瘤進行分割,再用支持向量機算法對肺腫瘤進行分類,試驗的敏感性為89.76%,準確率達到93.4%,特異度達到98.99%。Patel等[10]基于K均值聚類算法(K-means)和EK-means的聚類分割方法分割腫瘤,用灰度共生矩陣提取特征,再分別用人工神經網絡算法和支持向量機算法對腫瘤進行分類,人工神經網絡算法的準確率為78.50%,支持向量機算法的準確率達到87.50%。
機器學習中的K-means屬于無監督學習聚類算法,算法關鍵是初始K值的選擇。Potghan 等[11]使用K-means聚類算法分割圖像,用灰度共生矩陣提取腫瘤特征,最后用K近鄰算法和多層感知器算法對腫瘤進行分類,準確率分別為98.30%和98.31%。何校棟等[12]使用Adaboost.M2算法訓練肺腫瘤分類的分類器,算法融合多種特征,主要運用判別式分類器和決策樹分類器,設計的強分類器對肺部正電子發射計算機斷層顯像圖像的腫瘤進行分類的準確率達97%,粗分類結果全部正確。Sarker 等[13]基于K-means聚類算法和形態學圖像處理方法相結合對三維肺腫瘤進行分割,并借助世界衛生組織提出的腫瘤結節轉移(TNM)分類標準對分割出的肺腫瘤進行分期分類,準確率為95.68%,特異度達98%。
Agrawal等[14]在2個不同的數據集上用5種不同的傳統神經網絡分類器進行仿真,結果得出多層感知器算法性能最好。
Azzawi等[15]基于肺腫瘤的結構信息和微陣列數據提出一種分類策略,即基于基因表達編程的結構二元分類算法:基因表達編程-結構二元分類,平均準確率為94.13%,平均標準差為0.05,平均AUC值為0.93。
2 基于深度學習的分類方法
Hinton等[16]于2006年最先提出深度學習的概念,從此,深度學習技術在醫學圖像處理領域大放異彩,其在醫學圖像處理中的應用進展見圖1[17]。對肺腫瘤基于深度學習模型進行研究當前已成為全球的研究熱點之一。Wang等[18]對于肺腫瘤的淋巴結轉移運用基于深度學習的模型進行分類,準確率達到93%。Mukherjee等[19]使用深度學習機制開發出一種結合人工智能和深度神經系統來識別肺惡性腫瘤的框架,獲得很高的精度。

GPU:圖形處理器;ReLU:修正線性單元;Dropout:暫退;VGG:計算機視覺組;ResNet:殘差網絡;DenseNet:稠密連接網絡;Inception:多尺度處理模塊;SENet:壓縮和激勵網絡;ResNeXt:一種預訓練模型,ResNet的改進;Xception:Inception模型的一種改進模型;FCN:全卷積神經網絡;U-Net:全卷積神經網絡的一種變形,網絡結構呈現U型;Faster RCNN:Fast R-CNN模型的改進;YOLO:一種目標檢測算法;BP:一種反向傳播回饋的神經網絡;CNN:卷積神經網絡;MLP:多層感知器
基于深度學習技術對肺腫瘤進行分類有著廣闊的應用前景和極大的應用價值,對于提高治療效果和患者的生存率具有十分重要的意義。深度學習技術使得計算機能夠自動地從給定的數據集中學習到抽象的較深層次的特征,并能夠通過學習不斷地提高模型自身的性能。因此,深度學習的分類準確率等方面能夠持續得到提高。Abdul[20]提出一種基于CNN的肺癌自動分類與檢測系統,準確率達到97.2%,敏感性達到95.6%,特異度達到96.1%。Ardila等[21]提出一種三維的深度學習算法對低劑量的CT影像進行肺癌篩查,AUC值達到94.4%。Nicolas 等[22]提出基于CNN中的Inception V3架構的三分類模型,對肺腺癌和肺腺鱗癌進行分類,AUC值達到97%。Kasinathan等[23]使用增強的CNN模型來對三維肺腫瘤進行分類,腫瘤部分提取準確率為97%。
深度學習中的CNN模型在肺腫瘤分類中得到廣泛的運用與改進。Agarwal等[24]針對肺腫瘤的良惡性分類設計出AlexNet CNN模型。深度學習中的深度卷積神經網絡(deep convolutional neural network,DCNN)亦起源于AlexNet網絡,端到端的DCNN模型與CNN模型相比改進之處是層次更多,因此性能也得到改進。Ss 等[25]、Mohanapriya等[26]均采用DCNN模型對肺腫瘤進行分類,研究[25]中DCNN模型的準確率為97.8%,特異度為97.2%,敏感性為97.1%。李斌等[27]測試了AlexNet、VGG、ResNet和SqueezeNet幾種CNN肺腫瘤分類模型,研究得出,從零開始訓練模型其AUC值能達到0.9119,效果優于對整個模型進行微調的方法。Gong等[28]設計出一種深度殘差學習網絡,對肺腺癌識別的AUC達到0.92,證明基于殘差學習的CNN模型可以提高浸潤性腺癌與非浸潤性腺癌的分類性能。Xu等[29]提出的一種基于弱監督機制的CNN算法對肺腫瘤進行分類的AUC為0.9978。
3 基于影像組學的分類方法
影像組學的概念最早是由荷蘭學者Lambin在2012年基于腫瘤空間和時間的異質性所提出的,從不同模態的影像中提取出來的高通量的全部深層次影像特征即為影像組學[30]。影像組學在腫瘤的研究中是一種準確表征腫瘤微環境的無創技術[31],以非侵入性的方式提取腫瘤內的異質性特征[32],并借助特征數據對腫瘤進行輔助診斷,定性分析,為精準醫療提供決策支持,作為患者疾病預測及預后評估的工具。
由于影像組學能挖掘出傳統影像特征以外的特征數據,因此將影像組學與機器學習模型相結合對肺腫瘤進行分類的研究應用非常廣泛[33]。
Wang等[32]運用影像組學結合隨機森林算法對肺腫瘤良惡性分類的準確率為82.7%,敏感性為79.5%,特異度為86.7%。陳震東[34]基于影像組學構建的肺腫瘤良惡性分類機器學習模型的訓練集AUC值達到0.870,測試集AUC值達到0.853。周天綺等[35]結合影像組學和支持向量機算法對肺腫瘤進行良惡性分類研究,分類準確率達到83.7%,AUC值達到0.824。黃志成等[36]將影像組學和機器學習分類模型相結合對肺腫瘤的小細胞肺癌和非小細胞肺癌分類,證明K近鄰算法模型分類效果更優。其中訓練集的AUC值為0.88,準確率81.34%,特異度97.00%,敏感性51.63%,在驗證集中AUC達到0.82,準確率達到78.82%,特異度達到95.00%,敏感性達到48.10%。
影像組學雖然在肺腫瘤學術研究領域得到廣泛關注,但影像組學模型的臨床應用仍面臨著諸多挑戰,主要原因有缺乏標準化、規范化的數據庫,影像組學模型的可重現性、可解釋性及泛化性有待提高等[37]。影像組學研究的發展目前亦進入瓶頸階段,其原因包括所用技術過于復雜、設計的模型不是最佳模型、數據量過少導致過擬合現象、檢驗結果的標準不統一、結果報告不夠完整以及所使用的影像數據庫存在無法識別的數據等[38]。
機器學習算法模型所需要的數據種類很多,可以是臨床數據、影像組學數據、多模態數據等,涉及到多學科交叉的知識。未來應多學科合作,收集建立大量高質量標準化的肺腫瘤影像組學數據庫,使影像組學在肺腫瘤研究領域中有更深入的發展,并使其在臨床應用中發揮更好的作用。
4 基于融合的分類方法
由于疾病的復雜多變,成像技術的快速發展,各種技術存在的局限性,就會造成單一的技術、單一的數據模態,對肺腫瘤分類會有片面性。因此,為了提高分類效果,目前研究的另一趨勢是基于融合技術對肺腫瘤進行分類,使分類結果更全面更準確。當前的融合技術主要有:特征融合、模態融合、模型融合。
4.1 特征融合
特征融合可以獲取到更加全面的肺腫瘤的特征信息[39],在肺腫瘤分割分類中都有應用。王生生等[40]用局部二進制模式來描述圖像的紋理特征,小波矩提取形狀特征,并融合紋理特征和形狀特征對肺癌圖像進行精細分類,分類精度達到91.75%。Luo 等[41]基于三維CNN,融合肺腫瘤的大小信息和紋理信息進行分類,AUC達到0.9685,準確率達到95%。
4.2 模態融合
基于機器學習技術對肺腫瘤的多模態融合數據進行智能分析,可以對問題進行綜合全面的考慮。鄭德重[42]提出一種基于注意力機制的多模態融合分類模型對肺腺癌進行分類,準確率達88.4%,AUC達0.958。Li等[43]基于融合策略對腫瘤的多模態影像進行共分割的骰子相似度指數(dice similarity indexes,DSI)為0.85。文獻[44-45]基于機器學習模型融合肺腫瘤的多模態數據進行分類,文獻[46-48]基于CNN對肺部及腦部多模態圖像進行分類,均取得很好的效果。王媛媛等[49]采用集成CNN模型對三種不同模態的肺部腫瘤圖像進行識別,效果優于單一的CNN模型。
4.3 模型融合
模型融合指多種算法相結合,可以做到取長補短,優勢互補,目前模型融合已成為主流的研究趨勢[50]。石邈等[51]利用三維重建技術和深度學習相結合對肺腺癌分類,研究證明可以提高診斷水平,減輕醫生的工作負擔。孫翎馬[52]針對肺部CT影像進行智能分析,設計出一種結合注意力機制的CNN,即注意力內嵌式互補流CNN,網絡的性能得到很大提高。張紫程[53]提出決策融合結合影像組學的模型,對肺癌進行診斷的準確率為97.68%,敏感性為98.30%,特異度為97.32%。任海玲等[54]結合差分進化算法與鄰域粗糙集算法,設計出集成的鄰域粗糙集算法-差分進化算法-支持向量機算法診斷模型,對肺腫瘤影像組學進行分類,敏感性為99.4%,特異度為100%,識別精度為99.72%,證明了算法的可行性。Hussein等[55]分別用基于監督學習的三維CNN和無監督學習的支持向量機來表征腫瘤。Naik等[56]采用CNN與灰度共生矩陣相結合,對肺腫瘤進行良惡性分類,使用支持向量機算法來預測腫瘤的惡性程度,以避免過擬合,準確度達到93.1%。霍兵強等[57]采用非負表示分類和多模態殘差神經網絡融合對肺部腫瘤進行特征提取,再運用殘差相似度進行良惡性分類,分類效果優于對比研究中的其它模型。表1對一些肺腫瘤分類算法進行了匯總分析。

5 總結與展望
針對肺腫瘤分類工作,國內外研究人員做了大量的研究工作并取得了重大的研究成果。目前已經有肺部腫瘤的CAD系統應用于臨床,在輔助臨床醫生診斷治療方面起著重要作用[58]。肺腫瘤分類目前應用最廣泛的是基于深度學習對多模態數據影像進行分類。深度學習的本質是機器模仿人腦去解決問題。深度學習能夠通過不斷的自我學習,自適應地進行特征提取,提高分類的準確率,有很強的遷移學習能力。
深度學習對肺腫瘤分類依賴大量有標簽的肺部圖像數據集。一個模型的好壞,依賴于這個模型的層次以及圖像數據集的大小,并且訓練模型耗費的時間較長。深度學習對肺腫瘤分類的另一個缺點是可解釋性差。
目前肺腫瘤的公開數據集還無法滿足深度學習模型的完全訓練[59],應收集更多的樣本數據,建立更大的標準統一的公共肺腫瘤數據集,以滿足深度學習在肺腫瘤分類領域的研究。針對肺腫瘤的分類,今后的研究方向與目標是提高效率,降低假陽性率;提高分類系統的自動化,減少人工干預;提高分類模型的準確率與穩定性。
利益沖突:無。
作者貢獻:崔冬梅負責收集和分析文獻資料以及論文初稿的撰寫;張喜科負責文獻資料的分析整理以及論文的修改;魏國輝負責論文總體設計及修訂;馬志慶負責論文的總體構思并指導論文的寫作。
近年來,隨著環境污染不斷加重,全球肺癌發病率不斷上升,肺癌已成為嚴重威脅人類健康的惡性腫瘤之一。肺癌死亡率在所有惡性腫瘤中最高,根據研究統計,早期肺癌手術后5年生存率可達70%以上,中晚期肺腫瘤卻約20%。因此,臨床上對惡性肺腫瘤早發現、早治療可以提高肺癌患者的存活率。由于肺腫瘤影像數據集數量龐大,肺腫瘤位置不定、形態各異,醫生閱片難免受到個人主觀因素的影響,對部分肺腫瘤準確快速的檢測存在一定困難。因此,借助計算機輔助診斷(computer-aided diagnosis,CAD)系統對肺腫瘤進行診斷已經成為國內外研究的熱點之一[1]。
大量研究[2-3]表明,CAD系統能夠有效地幫助醫生對肺腫瘤進行分類,提升分類準確率,極大程度地減少漏診和誤診,有助于對患者提供精準醫療;提高診斷效率及醫生工作效率,節省醫患雙方的寶貴時間。尹柯等[4]通過試驗對比卷積神經網絡(convolutional neural network,CNN)分類模型與2位放射科醫生對肺腺癌進行分類的效能,曲線下面積(area under the curve,AUC)值分別為0.866、0.742及0.769,結果證明CNN分類模型比人工分類表現更佳。Bhat等[5]運用CNN分類器對肺結節進行分類的準確率達96.6%。
本文將對近幾年國內外學者對肺腫瘤分類所做的研究從機器學習、深度學習、融合技術等方面進行綜述。
1 基于機器學習的分類方法
機器學習即讓計算機模仿人類大腦的思維方式,是一門多學科交叉的學科。機器學習中主要有遷移學習、強化學習、半監督學習、監督學習、無監督學習等。監督學習是指通過標記的數據訓練出最佳模型,運用訓練好的模型可以對未知的數據進行預測以實現分類。無監督學習則沒有標記好的訓練樣本。監督學習運用在醫學圖像分類中的算法模型主要有多層感知器算法、決策樹算法、人工神經網絡算法、支持向量機算法、隨機森林算法、K近鄰算法等。
機器學習技術在肺腫瘤分類領域有著極好的分類效果,其中支持向量機算法正逐漸發展成為機器學習的主流技術[6]。Li等[7]基于支持向量機算法提出Relief-支持向量機算法分類模型,該模型對數據集較小的肺組織病理圖像的分類效果較好。其中,肺鱗狀細胞癌-肺腺鱗癌分類準確率為73.91%,肺鱗狀細胞癌-小細胞肺癌的分類準確率為83.91%,肺腺鱗癌-小細胞肺癌分類準確率為73.67%。Gopi 等[8]針對肺部CT圖像,用灰度共生矩陣提取感興趣區域,用EK均值聚類算法(EK-means)進行分割,然后用支持向量機算法進行分類,準確率達到92.46%。Easwaran等[9] 運用分水嶺變換對肺腫瘤進行分割,再用支持向量機算法對肺腫瘤進行分類,試驗的敏感性為89.76%,準確率達到93.4%,特異度達到98.99%。Patel等[10]基于K均值聚類算法(K-means)和EK-means的聚類分割方法分割腫瘤,用灰度共生矩陣提取特征,再分別用人工神經網絡算法和支持向量機算法對腫瘤進行分類,人工神經網絡算法的準確率為78.50%,支持向量機算法的準確率達到87.50%。
機器學習中的K-means屬于無監督學習聚類算法,算法關鍵是初始K值的選擇。Potghan 等[11]使用K-means聚類算法分割圖像,用灰度共生矩陣提取腫瘤特征,最后用K近鄰算法和多層感知器算法對腫瘤進行分類,準確率分別為98.30%和98.31%。何校棟等[12]使用Adaboost.M2算法訓練肺腫瘤分類的分類器,算法融合多種特征,主要運用判別式分類器和決策樹分類器,設計的強分類器對肺部正電子發射計算機斷層顯像圖像的腫瘤進行分類的準確率達97%,粗分類結果全部正確。Sarker 等[13]基于K-means聚類算法和形態學圖像處理方法相結合對三維肺腫瘤進行分割,并借助世界衛生組織提出的腫瘤結節轉移(TNM)分類標準對分割出的肺腫瘤進行分期分類,準確率為95.68%,特異度達98%。
Agrawal等[14]在2個不同的數據集上用5種不同的傳統神經網絡分類器進行仿真,結果得出多層感知器算法性能最好。
Azzawi等[15]基于肺腫瘤的結構信息和微陣列數據提出一種分類策略,即基于基因表達編程的結構二元分類算法:基因表達編程-結構二元分類,平均準確率為94.13%,平均標準差為0.05,平均AUC值為0.93。
2 基于深度學習的分類方法
Hinton等[16]于2006年最先提出深度學習的概念,從此,深度學習技術在醫學圖像處理領域大放異彩,其在醫學圖像處理中的應用進展見圖1[17]。對肺腫瘤基于深度學習模型進行研究當前已成為全球的研究熱點之一。Wang等[18]對于肺腫瘤的淋巴結轉移運用基于深度學習的模型進行分類,準確率達到93%。Mukherjee等[19]使用深度學習機制開發出一種結合人工智能和深度神經系統來識別肺惡性腫瘤的框架,獲得很高的精度。

GPU:圖形處理器;ReLU:修正線性單元;Dropout:暫退;VGG:計算機視覺組;ResNet:殘差網絡;DenseNet:稠密連接網絡;Inception:多尺度處理模塊;SENet:壓縮和激勵網絡;ResNeXt:一種預訓練模型,ResNet的改進;Xception:Inception模型的一種改進模型;FCN:全卷積神經網絡;U-Net:全卷積神經網絡的一種變形,網絡結構呈現U型;Faster RCNN:Fast R-CNN模型的改進;YOLO:一種目標檢測算法;BP:一種反向傳播回饋的神經網絡;CNN:卷積神經網絡;MLP:多層感知器
基于深度學習技術對肺腫瘤進行分類有著廣闊的應用前景和極大的應用價值,對于提高治療效果和患者的生存率具有十分重要的意義。深度學習技術使得計算機能夠自動地從給定的數據集中學習到抽象的較深層次的特征,并能夠通過學習不斷地提高模型自身的性能。因此,深度學習的分類準確率等方面能夠持續得到提高。Abdul[20]提出一種基于CNN的肺癌自動分類與檢測系統,準確率達到97.2%,敏感性達到95.6%,特異度達到96.1%。Ardila等[21]提出一種三維的深度學習算法對低劑量的CT影像進行肺癌篩查,AUC值達到94.4%。Nicolas 等[22]提出基于CNN中的Inception V3架構的三分類模型,對肺腺癌和肺腺鱗癌進行分類,AUC值達到97%。Kasinathan等[23]使用增強的CNN模型來對三維肺腫瘤進行分類,腫瘤部分提取準確率為97%。
深度學習中的CNN模型在肺腫瘤分類中得到廣泛的運用與改進。Agarwal等[24]針對肺腫瘤的良惡性分類設計出AlexNet CNN模型。深度學習中的深度卷積神經網絡(deep convolutional neural network,DCNN)亦起源于AlexNet網絡,端到端的DCNN模型與CNN模型相比改進之處是層次更多,因此性能也得到改進。Ss 等[25]、Mohanapriya等[26]均采用DCNN模型對肺腫瘤進行分類,研究[25]中DCNN模型的準確率為97.8%,特異度為97.2%,敏感性為97.1%。李斌等[27]測試了AlexNet、VGG、ResNet和SqueezeNet幾種CNN肺腫瘤分類模型,研究得出,從零開始訓練模型其AUC值能達到0.9119,效果優于對整個模型進行微調的方法。Gong等[28]設計出一種深度殘差學習網絡,對肺腺癌識別的AUC達到0.92,證明基于殘差學習的CNN模型可以提高浸潤性腺癌與非浸潤性腺癌的分類性能。Xu等[29]提出的一種基于弱監督機制的CNN算法對肺腫瘤進行分類的AUC為0.9978。
3 基于影像組學的分類方法
影像組學的概念最早是由荷蘭學者Lambin在2012年基于腫瘤空間和時間的異質性所提出的,從不同模態的影像中提取出來的高通量的全部深層次影像特征即為影像組學[30]。影像組學在腫瘤的研究中是一種準確表征腫瘤微環境的無創技術[31],以非侵入性的方式提取腫瘤內的異質性特征[32],并借助特征數據對腫瘤進行輔助診斷,定性分析,為精準醫療提供決策支持,作為患者疾病預測及預后評估的工具。
由于影像組學能挖掘出傳統影像特征以外的特征數據,因此將影像組學與機器學習模型相結合對肺腫瘤進行分類的研究應用非常廣泛[33]。
Wang等[32]運用影像組學結合隨機森林算法對肺腫瘤良惡性分類的準確率為82.7%,敏感性為79.5%,特異度為86.7%。陳震東[34]基于影像組學構建的肺腫瘤良惡性分類機器學習模型的訓練集AUC值達到0.870,測試集AUC值達到0.853。周天綺等[35]結合影像組學和支持向量機算法對肺腫瘤進行良惡性分類研究,分類準確率達到83.7%,AUC值達到0.824。黃志成等[36]將影像組學和機器學習分類模型相結合對肺腫瘤的小細胞肺癌和非小細胞肺癌分類,證明K近鄰算法模型分類效果更優。其中訓練集的AUC值為0.88,準確率81.34%,特異度97.00%,敏感性51.63%,在驗證集中AUC達到0.82,準確率達到78.82%,特異度達到95.00%,敏感性達到48.10%。
影像組學雖然在肺腫瘤學術研究領域得到廣泛關注,但影像組學模型的臨床應用仍面臨著諸多挑戰,主要原因有缺乏標準化、規范化的數據庫,影像組學模型的可重現性、可解釋性及泛化性有待提高等[37]。影像組學研究的發展目前亦進入瓶頸階段,其原因包括所用技術過于復雜、設計的模型不是最佳模型、數據量過少導致過擬合現象、檢驗結果的標準不統一、結果報告不夠完整以及所使用的影像數據庫存在無法識別的數據等[38]。
機器學習算法模型所需要的數據種類很多,可以是臨床數據、影像組學數據、多模態數據等,涉及到多學科交叉的知識。未來應多學科合作,收集建立大量高質量標準化的肺腫瘤影像組學數據庫,使影像組學在肺腫瘤研究領域中有更深入的發展,并使其在臨床應用中發揮更好的作用。
4 基于融合的分類方法
由于疾病的復雜多變,成像技術的快速發展,各種技術存在的局限性,就會造成單一的技術、單一的數據模態,對肺腫瘤分類會有片面性。因此,為了提高分類效果,目前研究的另一趨勢是基于融合技術對肺腫瘤進行分類,使分類結果更全面更準確。當前的融合技術主要有:特征融合、模態融合、模型融合。
4.1 特征融合
特征融合可以獲取到更加全面的肺腫瘤的特征信息[39],在肺腫瘤分割分類中都有應用。王生生等[40]用局部二進制模式來描述圖像的紋理特征,小波矩提取形狀特征,并融合紋理特征和形狀特征對肺癌圖像進行精細分類,分類精度達到91.75%。Luo 等[41]基于三維CNN,融合肺腫瘤的大小信息和紋理信息進行分類,AUC達到0.9685,準確率達到95%。
4.2 模態融合
基于機器學習技術對肺腫瘤的多模態融合數據進行智能分析,可以對問題進行綜合全面的考慮。鄭德重[42]提出一種基于注意力機制的多模態融合分類模型對肺腺癌進行分類,準確率達88.4%,AUC達0.958。Li等[43]基于融合策略對腫瘤的多模態影像進行共分割的骰子相似度指數(dice similarity indexes,DSI)為0.85。文獻[44-45]基于機器學習模型融合肺腫瘤的多模態數據進行分類,文獻[46-48]基于CNN對肺部及腦部多模態圖像進行分類,均取得很好的效果。王媛媛等[49]采用集成CNN模型對三種不同模態的肺部腫瘤圖像進行識別,效果優于單一的CNN模型。
4.3 模型融合
模型融合指多種算法相結合,可以做到取長補短,優勢互補,目前模型融合已成為主流的研究趨勢[50]。石邈等[51]利用三維重建技術和深度學習相結合對肺腺癌分類,研究證明可以提高診斷水平,減輕醫生的工作負擔。孫翎馬[52]針對肺部CT影像進行智能分析,設計出一種結合注意力機制的CNN,即注意力內嵌式互補流CNN,網絡的性能得到很大提高。張紫程[53]提出決策融合結合影像組學的模型,對肺癌進行診斷的準確率為97.68%,敏感性為98.30%,特異度為97.32%。任海玲等[54]結合差分進化算法與鄰域粗糙集算法,設計出集成的鄰域粗糙集算法-差分進化算法-支持向量機算法診斷模型,對肺腫瘤影像組學進行分類,敏感性為99.4%,特異度為100%,識別精度為99.72%,證明了算法的可行性。Hussein等[55]分別用基于監督學習的三維CNN和無監督學習的支持向量機來表征腫瘤。Naik等[56]采用CNN與灰度共生矩陣相結合,對肺腫瘤進行良惡性分類,使用支持向量機算法來預測腫瘤的惡性程度,以避免過擬合,準確度達到93.1%。霍兵強等[57]采用非負表示分類和多模態殘差神經網絡融合對肺部腫瘤進行特征提取,再運用殘差相似度進行良惡性分類,分類效果優于對比研究中的其它模型。表1對一些肺腫瘤分類算法進行了匯總分析。

5 總結與展望
針對肺腫瘤分類工作,國內外研究人員做了大量的研究工作并取得了重大的研究成果。目前已經有肺部腫瘤的CAD系統應用于臨床,在輔助臨床醫生診斷治療方面起著重要作用[58]。肺腫瘤分類目前應用最廣泛的是基于深度學習對多模態數據影像進行分類。深度學習的本質是機器模仿人腦去解決問題。深度學習能夠通過不斷的自我學習,自適應地進行特征提取,提高分類的準確率,有很強的遷移學習能力。
深度學習對肺腫瘤分類依賴大量有標簽的肺部圖像數據集。一個模型的好壞,依賴于這個模型的層次以及圖像數據集的大小,并且訓練模型耗費的時間較長。深度學習對肺腫瘤分類的另一個缺點是可解釋性差。
目前肺腫瘤的公開數據集還無法滿足深度學習模型的完全訓練[59],應收集更多的樣本數據,建立更大的標準統一的公共肺腫瘤數據集,以滿足深度學習在肺腫瘤分類領域的研究。針對肺腫瘤的分類,今后的研究方向與目標是提高效率,降低假陽性率;提高分類系統的自動化,減少人工干預;提高分類模型的準確率與穩定性。
利益沖突:無。
作者貢獻:崔冬梅負責收集和分析文獻資料以及論文初稿的撰寫;張喜科負責文獻資料的分析整理以及論文的修改;魏國輝負責論文總體設計及修訂;馬志慶負責論文的總體構思并指導論文的寫作。