肺癌的高發病率和死亡率嚴重威脅著人類健康和生命,是亟待解決的公共健康安全問題之一。目前肺癌的早期篩查主要通過計算機斷層掃描(computed tomography,CT)來完成,人工閱讀大量的 CT 圖片及數據工作量繁重、工作效率低,且極易漏診及誤診,已不能很好地滿足臨床需求。計算機輔助診斷作為一種智能的醫學圖像處理技術能夠提供有效的輔助診斷信息、減輕醫生工作負擔、提高醫生工作效率及診斷準確率。將計算機輔助診斷技術與 CT 影像相結合診斷早期癌癥,已成為醫學領域的研究熱點。本文將從計算機輔助診斷的機器學習和深度學習兩個方面概述智能分析診斷早期肺癌的最新研究進展。
引用本文: 巨娟, 林檬, 曾祥飛, 張久權. 基于 CT 影像智能分析診斷早期肺癌的最新研究進展. 中國胸心血管外科臨床雜志, 2021, 28(3): 354-357. doi: 10.7507/1007-4848.202010054 復制
肺癌的發病率及死亡率均居所有惡性腫瘤之首,且發病率呈逐年增高的趨勢[1-2]。中晚期肺癌患者的 5 年生存率僅為 18%,甚至對于晚期患者 5 年生存率低于 8%;而早期肺癌經治療后 5 年生存率可達 90% 以上[3]。然而,早期肺癌患者通常無任何癥狀,難以察覺,一旦出現臨床癥狀時大多已處于中晚期。因此,提高肺癌患者治愈率、改善預后有賴于早診斷早治療,將肺癌的診斷端口前移的有效辦法是早期篩查[4]。
胸部 CT 掃描密度分辨率高,能夠克服傳統 X 射線二維平面重疊、組織吸收相近、對比度小的缺點,被認為是目前肺癌早期篩查最為成熟有效的影像學檢查技術之一[5-6]。在 CT 影像上,早期肺癌主要表現為肺結節(磨玻璃結節、混合性結節及實性結節),如何采用無創的方式準確判斷肺結節的良惡性是目前的研究難點及熱點[7]。由于薄層 CT 的全面普及,極微小肺結節均可被篩查發現。同時,由于掃描層數的增多,影像科醫生閱片面臨著龐大的數據和圖像,不僅費時費力、工作效率低、而且極易引起誤診或漏診[8],因此,傳統的人工閱片已經不能滿足臨床需求。
計算機輔助診斷(computer-aided diagnosis,CAD)是指將影像學、醫學圖像處理等技術與計算機強大的計算分析能力結合的計算機輔助技術,輔助醫生發現病灶,提供有效的輔助診斷信息,減輕醫生工作負擔,提高醫生工作效率及診斷正確率[9]。近年來,隨著 CAD 技術的不斷發展,其與胸部 CT 影像相結合在早期肺癌的篩查、診斷中的應用越來越廣泛[10-11]。CAD 是如何有效輔助臨床醫生快速靈敏地診斷肺結節,并且能夠相對準確區分肺結節的良性和惡性。本文將從 CAD 的機器學習和深度學習兩個方面綜述計算機智能分析在診斷早期肺癌的最新研究進展。
1 基于機器學習的輔助診斷方法
CAD方法從機器學習到深度學習,不斷地在成熟完善。傳統的計算機診斷方法由程序員編寫代碼方程等解決一種或一類問題,機器學習可以從大量數據中分析得到經驗,再根據經驗構建算法或模型,高效地處理問題,并且可對未知的數據進行分析預測[12]。近年來,機器學習被廣泛應用于醫療診斷領域,在臨床輔助篩查、診斷早期肺癌中起重要的作用。
Lin 等[13]報道了一種迭代功能系統和多層分數階機器學習分類器,以快速篩查肺的可能類別在胸部 X 線片圖像上感興趣區域內的疾病,提高篩查準確性。采用二維分數階卷積來進行數字圖像處理,再使用具有非線性插值功能的迭代功能系統重建二維特征圖案。與傳統方法相比,具有 K 倍交叉驗證的學習分類器在篩查肺部疾病和提高篩查準確率方面顯示出較好結果,召回率為 99.6%、準確性為 88.88% 和 F1 分數為 0.9334。Gu 等[14]報道了基于機器學習的放射組學分類器在預測非小細胞肺癌(non-small cell lung cancer,NSCLC)細胞增殖(Ki-67)的可行性和性能。該研究回顧性分析了 245 例經 CT 掃描且病理證實的 NSCLC 患者,CT 掃描后 2 周內測定 Ki-67 增殖指數(Ki-67pi);采用隨機森林特征選擇算法(random forest feature selection algorithm,RFFS)進行特征采集,并使用 6 種機器學習方法分別建立了放射性分類器、主觀圖像特征分類器和組合分類器。結果表明,隨機森林的放射性分類器預測 Ki-67 表達水平的性能最好[受試者工作特征曲線下面積(AUC)=0.776],敏感性和特異性分別為 0.726 和 0.661,因此認為,其可以幫助預測 Ki-67 的表達水平,為評估細胞增殖提供了一種新的非侵入性檢測方式。另外基于一種遺傳算法(genetic algorithms,GA)的新穎特征選擇算法,通過使用標準的肺癌數據集進行實驗,采用支持向量機(support vector machine,SVM),反向傳播神經網絡(back propagation neural network,BPNN)和 K 最近鄰(K-nearest neighbor,KNN)三種不同的分類器對獲得的結果進行驗證,并將其與通過整個特征集獲得的結果進行比較。結果表明,計算機 GA 智能系統具有良好的診斷性能,可作為肺癌診斷的有效方式[15]。也有學者運用計算機智能分析探討基因和信號通路在調節NSCLC肺癌放療反應中的作用中,數據挖掘方法、特別是機器學習方法在提高對復雜系統(如腫瘤對放療的反應)的理解方面所起的作用。可能增加識別新的預后生物標志物或分子靶點,以提高治療反應、降低并發癥、對可能受益的患者進行更有精準的治療,從而更好地對患者進行個體化治療[16]。
臧啟元等[17]對肺癌 PC-9 細胞、乳腺癌 MDA-MB-231 細胞、膀胱癌 5637 細胞進行圖像采集、處理、并分別通過隨機森林(random forest,RF)分類、邏輯分類、使用線性核函數的 SVM 分類、樸素貝葉斯分類這 4 種方法對癌細胞進行分類。得到的癌細胞分類結果準確率分別為 0.725、0.788、0.796、0.813。王洪凱等[18]評估了隨機森林、SVM、AdaBoost、BPNN 方法對正電子發射計算機斷層顯像(positron emission tomography/computed tomography,PET/CT)影像中NSCLC縱隔淋巴結的良惡性診斷分類性能。結果表明,4 種分類器分割結果的特異性為 81%~84%、敏感性為 77%~84%、AUC 為 0.86~0.90。
2 基于深度學習的計算機輔助診斷方法
互聯網技術的飛速發展使得計算機在醫療領域的應用成為熱點研究,大量的醫學數據使得深度學習技術備受青睞。Hinton等[19]在 2006 年首次提出了深度信念網絡的概念,打開了深度學習的大門。通過不斷發展,諸如卷積神經網絡(convolutional neural networks,CNN)、深度信念網絡、對抗神經網絡、遞歸神經網絡等各種深度學習方法已經應用于肺癌的輔助診斷。
Oliver 等[20]提出了一種基于編碼網絡(coding network,CN)的二維模型,用于高層特征和經典特征的提取。將 CNN 訓練為編碼網絡,并將實際像素編碼成特征向量,以表示分類的高級概念。另外,將 SVM 模型應用于肺部 CT 圖像的有效分類,利用基準數據集對所提出的 CN-SVM 模型的結果進行評價,并在多個維度下進行了驗證。Wang 等[21]報道了一種針對肺腺癌的自動分類系統,該系統結合了 CNN 和生成對抗網絡(generative adversarial networks,GAN)兩種方式對 206 例術后病理標記的肺結節進行分析并與傳統的原始增強圖像和普通增強圖像的訓練方法對比。結果顯示 GAN 增強方法將分類精度分別提高了 23.5%(從 37.0%~60.5%)和 7.3%(從 53.2%~60.5%)。該實驗表明,GAN 合成技術可以有效緩解醫學影像數據不足的問題,可以將提出的 GAN 加 CNN 框架通用化,以用于構建其它 CAD 算法,從而有助于臨床診斷。Venkatesan 等[22]提出了一種從低劑量 CT 圖像自動檢測肺癌的深度學習方法。使用基于高效自適應直方圖均衡的興趣區域(region of interest,ROI)進行圖像預處理,以增強 CT 掃描并消除由于圖像的噪聲和變化而產生的偽影。使用形態學算子從 CT 掃描中提取 ROI,從而減少誤報的數量,該方法的測試準確度可達 94.97%、AUC 為 0.896。Nobrega 等[23]構建了幾個 CNN(VGG16、VGG19、MobileNet、Xception、InceptionV3、ResNet50、InceptionResNetV2、DenseNet169、DenseNet201、NASNetMobile 和 NASNetLarge)用于對肺結節的良惡性分類,研究人員在 ImageNet 數據集上進行訓練,轉換為特征提取器,并應用于肺影像數據集(the lung image database consortium,LIDC-IDRI)中的結節判斷。結果顯示真陽性率為 85.38%、AUC 為 88.41%、準確性為 73.48%。Huang 等[24]研究了一種基于深度轉移 CNN 和極限學習機的新穎診斷方法,該方法融合了兩種算法的協同作用以處理良惡性結節分類。該診斷方法的精度為 94.57%、靈敏度為 93.69%、特異性為 95.15%、AUC 為 94.94%。
羅嘉瀅等[25]報道了基于廣義深度自編碼建立了肺結節診斷方法,該方法通過自編碼形式進行特征提取,利用分類器及融合策略進行肺結節診斷,準確率為 94.72%、敏感度為 94.66%、特異性為 95.16%、AUC 為 0.952。王德才[26]建立了計算機視覺分析圖像模型,通過 AdaBoost 算法對肺結節進行分類,構建肺癌的 AdaBoost 分類器,再通過遷移學習將構建好的分類器模型遷移到實際臨床 CT 肺部影像來確定其實際應用性。結果表明,該方法對肺癌識別率可達 93.2%。
3 總結
肺癌是嚴重威脅人類健康的惡性腫瘤之一,早期診斷和早期治療是提高治愈率、延長患者生存時間的關鍵。CAD作為一種智能的醫學圖像處理技術能夠對早期肺癌提供有效的輔助診斷信息,提高診斷正確率且提高醫生工作效率、減輕醫生工作負擔。計算機深度學習算法需要大量的標記數據支撐,對于數據的收集程度要求很高。而對于臨床診斷來說,大量臨床數據的收集和標記難度較大,如何利用有限的臨床數據和影像學資料來制定更加合理的算法,是計算機輔助診斷早期肺癌仍需不斷探索的課題。
利益沖突:無。
作者貢獻:巨娟負責論文書寫及文獻查閱;林檬、曾祥飛負責文獻查閱;張久權負責文章審校。
肺癌的發病率及死亡率均居所有惡性腫瘤之首,且發病率呈逐年增高的趨勢[1-2]。中晚期肺癌患者的 5 年生存率僅為 18%,甚至對于晚期患者 5 年生存率低于 8%;而早期肺癌經治療后 5 年生存率可達 90% 以上[3]。然而,早期肺癌患者通常無任何癥狀,難以察覺,一旦出現臨床癥狀時大多已處于中晚期。因此,提高肺癌患者治愈率、改善預后有賴于早診斷早治療,將肺癌的診斷端口前移的有效辦法是早期篩查[4]。
胸部 CT 掃描密度分辨率高,能夠克服傳統 X 射線二維平面重疊、組織吸收相近、對比度小的缺點,被認為是目前肺癌早期篩查最為成熟有效的影像學檢查技術之一[5-6]。在 CT 影像上,早期肺癌主要表現為肺結節(磨玻璃結節、混合性結節及實性結節),如何采用無創的方式準確判斷肺結節的良惡性是目前的研究難點及熱點[7]。由于薄層 CT 的全面普及,極微小肺結節均可被篩查發現。同時,由于掃描層數的增多,影像科醫生閱片面臨著龐大的數據和圖像,不僅費時費力、工作效率低、而且極易引起誤診或漏診[8],因此,傳統的人工閱片已經不能滿足臨床需求。
計算機輔助診斷(computer-aided diagnosis,CAD)是指將影像學、醫學圖像處理等技術與計算機強大的計算分析能力結合的計算機輔助技術,輔助醫生發現病灶,提供有效的輔助診斷信息,減輕醫生工作負擔,提高醫生工作效率及診斷正確率[9]。近年來,隨著 CAD 技術的不斷發展,其與胸部 CT 影像相結合在早期肺癌的篩查、診斷中的應用越來越廣泛[10-11]。CAD 是如何有效輔助臨床醫生快速靈敏地診斷肺結節,并且能夠相對準確區分肺結節的良性和惡性。本文將從 CAD 的機器學習和深度學習兩個方面綜述計算機智能分析在診斷早期肺癌的最新研究進展。
1 基于機器學習的輔助診斷方法
CAD方法從機器學習到深度學習,不斷地在成熟完善。傳統的計算機診斷方法由程序員編寫代碼方程等解決一種或一類問題,機器學習可以從大量數據中分析得到經驗,再根據經驗構建算法或模型,高效地處理問題,并且可對未知的數據進行分析預測[12]。近年來,機器學習被廣泛應用于醫療診斷領域,在臨床輔助篩查、診斷早期肺癌中起重要的作用。
Lin 等[13]報道了一種迭代功能系統和多層分數階機器學習分類器,以快速篩查肺的可能類別在胸部 X 線片圖像上感興趣區域內的疾病,提高篩查準確性。采用二維分數階卷積來進行數字圖像處理,再使用具有非線性插值功能的迭代功能系統重建二維特征圖案。與傳統方法相比,具有 K 倍交叉驗證的學習分類器在篩查肺部疾病和提高篩查準確率方面顯示出較好結果,召回率為 99.6%、準確性為 88.88% 和 F1 分數為 0.9334。Gu 等[14]報道了基于機器學習的放射組學分類器在預測非小細胞肺癌(non-small cell lung cancer,NSCLC)細胞增殖(Ki-67)的可行性和性能。該研究回顧性分析了 245 例經 CT 掃描且病理證實的 NSCLC 患者,CT 掃描后 2 周內測定 Ki-67 增殖指數(Ki-67pi);采用隨機森林特征選擇算法(random forest feature selection algorithm,RFFS)進行特征采集,并使用 6 種機器學習方法分別建立了放射性分類器、主觀圖像特征分類器和組合分類器。結果表明,隨機森林的放射性分類器預測 Ki-67 表達水平的性能最好[受試者工作特征曲線下面積(AUC)=0.776],敏感性和特異性分別為 0.726 和 0.661,因此認為,其可以幫助預測 Ki-67 的表達水平,為評估細胞增殖提供了一種新的非侵入性檢測方式。另外基于一種遺傳算法(genetic algorithms,GA)的新穎特征選擇算法,通過使用標準的肺癌數據集進行實驗,采用支持向量機(support vector machine,SVM),反向傳播神經網絡(back propagation neural network,BPNN)和 K 最近鄰(K-nearest neighbor,KNN)三種不同的分類器對獲得的結果進行驗證,并將其與通過整個特征集獲得的結果進行比較。結果表明,計算機 GA 智能系統具有良好的診斷性能,可作為肺癌診斷的有效方式[15]。也有學者運用計算機智能分析探討基因和信號通路在調節NSCLC肺癌放療反應中的作用中,數據挖掘方法、特別是機器學習方法在提高對復雜系統(如腫瘤對放療的反應)的理解方面所起的作用。可能增加識別新的預后生物標志物或分子靶點,以提高治療反應、降低并發癥、對可能受益的患者進行更有精準的治療,從而更好地對患者進行個體化治療[16]。
臧啟元等[17]對肺癌 PC-9 細胞、乳腺癌 MDA-MB-231 細胞、膀胱癌 5637 細胞進行圖像采集、處理、并分別通過隨機森林(random forest,RF)分類、邏輯分類、使用線性核函數的 SVM 分類、樸素貝葉斯分類這 4 種方法對癌細胞進行分類。得到的癌細胞分類結果準確率分別為 0.725、0.788、0.796、0.813。王洪凱等[18]評估了隨機森林、SVM、AdaBoost、BPNN 方法對正電子發射計算機斷層顯像(positron emission tomography/computed tomography,PET/CT)影像中NSCLC縱隔淋巴結的良惡性診斷分類性能。結果表明,4 種分類器分割結果的特異性為 81%~84%、敏感性為 77%~84%、AUC 為 0.86~0.90。
2 基于深度學習的計算機輔助診斷方法
互聯網技術的飛速發展使得計算機在醫療領域的應用成為熱點研究,大量的醫學數據使得深度學習技術備受青睞。Hinton等[19]在 2006 年首次提出了深度信念網絡的概念,打開了深度學習的大門。通過不斷發展,諸如卷積神經網絡(convolutional neural networks,CNN)、深度信念網絡、對抗神經網絡、遞歸神經網絡等各種深度學習方法已經應用于肺癌的輔助診斷。
Oliver 等[20]提出了一種基于編碼網絡(coding network,CN)的二維模型,用于高層特征和經典特征的提取。將 CNN 訓練為編碼網絡,并將實際像素編碼成特征向量,以表示分類的高級概念。另外,將 SVM 模型應用于肺部 CT 圖像的有效分類,利用基準數據集對所提出的 CN-SVM 模型的結果進行評價,并在多個維度下進行了驗證。Wang 等[21]報道了一種針對肺腺癌的自動分類系統,該系統結合了 CNN 和生成對抗網絡(generative adversarial networks,GAN)兩種方式對 206 例術后病理標記的肺結節進行分析并與傳統的原始增強圖像和普通增強圖像的訓練方法對比。結果顯示 GAN 增強方法將分類精度分別提高了 23.5%(從 37.0%~60.5%)和 7.3%(從 53.2%~60.5%)。該實驗表明,GAN 合成技術可以有效緩解醫學影像數據不足的問題,可以將提出的 GAN 加 CNN 框架通用化,以用于構建其它 CAD 算法,從而有助于臨床診斷。Venkatesan 等[22]提出了一種從低劑量 CT 圖像自動檢測肺癌的深度學習方法。使用基于高效自適應直方圖均衡的興趣區域(region of interest,ROI)進行圖像預處理,以增強 CT 掃描并消除由于圖像的噪聲和變化而產生的偽影。使用形態學算子從 CT 掃描中提取 ROI,從而減少誤報的數量,該方法的測試準確度可達 94.97%、AUC 為 0.896。Nobrega 等[23]構建了幾個 CNN(VGG16、VGG19、MobileNet、Xception、InceptionV3、ResNet50、InceptionResNetV2、DenseNet169、DenseNet201、NASNetMobile 和 NASNetLarge)用于對肺結節的良惡性分類,研究人員在 ImageNet 數據集上進行訓練,轉換為特征提取器,并應用于肺影像數據集(the lung image database consortium,LIDC-IDRI)中的結節判斷。結果顯示真陽性率為 85.38%、AUC 為 88.41%、準確性為 73.48%。Huang 等[24]研究了一種基于深度轉移 CNN 和極限學習機的新穎診斷方法,該方法融合了兩種算法的協同作用以處理良惡性結節分類。該診斷方法的精度為 94.57%、靈敏度為 93.69%、特異性為 95.15%、AUC 為 94.94%。
羅嘉瀅等[25]報道了基于廣義深度自編碼建立了肺結節診斷方法,該方法通過自編碼形式進行特征提取,利用分類器及融合策略進行肺結節診斷,準確率為 94.72%、敏感度為 94.66%、特異性為 95.16%、AUC 為 0.952。王德才[26]建立了計算機視覺分析圖像模型,通過 AdaBoost 算法對肺結節進行分類,構建肺癌的 AdaBoost 分類器,再通過遷移學習將構建好的分類器模型遷移到實際臨床 CT 肺部影像來確定其實際應用性。結果表明,該方法對肺癌識別率可達 93.2%。
3 總結
肺癌是嚴重威脅人類健康的惡性腫瘤之一,早期診斷和早期治療是提高治愈率、延長患者生存時間的關鍵。CAD作為一種智能的醫學圖像處理技術能夠對早期肺癌提供有效的輔助診斷信息,提高診斷正確率且提高醫生工作效率、減輕醫生工作負擔。計算機深度學習算法需要大量的標記數據支撐,對于數據的收集程度要求很高。而對于臨床診斷來說,大量臨床數據的收集和標記難度較大,如何利用有限的臨床數據和影像學資料來制定更加合理的算法,是計算機輔助診斷早期肺癌仍需不斷探索的課題。
利益沖突:無。
作者貢獻:巨娟負責論文書寫及文獻查閱;林檬、曾祥飛負責文獻查閱;張久權負責文章審校。