肺腺癌是非小細胞肺癌的一種普遍組織學亞型,具有不同的形態學和分子特征,這對預后和治療計劃至關重要。近年來,隨著人工智能技術的發展,其在肺腺癌病理學亞型及基因表達研究中的應用得到了廣泛關注。本文綜述了機器學習和深度學習在肺腺癌病理學亞型分型及基因表達分析中應用的研究進展,總結現階段存在的一些問題和挑戰,并展望了人工智能在肺腺癌研究中的未來發展方向。
根據2020年全球癌癥數據統計報告,肺癌是全球發病率第2的癌癥(占比11.4%),肺癌仍然是導致癌癥死亡的主要原因[1],估計有180萬人死亡,占全球總癌癥患者死亡的18%。腺癌是最常見的肺癌病理亞型,肺腺癌占肺癌病例的40%以上,超過肺鱗狀細胞癌[2]。肺腺癌是一種最常見的肺癌類型之一,通常被歸類為非小細胞肺癌(non-small cell lung cancer,NSCLC)中的一種。NSCLC是一種由不同細胞類型引起的肺癌,包括腺癌、鱗狀細胞癌和大細胞癌等亞型,其中,腺癌是肺癌中最常見的組織病理學類型。2011年,國際肺癌研究協會、美國胸科學會及歐洲呼吸學會[3]共同發布了一種基于WHO分類系統的精細化肺腺癌分類方法。這一方法將肺腺癌劃分為五類:非典型腺瘤(atypical adenomatous hyperplasia,AAH)原位腺癌(adenocarcinoma in situ,AIS)、微浸潤性腺癌(minimally invasive adenocarcinoma,MIA)、浸潤性腺癌(invasive adenocarcinoma,IAC)和浸潤性腺癌的變異(variants of invasive adenocarcinoma,VIAC)。AAH是肺腺癌的早期形態,呈現為小型、分散的肺組織增生。AIS是肺腺癌的另一種早期形態,癌細胞僅局限在肺泡內,未觸及肺泡基底膜。MIA則表示早期的肺腺癌,癌細胞在肺泡內擴散,但只侵犯了部分肺泡基底膜。IAC是最常見的肺腺癌類型,包括5個亞型,即伏壁型、腺泡型、乳頭型、實體型、微乳頭型。VIAC通常需要通過肺葉切除和淋巴結清掃來處理。
肺腺癌的發病、發展和預后與基因亞型也有密切相關。多種基因改變,包括點突變、基因融合和擴增等,都在肺腺癌的腫瘤發生、增殖、轉移以及治療反應中發揮了重要角色。特定基因亞型的存在可能會改變肺腺癌患者的治療方案,例如,靶向治療藥物可以專門針對某些突變型的基因。此外,某些基因亞型還可能與患者的預后相關,對于這類患者的管理需要更加密切。
肺腺癌是一種常見的惡性腫瘤,根據組織學和分子生物學特征的不同,可以分為多個亞型,其中浸潤亞型是較為常見的一種。因此,臨床迫切需要準確診斷肺腺癌的病理學亞型,從而決定手術方式、進行術后隨訪和預后評估等,這些步驟的實施可以幫助醫生制定最佳的治療方案,并提高治療的有效性和患者的生存率。
1 肺腺癌的驅動基因類型
此外,還有一些基于分子生物學的分類方法被廣泛應用于肺腺癌的研究和治療中。肺腺癌的分子類型可以通過基因突變、基因表達和蛋白質表達[6-8]等方式進行分類。其中,表皮生長因子受體(epidermal growth factor receptor,EGFR)突變通常與肺腺癌的亞型和臨床表現有關[9];間變性淋巴瘤激酶(anaplastic lymphoma kinase,ALK)融合基因通常與年輕患者和不良預后有關[10];受體酪氨酸激酶(receptor tyrosine kinase,ROS1)融合通常與年輕患者和較好的預后有關[11];v-raf鼠科肉瘤病毒癌基因同源物B1(v-raf murine sarcoma viral oncogene homolog B1,BRAF)突變與較差的預后和化療耐藥性有關[12];鼠類肉瘤病毒癌基因(kirsten rat sarcoma viral oncogene,KRAS)突變與肺癌細胞的轉移和耐藥性有關[13]。此外,還有人表皮生長因子受體2(human epidermal growth factor receptor-2,HER2)突變、RET(rearranged during transfection)融合、上皮間質轉化(mesenchymal-epithelial transition,MET)擴增等罕見驅動基因類型[14]。肺腺癌的驅動基因類型對肺腺癌的診斷和治療具有重要意義,根據驅動基因類型采用藥物可以針對性地干擾肺癌細胞的生長和增殖,從而顯著提高肺腺癌的治療效果。
首先,肺腺癌是一種異質性非常強的疾病,其形態、大小、位置等特征差異很大,因此如何從醫學影像中提取有效特征并進行準確分類是一個難點。其次,醫學影像組學技術需要大量的標記數據來進行訓練,然而,由于肺腺癌診斷需要經驗豐富的醫生進行人工標注,標注數據的獲取成本高昂,且標注結果存在主觀性和不一致性的問題。相比之下,人工智能(artificial intelligence,AI)技術在肺腺癌診斷中具有很多優點。首先,AI技術可以通過深度學習算法提取醫學影像中的復雜特征,實現對肺腺癌的準確識別和分類。此外,AI技術還可以實現肺腺癌的早期診斷和預測,從而幫助醫生制定更為個性化的治療方案,改善治療效果,提高生存率。
AI技術在醫療領域中的廣泛應用,為肺腺癌的病理學亞型及基因表達研究提供了新的機會和挑戰。本文旨在綜述AI在肺腺癌病理學亞型分型及基因表達分析中應用的研究進展,為肺腺癌的診斷和治療提供新思路和新方向。
2 數據集及評價指標
癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)[15]是包含肺腺癌數據的重要資源,提供了關于該疾病的多種分子特征數據。肺腺癌是一種常見的肺癌類型,TCGA的肺腺癌(Lung Adenocarcinoma,LUAD)數據集對517例肺腺癌樣本進行了全面的分子特征分析,包括基因組、轉錄組、表觀組和蛋白質組等,肺腺癌影像學圖像見圖1。此外,還有其他數據集,包括:高通量基因表達數據庫(Gene Expression Omnibus,GEO)、國際癌癥基因組聯盟、癌細胞系百科全書等。

a:原位腺癌;b:微浸潤性腺癌;c:浸潤性腺癌;d:浸潤性腺癌的變異
評價指標是用來評估分類器或模型性能的指標[16],包括準確率(accuracy,ACC)、特異性(specificity,SP)、敏感性(sensitivity,SN),它們由方程(1~3)定義,受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under the curve,AUC)是評估分類器分類效果的常用指標,它可以反映出分類器在不同閾值下的綜合表現,AUC值越接近1,說明分類器的分類效果越好。
![]() |
![]() |
![]() |
其中,TP(true positive)表示真實陽性樣本被正確分類的個數,TN(true negative)表示真實陰性樣本被正確分類的個數,FP(false positive)表示陰性樣本被誤判為陽性的個數,FN(false negative)表示陽性樣本被誤判為陰性的個數。此外,還報告了其他測量值,以提供對不同分類器的完整評估,包括召回率(recall)、精確率(precision)和F1值,其中召回率與SN相同。精度和F1值由方程(4~5)所示。
![]() |
![]() |
3 基于傳統機器學習的預測模型
基因表達分析是探究肺腺癌亞型及分子特征的重要手段,對肺腺癌患者的治療和預后具有重要意義。然而,傳統的病理學分析需要經驗豐富的醫生進行手動操作,存在主觀性和操作不穩定等問題。近年來,AI技術在肺腺癌病理學中的應用已經引起了廣泛的關注和研究。
Kirienko等[17]對151例肺腺癌患者的電子計算機斷層掃描(computed tomography,CT)和正電子發射型計算機斷層顯像(positron emission computed tomography,PET)中提取特征,構建廣義線性模型(generalize linear model,GLM)預測組織學和腫瘤復發。Sun等[18]從TCGA數據集中下載了572例患者的基因表達數據及相應的臨床信息,對肺腺癌病理亞型相關基因進行鑒定,并構建隨機森林(random forest,RF)算法研究基因表達與預后的關系,發現CENPS、SRSF5、PITX2和NSG1等4個基因相互作用。Jia等[19]建立了RF分類器來識別EGFR突變,AUC達0.828,Pinheiro等[20]發現放射組學特征可以區分AUC為0.75的EGFR突變,但未發現與KRAS突變相關的放射組學特征。而Zhang等[21]建立了4個放射組學模型的判別模型來預測EGFR、KRAS、HER2和腫瘤蛋白(tumor protein P53,TP53)突變的存在,有助于改善個體靶向治療。
Le等[22]對非小細胞肺癌的CT圖片進行檢測,通過遺傳算法加XGBoost(eXtreme Gradient Boosting)分類器檢查EGFR和KRAS基因突變,兩種準確率分別為83.6%和86%。Yuan等[23]構建支持向量機(support vector machine,SVM)和RF算法模型,分析了一些可能的差異表達基因和表達模式,精確區別它們的定量規則。Gu等[24]采用6種機器學習算法的CT放射組學分類器可以預測Ki-67表達,為評估細胞增殖提供了一種新的非侵入性方法。為評估肺腺癌惡性風險,研究人員通過結合CT圖像中結節的紋理特征和患者臨床變量,訓練機器學習分類器,如邏輯回歸(logistic regression,LR)[25-27]和線性判別分析(linear discriminant analysis,LDA)[28]。在Hong等[29]的研究中,從非增強和增強CT圖像中提取放射組學特征以預測肺腺癌中的 EGFR 突變狀態。使用最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)算法進行特征選擇后,得到樸素貝葉斯分類器(naive bayes classifiers,NBC)、K-近鄰(K-nearest neighbor,KNN)、RF、SVM、決策樹(decision tree,DT)、LR 6種預測模型,并根據每個模型的AUC進行比較。LR 被選為最佳模型,進一步分析表明,從增強 CT 圖像中提取的放射組學特征比從非增強 CT 圖像中提取的放射組學特征對 EGFR 突變狀態具有更好的預測性能。傳統機器學習算法在肺腺癌基因表達和病理學亞型中應用的研究文獻見表1。

研究人員使用SVM、RF、DT、LR、XGBoost、DT等機器學習技術來分析高維基因表達數據,通過識別差異表達的基因,有助于查明與肺腺癌亞型相關的潛在生物標志物和通路。Huang等[30]使用SVM模型預測病理亞型,這些模型在區分不同亞型、幫助診斷和治療選擇方面顯示出良好的準確性。He等[31]收集了758例肺腺癌患者的數據,通過主成分分析(principal component analysis,PCA)、LASSO分析對高維特征集進行篩選,以獲得與EGFR突變相關的最佳特征子集。進一步構建了KNN、RF、輕量梯度提升機器(light gradient boosting machine,LGBM)和SVM 4種算法模型進行評估。結果表明,這些模型的AUC分別為0.83、0.91、0.94、0.79,ACC分別為81%、83%、88%、83%。
傳統的機器學習為預測肺腺癌的基因表達和病理亞型做出了重大貢獻,但也有一些限制,傳統方法難以有效整合多種多樣的數據類型,例如基因表達、病理學亞型數據等;另外機器學習方法難以進行特征選擇,從而導致過度擬合和泛化能力下降。當手動設計的可解釋特征無法滿足對預測的需求時,需要探索更加靈活和自適應的模型來處理復雜的數據模式和關系,深度學習模型為應對這些挑戰和增進我們對這種復雜疾病的理解提供了一種途徑。
4 基于深度學習的預測模型
近年來,深度學習技術在醫學圖像分析和基因表達研究等領域取得了顯著成果,特別是在肺腺癌研究中,深度學習技術已經成功應用于肺腺癌病理亞型的識別、基因表達與肺腺癌關聯的探討以及預后評估等方面。Coudray等[32]開發了一種深度學習模型,可以根據組織病理學圖像預測肺腺癌相關基因的突變狀態。他們使用非小細胞肺癌(包括腺癌病例)的整張幻燈片圖像訓練了一個卷積神經網絡(convolutional neural networks,CNN)。該模型能夠高精度地預測幾個關鍵基因(例如EGFR、KRAS、TP53)的突變狀態,采用TCGA數據集中567個圖片數量構建InceptionV3(Inception Version 3,InceptionV3)遷移學習模型,其中AUCnormal=0.984,AUCADC=0.969(normal為正常,ADC為肺腺癌),SN為89%,SP為93%。這表明深度學習可以從組織病理學圖像中提取有意義的特征來推斷遺傳信息。Yu等[33]使用卷積神經網絡根據顯微病理圖像特征預測非小細胞肺癌患者類型并進行分類。從TCGA數據集中收集1600張圖像驗證CNN模型,構建VGGNet-16(Visual Geometry Group Network-16)、深度殘差網絡(residual network,ResNet)、AlexNet和GoogleNet深度學習算法預測肺腺癌的分類模型。其中,AUC分別為0.891、0.795、0.863和0.838。用于區分肺腺癌的VGGNet模型和GoogLeNet模型的AUC范圍為0.877~0.927,表現性能略優于ResNet和AlexNet。Mobadersany等[34]應用CNN模型研究組織學和基因組學數據預測癌癥結果,證明該深度學習模型比僅使用組織學或基因組數據的模型更準確地預測患者生存。
Gertych等[35]通過評估CNN算法來評估肺腺癌生長模式,該研究收集了206個蘇木素-伊紅染色切片,使用了多個CNN算法,包括1個FT-AlexNet訓練,4個DN-AlexNet訓練以及3個GoogLeNet和ResNet-50訓練,將生長模式從圖像切片轉換為定性特征。其中,DN-AlexNet-1模型具有最佳性能,其準確率達到89.9%,高于GoogLeNet(85.84%)、ResNet-50(87.64%)和FT-AlexNet 算法(75.3%)。證明CNN算法可以有效地用于評估肺腺癌生長模式,并有望為肺癌的診斷和治療提供新的方法和工具。Wei等[36]采用ResNet對肺腺癌IAC類型進行分類,其中鱗屑、腺泡、乳頭狀、微毛細管、實體型、良性的AUC值分別為0.988、0.970、0.993、0.981、0.997、0.988。證明了CNN可以通過自動預篩選來提高肺腺癌的分類準確性。Wang等[37]采用區域卷積神經網絡(Mask region convolutional neural network,Mask R-CNN)與原始R-CNN模型相結合,進一步提升了性能,并利用Cox比例風險模型進行預后分析,這一研究將AI技術與醫學預測相結合,創新性地開辟了新的研究方向。
另外Chen等[38]采用的多實例學習結合循環神經網絡(multiple instance learning recurrent neural network,MIL-RNN)深度學習模型,比多實例學習具有更高的分類性能(AUC=0.9594),該模型通過類激活映射對小病變具有強大的定位結果。Khosravi等[39]的分類流程采用了基本的CNN結構、GoogleNet Inception模型及3種訓練策略,同時結合了先進的Inception和ResNet算法。深度學習方法在癌癥亞型識別上表現出色,且Google Inception模型具有強大的魯棒性。CNN、Inception V3、Inception V1、ResNet V2在各類癌癥組織、亞型、生物標志物和評分的識別準確率分別達到了73%、80%、92%、90%。肺腺癌算法模型匯總見表2。

Li等[40]將傳統計算機輔助設計(computer aided design,CAD)技術將任務劃分為三個階段:結節分割、特征抽取與選擇、分類模型構建;見圖2。CAD結合了CT圖像中預定結節的測量紋理特征與患者的臨床變量,使用LR、SVM和RF等機器學習算法。然而,隨著深度學習技術的發展,特別是CNN的興起,現已在 CAD 系統中應用基于深度學習的模型進行更多研究,基于深度學習的CAD系統可以自動檢索和提取可疑結節的內在特征,并且可以模擬結節的3D形狀。

綜上所述,AI技術,特別是深度學習算法,已在醫學病理診斷中取得了顯著進展,尤其在預測肺腺癌病理亞型和基因表達上表現出優越性。這些算法的主要優點在于其高效性和準確性,它們能自動分析大量數據并識別微妙的模式。然而,這些算法的性能大量依賴于訓練數據的質量和數量,數據的偏差或不足可能影響預測準確性。此外,盡管其預測結果精度高,但決策過程的黑箱性質限制了其可解釋性,這在醫學診斷中是個重要問題,因為醫生和患者需要明了診斷的依據。
5 總結與展望
通過對肺腺癌病理亞型及基因表達的研究,我們發現不同亞型的肺腺癌在基因表達上存在顯著差異,并且這些差異與患者的臨床特征和預后有關。通過機器學習和深度學習算法,可以更準確地對肺腺癌進行分類和基因表達分析,有望為患者的診斷、治療和預后評估提供更可靠的依據。
傳統的病理診斷主要依賴于病理醫師的專業知識和經驗,以及顯微鏡下的組織結構信息。這種方法可能存在主觀性,并且在診斷復雜或罕見病理類型時可能遇到困難。然而,AI算法,如SVM、KNN、VGGNet和GoogLeNet等,能夠從大量數據中學習并發現模式,進而提高診斷效率和準確性。機器學習算法的優勢包括處理大量數據的能力、預測速度快,以及提供預測的概率,后者可幫助醫生做出更加明智的決策。然而,這些算法的準確性在很大程度上取決于訓練數據的質量和數量、模型的復雜性以及參數調整等因素。盡管機器學習算法在預測肺腺癌的病理亞型和基因表達情況方面已經顯示出高度的準確性,但這并不意味著在所有情況下它們都會優于傳統的病理診斷方法。因此,深度學習和傳統病理診斷方法的結合可能是最理想的方案,利用它們各自的優勢,提高肺腺癌的診斷準確性和效率。然而,要注意的是,盡管機器學習在診斷和預測癌癥方面具有巨大的潛力,但我們不能完全依賴于它。首先,機器學習模型的預測結果可能并不總是準確的,因此需要有經驗的醫生來驗證這些結果,理想的策略是結合AI技術和傳統病理診斷方法,利用它們各自的優勢,以提高診斷的準確性和效率。
目前,AI在預測肺腺癌病理亞型和基因表達方面已經取得了顯著進展,已在醫學影像和基因數據解析方面顯示出強大的潛力。然而,AI的應用并非無懈可擊,其性能依賴于訓練數據的質量和數量,而獲取高質量、無偏差的醫學數據仍然是一項挑戰。此外,盡管AI的預測精度可能高于傳統方法,其決策過程的黑箱性質限制了其在醫療領域的透明度和可解釋性。未來可增強可解釋性,增加相關研究,以滿足醫學領域對診斷依據的解釋需求;AI模型將更有效地整合各類數據,如醫學影像、基因數據和臨床記錄,提高預測和診斷準確性;AI將推動精準醫療的發展,為患者提供個性化的治療方案。
總之,盡管AI在預測肺腺癌病理亞型分型和基因表達分析方面面臨數據質量和模型可解釋性的挑戰,但其未來發展前景仍然看好。
利益沖突:無。
作者貢獻:周連田負責論文設計、撰寫,數據分析;趙可輝負責論文設計;張志強負責資料收集和,論文設計。
根據2020年全球癌癥數據統計報告,肺癌是全球發病率第2的癌癥(占比11.4%),肺癌仍然是導致癌癥死亡的主要原因[1],估計有180萬人死亡,占全球總癌癥患者死亡的18%。腺癌是最常見的肺癌病理亞型,肺腺癌占肺癌病例的40%以上,超過肺鱗狀細胞癌[2]。肺腺癌是一種最常見的肺癌類型之一,通常被歸類為非小細胞肺癌(non-small cell lung cancer,NSCLC)中的一種。NSCLC是一種由不同細胞類型引起的肺癌,包括腺癌、鱗狀細胞癌和大細胞癌等亞型,其中,腺癌是肺癌中最常見的組織病理學類型。2011年,國際肺癌研究協會、美國胸科學會及歐洲呼吸學會[3]共同發布了一種基于WHO分類系統的精細化肺腺癌分類方法。這一方法將肺腺癌劃分為五類:非典型腺瘤(atypical adenomatous hyperplasia,AAH)原位腺癌(adenocarcinoma in situ,AIS)、微浸潤性腺癌(minimally invasive adenocarcinoma,MIA)、浸潤性腺癌(invasive adenocarcinoma,IAC)和浸潤性腺癌的變異(variants of invasive adenocarcinoma,VIAC)。AAH是肺腺癌的早期形態,呈現為小型、分散的肺組織增生。AIS是肺腺癌的另一種早期形態,癌細胞僅局限在肺泡內,未觸及肺泡基底膜。MIA則表示早期的肺腺癌,癌細胞在肺泡內擴散,但只侵犯了部分肺泡基底膜。IAC是最常見的肺腺癌類型,包括5個亞型,即伏壁型、腺泡型、乳頭型、實體型、微乳頭型。VIAC通常需要通過肺葉切除和淋巴結清掃來處理。
肺腺癌的發病、發展和預后與基因亞型也有密切相關。多種基因改變,包括點突變、基因融合和擴增等,都在肺腺癌的腫瘤發生、增殖、轉移以及治療反應中發揮了重要角色。特定基因亞型的存在可能會改變肺腺癌患者的治療方案,例如,靶向治療藥物可以專門針對某些突變型的基因。此外,某些基因亞型還可能與患者的預后相關,對于這類患者的管理需要更加密切。
肺腺癌是一種常見的惡性腫瘤,根據組織學和分子生物學特征的不同,可以分為多個亞型,其中浸潤亞型是較為常見的一種。因此,臨床迫切需要準確診斷肺腺癌的病理學亞型,從而決定手術方式、進行術后隨訪和預后評估等,這些步驟的實施可以幫助醫生制定最佳的治療方案,并提高治療的有效性和患者的生存率。
1 肺腺癌的驅動基因類型
此外,還有一些基于分子生物學的分類方法被廣泛應用于肺腺癌的研究和治療中。肺腺癌的分子類型可以通過基因突變、基因表達和蛋白質表達[6-8]等方式進行分類。其中,表皮生長因子受體(epidermal growth factor receptor,EGFR)突變通常與肺腺癌的亞型和臨床表現有關[9];間變性淋巴瘤激酶(anaplastic lymphoma kinase,ALK)融合基因通常與年輕患者和不良預后有關[10];受體酪氨酸激酶(receptor tyrosine kinase,ROS1)融合通常與年輕患者和較好的預后有關[11];v-raf鼠科肉瘤病毒癌基因同源物B1(v-raf murine sarcoma viral oncogene homolog B1,BRAF)突變與較差的預后和化療耐藥性有關[12];鼠類肉瘤病毒癌基因(kirsten rat sarcoma viral oncogene,KRAS)突變與肺癌細胞的轉移和耐藥性有關[13]。此外,還有人表皮生長因子受體2(human epidermal growth factor receptor-2,HER2)突變、RET(rearranged during transfection)融合、上皮間質轉化(mesenchymal-epithelial transition,MET)擴增等罕見驅動基因類型[14]。肺腺癌的驅動基因類型對肺腺癌的診斷和治療具有重要意義,根據驅動基因類型采用藥物可以針對性地干擾肺癌細胞的生長和增殖,從而顯著提高肺腺癌的治療效果。
首先,肺腺癌是一種異質性非常強的疾病,其形態、大小、位置等特征差異很大,因此如何從醫學影像中提取有效特征并進行準確分類是一個難點。其次,醫學影像組學技術需要大量的標記數據來進行訓練,然而,由于肺腺癌診斷需要經驗豐富的醫生進行人工標注,標注數據的獲取成本高昂,且標注結果存在主觀性和不一致性的問題。相比之下,人工智能(artificial intelligence,AI)技術在肺腺癌診斷中具有很多優點。首先,AI技術可以通過深度學習算法提取醫學影像中的復雜特征,實現對肺腺癌的準確識別和分類。此外,AI技術還可以實現肺腺癌的早期診斷和預測,從而幫助醫生制定更為個性化的治療方案,改善治療效果,提高生存率。
AI技術在醫療領域中的廣泛應用,為肺腺癌的病理學亞型及基因表達研究提供了新的機會和挑戰。本文旨在綜述AI在肺腺癌病理學亞型分型及基因表達分析中應用的研究進展,為肺腺癌的診斷和治療提供新思路和新方向。
2 數據集及評價指標
癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)[15]是包含肺腺癌數據的重要資源,提供了關于該疾病的多種分子特征數據。肺腺癌是一種常見的肺癌類型,TCGA的肺腺癌(Lung Adenocarcinoma,LUAD)數據集對517例肺腺癌樣本進行了全面的分子特征分析,包括基因組、轉錄組、表觀組和蛋白質組等,肺腺癌影像學圖像見圖1。此外,還有其他數據集,包括:高通量基因表達數據庫(Gene Expression Omnibus,GEO)、國際癌癥基因組聯盟、癌細胞系百科全書等。

a:原位腺癌;b:微浸潤性腺癌;c:浸潤性腺癌;d:浸潤性腺癌的變異
評價指標是用來評估分類器或模型性能的指標[16],包括準確率(accuracy,ACC)、特異性(specificity,SP)、敏感性(sensitivity,SN),它們由方程(1~3)定義,受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under the curve,AUC)是評估分類器分類效果的常用指標,它可以反映出分類器在不同閾值下的綜合表現,AUC值越接近1,說明分類器的分類效果越好。
![]() |
![]() |
![]() |
其中,TP(true positive)表示真實陽性樣本被正確分類的個數,TN(true negative)表示真實陰性樣本被正確分類的個數,FP(false positive)表示陰性樣本被誤判為陽性的個數,FN(false negative)表示陽性樣本被誤判為陰性的個數。此外,還報告了其他測量值,以提供對不同分類器的完整評估,包括召回率(recall)、精確率(precision)和F1值,其中召回率與SN相同。精度和F1值由方程(4~5)所示。
![]() |
![]() |
3 基于傳統機器學習的預測模型
基因表達分析是探究肺腺癌亞型及分子特征的重要手段,對肺腺癌患者的治療和預后具有重要意義。然而,傳統的病理學分析需要經驗豐富的醫生進行手動操作,存在主觀性和操作不穩定等問題。近年來,AI技術在肺腺癌病理學中的應用已經引起了廣泛的關注和研究。
Kirienko等[17]對151例肺腺癌患者的電子計算機斷層掃描(computed tomography,CT)和正電子發射型計算機斷層顯像(positron emission computed tomography,PET)中提取特征,構建廣義線性模型(generalize linear model,GLM)預測組織學和腫瘤復發。Sun等[18]從TCGA數據集中下載了572例患者的基因表達數據及相應的臨床信息,對肺腺癌病理亞型相關基因進行鑒定,并構建隨機森林(random forest,RF)算法研究基因表達與預后的關系,發現CENPS、SRSF5、PITX2和NSG1等4個基因相互作用。Jia等[19]建立了RF分類器來識別EGFR突變,AUC達0.828,Pinheiro等[20]發現放射組學特征可以區分AUC為0.75的EGFR突變,但未發現與KRAS突變相關的放射組學特征。而Zhang等[21]建立了4個放射組學模型的判別模型來預測EGFR、KRAS、HER2和腫瘤蛋白(tumor protein P53,TP53)突變的存在,有助于改善個體靶向治療。
Le等[22]對非小細胞肺癌的CT圖片進行檢測,通過遺傳算法加XGBoost(eXtreme Gradient Boosting)分類器檢查EGFR和KRAS基因突變,兩種準確率分別為83.6%和86%。Yuan等[23]構建支持向量機(support vector machine,SVM)和RF算法模型,分析了一些可能的差異表達基因和表達模式,精確區別它們的定量規則。Gu等[24]采用6種機器學習算法的CT放射組學分類器可以預測Ki-67表達,為評估細胞增殖提供了一種新的非侵入性方法。為評估肺腺癌惡性風險,研究人員通過結合CT圖像中結節的紋理特征和患者臨床變量,訓練機器學習分類器,如邏輯回歸(logistic regression,LR)[25-27]和線性判別分析(linear discriminant analysis,LDA)[28]。在Hong等[29]的研究中,從非增強和增強CT圖像中提取放射組學特征以預測肺腺癌中的 EGFR 突變狀態。使用最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)算法進行特征選擇后,得到樸素貝葉斯分類器(naive bayes classifiers,NBC)、K-近鄰(K-nearest neighbor,KNN)、RF、SVM、決策樹(decision tree,DT)、LR 6種預測模型,并根據每個模型的AUC進行比較。LR 被選為最佳模型,進一步分析表明,從增強 CT 圖像中提取的放射組學特征比從非增強 CT 圖像中提取的放射組學特征對 EGFR 突變狀態具有更好的預測性能。傳統機器學習算法在肺腺癌基因表達和病理學亞型中應用的研究文獻見表1。

研究人員使用SVM、RF、DT、LR、XGBoost、DT等機器學習技術來分析高維基因表達數據,通過識別差異表達的基因,有助于查明與肺腺癌亞型相關的潛在生物標志物和通路。Huang等[30]使用SVM模型預測病理亞型,這些模型在區分不同亞型、幫助診斷和治療選擇方面顯示出良好的準確性。He等[31]收集了758例肺腺癌患者的數據,通過主成分分析(principal component analysis,PCA)、LASSO分析對高維特征集進行篩選,以獲得與EGFR突變相關的最佳特征子集。進一步構建了KNN、RF、輕量梯度提升機器(light gradient boosting machine,LGBM)和SVM 4種算法模型進行評估。結果表明,這些模型的AUC分別為0.83、0.91、0.94、0.79,ACC分別為81%、83%、88%、83%。
傳統的機器學習為預測肺腺癌的基因表達和病理亞型做出了重大貢獻,但也有一些限制,傳統方法難以有效整合多種多樣的數據類型,例如基因表達、病理學亞型數據等;另外機器學習方法難以進行特征選擇,從而導致過度擬合和泛化能力下降。當手動設計的可解釋特征無法滿足對預測的需求時,需要探索更加靈活和自適應的模型來處理復雜的數據模式和關系,深度學習模型為應對這些挑戰和增進我們對這種復雜疾病的理解提供了一種途徑。
4 基于深度學習的預測模型
近年來,深度學習技術在醫學圖像分析和基因表達研究等領域取得了顯著成果,特別是在肺腺癌研究中,深度學習技術已經成功應用于肺腺癌病理亞型的識別、基因表達與肺腺癌關聯的探討以及預后評估等方面。Coudray等[32]開發了一種深度學習模型,可以根據組織病理學圖像預測肺腺癌相關基因的突變狀態。他們使用非小細胞肺癌(包括腺癌病例)的整張幻燈片圖像訓練了一個卷積神經網絡(convolutional neural networks,CNN)。該模型能夠高精度地預測幾個關鍵基因(例如EGFR、KRAS、TP53)的突變狀態,采用TCGA數據集中567個圖片數量構建InceptionV3(Inception Version 3,InceptionV3)遷移學習模型,其中AUCnormal=0.984,AUCADC=0.969(normal為正常,ADC為肺腺癌),SN為89%,SP為93%。這表明深度學習可以從組織病理學圖像中提取有意義的特征來推斷遺傳信息。Yu等[33]使用卷積神經網絡根據顯微病理圖像特征預測非小細胞肺癌患者類型并進行分類。從TCGA數據集中收集1600張圖像驗證CNN模型,構建VGGNet-16(Visual Geometry Group Network-16)、深度殘差網絡(residual network,ResNet)、AlexNet和GoogleNet深度學習算法預測肺腺癌的分類模型。其中,AUC分別為0.891、0.795、0.863和0.838。用于區分肺腺癌的VGGNet模型和GoogLeNet模型的AUC范圍為0.877~0.927,表現性能略優于ResNet和AlexNet。Mobadersany等[34]應用CNN模型研究組織學和基因組學數據預測癌癥結果,證明該深度學習模型比僅使用組織學或基因組數據的模型更準確地預測患者生存。
Gertych等[35]通過評估CNN算法來評估肺腺癌生長模式,該研究收集了206個蘇木素-伊紅染色切片,使用了多個CNN算法,包括1個FT-AlexNet訓練,4個DN-AlexNet訓練以及3個GoogLeNet和ResNet-50訓練,將生長模式從圖像切片轉換為定性特征。其中,DN-AlexNet-1模型具有最佳性能,其準確率達到89.9%,高于GoogLeNet(85.84%)、ResNet-50(87.64%)和FT-AlexNet 算法(75.3%)。證明CNN算法可以有效地用于評估肺腺癌生長模式,并有望為肺癌的診斷和治療提供新的方法和工具。Wei等[36]采用ResNet對肺腺癌IAC類型進行分類,其中鱗屑、腺泡、乳頭狀、微毛細管、實體型、良性的AUC值分別為0.988、0.970、0.993、0.981、0.997、0.988。證明了CNN可以通過自動預篩選來提高肺腺癌的分類準確性。Wang等[37]采用區域卷積神經網絡(Mask region convolutional neural network,Mask R-CNN)與原始R-CNN模型相結合,進一步提升了性能,并利用Cox比例風險模型進行預后分析,這一研究將AI技術與醫學預測相結合,創新性地開辟了新的研究方向。
另外Chen等[38]采用的多實例學習結合循環神經網絡(multiple instance learning recurrent neural network,MIL-RNN)深度學習模型,比多實例學習具有更高的分類性能(AUC=0.9594),該模型通過類激活映射對小病變具有強大的定位結果。Khosravi等[39]的分類流程采用了基本的CNN結構、GoogleNet Inception模型及3種訓練策略,同時結合了先進的Inception和ResNet算法。深度學習方法在癌癥亞型識別上表現出色,且Google Inception模型具有強大的魯棒性。CNN、Inception V3、Inception V1、ResNet V2在各類癌癥組織、亞型、生物標志物和評分的識別準確率分別達到了73%、80%、92%、90%。肺腺癌算法模型匯總見表2。

Li等[40]將傳統計算機輔助設計(computer aided design,CAD)技術將任務劃分為三個階段:結節分割、特征抽取與選擇、分類模型構建;見圖2。CAD結合了CT圖像中預定結節的測量紋理特征與患者的臨床變量,使用LR、SVM和RF等機器學習算法。然而,隨著深度學習技術的發展,特別是CNN的興起,現已在 CAD 系統中應用基于深度學習的模型進行更多研究,基于深度學習的CAD系統可以自動檢索和提取可疑結節的內在特征,并且可以模擬結節的3D形狀。

綜上所述,AI技術,特別是深度學習算法,已在醫學病理診斷中取得了顯著進展,尤其在預測肺腺癌病理亞型和基因表達上表現出優越性。這些算法的主要優點在于其高效性和準確性,它們能自動分析大量數據并識別微妙的模式。然而,這些算法的性能大量依賴于訓練數據的質量和數量,數據的偏差或不足可能影響預測準確性。此外,盡管其預測結果精度高,但決策過程的黑箱性質限制了其可解釋性,這在醫學診斷中是個重要問題,因為醫生和患者需要明了診斷的依據。
5 總結與展望
通過對肺腺癌病理亞型及基因表達的研究,我們發現不同亞型的肺腺癌在基因表達上存在顯著差異,并且這些差異與患者的臨床特征和預后有關。通過機器學習和深度學習算法,可以更準確地對肺腺癌進行分類和基因表達分析,有望為患者的診斷、治療和預后評估提供更可靠的依據。
傳統的病理診斷主要依賴于病理醫師的專業知識和經驗,以及顯微鏡下的組織結構信息。這種方法可能存在主觀性,并且在診斷復雜或罕見病理類型時可能遇到困難。然而,AI算法,如SVM、KNN、VGGNet和GoogLeNet等,能夠從大量數據中學習并發現模式,進而提高診斷效率和準確性。機器學習算法的優勢包括處理大量數據的能力、預測速度快,以及提供預測的概率,后者可幫助醫生做出更加明智的決策。然而,這些算法的準確性在很大程度上取決于訓練數據的質量和數量、模型的復雜性以及參數調整等因素。盡管機器學習算法在預測肺腺癌的病理亞型和基因表達情況方面已經顯示出高度的準確性,但這并不意味著在所有情況下它們都會優于傳統的病理診斷方法。因此,深度學習和傳統病理診斷方法的結合可能是最理想的方案,利用它們各自的優勢,提高肺腺癌的診斷準確性和效率。然而,要注意的是,盡管機器學習在診斷和預測癌癥方面具有巨大的潛力,但我們不能完全依賴于它。首先,機器學習模型的預測結果可能并不總是準確的,因此需要有經驗的醫生來驗證這些結果,理想的策略是結合AI技術和傳統病理診斷方法,利用它們各自的優勢,以提高診斷的準確性和效率。
目前,AI在預測肺腺癌病理亞型和基因表達方面已經取得了顯著進展,已在醫學影像和基因數據解析方面顯示出強大的潛力。然而,AI的應用并非無懈可擊,其性能依賴于訓練數據的質量和數量,而獲取高質量、無偏差的醫學數據仍然是一項挑戰。此外,盡管AI的預測精度可能高于傳統方法,其決策過程的黑箱性質限制了其在醫療領域的透明度和可解釋性。未來可增強可解釋性,增加相關研究,以滿足醫學領域對診斷依據的解釋需求;AI模型將更有效地整合各類數據,如醫學影像、基因數據和臨床記錄,提高預測和診斷準確性;AI將推動精準醫療的發展,為患者提供個性化的治療方案。
總之,盡管AI在預測肺腺癌病理亞型分型和基因表達分析方面面臨數據質量和模型可解釋性的挑戰,但其未來發展前景仍然看好。
利益沖突:無。
作者貢獻:周連田負責論文設計、撰寫,數據分析;趙可輝負責論文設計;張志強負責資料收集和,論文設計。