近年來,以人工智能為代表的計算機科學和以組學為代表的高通量測序技術在醫療領域中占據重要地位。本文就人工智能聯合組學數據分析在非小細胞肺癌診療方面的研究進展進行綜述,旨在為開發更加有效的人工智能算法提供思路,以期以無創方式提升早期非小細胞肺癌診斷率并改善患者預后。
引用本文: 孫思穎, 李鶴成. 人工智能聯合組學數據在非小細胞肺癌診療中的研究進展. 中國胸心血管外科臨床雜志, 2023, 30(2): 305-312. doi: 10.7507/1007-4848.202202051 復制
1 肺癌、人工智能和組學的基本介紹
1.1 肺癌現狀
胸部腫瘤主要包括肺癌、食管癌和縱隔腫瘤,而肺癌是其中發病率和死亡率最高的腫瘤類型。根據GLOBOCAN最新統計數據[1],肺癌的發病率位居世界第二,死亡率位居惡性腫瘤首位;2020年約有220萬新發肺癌病例和179萬肺癌死亡病例,分別占全部癌癥病例的11.4%和全部癌癥死亡病例的18%。非小細胞肺癌(non-small cell lung cancer,NSCLC)在肺癌中發生率約85%,晚期NSCLC的5年生存率低于15%[2]。近年來,隨著早期篩查、診斷技術的進步,日益精細化和個體化的外科手術、基于分子生物學和基因組學發展的免疫治療和靶向治療以及新輔助治療等方法在臨床的推廣和應用,肺癌患者整體死亡率有所下降,5年生存率也在逐年提高[1]。但是,仍存在局部晚期或遠處轉移患者,且預后不佳。因此,開發更加有效且具有臨床應用可能性的無創肺癌早期篩查、療效預測及預后判斷方法已迫在眉睫。
1.2 人工智能的概念及分類
作為計算機科學的一個分支,人工智能(artificial intelligence,AI)是研究和開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用的科學。機器學習則是在醫學領域融入人工智能理論技術的一種有效方法,通過使用算法來解析數據并從中學習,并對事件作出判讀和預測。常見的傳統機器學習算法包括logistic回歸、貝葉斯算法、決策樹、隨機森林、主成分分析、支持向量機、K-均值聚類等[3-4]。與此對比,深度學習則更為復雜,含有較多個隱藏處理層[3, 5]。其模型建立通常包含4個步驟:構建、訓練、內部試驗和外部驗證。典型的深度學習模型有遞歸神經網絡、卷積神經網絡、生成式對抗網絡和自編碼器等[5]。
從學習方法層面,可分為監督學習、無監督學習、半監督學習和強化學習[6],其中監督學習和無監督學習方法在醫療領域較常應用。監督學習(supervised learning)是指用已知類別的樣本訓練初始模型,并可依據已知結論對模型推測結果進行反向驗證,以優化算法的參數設置;無監督學習(unsupervised learning)則是指初始模型依據相似度對類別未知的樣本進行聚類,最終得出預測的分類結果。不同算法依據其訓練樣本是否帶有標簽而分屬于不同的學習方法。
1.3 組學的概念、分類及研究現狀
組學(omics)是對一種生物體內某類物質特征集合的表征和量化,包括基因組學、轉錄組學、外顯子組學、蛋白質組學、代謝組學、免疫組學和影像組學等。研究人員主要依賴于編程語言編寫的腳本對高通量數據進行解讀和分析。此后,隨著生物信息編程模塊的開發和推廣,如Bioconductor、Biopython、Bioperl、ggplot2,組學數據的快速分析和可視化變得更為容易。2021年11月,一篇題為“Next-generation analytics for omics data”的論文發表在著名期刊Cancer Cell,其提出一種以自然語言為導向和以人工智能為驅動的分析平臺—DrBioRight[7]。這使得研究人員能夠以一種直觀、高效且透明的方式進行組學數據分析,為其充分發掘和利用提供有力前提。
2 人工智能聯合組學數據在非小細胞肺癌中的應用
隨著高通量測序技術的發展,單組學分析技術日益成熟與完善,而多組學整合分析成為研究者們探索生命機制的嶄新方向。在此背景之下,結合組學數據的醫療行業的智能化發展建設已成必然趨勢。雖然各類組學數據呈現指數級增長,但其龐大的數據資源仍有待發掘和利用。與此同時,人工智能算法的優勢逐漸凸顯。計算機可利用其超高速運算協助研究者從大量數據中辨別和提取更多有效信息,為無創早期肺癌篩查、肺癌術前分類預測和預后判斷等提供益處;見圖1。因此,人工智能算法聯合組學數據分析在肺癌中具有良好的開發和應用前景。

2.1 人工智能聯合組學數據在非小細胞肺癌篩查中的應用
隨著篩查技術及方法的升級和創新,NSCLC的早期發現對延長患者術后生存期有更積極的作用。在一項判斷曾吸煙者未來發生NSCLC概率的試驗[8]中,研究者將eXtreme Gradient Boosting(XGBoost)和2012年經充分驗證的前列腺癌、肺癌、結直腸癌和卵巢癌篩查試驗風險的優化版模型預測效果進行對比,發現前者可以提早9~12個月篩選出NSCLC患者。受試者工作特性曲線下面積(area under receiver operating characteristic curve,AUC)分別為0.86和0.79,診斷性優勢比(odds ratio,OR)分別為12.3和7.4,敏感性分別為40.1%和27.9%,特異性均為95.0%,顯示出機器學習模型的優勢。目前,美國食品藥品監督管理局已經批準了部分深度學習模型在非典型人群中篩查肺結節的應用,如Siemens syngo.CT Lung CAD、Coreline AView LCS、MeVis Veolity[4]。
2011年,Hanahan等[9]在Cell雜志上發表一篇綜述,其中將“腫瘤的能量代謝方式的改變”列為腫瘤的十大標志之一。此后,代謝組學的發展更加推動對腫瘤相關的代謝物質的研究。Huang等[10]通過優化鐵粒子相關解吸/離子質譜方法測定并獲得早期肺腺癌患者50 nL血清中代謝產物數據,這些高維數據通常包含大量噪聲特征。相較于普通的回歸算法,稀疏回歸算法可以嘗試引入正則項約束,使得模型的參數變得稀疏和可解釋。因此研究者利用此算法構建早期肺腺癌診斷的機器學習模型,并經過后期驗證和優化參數設置,發掘出變化顯著的7種代謝物和其相關代謝途徑,作為早期肺腺癌篩查的生物標志物組合。
2.2 人工智能聯合影像組學在非小細胞肺癌中的應用
2.2.1 肺結節分類
CT是必不可少的影像學檢查方法,隨著掃描層面的增加和三維重建技術的應用融合,CT影像為肺癌的臨床診斷提供了不可或缺的作用。但由于人工讀片的誤差,微小結節容易被忽視而造成漏診。
相較于傳統影像學,影像組學的誕生進一步促進了人工智能在醫療行業的應用。影像組學,又稱為放射組學(radiomics),是指從CT、磁共振成像(magnetic resonance imaging,MRI)和正電子發射計算機斷層顯像(positron emission tomography/computed tomography,PET/CT)等影像結果中高通量地提取影像信息,對目標病變或腫瘤區域進行定位和分割,提取和量化特征以及建立模型,初步預測腫瘤分類,進而輔助醫師做出更加準確的診斷[11]。研究者期望應用不同的人工智能方法,結合海量的影像組學信息,增加對微小結節的讀取并對其類型作出預判。
一種平行非同步的三流程的綜合算法被開發用以提供完整的肺結節影像信息。通過3D U-NET分割肺段,3D Retina-UNET檢測肺結節,支持向量機進行初步分類。檢測結果可用AUC進行評估[12]。在另一項試驗[13]中,研究者應用一種隨機森林分類器,從大量數據庫的低劑量CT肺部影像中獲取23個惡性肺結節特征,并據此對驗證組中肺結節類型進行判斷,結果表明相較于人工讀片可降低假陽性率。劉曉鵬等[14]利用5 000例1 mm和5 mm層厚的CT圖像訓練與上海交通大學合作開發的人工智能識別系統,自動學習和積累1~3 cm惡性肺結節的分類特征,并用500例CT圖像進行驗證,準確率和5位醫師讀片的診斷結果無顯著差異,分別為95.2%和95.6%。
作為深度學習算法的分支,人工神經網絡和卷積神經網絡算法因其對圖像及矩陣類數據的高度適用性,而在影像組學中得到廣泛應用。相較于機器學習,二者可進一步提升對圖像特征的提取識別能力,從而增加NSCLC診斷的準確率。Ardila等[15]構建了一個可用于定位和評估患者肺結節惡性程度的3D卷積神經網絡模型,通過與6位放射科醫師在無CT成像輔助下的判斷結果進行對比,假陽性率和假陰性率分別降低11%和5%;而在有CT成像輔助時,二者的判斷準確率相當。此外,基于卷積神經網絡的肺癌預測人工智能算法仍被用于和英國指南推薦的布魯克大學模型進行比較。結果表明,AUC分別為89.6%和86.8%,且深度學習算法可以降低誤診率和漏診率以及識別良性結節,在一定程度上減少不必要的后續診療過程和醫療資源的過度消耗[16]。另外,研究者[17]開發了一種更為復雜的深度神經網絡—多流多維度卷積神經網絡,并與支持向量機和K-均值算法進行對比,結果表明相較于傳統機器學習,深度學習更具有優勢。
此外,在人工智能相關算法模型的支持下,PET/CT也已經廣泛應用于肺結節的良惡性初步判斷、是否轉移及部位的臨床輔助診斷中,為肺癌的早期診斷和患者預后判斷提供依據[18]。Zhong等[19]以基于圖像的PET/CT、隨機漫步和摳圖的3種共分割方法作為對照,探究基于3D深度學習完全卷積網絡(deep learning fully convolutional network,DFCN)的PET/CT在NSCLC腫瘤分割中的應用和效能。研究顯示,二者的結果具有高度一致性,表現為試驗組的平均戴斯相似性系數高于對照組,且DFCN同時應用于PET和CT的表現優于DFCN分別應用于PET或CT。
2.2.2 NSCLC轉移預測
人工智能可以在術前對淋巴結轉移情況進行預測并對預后作出判斷。研究者們利用深度學習模型從回顧性研究中Ⅰ期NSCLC患者的CT影像結果中提取特征信息,對N2淋巴結轉移風險進行評分。據此,該模型可結合肺癌基因變異信息,判斷患者預后并進行分層。AUC和Cox比例風險模型分別被用于量化和評估診斷效率和預后結果,具有較高的AUC、特異性和準確性[20]。
腦是NSCLC常見的轉移部位[21]。MRI對腦組織成像具有獨特優勢,但仍會因假陽性造成過度診療或因假陰性造成漏診,影響患者最佳治療方案的選擇和整體預后。研究者[22]獲取具有315處腦轉移病灶的98例NSCLC患者治療前腦MRI影像,訓練一種3D卷積神經網絡模型(DeepMedic),據此對腦轉移灶作出判斷。所有影像均由神經外科和放射科醫師進行人工讀片作為對照。結果表明,DeepMedic具有更高的敏感性和準確性。
PET/CT作為一種較為成熟的臨床輔助診斷技術,可以對腫瘤患者全身的異常攝取部位進行辨別和定位。但是其在微小轉移灶的識別方面,還是存在一定困難。對此,研究者自主研發了一種用以判斷腫瘤在模型小鼠全身轉移情況的技術和相應模型。Pan等[23]設計并開發了一個可自動量化癌癥轉移的模型—DeepMACT。通過增強癌細胞的熒光信號,將其在被移植小鼠體內的遷移過程可視化。經過與人工標注進行對比,整體分析出轉移瘤的大小、形狀和空間分布,以及單克隆抗體靶向部位。相較于MRI、CT和生物發光影像,該模型更有助于發現微小轉移灶和繪制完整且詳細的生物體內癌細胞轉移圖譜。
2.2.3 NSCLC基因突變預測
人工智能算法聯合影像組學可以推斷肺癌相關突變基因。研究者[24]從The Cancer Imaging Archive(TCIA)數據庫中選取161例NSCLC患者的低劑量CT圖像,從中提取851個影像學特征,利用基因算法和XGBoost分類器將其劃分為9大類別,從而對患者的表皮生長因子受體(epidermal growth factor receptor,EGFR)和鼠類肉瘤病毒癌基因(Kirsten rat sarcoma viral oncogene homolog,KRAS)突變情況進行判斷,AUC分別為0.836和0.860。另一項研究[25]中,研究者對109例首次治療NSCLC患者的影像組學進行分析,并結合性別和吸煙狀況等基線特征,建立主成分分析和支持向量機為主的機器學習模型以判斷EGFR基因突變情況。據此,研究者提取了17個影像組學特征,驗證了其與正在進行EGFR抑制劑治療的患者發生T790M突變具有顯著相關性,以此判斷患者是否發生腫瘤耐藥性突變。此外,Mu等[26]使用基于PET/CT的二維小殘留卷積網絡模型來預測不同研究機構的NSCLC患者隊列中EGFR突變狀況,并通過患者對治療藥物的反應進行驗證。結果顯示,使用EGFR-酪氨酸激酶抑制劑(EGFR-tyrosine kinase inhibitor,EGFR-TKI)的患者中,深度學習分數與無進展生存期(progression-free survival,PFS)呈顯著正相關,而在使用免疫檢查點抑制劑治療的患者中則呈負相關,顯示出該模型較高的準確性。
此外,除了常見的EGFR和KRAS基因突變,間變性淋巴瘤激酶(anaplastic lymphoma kinase,ALK)融合也是NSCLC的基因突變方式之一[27]。Song等[28]通過基于多種算法結合的深度學習模型、CT影像和臨床病理學信息對937例NSCLC患者腫瘤細胞基因組的ALK融合突變進行估算,AUC為0.8046。同時對91例正在接受ALK-TKI藥物治療的患者預后進行預測,結果表明ALK陽性患者具有更長的無疾病生存期。
除了聯合影像組學,病理組學結合人工智能也可對NSCLC突變基因作出預測。Coudray等[29]利用深度卷積神經網絡(inception v3)識別從TCGA數據庫中獲取的NSCLC病理圖片,并進行分類訓練和驗證。此外,該模型可通過病理圖片預測顯著突變基因,AUC為0.856。
2.2.4 NSCLC治療效果評價
放療是NSCLC患者常見的輔助治療方法之一。人工智能聯合影像組學可對放療療效和預后進行評估和預判。Hosny等[30]利用3D卷積神經網絡對771例放療患者和391例手術患者預后特征進行提取,結果表明其與2年總生存期(overall survival,OS)存在顯著相關性,AUC分別為0.70和0.71。同時,他們依據這些特征將患者分成高、低死亡風險組。該模型的預測準確性優于以年齡、性別和TNM分期等特征進行分類的隨機森林模型。此外,人工智能聯合多組學數據對放療相關并發癥的研究也被報道。有研究者[31]提出一種新型精算深度學習神經網絡模型,聯合PET相關放射組學、細胞因子和miRNAs等信息,用于預測Ⅲ期NSCLC患者的放療結果及并發放射性肺炎的可能性。由于該深度學習模型整合了多組學數據和其中錯綜復雜相互作用,實際預測準確性優于傳統概率模型。
另外,人工智能算法仍有助于評價腫瘤免疫治療療效。實體瘤療效評價標準(response evaluation criteria in solid tumors,RECIST)是一種對可測量病灶的腫瘤患者在基線狀態和隨訪時應用相同且標準的檢查方法,以量化抗腫瘤療效的評價標準。研究者利用機器學習模型整合NSCLC患者在使用程序性死亡受體-1(programmed cell death-1,PD-1)抑制劑前后的影像組學信息,推測出由RECIST定義的結果,并預測反應率和PFS,增加了證據的可信度。應用此種算法使大型臨床數據庫的分析成為可能[32]。此外,另一項研究[33]通過回顧性分析939例ⅢB~Ⅳ期NSCLC患者的治療前CT影像和程序性死亡受體-1配體(programmed cell death-1 ligand,PD-L1)表達量數據,訓練和驗證深度卷積神經網絡模型,并得出PD-L1表達特征(PD-L1 expression signature,PD-L1ES)并進行預后判讀。在應用抗PD-1抗體治療患者中,PD-L1ES與PFS呈顯著負相關性。在另一項研究[34]中,研究者使用人工智能算法從NSCLC患者在抗PD-1抗體治療前后的增強CT影像中提取關鍵信息和特征,據此得出基于影像組學的生物標志物,并預測患者是否對該種免疫治療產生反應以及進行效應分層。
2.3 人工智能聯合多組學數據在非小細胞肺癌預后判斷中的應用
部分研究通過獲取數據庫內患者的數據,以完成模型構建、訓練和參數優化。有研究者[35]從Surveillance,Epidemiology,and End Results(SEER)數據庫中獲取2010—2015年Ⅰ~Ⅳ期NSCLC患者信息,包括基本特征、腫瘤分期和治療方法等,利用深度學習生存神經網絡(DeepSurv)模型預測患者預后及生存時間。分析結果表明,與傳統TNM分期預測結果相比,該算法模型預測結果更為準確,且接受推薦治療方案的患者生存率高于未接受的患者。另一項研究[36]使用端到端雙向生成對抗網絡框架模型以預測Ⅳ期EGFR突變的NSCLC患者在應用EGFR-TKI后的PFS。相較于使用傳統影像學預測方法,其結果更為準確。此外,研究者將卷積神經網絡應用于NSCLC患者的病理圖像識別,并結合DNA測序、RNA測序、免疫組織化學和腫瘤浸潤性淋巴細胞估計的單細胞注釋等信息,進而判斷微環境中腫瘤細胞、免疫細胞、間質細胞等細胞組分的比例和空間分布特征以及與基因突變的關聯性。據此推斷腫瘤特異性的免疫狀態,并對患者預后和復發的可能性進行預測[37]。最新研究[38]應用無監督聚類分析—K-鄰近算法和Louvain社區發現算法,對泛癌免疫微環境內細胞的批量RNA測序數據進行分析,識別其中免疫細胞類型和數量占比,并據此分類為12種不同的腫瘤免疫細胞原型。通過結合生存數據,對其與預后之間的相關性進行評估。以腫瘤微環境內免疫狀態進行分型可能成為新的腫瘤分類方法,并影響后續治療方案的選擇。
此外,現有研究一直致力于發掘腫瘤復發的標志物,以期通過更加有效的方式進行腫瘤復發監測。研究者[39]聯合隨機森林和LASSO logistic模型識別出4個可對復發情況進行預測的CpG甲基化標志物,并據此構建復發風險模型,估算出患者的無復發生存期(recurrence-free survival,RFS)。此外,該模型可綜合基因組學、轉錄組學、蛋白質組學數據和患者信息得出風險分數,后者與患者的臨床分期、細胞增殖標志物、體細胞突變、腫瘤突變負荷和對免疫治療的反應率具有顯著相關性。
人工智能聯合組學數據在非小細胞肺癌中的研究進展匯總見表1。

3 人工智能在非小細胞肺癌診療中應用的發展和展望
人工智能的出現使得呈指數級增長的多組學數據合并分析成為可能,推動智能醫療的持續發展。現有大量研究表明,與傳統或常規檢測方法相比,人工智能算法聯合組學數據分析在NSCLC篩查、影像診斷、病理診斷、療效預測、基因突變預測和預后判斷等方面存在一定優勢。隨著人工智能算法的改進,其模型預測的準確性也在逐步提高。但是與此同時,研發人員需要獲取更多的樣本數據對其進行訓練和驗證,以保證預測結果和實際情況更加相符。此外,現有模型多屬于監督學習類型,要求數據樣本帶有標簽,以便進行反向驗證;僅有少量模型應用無監督學習算法。因此,人工智能模型在臨床的應用與推廣仍存在一定障礙,亟待研究人員開發出更加有效的算法以適應NSCLC患者的個體差異性和腫瘤異質性。
其次,現有的相關研究主要集中在發掘影像組學數據和對NSCLC患者的各項診療情況進行預測。未來預期有更多的研究者綜合基因組學、轉錄組學、代謝組學、表觀遺傳組學、免疫組學等多組學數據對單個肺結節分型、多發肺結節類型進行預測,對具有肺癌家族史患者的肺結節惡性程度進行預判,以及為患者提供最佳治療方案,以期解決臨床上較多的無定論問題。胸外科醫師具有豐富的NSCLC診療經驗,應更多地參與相關數據庫的構建工作,對臨床患者詳細信息進行梳理、標注和統計,以得到標準化數據,推動后續人工智能模型的構建、訓練和驗證,進而在一定程度上為推動智能醫療事業的發展助力。
此外,近年來機器人手術在胸外科也逐步得到應用。達芬奇手術機器人系統依托其靈活的手腕自由度、高清的三維視覺和震顫消除等優勢,具備在狹小的胸腔,尤其是縱隔內開展復雜手術的可能性,因而備受胸外科醫生的推崇。與此相關的臨床試驗也正在大量開展,以期用足量的臨床證據來證明機器人手術是未來外科手術發展的必然趨勢。然而,嚴格意義上,這種手術形式并不具備完全的機器自主性,而是要在人為的操控下進行手術。最新一項研究[40]實現了使用智能組織自主機器人執行腹腔鏡小腸吻合術。操作者在自主生成的手術計劃中進行選擇,并指定機器人獨立執行各項任務。這種全新的手術形式已經在豬模型上實施,其結果優于專業外科醫生的手術操作和機器人輔助的外科手術。相信經過研究人員和外科醫師的通力合作,機器人手術系統將會和人工智能算法更加緊密結合,為實現更加精細的機器化外科手術提供支持。
最后,人工智能聯合組學數據分析在NSCLC診療領域具有良好的開發前景和無限的應用潛力,胸外科醫師應和算法模型的研發人員通力合作,為人工智能的臨床推廣作出努力,以期為患者提供更加精準的醫療服務。
利益沖突:無。
作者貢獻:孫思穎負責論文設計和撰寫;李鶴成負責論文總體設想、內容調整、修改及潤色。
1 肺癌、人工智能和組學的基本介紹
1.1 肺癌現狀
胸部腫瘤主要包括肺癌、食管癌和縱隔腫瘤,而肺癌是其中發病率和死亡率最高的腫瘤類型。根據GLOBOCAN最新統計數據[1],肺癌的發病率位居世界第二,死亡率位居惡性腫瘤首位;2020年約有220萬新發肺癌病例和179萬肺癌死亡病例,分別占全部癌癥病例的11.4%和全部癌癥死亡病例的18%。非小細胞肺癌(non-small cell lung cancer,NSCLC)在肺癌中發生率約85%,晚期NSCLC的5年生存率低于15%[2]。近年來,隨著早期篩查、診斷技術的進步,日益精細化和個體化的外科手術、基于分子生物學和基因組學發展的免疫治療和靶向治療以及新輔助治療等方法在臨床的推廣和應用,肺癌患者整體死亡率有所下降,5年生存率也在逐年提高[1]。但是,仍存在局部晚期或遠處轉移患者,且預后不佳。因此,開發更加有效且具有臨床應用可能性的無創肺癌早期篩查、療效預測及預后判斷方法已迫在眉睫。
1.2 人工智能的概念及分類
作為計算機科學的一個分支,人工智能(artificial intelligence,AI)是研究和開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用的科學。機器學習則是在醫學領域融入人工智能理論技術的一種有效方法,通過使用算法來解析數據并從中學習,并對事件作出判讀和預測。常見的傳統機器學習算法包括logistic回歸、貝葉斯算法、決策樹、隨機森林、主成分分析、支持向量機、K-均值聚類等[3-4]。與此對比,深度學習則更為復雜,含有較多個隱藏處理層[3, 5]。其模型建立通常包含4個步驟:構建、訓練、內部試驗和外部驗證。典型的深度學習模型有遞歸神經網絡、卷積神經網絡、生成式對抗網絡和自編碼器等[5]。
從學習方法層面,可分為監督學習、無監督學習、半監督學習和強化學習[6],其中監督學習和無監督學習方法在醫療領域較常應用。監督學習(supervised learning)是指用已知類別的樣本訓練初始模型,并可依據已知結論對模型推測結果進行反向驗證,以優化算法的參數設置;無監督學習(unsupervised learning)則是指初始模型依據相似度對類別未知的樣本進行聚類,最終得出預測的分類結果。不同算法依據其訓練樣本是否帶有標簽而分屬于不同的學習方法。
1.3 組學的概念、分類及研究現狀
組學(omics)是對一種生物體內某類物質特征集合的表征和量化,包括基因組學、轉錄組學、外顯子組學、蛋白質組學、代謝組學、免疫組學和影像組學等。研究人員主要依賴于編程語言編寫的腳本對高通量數據進行解讀和分析。此后,隨著生物信息編程模塊的開發和推廣,如Bioconductor、Biopython、Bioperl、ggplot2,組學數據的快速分析和可視化變得更為容易。2021年11月,一篇題為“Next-generation analytics for omics data”的論文發表在著名期刊Cancer Cell,其提出一種以自然語言為導向和以人工智能為驅動的分析平臺—DrBioRight[7]。這使得研究人員能夠以一種直觀、高效且透明的方式進行組學數據分析,為其充分發掘和利用提供有力前提。
2 人工智能聯合組學數據在非小細胞肺癌中的應用
隨著高通量測序技術的發展,單組學分析技術日益成熟與完善,而多組學整合分析成為研究者們探索生命機制的嶄新方向。在此背景之下,結合組學數據的醫療行業的智能化發展建設已成必然趨勢。雖然各類組學數據呈現指數級增長,但其龐大的數據資源仍有待發掘和利用。與此同時,人工智能算法的優勢逐漸凸顯。計算機可利用其超高速運算協助研究者從大量數據中辨別和提取更多有效信息,為無創早期肺癌篩查、肺癌術前分類預測和預后判斷等提供益處;見圖1。因此,人工智能算法聯合組學數據分析在肺癌中具有良好的開發和應用前景。

2.1 人工智能聯合組學數據在非小細胞肺癌篩查中的應用
隨著篩查技術及方法的升級和創新,NSCLC的早期發現對延長患者術后生存期有更積極的作用。在一項判斷曾吸煙者未來發生NSCLC概率的試驗[8]中,研究者將eXtreme Gradient Boosting(XGBoost)和2012年經充分驗證的前列腺癌、肺癌、結直腸癌和卵巢癌篩查試驗風險的優化版模型預測效果進行對比,發現前者可以提早9~12個月篩選出NSCLC患者。受試者工作特性曲線下面積(area under receiver operating characteristic curve,AUC)分別為0.86和0.79,診斷性優勢比(odds ratio,OR)分別為12.3和7.4,敏感性分別為40.1%和27.9%,特異性均為95.0%,顯示出機器學習模型的優勢。目前,美國食品藥品監督管理局已經批準了部分深度學習模型在非典型人群中篩查肺結節的應用,如Siemens syngo.CT Lung CAD、Coreline AView LCS、MeVis Veolity[4]。
2011年,Hanahan等[9]在Cell雜志上發表一篇綜述,其中將“腫瘤的能量代謝方式的改變”列為腫瘤的十大標志之一。此后,代謝組學的發展更加推動對腫瘤相關的代謝物質的研究。Huang等[10]通過優化鐵粒子相關解吸/離子質譜方法測定并獲得早期肺腺癌患者50 nL血清中代謝產物數據,這些高維數據通常包含大量噪聲特征。相較于普通的回歸算法,稀疏回歸算法可以嘗試引入正則項約束,使得模型的參數變得稀疏和可解釋。因此研究者利用此算法構建早期肺腺癌診斷的機器學習模型,并經過后期驗證和優化參數設置,發掘出變化顯著的7種代謝物和其相關代謝途徑,作為早期肺腺癌篩查的生物標志物組合。
2.2 人工智能聯合影像組學在非小細胞肺癌中的應用
2.2.1 肺結節分類
CT是必不可少的影像學檢查方法,隨著掃描層面的增加和三維重建技術的應用融合,CT影像為肺癌的臨床診斷提供了不可或缺的作用。但由于人工讀片的誤差,微小結節容易被忽視而造成漏診。
相較于傳統影像學,影像組學的誕生進一步促進了人工智能在醫療行業的應用。影像組學,又稱為放射組學(radiomics),是指從CT、磁共振成像(magnetic resonance imaging,MRI)和正電子發射計算機斷層顯像(positron emission tomography/computed tomography,PET/CT)等影像結果中高通量地提取影像信息,對目標病變或腫瘤區域進行定位和分割,提取和量化特征以及建立模型,初步預測腫瘤分類,進而輔助醫師做出更加準確的診斷[11]。研究者期望應用不同的人工智能方法,結合海量的影像組學信息,增加對微小結節的讀取并對其類型作出預判。
一種平行非同步的三流程的綜合算法被開發用以提供完整的肺結節影像信息。通過3D U-NET分割肺段,3D Retina-UNET檢測肺結節,支持向量機進行初步分類。檢測結果可用AUC進行評估[12]。在另一項試驗[13]中,研究者應用一種隨機森林分類器,從大量數據庫的低劑量CT肺部影像中獲取23個惡性肺結節特征,并據此對驗證組中肺結節類型進行判斷,結果表明相較于人工讀片可降低假陽性率。劉曉鵬等[14]利用5 000例1 mm和5 mm層厚的CT圖像訓練與上海交通大學合作開發的人工智能識別系統,自動學習和積累1~3 cm惡性肺結節的分類特征,并用500例CT圖像進行驗證,準確率和5位醫師讀片的診斷結果無顯著差異,分別為95.2%和95.6%。
作為深度學習算法的分支,人工神經網絡和卷積神經網絡算法因其對圖像及矩陣類數據的高度適用性,而在影像組學中得到廣泛應用。相較于機器學習,二者可進一步提升對圖像特征的提取識別能力,從而增加NSCLC診斷的準確率。Ardila等[15]構建了一個可用于定位和評估患者肺結節惡性程度的3D卷積神經網絡模型,通過與6位放射科醫師在無CT成像輔助下的判斷結果進行對比,假陽性率和假陰性率分別降低11%和5%;而在有CT成像輔助時,二者的判斷準確率相當。此外,基于卷積神經網絡的肺癌預測人工智能算法仍被用于和英國指南推薦的布魯克大學模型進行比較。結果表明,AUC分別為89.6%和86.8%,且深度學習算法可以降低誤診率和漏診率以及識別良性結節,在一定程度上減少不必要的后續診療過程和醫療資源的過度消耗[16]。另外,研究者[17]開發了一種更為復雜的深度神經網絡—多流多維度卷積神經網絡,并與支持向量機和K-均值算法進行對比,結果表明相較于傳統機器學習,深度學習更具有優勢。
此外,在人工智能相關算法模型的支持下,PET/CT也已經廣泛應用于肺結節的良惡性初步判斷、是否轉移及部位的臨床輔助診斷中,為肺癌的早期診斷和患者預后判斷提供依據[18]。Zhong等[19]以基于圖像的PET/CT、隨機漫步和摳圖的3種共分割方法作為對照,探究基于3D深度學習完全卷積網絡(deep learning fully convolutional network,DFCN)的PET/CT在NSCLC腫瘤分割中的應用和效能。研究顯示,二者的結果具有高度一致性,表現為試驗組的平均戴斯相似性系數高于對照組,且DFCN同時應用于PET和CT的表現優于DFCN分別應用于PET或CT。
2.2.2 NSCLC轉移預測
人工智能可以在術前對淋巴結轉移情況進行預測并對預后作出判斷。研究者們利用深度學習模型從回顧性研究中Ⅰ期NSCLC患者的CT影像結果中提取特征信息,對N2淋巴結轉移風險進行評分。據此,該模型可結合肺癌基因變異信息,判斷患者預后并進行分層。AUC和Cox比例風險模型分別被用于量化和評估診斷效率和預后結果,具有較高的AUC、特異性和準確性[20]。
腦是NSCLC常見的轉移部位[21]。MRI對腦組織成像具有獨特優勢,但仍會因假陽性造成過度診療或因假陰性造成漏診,影響患者最佳治療方案的選擇和整體預后。研究者[22]獲取具有315處腦轉移病灶的98例NSCLC患者治療前腦MRI影像,訓練一種3D卷積神經網絡模型(DeepMedic),據此對腦轉移灶作出判斷。所有影像均由神經外科和放射科醫師進行人工讀片作為對照。結果表明,DeepMedic具有更高的敏感性和準確性。
PET/CT作為一種較為成熟的臨床輔助診斷技術,可以對腫瘤患者全身的異常攝取部位進行辨別和定位。但是其在微小轉移灶的識別方面,還是存在一定困難。對此,研究者自主研發了一種用以判斷腫瘤在模型小鼠全身轉移情況的技術和相應模型。Pan等[23]設計并開發了一個可自動量化癌癥轉移的模型—DeepMACT。通過增強癌細胞的熒光信號,將其在被移植小鼠體內的遷移過程可視化。經過與人工標注進行對比,整體分析出轉移瘤的大小、形狀和空間分布,以及單克隆抗體靶向部位。相較于MRI、CT和生物發光影像,該模型更有助于發現微小轉移灶和繪制完整且詳細的生物體內癌細胞轉移圖譜。
2.2.3 NSCLC基因突變預測
人工智能算法聯合影像組學可以推斷肺癌相關突變基因。研究者[24]從The Cancer Imaging Archive(TCIA)數據庫中選取161例NSCLC患者的低劑量CT圖像,從中提取851個影像學特征,利用基因算法和XGBoost分類器將其劃分為9大類別,從而對患者的表皮生長因子受體(epidermal growth factor receptor,EGFR)和鼠類肉瘤病毒癌基因(Kirsten rat sarcoma viral oncogene homolog,KRAS)突變情況進行判斷,AUC分別為0.836和0.860。另一項研究[25]中,研究者對109例首次治療NSCLC患者的影像組學進行分析,并結合性別和吸煙狀況等基線特征,建立主成分分析和支持向量機為主的機器學習模型以判斷EGFR基因突變情況。據此,研究者提取了17個影像組學特征,驗證了其與正在進行EGFR抑制劑治療的患者發生T790M突變具有顯著相關性,以此判斷患者是否發生腫瘤耐藥性突變。此外,Mu等[26]使用基于PET/CT的二維小殘留卷積網絡模型來預測不同研究機構的NSCLC患者隊列中EGFR突變狀況,并通過患者對治療藥物的反應進行驗證。結果顯示,使用EGFR-酪氨酸激酶抑制劑(EGFR-tyrosine kinase inhibitor,EGFR-TKI)的患者中,深度學習分數與無進展生存期(progression-free survival,PFS)呈顯著正相關,而在使用免疫檢查點抑制劑治療的患者中則呈負相關,顯示出該模型較高的準確性。
此外,除了常見的EGFR和KRAS基因突變,間變性淋巴瘤激酶(anaplastic lymphoma kinase,ALK)融合也是NSCLC的基因突變方式之一[27]。Song等[28]通過基于多種算法結合的深度學習模型、CT影像和臨床病理學信息對937例NSCLC患者腫瘤細胞基因組的ALK融合突變進行估算,AUC為0.8046。同時對91例正在接受ALK-TKI藥物治療的患者預后進行預測,結果表明ALK陽性患者具有更長的無疾病生存期。
除了聯合影像組學,病理組學結合人工智能也可對NSCLC突變基因作出預測。Coudray等[29]利用深度卷積神經網絡(inception v3)識別從TCGA數據庫中獲取的NSCLC病理圖片,并進行分類訓練和驗證。此外,該模型可通過病理圖片預測顯著突變基因,AUC為0.856。
2.2.4 NSCLC治療效果評價
放療是NSCLC患者常見的輔助治療方法之一。人工智能聯合影像組學可對放療療效和預后進行評估和預判。Hosny等[30]利用3D卷積神經網絡對771例放療患者和391例手術患者預后特征進行提取,結果表明其與2年總生存期(overall survival,OS)存在顯著相關性,AUC分別為0.70和0.71。同時,他們依據這些特征將患者分成高、低死亡風險組。該模型的預測準確性優于以年齡、性別和TNM分期等特征進行分類的隨機森林模型。此外,人工智能聯合多組學數據對放療相關并發癥的研究也被報道。有研究者[31]提出一種新型精算深度學習神經網絡模型,聯合PET相關放射組學、細胞因子和miRNAs等信息,用于預測Ⅲ期NSCLC患者的放療結果及并發放射性肺炎的可能性。由于該深度學習模型整合了多組學數據和其中錯綜復雜相互作用,實際預測準確性優于傳統概率模型。
另外,人工智能算法仍有助于評價腫瘤免疫治療療效。實體瘤療效評價標準(response evaluation criteria in solid tumors,RECIST)是一種對可測量病灶的腫瘤患者在基線狀態和隨訪時應用相同且標準的檢查方法,以量化抗腫瘤療效的評價標準。研究者利用機器學習模型整合NSCLC患者在使用程序性死亡受體-1(programmed cell death-1,PD-1)抑制劑前后的影像組學信息,推測出由RECIST定義的結果,并預測反應率和PFS,增加了證據的可信度。應用此種算法使大型臨床數據庫的分析成為可能[32]。此外,另一項研究[33]通過回顧性分析939例ⅢB~Ⅳ期NSCLC患者的治療前CT影像和程序性死亡受體-1配體(programmed cell death-1 ligand,PD-L1)表達量數據,訓練和驗證深度卷積神經網絡模型,并得出PD-L1表達特征(PD-L1 expression signature,PD-L1ES)并進行預后判讀。在應用抗PD-1抗體治療患者中,PD-L1ES與PFS呈顯著負相關性。在另一項研究[34]中,研究者使用人工智能算法從NSCLC患者在抗PD-1抗體治療前后的增強CT影像中提取關鍵信息和特征,據此得出基于影像組學的生物標志物,并預測患者是否對該種免疫治療產生反應以及進行效應分層。
2.3 人工智能聯合多組學數據在非小細胞肺癌預后判斷中的應用
部分研究通過獲取數據庫內患者的數據,以完成模型構建、訓練和參數優化。有研究者[35]從Surveillance,Epidemiology,and End Results(SEER)數據庫中獲取2010—2015年Ⅰ~Ⅳ期NSCLC患者信息,包括基本特征、腫瘤分期和治療方法等,利用深度學習生存神經網絡(DeepSurv)模型預測患者預后及生存時間。分析結果表明,與傳統TNM分期預測結果相比,該算法模型預測結果更為準確,且接受推薦治療方案的患者生存率高于未接受的患者。另一項研究[36]使用端到端雙向生成對抗網絡框架模型以預測Ⅳ期EGFR突變的NSCLC患者在應用EGFR-TKI后的PFS。相較于使用傳統影像學預測方法,其結果更為準確。此外,研究者將卷積神經網絡應用于NSCLC患者的病理圖像識別,并結合DNA測序、RNA測序、免疫組織化學和腫瘤浸潤性淋巴細胞估計的單細胞注釋等信息,進而判斷微環境中腫瘤細胞、免疫細胞、間質細胞等細胞組分的比例和空間分布特征以及與基因突變的關聯性。據此推斷腫瘤特異性的免疫狀態,并對患者預后和復發的可能性進行預測[37]。最新研究[38]應用無監督聚類分析—K-鄰近算法和Louvain社區發現算法,對泛癌免疫微環境內細胞的批量RNA測序數據進行分析,識別其中免疫細胞類型和數量占比,并據此分類為12種不同的腫瘤免疫細胞原型。通過結合生存數據,對其與預后之間的相關性進行評估。以腫瘤微環境內免疫狀態進行分型可能成為新的腫瘤分類方法,并影響后續治療方案的選擇。
此外,現有研究一直致力于發掘腫瘤復發的標志物,以期通過更加有效的方式進行腫瘤復發監測。研究者[39]聯合隨機森林和LASSO logistic模型識別出4個可對復發情況進行預測的CpG甲基化標志物,并據此構建復發風險模型,估算出患者的無復發生存期(recurrence-free survival,RFS)。此外,該模型可綜合基因組學、轉錄組學、蛋白質組學數據和患者信息得出風險分數,后者與患者的臨床分期、細胞增殖標志物、體細胞突變、腫瘤突變負荷和對免疫治療的反應率具有顯著相關性。
人工智能聯合組學數據在非小細胞肺癌中的研究進展匯總見表1。

3 人工智能在非小細胞肺癌診療中應用的發展和展望
人工智能的出現使得呈指數級增長的多組學數據合并分析成為可能,推動智能醫療的持續發展。現有大量研究表明,與傳統或常規檢測方法相比,人工智能算法聯合組學數據分析在NSCLC篩查、影像診斷、病理診斷、療效預測、基因突變預測和預后判斷等方面存在一定優勢。隨著人工智能算法的改進,其模型預測的準確性也在逐步提高。但是與此同時,研發人員需要獲取更多的樣本數據對其進行訓練和驗證,以保證預測結果和實際情況更加相符。此外,現有模型多屬于監督學習類型,要求數據樣本帶有標簽,以便進行反向驗證;僅有少量模型應用無監督學習算法。因此,人工智能模型在臨床的應用與推廣仍存在一定障礙,亟待研究人員開發出更加有效的算法以適應NSCLC患者的個體差異性和腫瘤異質性。
其次,現有的相關研究主要集中在發掘影像組學數據和對NSCLC患者的各項診療情況進行預測。未來預期有更多的研究者綜合基因組學、轉錄組學、代謝組學、表觀遺傳組學、免疫組學等多組學數據對單個肺結節分型、多發肺結節類型進行預測,對具有肺癌家族史患者的肺結節惡性程度進行預判,以及為患者提供最佳治療方案,以期解決臨床上較多的無定論問題。胸外科醫師具有豐富的NSCLC診療經驗,應更多地參與相關數據庫的構建工作,對臨床患者詳細信息進行梳理、標注和統計,以得到標準化數據,推動后續人工智能模型的構建、訓練和驗證,進而在一定程度上為推動智能醫療事業的發展助力。
此外,近年來機器人手術在胸外科也逐步得到應用。達芬奇手術機器人系統依托其靈活的手腕自由度、高清的三維視覺和震顫消除等優勢,具備在狹小的胸腔,尤其是縱隔內開展復雜手術的可能性,因而備受胸外科醫生的推崇。與此相關的臨床試驗也正在大量開展,以期用足量的臨床證據來證明機器人手術是未來外科手術發展的必然趨勢。然而,嚴格意義上,這種手術形式并不具備完全的機器自主性,而是要在人為的操控下進行手術。最新一項研究[40]實現了使用智能組織自主機器人執行腹腔鏡小腸吻合術。操作者在自主生成的手術計劃中進行選擇,并指定機器人獨立執行各項任務。這種全新的手術形式已經在豬模型上實施,其結果優于專業外科醫生的手術操作和機器人輔助的外科手術。相信經過研究人員和外科醫師的通力合作,機器人手術系統將會和人工智能算法更加緊密結合,為實現更加精細的機器化外科手術提供支持。
最后,人工智能聯合組學數據分析在NSCLC診療領域具有良好的開發前景和無限的應用潛力,胸外科醫師應和算法模型的研發人員通力合作,為人工智能的臨床推廣作出努力,以期為患者提供更加精準的醫療服務。
利益沖突:無。
作者貢獻:孫思穎負責論文設計和撰寫;李鶴成負責論文總體設想、內容調整、修改及潤色。