近年來,深度學習為癌癥預后分析提供了新的方法。對深度學習在癌癥預后應用中的相關文獻進行歸納總結,可為深入開展癌癥預后研究提供借鑒和參考。因此,本文對深度學習在癌癥預后模型中的最新研究進展進行了系統綜述。首先,明確深度學習癌癥預后模型的構建思路及性能評價指標;其次,介紹搭建模型所采用的基本網絡結構,對所用數據類型、數據數量、具體網絡架構及優缺點進行探討;然后,驗證構建深度學習癌癥預后模型的主流方法并對實驗結果進行分析;最后,對該領域現階段面臨的挑戰及未來研究方向進行總結與展望。深度學習癌癥預后模型與以往模型相比,能夠更好地提高癌癥患者的預后預測能力。未來我們應繼續探索深度學習在癌癥復發率、治療方案、藥物療效評估等方面的研究,充分挖掘深度學習在癌癥預后模型中的應用價值與潛力,以便建立一個高效精準的癌癥預后模型,實現精準醫療的目標。
引用本文: 陳雯, 王旭, 段輝宏, 張小兵, 董婷, 聶生東. 深度學習在癌癥預后預測模型中的應用研究. 生物醫學工程學雜志, 2020, 37(5): 918-929. doi: 10.7507/1001-5515.201909066 復制
引言
深度學習(deep learning,DL)是機器學習(machine learning,ML)的最新領域,通過 ML 中人工神經網絡(artificial neural network,ANN)的深度疊加進行學習,根據低層特征組合形成更抽象的高層特征來實現分類或預測[1]。1943 年,McCulloch 等[2]開啟了 ANN 的大門,但多層 ANN 反向傳播存在梯度消失問題[3]。盡管萬能逼近定理為 ANN 提供了強有力的理論支撐,DL 的探索仍幾次陷入停滯[4]。直到研究人員發現了能夠優化多層神經網絡梯度消失問題的線性修正單元,DL 的發展才進入黃金時期[5]。因其自身的獨特優勢,DL 在醫學領域的各個方向發展迅速[6-7]。
癌癥預后是指預測癌癥患者的可能病程和結局。世界衛生組織 2018 年癌癥調查報告顯示:全球癌癥發病率和死亡率逐年上升,癌癥死亡人數高達 960 萬[8]。準確的癌癥預后分析有助于提高癌癥患者的生存機會。隨著信息化技術的發展,為輔助臨床醫生選擇合適的治療方法與評估治療效果,各種癌癥預后模型應運而生。然而由于腫瘤的異質性,不同患者或同一患者不同時間內的預后也有差異,需采用不同的應對措施[9]。因此,探索個體化癌癥預后模型具有重要的研究意義。
目前,國內外癌癥預后領域已有不少研究成果。常小麗等[10]通過計算機或手工搜索多個數據庫的文獻,采用薈萃分析方法系統評估不同麻醉方案對癌癥患者預后的影響。楊娟等[11]采集 128 例肝內膽管癌患者臨床資料,使用 Logistic 回歸分析法篩選預后危險因素以便預測患者術后復發風險。這些研究采用統計學方法評估和篩選影響癌癥預后的相關因素或者構建癌癥預后模型時,能獲得的臨床資料有限,為充分利用醫學大數據中的關鍵信息以提高預后預測能力,研究者逐漸采用 ML 方法(如 ANN、決策樹、隨機森林等)構建癌癥預后模型,這類方法在一定程度上提高了預測精度[12]。Chen 等[13]結合非小細胞肺癌患者臨床資料與基因表達數據,以 3 年生存期為分類標準通過 ANN 建立生存風險模型(ACC 可達 83%)。一些學者根據頭頸部癌癥患者的放射組學數據,采用 ML 構建治療效果預測模型,為推測正常組織并發癥提供了新方法,有利于改善臨床決策及放射治療工作流程[14-15]。然而大規模醫學數據中有效結合基因、蛋白質等組學特征仍存在挑戰,醫學圖像中定量特征需要經驗豐富且熟練的醫師耗時費力地手工提取,給實際臨床應用帶來了限制。此外,有文獻[16-17]指出手工提取的特征不如 DL 提取到的特征有效。因此,通過 DL 構建精準癌癥預后模型逐漸受到研究者的青睞。這類模型旨在輔助醫生制定個性化治療策略以高效治療癌癥患者。
雖然 DL 已在癌癥預后分析中取得了一些成果,但有關 DL 癌癥預后模型的綜述卻相對較少。因此,本文主要從以下方面進行綜述:① 概括 DL 癌癥預后模型的構建思路。② 明確癌癥預后模型性能評價指標。③ 以構建 DL 癌癥預后模型的網絡結構為切入點,歸納近幾年 DL 癌癥預后模型研究進展及各類模型優缺點,并對主流方法進行實驗驗證與結果分析。④ 總結并展望目前該領域面臨的挑戰及未來研究方向,以期為癌癥預后研究提供一定的參考。
1 DL 癌癥預后模型的構建思路
DL 在癌癥預后模型構建中的作用主要為特征提取和特征選擇。其建模步驟可概括為:① 確定具體預后角度(復發率、存活率、死亡率、治療效果等)。② 進行數據采集和數據預處理。③ 將預處理后的數據劃分為互不重合的訓練集、驗證集和測試集。④ 訓練集訓練模型以確定模型參數,驗證集優化網絡結構及超參數以確定最優模型。⑤ 測試集檢驗模型性能。具體流程如圖 1 所示。

2 模型性能評價指標
準確性(accuracy,ACC):所有樣本全部預測正確的概率。
![]() |
其中,:正類預測為正類的樣本數;
:負類預測為負類的樣本數;
:負類預測為正類的樣本數;
:正類預測為負類的樣本數。
敏感度(sensitivity,SEN):實際為正樣本判斷為正樣本的概率。
![]() |
特異度(specificity,SPE):實際為負樣本判斷為負樣本的概率。
![]() |
受試者工作特性曲線下面積(the area under the receiver operating characteristic curve,AUC)用于評價二值分類器效果,越接近 1 則分類器效果越好。
![]() |
其中,:第
個樣本的序號,概率得分從小到大排序,排在第
位置;
:正樣本的個數;
:負樣本的個數;
:將正樣本的序號相加。
馬修斯相關系數(Matthews correlation coefficient,MCC):實際類別和預測類別之間的相關系數,MCC 值越接近 1 則分類器效果越好。
![]() |
一致性指數(concordance index,C-index):用于評價生存模型的預測能力,值越接近 1 越好。
![]() |
其中,:所有樣本互相配對時預測結果與實際相一致的配對數;
:無法判斷是否一致的配對數。
3 DL 癌癥預后模型的研究進展
表 1[1, 18-36]按不同神經網絡結構歸納了目前 DL 癌癥預后模型的相關研究,包括文獻作者、癌癥類型、數據類型、網絡架構、模型性能和預后臨床終點。

3.1 基于深度神經網絡的癌癥預后模型
深度神經網絡(deep neural networks,DNN)由輸入層、隱藏層和輸出層組成[37],層與層之間節點完全連接。通過合并低層特征隱式地提取高層特征,從而進行癌癥預后評估。網絡結構如圖 2 所示。

Sun 等[18]提出一種結合多維數據的多模態 DNN 預后模型預測乳腺癌患者五年生存率。為有效整合 1 980 例患者的臨床、基因、拷貝數變異數據,分別訓練三個獨立 DNN 后采用決策級多模態融合構建最終預后模型。其性能(ACC:82.6%;AUC:0.845)比一維預測模型更好。該方法的新穎之處在于集成網絡結構的設計和多維數據的融合,驗證了融合不同數據類型以提高癌癥預后預測性能的有效途徑。但獲取大量臨床資料代價昂貴,在多組學數據不完整時不適用。Lai 等[19]收集 614 例有完整臨床資料的非小細胞肺癌患者資料,開發了一種結合基因表達異質性數據和臨床數據的雙峰 DNN。該模型能夠預測患者的 5 年總體生存狀態,ACC 可達 75.4%,AUC 為 0.816。其創新點在于采用 6 個獨立數據集訓練預后模型以提高模型泛化性,并將所用數據嚴格劃分為互不重合的訓練集、驗證集和測試集。其次,雙通道 DNN 能夠更好地學習基因和臨床數據的特征,提高預后模型精準度。Lee 等[20]納入 1 320 例非小細胞肺癌患者,根據 8 位獨立評審專家收集的 30 項臨床和病理資料進行回顧性分析,提出了基于時間約束的 DNN 預后模型來預測患者術后無復發生存率。與傳統統計方法相比,該模型(C-index:0.731;AUC:0.768)可以同時進行特征提取、特征選擇和生存分析,為 DL 從電子病歷中提取特征和進行臨床信息學分析提供了一種有效手段。此外,多模態數據有利于癌癥預后預測,將放射與病理圖像與組學數據加入到該模型的輸入特征中有望進一步提高預測性能。
以上研究表明,當醫學數據類型為基因組學等高通量數據或專家認可的臨床信息時,傾向于使用 DNN 構建 DL 癌癥預后模型,但數據源的異質性和多樣性對預后模型的影響也不可忽視。
3.2 基于卷積神經網絡的癌癥預后模型
卷積神經網絡(convolutional neural network,CNN)是一種廣泛應用于圖像識別和分類的 DL 模型[38]。CNN 基于圖像中的腫瘤信息進行癌癥預后分析,主要由卷積層、池化層和全連接層組成,結構如圖 3 所示。卷積層通過移動卷積核得到覆蓋整個圖像的特征映射,輸入池化層進行特征降維以減少神經元個數,然后將所有的特征圖平鋪成一維特征向量輸入全連接層,最后特征向量通過分類器得到最終預測結果并予以輸出。

3.2.1 基于組織病理圖像
組織病理圖像能夠反映患者當前病變情況(如腫瘤良惡性、分化程度、組織病理分級等),隨 ML 方法的演進,可挖掘出大量與預后相關的圖像特征從而提示潛在的癌癥進程。
Zhu 等[21]根據 404 例肺癌患者的病理圖像,開發了一種新的用于評估生存風險分層的 DeepConvSurv 模型,該模型由三個卷積層、兩個池化層和一個全連接層組成,C-index 值為 0.629,高于兩種 Cox 模型(C-index:0.562;C-index:0.556)和隨機森林生存模型(C-index:0.511)。DeepConvSurv 是第一個采用 CNN 與病理圖像提高生存預測性能的研究,證明了 CNN 模型可以學習預后特征,為采用 DL 技術在生存分析中挖掘更多預后信息奠定了基礎。格里森(Gleason)評分是前列腺癌重要的預后指標,Nagpal 等[1]收集 769 名前列腺癌患者 1 226 張組織切片,交由 32 位病理學家注釋,通過深度 CNN 提取并選擇圖像特征,開發了一個基于 DL 的 Gleason 評分模型。該模型診斷 ACC 可達 70%,優于 29 位普通病理專家 61% 的平均準確率,解決了前列腺癌病理特征在顯微鏡檢查中可重復性差的問題,對患者風險分層有更好的區分作用。Mobadersany 等[22]基于 769 例腦膠質瘤患者的 1 061 張組織切片,將 VGG-19 與 Cox 模型相結合,根據組織活檢和基因標志物的顯微圖像預測患者生存。與當前使用的腦膠質瘤臨床分類標準相比性能更優(C-index:0.754)。此外,該模型能夠可視化與預后密切相關的重要結構(如微血管增生)以便病理學家分級,并且兼顧了不同患者間或患者個體中基因的異質性與遺傳信息的豐富性,為進一步提高 DL 癌癥預后模型的準確性、客觀性和綜合性做出了貢獻。
上述研究表明:DL 對癌癥預后預測有良好的指示作用,能夠根據組織病理圖像學習到病理專家無法直接定義的特征,還可避免專家因疲勞、主觀情緒而遺漏細微病變,顯示了融合多種信息且結合 DL 和回歸分析方法提升癌癥預后模型性能的可行性。但組織病理切片的樣本質量要求較高(不得含有偽影、氣泡、褶皺等)、制備較復雜,按照像素手動標注數據費時費力,都限制了基于組織病理數據構建 DL 癌癥預后模型的普及。
3.2.2 基于 CT、MRI、PET 圖像
CT、MRI、PET 是癌癥患者常用的檢查方式,借助計算機技術,從這些影像中提取大量描述腫瘤特性的圖像特征并進行定量分析,可為臨床醫生提供有價值的預后信息。
DL 需要比傳統 ML 更多的數據來訓練模型,但由于患者隱私保護和數據共享限制,CT、MRI、PET 圖像中具有明確腫瘤標注信息的數據非常有限。因此,研究人員引入了遷移學習:用其他領域中已訓練好的模型權重和新任務的數據對部分網絡層進行再訓練,實現采用小型醫學數據集構建 DL 癌癥預后模型的任務[39]。Paul 等[23]挑選 40 名非小細胞肺癌患者腫瘤面積最大的 CT 切片分割感興趣區域,使用已訓練好的 VGG-F、VGG-M、VGG-S 模型從最后一個隱藏層中提取深度特征,將其與強度分布、空間關系、紋理異質性等傳統圖像特征相結合,采用多種特征選擇方法和多個分類器進行實驗,最終確定采用 ACC 為 90.0%、AUC 為 0.935 的 VGG-F+貝葉斯、VGG-F+隨機森林模型預測患者長短期存活率。但該研究數據太少且沒有外部驗證集驗證模型性能,可靠性有待證實。Lao 等[24]收集 112 例多發性腦膠質母細胞瘤患者的術前多模態 MRI 圖像和生存信息,提取 14 303 個傳統圖像特征和 98 304 個深度特征(由預先訓練的 CNN_S 提取),合并后根據篩選出的 150 個圖像特征與臨床風險因素構建 Cox 模型預測患者生存結局。該模型 C-index 值為 0.739,高于臨床風險因素模型(C-index:0.621),在預測患者風險分層方面取得了更好的效果。此外,基于遷移學習提取的深度特征與傳統圖像特征相結合改善了現有的預后模型性能,證明了深度特征在腦膠質母細胞患者術前護理中的潛力,但該研究仍存在樣本量較小的缺陷。Han 等[25]也報告了一種結合 DL 和放射學模型預測高級別膠質瘤患者總體生存期的初步成果。該研究依次計算了 178 例患者的放射特征(348 個)和已訓練好的 VGG-19 提取的深度特征(8 192 個),經特征選擇后構建 Cox 模型預測長短期生存組。Han 等既進行了特征穩定性的驗證,也對比了是否含有正常組織的腫瘤切片對生存預后的影響,但實驗中各種特征的篩選較為復雜且描述較為模糊。作為腫瘤生物成像的第一個應用,Bizzego 等[26]采用 CT 和 PET 圖像,根據已訓練好的三維卷積神經網絡(three dimensional convolutional neural network,3D-CNN)預測 298 例頭頸部鱗癌患者局部復發。該模型包括兩個并行級聯的 3D-CNN,可對頭頸部腫瘤分期診斷進行預訓練,然后通過內部遷移學習對復發任務進行微調以獲得深度特征,同時計算傳統圖像特征,最后合并兩種特征訓練分類器(SEN:67.0%;SPE:91.0%;ACC:94.0%;MCC:0.748)。該研究證明了在多模態 CT 和 PET 數據集內,混合深度特征和傳統圖像特征預測患者復發比僅使用一類特征或一種圖像模式更為準確。但開發多模態 3D-CNN 是集成 PET 和 CT 圖像的第一步,還需要更多實驗來驗證該方法的魯棒性。Tang 等[27]提出一個多任務 CNN 預后模型共同完成腫瘤基因型和總體生存任務。該模型從 120 例膠質母細胞瘤患者的術前多模態 MRI 腦影像中提取腫瘤基因型相關特征,并將其用于生存預測。與其他最先進的方法相比,該模型生存預測精度最高。膠質母細胞瘤基因型是反映預后的有力指標,該多任務模型通過學習腫瘤基因型相關特征進行基因型預測,可以顯著提高總體生存預測的準確性,并且為術前無創獲得腫瘤基因型信息提供了解決思路。但是,以上遷移學習采用的模型均由自然界中彩色圖片訓練,與醫學圖像差別較大,可能會影響癌癥預后模型性能。
Hosny 等[28]對五家機構共 1 194 例非小細胞肺癌患者的七個 CT 數據集進行了綜合分析:以兩年生存期為界限,訓練 3D-CNN 預測患者死亡率風險。該模型 AUC 值為 0.70,優于基于臨床參數建立的隨機森林預后模型,同時可通過卷積可視化解釋 3D-CNN 捕捉到的特征。該研究證明了 DL 用于預后風險分層的實用性,強調了腫瘤周圍組織在患者分層中的重要性,進一步激發了通過 DL 制定個性化癌癥治療方案的前瞻性研究。Nie 等[29]納入 83 名神經膠質瘤患者的術前多模態 MRI,使用多模態圖像塊構建多通道 3D-CNN 模型提取特征,結合患者人口學信息訓練分類器預測長短生存期。其 ACC(90.7%)高于其他方法,體現了采用多模態 MRI 圖像融合多通道 3D-CNN 構建的 DL 癌癥預后模型的有效性。同年,Diamant 等[30]收集 300 例來自四家醫學機構的頭頸部鱗狀細胞癌患者的治療前 CT 圖像,訓練端到端的 CNN 預后模型評估癌癥治療效果。該模型以患者遠處轉移為終點,AUC 可達 0.880,融合傳統定量特征后 AUC 提高到 0.920。雖然 CNN 不需要提前設計和利用機器學習算法選擇特征,它允許算法本身根據預后目標自主學習,但 CNN 學習到的深度特征不能完全代表手工提取的腫瘤定量特征。
上述研究表明,與組織病理圖像相比,根據治療前 CT、MRI、PET 圖像構建的 DL 癌癥預后模型準確率更高。鑒于遷移學習常用模型中存在醫學圖像與自然界中彩色圖片的差異問題,當構建癌癥預后模型的數據集夠大時,盡量不選擇遷移學習法。在提高預后模型性能方面,深度特征與腫瘤形態學、空間、紋理特征的結合在一定程度上為今后工作指明了方向。但應用于臨床實踐之前,仍需進行多中心大樣本的研究與驗證。
3.3 基于循環神經網絡的癌癥預后模型
循環神經網絡(recurrent neural networks,RNN)由輸入層、隱藏層和輸出層組成,通過一個重復的隱藏狀態(包括當前時間步的信息以及它在前一個時間步的狀態)處理順序輸入從而使神經網絡像人一樣擁有記憶能力,適合處理臨床上反映患者病況的時間序列數據,根據這些信息預測癌癥預后[40]。但處理長期序列數據時 RNN 存在梯度消失的缺陷,因此長短時記憶網絡(long short-term memory,LSTM)應運而生[41]。LSTM 主要由輸入門、遺忘門、輸出門及存儲單元狀態構成,可控制長期狀態。RNN 和 LSTM 網絡結構如圖 4 所示。

Bychkov 等[31]采用 420 名結直腸癌患者的臨床病理數據,結合已訓練好的 VGG-16 和 LSTM 構建基于腫瘤組織切片的預后模型預測患者五年生存率。該方法首先將所用切片分割為 38 萬個尺寸為 224*224 的圖像塊,然后通過 VGG-16 進行特征提取并輸入一維 LSTM 網絡,最后逐塊讀取特征對圖像塊進行預測。AUC 可達 0.690,顯著高于人類病理專家(AUC:0.580)的視覺評估診斷結果,說明 DL 可從癌癥的組織形態中挖掘預后信息。該模型的亮點是 CNN 和 LSTM 兩種網絡的結合。它不需要像 CNN 一樣輸入固定尺寸的圖像塊,也不需要額外步驟合并單個圖像的特征;并且 LSTM 可以處理任意序列長度的輸入并記住長期依賴關系,能在數字病理工作流程中直接評估結直腸癌腫瘤樣本,但其預測精度仍有待提升,需要納入更多訓練數據和外部數據以驗證方法的普適性。
3.4 基于自編碼器的癌癥預后模型
自編碼器(autoencoder,AE)由編碼器和解碼器兩部分構成[42]。編碼器通過編碼函數將輸入壓縮成潛在的空間特征,解碼器通過解碼函數將特征映射到輸入空間,使用不同的訓練規則令輸出值等于輸入值。AE 常用來降低特征維數和復雜性,通常只采用編碼器得到輸入數據的精髓,然后再構造模型學習,這樣不僅能減輕 DL 網絡的負擔,還可以達到一個較好的效果。網絡結構如圖 5 所示。

Zhang 等[32]使用 AE 和主成分分析提取五個基因數據集的特征,構建 PCA-AE 集成預后模型預測乳腺癌患者遠處轉移。實驗表明:AE 從基因中學習的特征可使模型具有良好的泛化能力;深度特征與傳統特征結合后所構建的預后模型性能更優(ACC:76.8%;SEN:84.0%;SPE:55.0%;MCC:0.320;AUC:0.740)。但該模型不易分析,無法評估具體特征的重要性,需加入更多數據提高模型泛化能力。Maggio 等[33]提出一種新型多任務 AE 模型,首次將 498 例神經母細胞瘤的轉錄組學數據應用于生存分析,同時實現診斷與復發預測。多任務學習在訓練時相當于隱式的數據增強,可以在一定程度上防止模型過擬合,提高預測準確率。但如果多個任務間的相關性差異較大,則不利于預后預測。Chaudhary 等[34]第一個填補了采用 DL 整合多組學數據構建癌癥預后模型從而預測肝細胞癌患者生存率的研究空白。該模型納入 360 例患者的 RNA 測序、miRNA 測序及甲基化數據,基于 AE 進行特征選擇與優化以區分患者不同生存亞群,但 C-index 僅為 0.740。
以上三篇文獻顯示了采用組學數據構建 DL 癌癥預后模型在預測患者生存方面的潛力。此外,其他預后因素(如年齡、既往史等)信息、多任務學習等技術也應整合到同一 DL 癌癥預后模型中以提高精確度。
3.5 基于深度置信網絡的癌癥預后模型
深度置信網絡(deep belief network,DBN)由受限玻爾茲曼機(restricted Boltzmann machine,RBM)堆疊而成[42]。RBM 由可見層和隱藏層組成,同層神經元相互獨立,不同層神經元相互連接且雙向對稱。DBN 第一層是一個獨立的預先訓練的 RBM,其隱藏層的輸出是第二個 RBM 可見層輸入,整個網絡逐層訓練,最后采用數據標簽為監督信號計算網絡誤差,通過反向傳播算法對整個網絡中的參數微調。網絡結構如圖 6 所示。

有研究證明在選擇基因方面,DBN 比早期特征選擇算法更具優勢[43]。Wong 等[35]收集 469 例腦膠質母細胞瘤患者基因數據,利用含有兩個隱藏層的 DBN 尋找與治療耐藥性密切相關的基因構建預后模型。實驗證明,DBN 具備在多個抽象層次上表征數據的能力,可為患者生存提供非冗余的預后特征,有助于尋找可能成為治療靶點的特定基因,為醫生挑選合適的治療隨訪方案提供參考。Xie 等[36]合并臨床數據和基因、甲基化等多組學數據,開發了一種融合 DBN 和 Cox 模型進行生存預測的計算工具,該工具在 14 種癌癥預后中表現良好,但未詳細說明該工具預測每種癌癥預后的具體性能。
上述研究表明:DL 可以構建基于微觀特征的生存預后模型以進行個體化預后分析。雖然目前腫瘤患者的多組學診斷尚處于起步階段,但隨著基因組芯片與大規模高通量測序技術的飛速發展,結合 DBN 和 Cox 有助于患者預后的精準預測。
3.6 基于不同網絡結構的癌癥預后模型對比
前述 3.1~3.5 小節以構建 DL 癌癥預后模型的不同網絡結構為主要分類標準,在簡述網絡結構的基礎上,分別歸納了 5 種網絡結構在癌癥預后研究中的應用。為進一步比較與總結,表 2 列舉了 DNN、CNN、RNN、AE 以及 DBN 網絡架構的提出時間、優缺點、適用醫學數據和發展趨勢。

4 DL 癌癥預后模型的方法驗證
現有 DL 癌癥預后模型半數以上采用 CNN 構建而成,多數研究傾向于癌癥患者生存期的預測。因此,本文采用 TCIA 公共數據庫 NSCLC-Radiomics 項目的 lung1 數據集,基于 CT 影像(尺寸:512*512,層厚:3 mm)和 CNN 構建模型預測具有臨床意義的非小細胞肺癌患者 3 年生存期。根據患者存活狀態和生存時間、CT 圖像質量、腫瘤數量、腫瘤病理類型等篩選條件,入組 201 例患者。按患者隨機劃分互不重合的訓練集(150 例)、驗證集(21 例)和測試集(30 例)并給定標簽[44]。由于數據較少,方法驗證采用二維卷積神經網絡(two dimensional convolutional neural network,2D-CNN)和遷移學習。參照表 1 總結的 DL 模型與表 2 中適用 CT 影像的網絡結構,實驗引入預先訓練的三種經典 CNN(VGG-19、ResNet50、Inception V3)、LeNet、新型 2D-S_CNN 和新型密集連接 2D-S_CNN 訓練并確定最優預后生存模型,使用相同測試集驗證模型性能并進行分析與比較。不同模型預測結果如表 3 所示,本文設計的 CNN 網絡結構如圖 7 所示。由表 3 可知,遷移學習中 Inception V3 性能最好,AUC 可達 0.86,ACC 最高為 78.2%。與采用遷移學習構建的模型相比,本文設計的非小細胞肺癌預后生存模型性能更好,ACC、AUC 可達 79.5%、0.86。這些實驗結果證明 DL 在癌癥預后模型中的潛力:遷移學習有助于構建小型醫學數據集的 DL 癌癥預后模型,但預先訓練所使用數據與醫學數據不一致時,可能會對模型性能產生輕微影響。此外,根據具體任務設計的 DL 模型性能更佳。對比新型 2D-S_CNN 和新型密集連接 2D-S_CNN 預后生存模型實驗結果發現:改進 DL 網絡結構可小幅度提高癌癥預后模型性能,因此將更多先進技術引入 DL 網絡是未來癌癥預后預測模型的發展趨勢之一[45]。


5 總結與展望
近幾年研究表明:DL 主要用于癌癥預后模型構建中的特征選擇與特征提取方面,在輔助臨床醫生選擇與制定個體化治療與隨訪方案、延長癌癥患者存活時間等方面具有重要意義。但現有成果大多是基于 DL 的回顧性研究,如何在臨床實踐中輔助醫生決策尚未進行調查和測試。其展望如圖 8 所示。

癌癥預后角度:生存預測是癌癥預后分析的重點領域之一,在避免患者過度治療、減少醫療費用、滿足患者及家屬特殊需求、開展臨床試驗等方面價值極大。目前大部分預后相關研究是預測癌癥患者的風險分層與生存結局。此外,研究者應更多探究采用 DL 技術在預測癌癥病情發展(緩解率、復發率等)、建議癌癥治療方案,以及預估癌癥治療(手術、放療、藥物等)效果等方面的應用。
預后數據類型:癌癥在細胞起源、組織病理形態、臨床表現、治療反應等方面都存在極大的復雜性與異質性。因此,結合各類醫學圖像特征及衍生信息、潛在基因組、臨床資料、專家注釋和其他類型數據構建癌癥預后模型越來越有價值。然而其他類型數據和 DL 算法仍有待深入研究調查。根據大量且匹配的多類醫學數據,通過 DL 將微觀特征與宏觀特征深度融合,建立多尺度多分支多任務的癌癥預后模型是未來發展的必然趨勢。但 DL 在多種數據類型中的應用仍取決于數據的可用性以及數據提取和處理技術的發展。
編程語言與搭建平臺:目前主要使用的編程語言是 Python 和 Matlab。實現平臺包括 Keras、Caffe、Chainer、TensorFlow、Torch 等。這些平臺是深度學習的核心技術,能夠對模型進行訓練和推理,管理癌癥預后領域所需的大規模數據和模型,負責底層計算設備的調度和資源申請。未來在完善這些平臺的同時,也需要開發更具創新性的新型開源平臺。
深度學習網絡結構:DL 具有優秀的非線性特征提取能力、高度的運算并行性以及良好的容錯性與學習自動性。目前在癌癥預后方面取得的進展得益于過去幾十年中計算機和開源軟件的發展、統計學理論與算法和計算能力的提高[46]。DL 依賴于大量數據的集合,由幾千甚至數百萬個標記的樣本訓練而成。然而匱乏的醫學數據、共享的限制、低質量的醫學標簽是 DL 癌癥預后模型普及的主要局限性。因此,小型醫學數據集目前更多依賴遷移學習算法、輕量型 DL 網絡架構或生成合成醫學圖像的方法。為此,我們要探索不同 DL 網絡結構、不同數據集對提高模型準確率與穩健性的影響,探究采用無標注的原始醫學數據集構建 DL 癌癥預后模型的可行性。由于訓練癌癥預后模型所需的數據數量取決于應用程序,測試樣本數量取決于公認標準,所以模型中所用訓練集、驗證集、測試集的最佳大小也應進一步摸索。
模型的可解釋性:可解釋性與復雜性密切相關,DL 癌癥預后模型應用于臨床的關鍵一方面在于模型的精準度,另一方面在于模型能否給出令醫師充分理解的預測分析。雖然卷積可視化易于理解 DL 提取的深度特征,但這些特征與臨床上用以描述腫瘤的高級語義特征有很大差別,難以分析二者的相關性。目前關于 DL 癌癥預后模型解釋方法的發展還處于相對早期的階段,可通過深入探究模型并理解如何進行預測,或估計模型中每個輸入特征的相關性或貢獻來解釋。這兩類方法在與癌癥預后相關的不同建模任務中有相對的靈活性和易適應性,但缺乏足夠的工具提供更深入和新穎的理解。一些研究提出根據臨床專家的先驗知識進行 DL 癌癥預后模型的設計,有助于提高 DL 在實驗室和臨床上的可接受性,產生新的假設并理解癌癥狀態的潛在機制[47]。但不同癌癥類型在特定應用中的先驗知識很難獲得,并且需要考慮計算機的可讀能力。此外,模型設計與訓練中有時需要結合臨床報告的信息,但臨床報告的質量良莠不齊,其解釋差別較大,仍需制定醫師廣泛接受的可用臨床報告的參考標準。
模型評估標準:首先應說明所用數據集的納入和排除標準,明確刪除任何一例數據的理由;在模型訓練過程中嚴格定義數據的訓練集、驗證集和測試集,三者應相互獨立。其次,由于 DL 癌癥預后模型容易過擬合,需使用來自另一機構的外部測試集對最佳模型進行評估以確定模型是否可以推廣。此外,使用圖像數據構建癌癥預后模型時,需注意不同研究中心、不同醫學掃描儀協議下的圖像區別,最好在構建預后模型的每一個階段(訓練、驗證、測試)均使用多中心醫學成像數據,以便提高模型的穩健性和泛化性。由于一些研究已經證明了掃描儀設置(如重建技術和參數)對圖像特征的影響,建議后續研究提供這方面的具體信息與處理方法[48]。同時要詳細描述為構建癌癥預后模型準備的數據,例如研究者將圖像裁剪到某一小范圍內,或者手動選擇了相關圖像。這些數據的預處理與注釋會影響臨床醫生對 DL 癌癥預后模型的理解。雖然目前研究人員經常將 AUC 值作為不同癌癥預后模型的比較指標,但 AUC 值與臨床醫學關系不大。為了治療患者,醫生們更感興趣的是將癌癥預后模型的預測性能與專家本身進行比較。最后,為證實 DL 癌癥預后模型的性能,其算法與程序最好通過 GitHub 等網站上公開發布。
6 結語
DL 癌癥預后模型最終目標是將探索性的解決方案應用到實際的臨床預后分析中。隨著醫療算法監管審批程序的完善,其臨床應用的轉化也會加快。在投入臨床后,各種相關癌癥預后研究仍需根據新的醫學數據的增加而持續改進,期望 DL 癌癥預后模型的研究能推動精準醫療發展,均衡我國各地醫療資源。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
深度學習(deep learning,DL)是機器學習(machine learning,ML)的最新領域,通過 ML 中人工神經網絡(artificial neural network,ANN)的深度疊加進行學習,根據低層特征組合形成更抽象的高層特征來實現分類或預測[1]。1943 年,McCulloch 等[2]開啟了 ANN 的大門,但多層 ANN 反向傳播存在梯度消失問題[3]。盡管萬能逼近定理為 ANN 提供了強有力的理論支撐,DL 的探索仍幾次陷入停滯[4]。直到研究人員發現了能夠優化多層神經網絡梯度消失問題的線性修正單元,DL 的發展才進入黃金時期[5]。因其自身的獨特優勢,DL 在醫學領域的各個方向發展迅速[6-7]。
癌癥預后是指預測癌癥患者的可能病程和結局。世界衛生組織 2018 年癌癥調查報告顯示:全球癌癥發病率和死亡率逐年上升,癌癥死亡人數高達 960 萬[8]。準確的癌癥預后分析有助于提高癌癥患者的生存機會。隨著信息化技術的發展,為輔助臨床醫生選擇合適的治療方法與評估治療效果,各種癌癥預后模型應運而生。然而由于腫瘤的異質性,不同患者或同一患者不同時間內的預后也有差異,需采用不同的應對措施[9]。因此,探索個體化癌癥預后模型具有重要的研究意義。
目前,國內外癌癥預后領域已有不少研究成果。常小麗等[10]通過計算機或手工搜索多個數據庫的文獻,采用薈萃分析方法系統評估不同麻醉方案對癌癥患者預后的影響。楊娟等[11]采集 128 例肝內膽管癌患者臨床資料,使用 Logistic 回歸分析法篩選預后危險因素以便預測患者術后復發風險。這些研究采用統計學方法評估和篩選影響癌癥預后的相關因素或者構建癌癥預后模型時,能獲得的臨床資料有限,為充分利用醫學大數據中的關鍵信息以提高預后預測能力,研究者逐漸采用 ML 方法(如 ANN、決策樹、隨機森林等)構建癌癥預后模型,這類方法在一定程度上提高了預測精度[12]。Chen 等[13]結合非小細胞肺癌患者臨床資料與基因表達數據,以 3 年生存期為分類標準通過 ANN 建立生存風險模型(ACC 可達 83%)。一些學者根據頭頸部癌癥患者的放射組學數據,采用 ML 構建治療效果預測模型,為推測正常組織并發癥提供了新方法,有利于改善臨床決策及放射治療工作流程[14-15]。然而大規模醫學數據中有效結合基因、蛋白質等組學特征仍存在挑戰,醫學圖像中定量特征需要經驗豐富且熟練的醫師耗時費力地手工提取,給實際臨床應用帶來了限制。此外,有文獻[16-17]指出手工提取的特征不如 DL 提取到的特征有效。因此,通過 DL 構建精準癌癥預后模型逐漸受到研究者的青睞。這類模型旨在輔助醫生制定個性化治療策略以高效治療癌癥患者。
雖然 DL 已在癌癥預后分析中取得了一些成果,但有關 DL 癌癥預后模型的綜述卻相對較少。因此,本文主要從以下方面進行綜述:① 概括 DL 癌癥預后模型的構建思路。② 明確癌癥預后模型性能評價指標。③ 以構建 DL 癌癥預后模型的網絡結構為切入點,歸納近幾年 DL 癌癥預后模型研究進展及各類模型優缺點,并對主流方法進行實驗驗證與結果分析。④ 總結并展望目前該領域面臨的挑戰及未來研究方向,以期為癌癥預后研究提供一定的參考。
1 DL 癌癥預后模型的構建思路
DL 在癌癥預后模型構建中的作用主要為特征提取和特征選擇。其建模步驟可概括為:① 確定具體預后角度(復發率、存活率、死亡率、治療效果等)。② 進行數據采集和數據預處理。③ 將預處理后的數據劃分為互不重合的訓練集、驗證集和測試集。④ 訓練集訓練模型以確定模型參數,驗證集優化網絡結構及超參數以確定最優模型。⑤ 測試集檢驗模型性能。具體流程如圖 1 所示。

2 模型性能評價指標
準確性(accuracy,ACC):所有樣本全部預測正確的概率。
![]() |
其中,:正類預測為正類的樣本數;
:負類預測為負類的樣本數;
:負類預測為正類的樣本數;
:正類預測為負類的樣本數。
敏感度(sensitivity,SEN):實際為正樣本判斷為正樣本的概率。
![]() |
特異度(specificity,SPE):實際為負樣本判斷為負樣本的概率。
![]() |
受試者工作特性曲線下面積(the area under the receiver operating characteristic curve,AUC)用于評價二值分類器效果,越接近 1 則分類器效果越好。
![]() |
其中,:第
個樣本的序號,概率得分從小到大排序,排在第
位置;
:正樣本的個數;
:負樣本的個數;
:將正樣本的序號相加。
馬修斯相關系數(Matthews correlation coefficient,MCC):實際類別和預測類別之間的相關系數,MCC 值越接近 1 則分類器效果越好。
![]() |
一致性指數(concordance index,C-index):用于評價生存模型的預測能力,值越接近 1 越好。
![]() |
其中,:所有樣本互相配對時預測結果與實際相一致的配對數;
:無法判斷是否一致的配對數。
3 DL 癌癥預后模型的研究進展
表 1[1, 18-36]按不同神經網絡結構歸納了目前 DL 癌癥預后模型的相關研究,包括文獻作者、癌癥類型、數據類型、網絡架構、模型性能和預后臨床終點。

3.1 基于深度神經網絡的癌癥預后模型
深度神經網絡(deep neural networks,DNN)由輸入層、隱藏層和輸出層組成[37],層與層之間節點完全連接。通過合并低層特征隱式地提取高層特征,從而進行癌癥預后評估。網絡結構如圖 2 所示。

Sun 等[18]提出一種結合多維數據的多模態 DNN 預后模型預測乳腺癌患者五年生存率。為有效整合 1 980 例患者的臨床、基因、拷貝數變異數據,分別訓練三個獨立 DNN 后采用決策級多模態融合構建最終預后模型。其性能(ACC:82.6%;AUC:0.845)比一維預測模型更好。該方法的新穎之處在于集成網絡結構的設計和多維數據的融合,驗證了融合不同數據類型以提高癌癥預后預測性能的有效途徑。但獲取大量臨床資料代價昂貴,在多組學數據不完整時不適用。Lai 等[19]收集 614 例有完整臨床資料的非小細胞肺癌患者資料,開發了一種結合基因表達異質性數據和臨床數據的雙峰 DNN。該模型能夠預測患者的 5 年總體生存狀態,ACC 可達 75.4%,AUC 為 0.816。其創新點在于采用 6 個獨立數據集訓練預后模型以提高模型泛化性,并將所用數據嚴格劃分為互不重合的訓練集、驗證集和測試集。其次,雙通道 DNN 能夠更好地學習基因和臨床數據的特征,提高預后模型精準度。Lee 等[20]納入 1 320 例非小細胞肺癌患者,根據 8 位獨立評審專家收集的 30 項臨床和病理資料進行回顧性分析,提出了基于時間約束的 DNN 預后模型來預測患者術后無復發生存率。與傳統統計方法相比,該模型(C-index:0.731;AUC:0.768)可以同時進行特征提取、特征選擇和生存分析,為 DL 從電子病歷中提取特征和進行臨床信息學分析提供了一種有效手段。此外,多模態數據有利于癌癥預后預測,將放射與病理圖像與組學數據加入到該模型的輸入特征中有望進一步提高預測性能。
以上研究表明,當醫學數據類型為基因組學等高通量數據或專家認可的臨床信息時,傾向于使用 DNN 構建 DL 癌癥預后模型,但數據源的異質性和多樣性對預后模型的影響也不可忽視。
3.2 基于卷積神經網絡的癌癥預后模型
卷積神經網絡(convolutional neural network,CNN)是一種廣泛應用于圖像識別和分類的 DL 模型[38]。CNN 基于圖像中的腫瘤信息進行癌癥預后分析,主要由卷積層、池化層和全連接層組成,結構如圖 3 所示。卷積層通過移動卷積核得到覆蓋整個圖像的特征映射,輸入池化層進行特征降維以減少神經元個數,然后將所有的特征圖平鋪成一維特征向量輸入全連接層,最后特征向量通過分類器得到最終預測結果并予以輸出。

3.2.1 基于組織病理圖像
組織病理圖像能夠反映患者當前病變情況(如腫瘤良惡性、分化程度、組織病理分級等),隨 ML 方法的演進,可挖掘出大量與預后相關的圖像特征從而提示潛在的癌癥進程。
Zhu 等[21]根據 404 例肺癌患者的病理圖像,開發了一種新的用于評估生存風險分層的 DeepConvSurv 模型,該模型由三個卷積層、兩個池化層和一個全連接層組成,C-index 值為 0.629,高于兩種 Cox 模型(C-index:0.562;C-index:0.556)和隨機森林生存模型(C-index:0.511)。DeepConvSurv 是第一個采用 CNN 與病理圖像提高生存預測性能的研究,證明了 CNN 模型可以學習預后特征,為采用 DL 技術在生存分析中挖掘更多預后信息奠定了基礎。格里森(Gleason)評分是前列腺癌重要的預后指標,Nagpal 等[1]收集 769 名前列腺癌患者 1 226 張組織切片,交由 32 位病理學家注釋,通過深度 CNN 提取并選擇圖像特征,開發了一個基于 DL 的 Gleason 評分模型。該模型診斷 ACC 可達 70%,優于 29 位普通病理專家 61% 的平均準確率,解決了前列腺癌病理特征在顯微鏡檢查中可重復性差的問題,對患者風險分層有更好的區分作用。Mobadersany 等[22]基于 769 例腦膠質瘤患者的 1 061 張組織切片,將 VGG-19 與 Cox 模型相結合,根據組織活檢和基因標志物的顯微圖像預測患者生存。與當前使用的腦膠質瘤臨床分類標準相比性能更優(C-index:0.754)。此外,該模型能夠可視化與預后密切相關的重要結構(如微血管增生)以便病理學家分級,并且兼顧了不同患者間或患者個體中基因的異質性與遺傳信息的豐富性,為進一步提高 DL 癌癥預后模型的準確性、客觀性和綜合性做出了貢獻。
上述研究表明:DL 對癌癥預后預測有良好的指示作用,能夠根據組織病理圖像學習到病理專家無法直接定義的特征,還可避免專家因疲勞、主觀情緒而遺漏細微病變,顯示了融合多種信息且結合 DL 和回歸分析方法提升癌癥預后模型性能的可行性。但組織病理切片的樣本質量要求較高(不得含有偽影、氣泡、褶皺等)、制備較復雜,按照像素手動標注數據費時費力,都限制了基于組織病理數據構建 DL 癌癥預后模型的普及。
3.2.2 基于 CT、MRI、PET 圖像
CT、MRI、PET 是癌癥患者常用的檢查方式,借助計算機技術,從這些影像中提取大量描述腫瘤特性的圖像特征并進行定量分析,可為臨床醫生提供有價值的預后信息。
DL 需要比傳統 ML 更多的數據來訓練模型,但由于患者隱私保護和數據共享限制,CT、MRI、PET 圖像中具有明確腫瘤標注信息的數據非常有限。因此,研究人員引入了遷移學習:用其他領域中已訓練好的模型權重和新任務的數據對部分網絡層進行再訓練,實現采用小型醫學數據集構建 DL 癌癥預后模型的任務[39]。Paul 等[23]挑選 40 名非小細胞肺癌患者腫瘤面積最大的 CT 切片分割感興趣區域,使用已訓練好的 VGG-F、VGG-M、VGG-S 模型從最后一個隱藏層中提取深度特征,將其與強度分布、空間關系、紋理異質性等傳統圖像特征相結合,采用多種特征選擇方法和多個分類器進行實驗,最終確定采用 ACC 為 90.0%、AUC 為 0.935 的 VGG-F+貝葉斯、VGG-F+隨機森林模型預測患者長短期存活率。但該研究數據太少且沒有外部驗證集驗證模型性能,可靠性有待證實。Lao 等[24]收集 112 例多發性腦膠質母細胞瘤患者的術前多模態 MRI 圖像和生存信息,提取 14 303 個傳統圖像特征和 98 304 個深度特征(由預先訓練的 CNN_S 提取),合并后根據篩選出的 150 個圖像特征與臨床風險因素構建 Cox 模型預測患者生存結局。該模型 C-index 值為 0.739,高于臨床風險因素模型(C-index:0.621),在預測患者風險分層方面取得了更好的效果。此外,基于遷移學習提取的深度特征與傳統圖像特征相結合改善了現有的預后模型性能,證明了深度特征在腦膠質母細胞患者術前護理中的潛力,但該研究仍存在樣本量較小的缺陷。Han 等[25]也報告了一種結合 DL 和放射學模型預測高級別膠質瘤患者總體生存期的初步成果。該研究依次計算了 178 例患者的放射特征(348 個)和已訓練好的 VGG-19 提取的深度特征(8 192 個),經特征選擇后構建 Cox 模型預測長短期生存組。Han 等既進行了特征穩定性的驗證,也對比了是否含有正常組織的腫瘤切片對生存預后的影響,但實驗中各種特征的篩選較為復雜且描述較為模糊。作為腫瘤生物成像的第一個應用,Bizzego 等[26]采用 CT 和 PET 圖像,根據已訓練好的三維卷積神經網絡(three dimensional convolutional neural network,3D-CNN)預測 298 例頭頸部鱗癌患者局部復發。該模型包括兩個并行級聯的 3D-CNN,可對頭頸部腫瘤分期診斷進行預訓練,然后通過內部遷移學習對復發任務進行微調以獲得深度特征,同時計算傳統圖像特征,最后合并兩種特征訓練分類器(SEN:67.0%;SPE:91.0%;ACC:94.0%;MCC:0.748)。該研究證明了在多模態 CT 和 PET 數據集內,混合深度特征和傳統圖像特征預測患者復發比僅使用一類特征或一種圖像模式更為準確。但開發多模態 3D-CNN 是集成 PET 和 CT 圖像的第一步,還需要更多實驗來驗證該方法的魯棒性。Tang 等[27]提出一個多任務 CNN 預后模型共同完成腫瘤基因型和總體生存任務。該模型從 120 例膠質母細胞瘤患者的術前多模態 MRI 腦影像中提取腫瘤基因型相關特征,并將其用于生存預測。與其他最先進的方法相比,該模型生存預測精度最高。膠質母細胞瘤基因型是反映預后的有力指標,該多任務模型通過學習腫瘤基因型相關特征進行基因型預測,可以顯著提高總體生存預測的準確性,并且為術前無創獲得腫瘤基因型信息提供了解決思路。但是,以上遷移學習采用的模型均由自然界中彩色圖片訓練,與醫學圖像差別較大,可能會影響癌癥預后模型性能。
Hosny 等[28]對五家機構共 1 194 例非小細胞肺癌患者的七個 CT 數據集進行了綜合分析:以兩年生存期為界限,訓練 3D-CNN 預測患者死亡率風險。該模型 AUC 值為 0.70,優于基于臨床參數建立的隨機森林預后模型,同時可通過卷積可視化解釋 3D-CNN 捕捉到的特征。該研究證明了 DL 用于預后風險分層的實用性,強調了腫瘤周圍組織在患者分層中的重要性,進一步激發了通過 DL 制定個性化癌癥治療方案的前瞻性研究。Nie 等[29]納入 83 名神經膠質瘤患者的術前多模態 MRI,使用多模態圖像塊構建多通道 3D-CNN 模型提取特征,結合患者人口學信息訓練分類器預測長短生存期。其 ACC(90.7%)高于其他方法,體現了采用多模態 MRI 圖像融合多通道 3D-CNN 構建的 DL 癌癥預后模型的有效性。同年,Diamant 等[30]收集 300 例來自四家醫學機構的頭頸部鱗狀細胞癌患者的治療前 CT 圖像,訓練端到端的 CNN 預后模型評估癌癥治療效果。該模型以患者遠處轉移為終點,AUC 可達 0.880,融合傳統定量特征后 AUC 提高到 0.920。雖然 CNN 不需要提前設計和利用機器學習算法選擇特征,它允許算法本身根據預后目標自主學習,但 CNN 學習到的深度特征不能完全代表手工提取的腫瘤定量特征。
上述研究表明,與組織病理圖像相比,根據治療前 CT、MRI、PET 圖像構建的 DL 癌癥預后模型準確率更高。鑒于遷移學習常用模型中存在醫學圖像與自然界中彩色圖片的差異問題,當構建癌癥預后模型的數據集夠大時,盡量不選擇遷移學習法。在提高預后模型性能方面,深度特征與腫瘤形態學、空間、紋理特征的結合在一定程度上為今后工作指明了方向。但應用于臨床實踐之前,仍需進行多中心大樣本的研究與驗證。
3.3 基于循環神經網絡的癌癥預后模型
循環神經網絡(recurrent neural networks,RNN)由輸入層、隱藏層和輸出層組成,通過一個重復的隱藏狀態(包括當前時間步的信息以及它在前一個時間步的狀態)處理順序輸入從而使神經網絡像人一樣擁有記憶能力,適合處理臨床上反映患者病況的時間序列數據,根據這些信息預測癌癥預后[40]。但處理長期序列數據時 RNN 存在梯度消失的缺陷,因此長短時記憶網絡(long short-term memory,LSTM)應運而生[41]。LSTM 主要由輸入門、遺忘門、輸出門及存儲單元狀態構成,可控制長期狀態。RNN 和 LSTM 網絡結構如圖 4 所示。

Bychkov 等[31]采用 420 名結直腸癌患者的臨床病理數據,結合已訓練好的 VGG-16 和 LSTM 構建基于腫瘤組織切片的預后模型預測患者五年生存率。該方法首先將所用切片分割為 38 萬個尺寸為 224*224 的圖像塊,然后通過 VGG-16 進行特征提取并輸入一維 LSTM 網絡,最后逐塊讀取特征對圖像塊進行預測。AUC 可達 0.690,顯著高于人類病理專家(AUC:0.580)的視覺評估診斷結果,說明 DL 可從癌癥的組織形態中挖掘預后信息。該模型的亮點是 CNN 和 LSTM 兩種網絡的結合。它不需要像 CNN 一樣輸入固定尺寸的圖像塊,也不需要額外步驟合并單個圖像的特征;并且 LSTM 可以處理任意序列長度的輸入并記住長期依賴關系,能在數字病理工作流程中直接評估結直腸癌腫瘤樣本,但其預測精度仍有待提升,需要納入更多訓練數據和外部數據以驗證方法的普適性。
3.4 基于自編碼器的癌癥預后模型
自編碼器(autoencoder,AE)由編碼器和解碼器兩部分構成[42]。編碼器通過編碼函數將輸入壓縮成潛在的空間特征,解碼器通過解碼函數將特征映射到輸入空間,使用不同的訓練規則令輸出值等于輸入值。AE 常用來降低特征維數和復雜性,通常只采用編碼器得到輸入數據的精髓,然后再構造模型學習,這樣不僅能減輕 DL 網絡的負擔,還可以達到一個較好的效果。網絡結構如圖 5 所示。

Zhang 等[32]使用 AE 和主成分分析提取五個基因數據集的特征,構建 PCA-AE 集成預后模型預測乳腺癌患者遠處轉移。實驗表明:AE 從基因中學習的特征可使模型具有良好的泛化能力;深度特征與傳統特征結合后所構建的預后模型性能更優(ACC:76.8%;SEN:84.0%;SPE:55.0%;MCC:0.320;AUC:0.740)。但該模型不易分析,無法評估具體特征的重要性,需加入更多數據提高模型泛化能力。Maggio 等[33]提出一種新型多任務 AE 模型,首次將 498 例神經母細胞瘤的轉錄組學數據應用于生存分析,同時實現診斷與復發預測。多任務學習在訓練時相當于隱式的數據增強,可以在一定程度上防止模型過擬合,提高預測準確率。但如果多個任務間的相關性差異較大,則不利于預后預測。Chaudhary 等[34]第一個填補了采用 DL 整合多組學數據構建癌癥預后模型從而預測肝細胞癌患者生存率的研究空白。該模型納入 360 例患者的 RNA 測序、miRNA 測序及甲基化數據,基于 AE 進行特征選擇與優化以區分患者不同生存亞群,但 C-index 僅為 0.740。
以上三篇文獻顯示了采用組學數據構建 DL 癌癥預后模型在預測患者生存方面的潛力。此外,其他預后因素(如年齡、既往史等)信息、多任務學習等技術也應整合到同一 DL 癌癥預后模型中以提高精確度。
3.5 基于深度置信網絡的癌癥預后模型
深度置信網絡(deep belief network,DBN)由受限玻爾茲曼機(restricted Boltzmann machine,RBM)堆疊而成[42]。RBM 由可見層和隱藏層組成,同層神經元相互獨立,不同層神經元相互連接且雙向對稱。DBN 第一層是一個獨立的預先訓練的 RBM,其隱藏層的輸出是第二個 RBM 可見層輸入,整個網絡逐層訓練,最后采用數據標簽為監督信號計算網絡誤差,通過反向傳播算法對整個網絡中的參數微調。網絡結構如圖 6 所示。

有研究證明在選擇基因方面,DBN 比早期特征選擇算法更具優勢[43]。Wong 等[35]收集 469 例腦膠質母細胞瘤患者基因數據,利用含有兩個隱藏層的 DBN 尋找與治療耐藥性密切相關的基因構建預后模型。實驗證明,DBN 具備在多個抽象層次上表征數據的能力,可為患者生存提供非冗余的預后特征,有助于尋找可能成為治療靶點的特定基因,為醫生挑選合適的治療隨訪方案提供參考。Xie 等[36]合并臨床數據和基因、甲基化等多組學數據,開發了一種融合 DBN 和 Cox 模型進行生存預測的計算工具,該工具在 14 種癌癥預后中表現良好,但未詳細說明該工具預測每種癌癥預后的具體性能。
上述研究表明:DL 可以構建基于微觀特征的生存預后模型以進行個體化預后分析。雖然目前腫瘤患者的多組學診斷尚處于起步階段,但隨著基因組芯片與大規模高通量測序技術的飛速發展,結合 DBN 和 Cox 有助于患者預后的精準預測。
3.6 基于不同網絡結構的癌癥預后模型對比
前述 3.1~3.5 小節以構建 DL 癌癥預后模型的不同網絡結構為主要分類標準,在簡述網絡結構的基礎上,分別歸納了 5 種網絡結構在癌癥預后研究中的應用。為進一步比較與總結,表 2 列舉了 DNN、CNN、RNN、AE 以及 DBN 網絡架構的提出時間、優缺點、適用醫學數據和發展趨勢。

4 DL 癌癥預后模型的方法驗證
現有 DL 癌癥預后模型半數以上采用 CNN 構建而成,多數研究傾向于癌癥患者生存期的預測。因此,本文采用 TCIA 公共數據庫 NSCLC-Radiomics 項目的 lung1 數據集,基于 CT 影像(尺寸:512*512,層厚:3 mm)和 CNN 構建模型預測具有臨床意義的非小細胞肺癌患者 3 年生存期。根據患者存活狀態和生存時間、CT 圖像質量、腫瘤數量、腫瘤病理類型等篩選條件,入組 201 例患者。按患者隨機劃分互不重合的訓練集(150 例)、驗證集(21 例)和測試集(30 例)并給定標簽[44]。由于數據較少,方法驗證采用二維卷積神經網絡(two dimensional convolutional neural network,2D-CNN)和遷移學習。參照表 1 總結的 DL 模型與表 2 中適用 CT 影像的網絡結構,實驗引入預先訓練的三種經典 CNN(VGG-19、ResNet50、Inception V3)、LeNet、新型 2D-S_CNN 和新型密集連接 2D-S_CNN 訓練并確定最優預后生存模型,使用相同測試集驗證模型性能并進行分析與比較。不同模型預測結果如表 3 所示,本文設計的 CNN 網絡結構如圖 7 所示。由表 3 可知,遷移學習中 Inception V3 性能最好,AUC 可達 0.86,ACC 最高為 78.2%。與采用遷移學習構建的模型相比,本文設計的非小細胞肺癌預后生存模型性能更好,ACC、AUC 可達 79.5%、0.86。這些實驗結果證明 DL 在癌癥預后模型中的潛力:遷移學習有助于構建小型醫學數據集的 DL 癌癥預后模型,但預先訓練所使用數據與醫學數據不一致時,可能會對模型性能產生輕微影響。此外,根據具體任務設計的 DL 模型性能更佳。對比新型 2D-S_CNN 和新型密集連接 2D-S_CNN 預后生存模型實驗結果發現:改進 DL 網絡結構可小幅度提高癌癥預后模型性能,因此將更多先進技術引入 DL 網絡是未來癌癥預后預測模型的發展趨勢之一[45]。


5 總結與展望
近幾年研究表明:DL 主要用于癌癥預后模型構建中的特征選擇與特征提取方面,在輔助臨床醫生選擇與制定個體化治療與隨訪方案、延長癌癥患者存活時間等方面具有重要意義。但現有成果大多是基于 DL 的回顧性研究,如何在臨床實踐中輔助醫生決策尚未進行調查和測試。其展望如圖 8 所示。

癌癥預后角度:生存預測是癌癥預后分析的重點領域之一,在避免患者過度治療、減少醫療費用、滿足患者及家屬特殊需求、開展臨床試驗等方面價值極大。目前大部分預后相關研究是預測癌癥患者的風險分層與生存結局。此外,研究者應更多探究采用 DL 技術在預測癌癥病情發展(緩解率、復發率等)、建議癌癥治療方案,以及預估癌癥治療(手術、放療、藥物等)效果等方面的應用。
預后數據類型:癌癥在細胞起源、組織病理形態、臨床表現、治療反應等方面都存在極大的復雜性與異質性。因此,結合各類醫學圖像特征及衍生信息、潛在基因組、臨床資料、專家注釋和其他類型數據構建癌癥預后模型越來越有價值。然而其他類型數據和 DL 算法仍有待深入研究調查。根據大量且匹配的多類醫學數據,通過 DL 將微觀特征與宏觀特征深度融合,建立多尺度多分支多任務的癌癥預后模型是未來發展的必然趨勢。但 DL 在多種數據類型中的應用仍取決于數據的可用性以及數據提取和處理技術的發展。
編程語言與搭建平臺:目前主要使用的編程語言是 Python 和 Matlab。實現平臺包括 Keras、Caffe、Chainer、TensorFlow、Torch 等。這些平臺是深度學習的核心技術,能夠對模型進行訓練和推理,管理癌癥預后領域所需的大規模數據和模型,負責底層計算設備的調度和資源申請。未來在完善這些平臺的同時,也需要開發更具創新性的新型開源平臺。
深度學習網絡結構:DL 具有優秀的非線性特征提取能力、高度的運算并行性以及良好的容錯性與學習自動性。目前在癌癥預后方面取得的進展得益于過去幾十年中計算機和開源軟件的發展、統計學理論與算法和計算能力的提高[46]。DL 依賴于大量數據的集合,由幾千甚至數百萬個標記的樣本訓練而成。然而匱乏的醫學數據、共享的限制、低質量的醫學標簽是 DL 癌癥預后模型普及的主要局限性。因此,小型醫學數據集目前更多依賴遷移學習算法、輕量型 DL 網絡架構或生成合成醫學圖像的方法。為此,我們要探索不同 DL 網絡結構、不同數據集對提高模型準確率與穩健性的影響,探究采用無標注的原始醫學數據集構建 DL 癌癥預后模型的可行性。由于訓練癌癥預后模型所需的數據數量取決于應用程序,測試樣本數量取決于公認標準,所以模型中所用訓練集、驗證集、測試集的最佳大小也應進一步摸索。
模型的可解釋性:可解釋性與復雜性密切相關,DL 癌癥預后模型應用于臨床的關鍵一方面在于模型的精準度,另一方面在于模型能否給出令醫師充分理解的預測分析。雖然卷積可視化易于理解 DL 提取的深度特征,但這些特征與臨床上用以描述腫瘤的高級語義特征有很大差別,難以分析二者的相關性。目前關于 DL 癌癥預后模型解釋方法的發展還處于相對早期的階段,可通過深入探究模型并理解如何進行預測,或估計模型中每個輸入特征的相關性或貢獻來解釋。這兩類方法在與癌癥預后相關的不同建模任務中有相對的靈活性和易適應性,但缺乏足夠的工具提供更深入和新穎的理解。一些研究提出根據臨床專家的先驗知識進行 DL 癌癥預后模型的設計,有助于提高 DL 在實驗室和臨床上的可接受性,產生新的假設并理解癌癥狀態的潛在機制[47]。但不同癌癥類型在特定應用中的先驗知識很難獲得,并且需要考慮計算機的可讀能力。此外,模型設計與訓練中有時需要結合臨床報告的信息,但臨床報告的質量良莠不齊,其解釋差別較大,仍需制定醫師廣泛接受的可用臨床報告的參考標準。
模型評估標準:首先應說明所用數據集的納入和排除標準,明確刪除任何一例數據的理由;在模型訓練過程中嚴格定義數據的訓練集、驗證集和測試集,三者應相互獨立。其次,由于 DL 癌癥預后模型容易過擬合,需使用來自另一機構的外部測試集對最佳模型進行評估以確定模型是否可以推廣。此外,使用圖像數據構建癌癥預后模型時,需注意不同研究中心、不同醫學掃描儀協議下的圖像區別,最好在構建預后模型的每一個階段(訓練、驗證、測試)均使用多中心醫學成像數據,以便提高模型的穩健性和泛化性。由于一些研究已經證明了掃描儀設置(如重建技術和參數)對圖像特征的影響,建議后續研究提供這方面的具體信息與處理方法[48]。同時要詳細描述為構建癌癥預后模型準備的數據,例如研究者將圖像裁剪到某一小范圍內,或者手動選擇了相關圖像。這些數據的預處理與注釋會影響臨床醫生對 DL 癌癥預后模型的理解。雖然目前研究人員經常將 AUC 值作為不同癌癥預后模型的比較指標,但 AUC 值與臨床醫學關系不大。為了治療患者,醫生們更感興趣的是將癌癥預后模型的預測性能與專家本身進行比較。最后,為證實 DL 癌癥預后模型的性能,其算法與程序最好通過 GitHub 等網站上公開發布。
6 結語
DL 癌癥預后模型最終目標是將探索性的解決方案應用到實際的臨床預后分析中。隨著醫療算法監管審批程序的完善,其臨床應用的轉化也會加快。在投入臨床后,各種相關癌癥預后研究仍需根據新的醫學數據的增加而持續改進,期望 DL 癌癥預后模型的研究能推動精準醫療發展,均衡我國各地醫療資源。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。