引用本文: 王成弟, 郭際香, 楊陽, 徐修遠, 胡亦清, 楊瀾, 章毅, 李為民. 利用深度學習技術輔助肺結節的人工智能檢測. 中國呼吸與危重監護雜志, 2019, 18(3): 288-294. doi: 10.7507/1671-6205.201802042 復制
在中國,肺癌是發病率最高和死亡率最高的惡性腫瘤,2015 年新增癌癥患者 429 萬,其中肺癌新發病例達到 73.3 萬,死亡人數更是高達 61 萬[1]。我國約 75% 的肺癌患者在確診時候就已經屬于晚期,5 年生存率不到 20%,這與缺乏篩查以及科學有效鑒別肺結節有關。肺結節影像學表現為直徑≤3 cm 的局灶性、類圓形、密度增高的實性或亞實性肺部陰影,可為孤立性或多發性。科學合理有效鑒別肺結節良惡性進而對肺癌進行早期精準診斷,可產生顯著的社會價值和經濟效益[2]。
計算機斷層掃描(computed tomography,CT)是診斷肺結節和肺癌常用的影像學方式,可以有效提高肺結節和肺癌的檢出率。2011 年美國國家肺篩查試驗(National Lung Screening Trial,NLST)隨機對照研究結果顯示,與胸部 X 線片相比,經低劑量螺旋 CT 篩查的具有高危因素的人群的肺癌相關病死率降低 20%(95%CI 6.8~26.7,P=0.004)[3]。2018 年肺結節診治中國專家共識明確指出,推薦肺結節患者行胸部 CT 檢查,以便更好地顯示肺結節位置、大小、形態、密度、邊緣及內部等特征[2]。目前肺結節診斷主要依靠影像醫師進行 CT 影像篩查,閱片者的主觀因素難以避免;此外,影像醫師需要在數分鐘對所有直徑 4~10 mm 的肺結節進行判斷和分析,而每個肺結節包含 77~1 200 個像素,僅占肺體積 0.000 85%~0.013%,這對影像醫師的技術提出了極大的考驗[4]。同時,人眼在長時間地關注影像后極易發生疲勞,這會嚴重影響診斷的準確率。有研究發現影像醫師診斷肺結節的敏感性為 51.0%~83.2%,假陽性率為每例 0.33~1.39[5]。為實現肺結節的精確檢測,降低人工診斷的假陽性,計算機輔助技術和深度學習技術等人工智能(artificial intelligence,AI)在肺結節檢測和診斷方面發揮越來越重要的作用。
計算機輔助診斷(computer-aided diagnosis,CAD)是一種為醫學影像解譯和診斷提供第三方客觀意見的計算機程序,可以減少不必要的假陽性活檢和開胸手術。肺結節 CAD 系統可分成檢測(computer-aided detection,CADe)和診斷(computer-aided diagnosis,CADx)兩部分,CADe 在胸部 CT 圖像中對候選結節進行標記,而 CADx 對結節的良性或惡性提供參考意見。CAD 輔助肺結節檢測大致分為 4 個步驟:圖像分割,感興趣區(region of interest,ROI)的選擇和特征提取,ROI 的鑒別(肺結節或其他結構),病灶的標記(對自動檢測的結節進行標記)[6]。研究顯示,CAD 系統在部分實性結節的檢測敏感性可以達到 88%,不過 CAD 系統在增加肺結節檢測敏感性的同時增加了假陽性[7]。針對具體個例的特征提取被認為是重點也是難點問題,這需要一系列復雜的圖像處理步驟,并且在很大程度上取決于每個中間結果的質量,由于存在許多圖像處理問題亟待解決,傳統 CAD 框架整體性能的設計協調任務非常艱巨[8]。
近來研究發現,結合了大數據的深度學習技術在影像診斷中有比較好的檢測效果[9],它提高了對 CT 圖像檢測與分類特異性、敏感性及精確度,在不受情緒等主觀因素影響下快速高效地分析掃描以確診疾病。從模型構架來看,深度學習模型可分為前饋深度網絡(feed-forward deep network,FFDN)、反饋深度網絡(feed-back deep network,FBDN)和雙向深度網絡(bi-directional deep network,BDDN)三個大類(圖 1)。其中,FFDN 中的卷積神經網絡(convolutional neural network,CNN)、BDDN 中的深度信念網絡(deep belief network,DBN)和棧式自編碼器(stacked auto-encoder,SAE)在肺結節檢測領域應用較多。目前,大部分的深度學習模型是由 CNN、DBN、SAE 這三種經典模型演變而來。本文將逐一介紹它們的基本結構和在肺結節檢測領域的應用。

1 深度學習模型介紹
深度學習模型的訓練方式主要有監督學習和無監督學習兩種。訓練方式因模型結構而異,一般以 CNN 為核心的模型采取有監督訓練方式;而以自編碼器為核心的模型,大部分采用無監督學習方式預訓練,配合監督微調模式進行參數訓練。
1.1 CNN
1989 年,LeCun 等[10]提出第一個真正意義上的 CNN,在 1997 年 CNN 已較為成熟,AlexNet、VGGNet、GoogLeNet、Siamese 和 SqueezeNet 網絡模型是針對 CNN 樣本訓練和識別過程的模型(表 1)[11-21]。CNN 經典網絡模型中的基于區域的卷積神經網絡(region-based CNN,R-CNN)、快速 R-CNN(Fast-RCNN)、更快 R-CNN(Faster-RCNN)、基于區域的全卷積神經網絡(region-based fully convolutional network,R-FCN)和單次目標檢測器(single shot multibox detector,SSD)等是利用深度學習進行目標定位的實踐(表 2)[22-30]。Litjens 等[31]和 Shelhamer 等[32]將這些模型應用于醫學圖像處理。


CNN 是一種成功并廣泛用于計算機輔助診斷的經典 DNN 模型,該模型主要由卷積、池化兩種操作,有些模型含有全連接操作,相關模型如圖 2 所示。卷積層利用具有學習功能的卷積核心來對圖像進行特征處理與抽象,例如識別圖像局部野的特征模塊,如邊緣、線條等其他高層次的本質特征等;池化層用于高效地降低特征圖的維度,并同時保留圖像中識別代表位置和形狀的語義特征的健全,卷積操作與池化操作具有良好平移不變性(translation-invariance),因此 CNN 可以有效地保留圖像的空間特性。全連接層通過卷積權重求和所有梯度以在所有連接上給定權重,以確定每層特征圖像各局部感受野(local receptive field,LRF)對應的下一層特征圖像的單位,從而實現整合整個圖像全部的特征反饋并輸出最終結果[22-26]。模型的準度和效度可以由集成學習使得不同模型進行共同決策,從而獲得更加準確的結果[33]。

CNN 各層之間通過卷積的局部核心相聯系
CNN 通過對生物視神經結構進行簡單模擬,具有神經網絡感受野,LRF 對圖像進行時間或空間亞采樣的特點;因感受野的權值共享,可以減少模型的參數數量,提高模型的泛化性能。集圖像特征提取和分類的功能于一體,避免圖像采集時客觀存在的系統誤差(如姿勢、光線、背景噪等)和數據處理方法選擇上人為的主觀偏倚,可以識別各種精度的圖像特征,對于圖像平移、比例縮放、傾斜甚至運動等物理存在形式的轉換中表現出良好的魯棒性。
1.2 自編碼器
自編碼器(autoencoders,AE)的概念在 1986 年由 Rumelhart 等[34]提出,并將其用于高維復雜數據處理,促進了神經網絡的發展。自編碼器由編碼器與解碼器組成,其原理如圖 3 所示。核心思想是將輸入信號進行編碼,使用編碼之后的信號重構原始信號,目的是讓重構信號與原始信號相比重建誤差最小。2006 年,以 Hinton[35]為代表提出了SAE,在十年內陸續有學者提出了稀疏自編碼器、降噪自編碼器、收縮自編碼器、卷積自編碼器等。

1.2.1 棧式自編碼器
2006 年 Hinton 等[35]提出棧式自編碼器,它是一種從無類標數據中分層提取輸入數據高維復雜的特征。由于簡單的淺層結構特征,單層自編碼器的表征能力是非常有限的。但當多個自編碼器堆疊時,被稱為堆疊式自編碼器或SAE,利用上一層的隱層作為下一層的輸入層,通過逐層非監督學習的預訓練來初始化深度網絡的參數,進而大大提高表征能力[35]。
由于結構的層次性,SAE 最重要的特征之一就是學習或發現高度非線性和復雜的模式,利用基于梯度的優化技術來減少權重矩陣的訓練參數和 SAE 中的偏差。使用貪心的分層學習進行預訓練,這種技術的重要特點是以在無監督下進行一種標準的反向傳播算法,從而允許通過開發未標記的訓練樣本來增加數據集的大小。
1.2.2 稀疏自編碼器
2007 年 Bengio 等[36]在自編碼器的基礎上加上 L1 限制以約束每一層中的節點中大部分都要為 0,從而得到稀疏自編碼器。它在自編碼的基礎上增加稀疏性約束條件,引入了糾正激活函數,提高了算法的魯棒性,進而有效地提升信息表達的準確率、全面性。
1.2.3 降噪自編碼器
2008 年,Vincent 等[37]提出降噪自編碼器,在訓練數據中添加腐壞向量,通過最小化降噪重構誤差,從含隨機噪聲的數據中重構真實的原始輸入。降噪自編碼器在自編碼器的基礎之上,對輸入的數據加入噪音以防止過擬合問題,使學習得到的編碼器具有較強的魯棒性,進而增強模型的泛化能力。多層降噪自編碼器與欠采樣局部更新的元代價算法有機結合,有效利用抗噪聲、無標簽樣本等特性,降低組合模型不均衡性[37]。
1.3 DBN
DBN 最初由 Hinton 等[35]在 2006 年提出,也是深度學習的開山之作。DBN 是一種生成模型,通過訓練神經元間權重,讓整個神經網絡按照最大概率來生成訓練數據,以用作特征識別、數據分類和數據生成。經典的 DBN 網絡結構是由若干層受限玻爾茲曼機(restricted boltzmann machines,RBM)和一層反向傳播(back propagation,BP)組成的一種深層神經網絡,該模型是深度學習的鼻祖,是第一個將神經網絡引向深度的算法。RBM 是 DBN 的組成元件,只有兩層神經元:一個顯層(visible layer,v),用于輸入訓練數據;一個隱層(hidden layer,h),用作特征檢測器(圖 4)[38]。DBN 對每一層 RBM 網絡分別單獨無監督地訓練,確保特征向量映射到不同特征空間時都盡可能多地保留供識別檢測的特征信息。BP 是有監督的訓練實體關系分類器。在 DBN 的最后一層設置 BP 網絡,接收 RBM 的輸出特征向量作為它的輸入特征向量。

圖中虛線框內即為一個 DBN 的組成元件 RBM
2 深度學習模型在肺結節檢測領域的應用
2.1 CNN
目前,CAD 系統陸續用于檢測肺結節,對 CT 檢查像中結節候選區進行特征提取和分類,但仍會出現較高的假陽性。在 CAD 系統中引入 CNN 模型,由于卷積核的存在,相對傳統 CAD 可以明顯降低肺結節假陽性的百分率[39]。
通過文獻檢索,CNN 在肺結節的檢測和分類的準確性和敏感性可以與影像科醫師閱片的水平相似[8, 39-45]。相對于傳統 CAD 系統,CNN 在肺結節檢測的應用匯總見表 3。這些研究主要基于肺部影像數據庫聯盟(The Lung Image Database Consortium,LIDC)的公開的影像數據,利用 CNN 模型對肺結節檢出或良惡性進行分類。Li 等[40]通過深度卷積神經網絡(deep convolutional neural network)方法,對數據庫的 40 772 個結節和 21 720 個非結節的 62 492 個 ROI 區域樣本訓練,在肺結節的檢出可以達到 87.1% 的敏感性和 84.3% 的準確性,實驗結果表明該方法優于傳統 CAD 系統。Cheng 等[8]研究表明,使用 CNN 在 CT 上檢測和分類肺結節的總體準確性具有可比性,并且在大多數情況下優于目前用于肺部篩查的傳統 CAD 方法,最值得注意的是 CNN 可以減少假陽性。Gruetzemacher 等[41]的研究發現,具有 3 個卷積層的 CNN 在分類上具有 81.08% 的分類精度,具有 5 個卷積層的 CNN 具有 82.10% 的分類精度,然后當該相同模型具有 6 個卷積層時,分類精度下降到 81.50%。盡管已經普遍采用更復雜的架構,但僅添加額外的層并不一定能帶來優勢。Hussein 等[42]提出了一種用于結節表征的端到端可訓練多視圖深度卷積神經網絡(multi-view deep convolutional neural network,MV-CNN),通過對輸入圖像進行縮放、旋轉和添加噪聲來對數據進行增強,訓練后的網絡用于從輸入圖像中提取特征,然后通過高斯過程(GP)回歸來獲得結節惡性分數,進而對惡性結節進行預測。Nibali 等[43]提出了基于殘差網絡的系統(ResNet-based system)對惡性肺結節進行分類,與兩個用于 LIDC/IDRI 數據集上的結節分類的最先進的 2 個深度學習系統 setio-CNN 和 OverFeat 進行對比,無論在準確性、敏感性、特異性(分別是 89.90%、91.07%、88.64%)還是受試者工作特征曲線下面積(94.59%)均達到了較高的性能。Song 等[44]用 3 種類型的 DNN(CNN、DNN 和 SAE)識別肺結節的鈣化以及對肺結節良惡性進行分類,實驗結果表明,CNN 的性能最好,達到 84.15% 的準確性、83.96% 的敏感性、84.32% 的特異性。侍新等[45]將分割后的 CT 圖像作為 CNN 的輸入進行特征提取,使用R-FCN作為檢測肺結節的模型,同時利用 R-FCN 創建的位置敏感特征圖,以提取與檢測目標結節的空間位置特征,檢測肺結節的準確率、特異性、敏感性分別為 95.60%、95.97%、95.24%,接近人工檢測的水平。呂曉琪等[46]利用 3D 卷積神經網絡對低劑量 CT 圖像進行肺結節檢測,經過圖像預處理、選結節正樣本進行旋轉和光照處理、網絡參數的不斷優化,準確性、敏感性、特異性以及受試者工作特征曲線下面積分別達到了 84.60%、88.89%、80.32% 及 0.924 4,該算法對于輔助影像科醫生診斷有一定的幫助,具有重要的臨床實用價值。

2.2 自編碼器
深度學習技術在肺部影像方面的研究主要集中于胸部 CT 圖像,對肺結節的快速準確檢測是早期肺癌篩查的關鍵步驟。除了 CNN 在肺結節檢測應用較多,自編碼器在肺結節的應用屬于起步階段,這方面的研究較少。鞏萍等[47]通過閾值概率圖從胸部 CT 圖像中分割出肺部結節圖像,通過稀疏自編碼神經網絡(sparse auto-coding neural network)自動提取肺結節圖像的特征,然后利用 Logistic 回歸分類器(logistic regression)對提取的特征對肺結節進行良惡性分類。此種方法與目前基于人工提取的特征相比,達到了較高的分類精度(91.47%)和較大的受試者工作特征曲線下面積(0.956),為臨床診斷提供了參考依據[47]。趙鑫等[48]提出一種改進的深度半監督稀疏自編碼器(semi-supervised deep sparse-autoEncoder,SSAE)的肺結節檢測方法,采用 LRF 對肺結節圖像進行多層特征提取,利用SSAE自主學習胸部影像的結節特征,融合多維度臨床信息對肺結節的精準進行檢測,結果表明這種基于 LRF 的半監督稀疏自編碼器模型(LRF-SSAE)與其他深度自編碼器模型(SAE、SSAE、RBM)進行比較,獲得了較高的準確性、敏感性、特異性(表 4),更適用于肺結節的精準檢測。

2.3 DBN
Hinton [35]在 2006 年就提出了 DBN,其陸續在手寫數字識別、語音分析、圖像識別、文本信息檢索等方面都有成功的應用。縱觀國內外文獻報道,DBN 在肺結節檢測分類和診斷的研究較少。針對傳統 CAD 診斷系統檢測肺結節的過程繁瑣和假陽性高的問題,張婷等[49]提出了一種基于多視角深度信念網絡(multi-view deep belief network,多視角 DBN)的肺結節識別方法,初步實現了端到端的分類任務。在公開數據集的基礎上通過肺結節疑似區域提取、構建 2.5D 結構特征、多視角 DBN 特征學習和訓練等步驟,采用不同的融合策略完成對肺結節的識別,結果表明,其在肺結節的識別達到了 92.8% 的敏感性,高于傳統的肺結節檢測系統,同時有效降低了假陽性率[49]。楊佳玲等[50]構建了一個 5 層 DBN,不僅有效地降低肺結節分類的假陽性,而且還提高了其檢測的精度。通過圖像預處理、肺結節特征集(形狀、灰度、紋理、位置等)構建并形成特征向量、使用 5 層 DBN 對肺結節良惡性進行分類,該算法達到了 95.3% 的精度、92.5% 的敏感性和 93.2% 的特異性,可以為臨床醫生提供比較客觀的輔助診斷[50]。Sun 等[51]采用了 CNN、DBN、堆棧降噪自編碼器(stacked denoising auto-encoder,SDAE)等深度學習方法對肺結節的特征進行提取,結果表明 CNN 和 DBN 的結果明顯優于 CADx。Hua 等[52]比較分析了 DBN、CNN、尺度不變特征轉換(scale invariant feature transform,SIFT)、Fractal 四類模型在結節分類的應用,結果表明 DBN 達到了最高的敏感性和特異性。
3 結語
本文對 CNN、自編碼器、DBN 等深度學習技術的發展以及這 3 種技術在肺結節檢測和分類領域的應用進行了概述。使用 CNN、SAE、DBN 等作為醫學成像中圖像識別和分類的工具是一種相對較新的技術。相對于傳統 CAD 系統,深度學習技術在肺結節檢測領域有較高的準確性、敏感性和特異性,不過距離真正應用于臨床實踐還有一段的距離。新技術需要臨床醫生的反復使用從而進行反饋以及軟件開發者不斷地優化模型才能更快的落地,AI 存在的“黑盒子”問題仍然讓許多臨床醫師難以信服,僅僅單一的肺結節檢測、分類、良惡性篩查等模型均不能滿足臨床復雜診斷場景的需求,單一的深度學習技術不可避免出現假陽性,AI 進入臨床進行應用的標準還未制定,等等。新技術帶來的困境如何有效應對是目前亟待解決的問題。
深度學習技術在醫療領域的應用逐步體現出自身的優越性。如何更好地讓 AI 進入臨床進而輔助醫生的臨床診療和決策呢?海量優質數據的獲取和規范標注,最優質的數據才能訓練出最聰明的模型;CNN 模型的選擇和算法的優化,可以讓 AI 具有持有的活力;AI 人才加醫學專家的多學科團隊的搭建和融合才能使應用于臨床的 AI 產品具有持久的生命力。AI 算法的飛速發展,跨學科團隊的深度合作,海量的優質數據獲取和標注,將引領臨床醫學診斷進入 AI 新時代,讓患者在受到最小傷害的同時得到最佳的診療。
在中國,肺癌是發病率最高和死亡率最高的惡性腫瘤,2015 年新增癌癥患者 429 萬,其中肺癌新發病例達到 73.3 萬,死亡人數更是高達 61 萬[1]。我國約 75% 的肺癌患者在確診時候就已經屬于晚期,5 年生存率不到 20%,這與缺乏篩查以及科學有效鑒別肺結節有關。肺結節影像學表現為直徑≤3 cm 的局灶性、類圓形、密度增高的實性或亞實性肺部陰影,可為孤立性或多發性。科學合理有效鑒別肺結節良惡性進而對肺癌進行早期精準診斷,可產生顯著的社會價值和經濟效益[2]。
計算機斷層掃描(computed tomography,CT)是診斷肺結節和肺癌常用的影像學方式,可以有效提高肺結節和肺癌的檢出率。2011 年美國國家肺篩查試驗(National Lung Screening Trial,NLST)隨機對照研究結果顯示,與胸部 X 線片相比,經低劑量螺旋 CT 篩查的具有高危因素的人群的肺癌相關病死率降低 20%(95%CI 6.8~26.7,P=0.004)[3]。2018 年肺結節診治中國專家共識明確指出,推薦肺結節患者行胸部 CT 檢查,以便更好地顯示肺結節位置、大小、形態、密度、邊緣及內部等特征[2]。目前肺結節診斷主要依靠影像醫師進行 CT 影像篩查,閱片者的主觀因素難以避免;此外,影像醫師需要在數分鐘對所有直徑 4~10 mm 的肺結節進行判斷和分析,而每個肺結節包含 77~1 200 個像素,僅占肺體積 0.000 85%~0.013%,這對影像醫師的技術提出了極大的考驗[4]。同時,人眼在長時間地關注影像后極易發生疲勞,這會嚴重影響診斷的準確率。有研究發現影像醫師診斷肺結節的敏感性為 51.0%~83.2%,假陽性率為每例 0.33~1.39[5]。為實現肺結節的精確檢測,降低人工診斷的假陽性,計算機輔助技術和深度學習技術等人工智能(artificial intelligence,AI)在肺結節檢測和診斷方面發揮越來越重要的作用。
計算機輔助診斷(computer-aided diagnosis,CAD)是一種為醫學影像解譯和診斷提供第三方客觀意見的計算機程序,可以減少不必要的假陽性活檢和開胸手術。肺結節 CAD 系統可分成檢測(computer-aided detection,CADe)和診斷(computer-aided diagnosis,CADx)兩部分,CADe 在胸部 CT 圖像中對候選結節進行標記,而 CADx 對結節的良性或惡性提供參考意見。CAD 輔助肺結節檢測大致分為 4 個步驟:圖像分割,感興趣區(region of interest,ROI)的選擇和特征提取,ROI 的鑒別(肺結節或其他結構),病灶的標記(對自動檢測的結節進行標記)[6]。研究顯示,CAD 系統在部分實性結節的檢測敏感性可以達到 88%,不過 CAD 系統在增加肺結節檢測敏感性的同時增加了假陽性[7]。針對具體個例的特征提取被認為是重點也是難點問題,這需要一系列復雜的圖像處理步驟,并且在很大程度上取決于每個中間結果的質量,由于存在許多圖像處理問題亟待解決,傳統 CAD 框架整體性能的設計協調任務非常艱巨[8]。
近來研究發現,結合了大數據的深度學習技術在影像診斷中有比較好的檢測效果[9],它提高了對 CT 圖像檢測與分類特異性、敏感性及精確度,在不受情緒等主觀因素影響下快速高效地分析掃描以確診疾病。從模型構架來看,深度學習模型可分為前饋深度網絡(feed-forward deep network,FFDN)、反饋深度網絡(feed-back deep network,FBDN)和雙向深度網絡(bi-directional deep network,BDDN)三個大類(圖 1)。其中,FFDN 中的卷積神經網絡(convolutional neural network,CNN)、BDDN 中的深度信念網絡(deep belief network,DBN)和棧式自編碼器(stacked auto-encoder,SAE)在肺結節檢測領域應用較多。目前,大部分的深度學習模型是由 CNN、DBN、SAE 這三種經典模型演變而來。本文將逐一介紹它們的基本結構和在肺結節檢測領域的應用。

1 深度學習模型介紹
深度學習模型的訓練方式主要有監督學習和無監督學習兩種。訓練方式因模型結構而異,一般以 CNN 為核心的模型采取有監督訓練方式;而以自編碼器為核心的模型,大部分采用無監督學習方式預訓練,配合監督微調模式進行參數訓練。
1.1 CNN
1989 年,LeCun 等[10]提出第一個真正意義上的 CNN,在 1997 年 CNN 已較為成熟,AlexNet、VGGNet、GoogLeNet、Siamese 和 SqueezeNet 網絡模型是針對 CNN 樣本訓練和識別過程的模型(表 1)[11-21]。CNN 經典網絡模型中的基于區域的卷積神經網絡(region-based CNN,R-CNN)、快速 R-CNN(Fast-RCNN)、更快 R-CNN(Faster-RCNN)、基于區域的全卷積神經網絡(region-based fully convolutional network,R-FCN)和單次目標檢測器(single shot multibox detector,SSD)等是利用深度學習進行目標定位的實踐(表 2)[22-30]。Litjens 等[31]和 Shelhamer 等[32]將這些模型應用于醫學圖像處理。


CNN 是一種成功并廣泛用于計算機輔助診斷的經典 DNN 模型,該模型主要由卷積、池化兩種操作,有些模型含有全連接操作,相關模型如圖 2 所示。卷積層利用具有學習功能的卷積核心來對圖像進行特征處理與抽象,例如識別圖像局部野的特征模塊,如邊緣、線條等其他高層次的本質特征等;池化層用于高效地降低特征圖的維度,并同時保留圖像中識別代表位置和形狀的語義特征的健全,卷積操作與池化操作具有良好平移不變性(translation-invariance),因此 CNN 可以有效地保留圖像的空間特性。全連接層通過卷積權重求和所有梯度以在所有連接上給定權重,以確定每層特征圖像各局部感受野(local receptive field,LRF)對應的下一層特征圖像的單位,從而實現整合整個圖像全部的特征反饋并輸出最終結果[22-26]。模型的準度和效度可以由集成學習使得不同模型進行共同決策,從而獲得更加準確的結果[33]。

CNN 各層之間通過卷積的局部核心相聯系
CNN 通過對生物視神經結構進行簡單模擬,具有神經網絡感受野,LRF 對圖像進行時間或空間亞采樣的特點;因感受野的權值共享,可以減少模型的參數數量,提高模型的泛化性能。集圖像特征提取和分類的功能于一體,避免圖像采集時客觀存在的系統誤差(如姿勢、光線、背景噪等)和數據處理方法選擇上人為的主觀偏倚,可以識別各種精度的圖像特征,對于圖像平移、比例縮放、傾斜甚至運動等物理存在形式的轉換中表現出良好的魯棒性。
1.2 自編碼器
自編碼器(autoencoders,AE)的概念在 1986 年由 Rumelhart 等[34]提出,并將其用于高維復雜數據處理,促進了神經網絡的發展。自編碼器由編碼器與解碼器組成,其原理如圖 3 所示。核心思想是將輸入信號進行編碼,使用編碼之后的信號重構原始信號,目的是讓重構信號與原始信號相比重建誤差最小。2006 年,以 Hinton[35]為代表提出了SAE,在十年內陸續有學者提出了稀疏自編碼器、降噪自編碼器、收縮自編碼器、卷積自編碼器等。

1.2.1 棧式自編碼器
2006 年 Hinton 等[35]提出棧式自編碼器,它是一種從無類標數據中分層提取輸入數據高維復雜的特征。由于簡單的淺層結構特征,單層自編碼器的表征能力是非常有限的。但當多個自編碼器堆疊時,被稱為堆疊式自編碼器或SAE,利用上一層的隱層作為下一層的輸入層,通過逐層非監督學習的預訓練來初始化深度網絡的參數,進而大大提高表征能力[35]。
由于結構的層次性,SAE 最重要的特征之一就是學習或發現高度非線性和復雜的模式,利用基于梯度的優化技術來減少權重矩陣的訓練參數和 SAE 中的偏差。使用貪心的分層學習進行預訓練,這種技術的重要特點是以在無監督下進行一種標準的反向傳播算法,從而允許通過開發未標記的訓練樣本來增加數據集的大小。
1.2.2 稀疏自編碼器
2007 年 Bengio 等[36]在自編碼器的基礎上加上 L1 限制以約束每一層中的節點中大部分都要為 0,從而得到稀疏自編碼器。它在自編碼的基礎上增加稀疏性約束條件,引入了糾正激活函數,提高了算法的魯棒性,進而有效地提升信息表達的準確率、全面性。
1.2.3 降噪自編碼器
2008 年,Vincent 等[37]提出降噪自編碼器,在訓練數據中添加腐壞向量,通過最小化降噪重構誤差,從含隨機噪聲的數據中重構真實的原始輸入。降噪自編碼器在自編碼器的基礎之上,對輸入的數據加入噪音以防止過擬合問題,使學習得到的編碼器具有較強的魯棒性,進而增強模型的泛化能力。多層降噪自編碼器與欠采樣局部更新的元代價算法有機結合,有效利用抗噪聲、無標簽樣本等特性,降低組合模型不均衡性[37]。
1.3 DBN
DBN 最初由 Hinton 等[35]在 2006 年提出,也是深度學習的開山之作。DBN 是一種生成模型,通過訓練神經元間權重,讓整個神經網絡按照最大概率來生成訓練數據,以用作特征識別、數據分類和數據生成。經典的 DBN 網絡結構是由若干層受限玻爾茲曼機(restricted boltzmann machines,RBM)和一層反向傳播(back propagation,BP)組成的一種深層神經網絡,該模型是深度學習的鼻祖,是第一個將神經網絡引向深度的算法。RBM 是 DBN 的組成元件,只有兩層神經元:一個顯層(visible layer,v),用于輸入訓練數據;一個隱層(hidden layer,h),用作特征檢測器(圖 4)[38]。DBN 對每一層 RBM 網絡分別單獨無監督地訓練,確保特征向量映射到不同特征空間時都盡可能多地保留供識別檢測的特征信息。BP 是有監督的訓練實體關系分類器。在 DBN 的最后一層設置 BP 網絡,接收 RBM 的輸出特征向量作為它的輸入特征向量。

圖中虛線框內即為一個 DBN 的組成元件 RBM
2 深度學習模型在肺結節檢測領域的應用
2.1 CNN
目前,CAD 系統陸續用于檢測肺結節,對 CT 檢查像中結節候選區進行特征提取和分類,但仍會出現較高的假陽性。在 CAD 系統中引入 CNN 模型,由于卷積核的存在,相對傳統 CAD 可以明顯降低肺結節假陽性的百分率[39]。
通過文獻檢索,CNN 在肺結節的檢測和分類的準確性和敏感性可以與影像科醫師閱片的水平相似[8, 39-45]。相對于傳統 CAD 系統,CNN 在肺結節檢測的應用匯總見表 3。這些研究主要基于肺部影像數據庫聯盟(The Lung Image Database Consortium,LIDC)的公開的影像數據,利用 CNN 模型對肺結節檢出或良惡性進行分類。Li 等[40]通過深度卷積神經網絡(deep convolutional neural network)方法,對數據庫的 40 772 個結節和 21 720 個非結節的 62 492 個 ROI 區域樣本訓練,在肺結節的檢出可以達到 87.1% 的敏感性和 84.3% 的準確性,實驗結果表明該方法優于傳統 CAD 系統。Cheng 等[8]研究表明,使用 CNN 在 CT 上檢測和分類肺結節的總體準確性具有可比性,并且在大多數情況下優于目前用于肺部篩查的傳統 CAD 方法,最值得注意的是 CNN 可以減少假陽性。Gruetzemacher 等[41]的研究發現,具有 3 個卷積層的 CNN 在分類上具有 81.08% 的分類精度,具有 5 個卷積層的 CNN 具有 82.10% 的分類精度,然后當該相同模型具有 6 個卷積層時,分類精度下降到 81.50%。盡管已經普遍采用更復雜的架構,但僅添加額外的層并不一定能帶來優勢。Hussein 等[42]提出了一種用于結節表征的端到端可訓練多視圖深度卷積神經網絡(multi-view deep convolutional neural network,MV-CNN),通過對輸入圖像進行縮放、旋轉和添加噪聲來對數據進行增強,訓練后的網絡用于從輸入圖像中提取特征,然后通過高斯過程(GP)回歸來獲得結節惡性分數,進而對惡性結節進行預測。Nibali 等[43]提出了基于殘差網絡的系統(ResNet-based system)對惡性肺結節進行分類,與兩個用于 LIDC/IDRI 數據集上的結節分類的最先進的 2 個深度學習系統 setio-CNN 和 OverFeat 進行對比,無論在準確性、敏感性、特異性(分別是 89.90%、91.07%、88.64%)還是受試者工作特征曲線下面積(94.59%)均達到了較高的性能。Song 等[44]用 3 種類型的 DNN(CNN、DNN 和 SAE)識別肺結節的鈣化以及對肺結節良惡性進行分類,實驗結果表明,CNN 的性能最好,達到 84.15% 的準確性、83.96% 的敏感性、84.32% 的特異性。侍新等[45]將分割后的 CT 圖像作為 CNN 的輸入進行特征提取,使用R-FCN作為檢測肺結節的模型,同時利用 R-FCN 創建的位置敏感特征圖,以提取與檢測目標結節的空間位置特征,檢測肺結節的準確率、特異性、敏感性分別為 95.60%、95.97%、95.24%,接近人工檢測的水平。呂曉琪等[46]利用 3D 卷積神經網絡對低劑量 CT 圖像進行肺結節檢測,經過圖像預處理、選結節正樣本進行旋轉和光照處理、網絡參數的不斷優化,準確性、敏感性、特異性以及受試者工作特征曲線下面積分別達到了 84.60%、88.89%、80.32% 及 0.924 4,該算法對于輔助影像科醫生診斷有一定的幫助,具有重要的臨床實用價值。

2.2 自編碼器
深度學習技術在肺部影像方面的研究主要集中于胸部 CT 圖像,對肺結節的快速準確檢測是早期肺癌篩查的關鍵步驟。除了 CNN 在肺結節檢測應用較多,自編碼器在肺結節的應用屬于起步階段,這方面的研究較少。鞏萍等[47]通過閾值概率圖從胸部 CT 圖像中分割出肺部結節圖像,通過稀疏自編碼神經網絡(sparse auto-coding neural network)自動提取肺結節圖像的特征,然后利用 Logistic 回歸分類器(logistic regression)對提取的特征對肺結節進行良惡性分類。此種方法與目前基于人工提取的特征相比,達到了較高的分類精度(91.47%)和較大的受試者工作特征曲線下面積(0.956),為臨床診斷提供了參考依據[47]。趙鑫等[48]提出一種改進的深度半監督稀疏自編碼器(semi-supervised deep sparse-autoEncoder,SSAE)的肺結節檢測方法,采用 LRF 對肺結節圖像進行多層特征提取,利用SSAE自主學習胸部影像的結節特征,融合多維度臨床信息對肺結節的精準進行檢測,結果表明這種基于 LRF 的半監督稀疏自編碼器模型(LRF-SSAE)與其他深度自編碼器模型(SAE、SSAE、RBM)進行比較,獲得了較高的準確性、敏感性、特異性(表 4),更適用于肺結節的精準檢測。

2.3 DBN
Hinton [35]在 2006 年就提出了 DBN,其陸續在手寫數字識別、語音分析、圖像識別、文本信息檢索等方面都有成功的應用。縱觀國內外文獻報道,DBN 在肺結節檢測分類和診斷的研究較少。針對傳統 CAD 診斷系統檢測肺結節的過程繁瑣和假陽性高的問題,張婷等[49]提出了一種基于多視角深度信念網絡(multi-view deep belief network,多視角 DBN)的肺結節識別方法,初步實現了端到端的分類任務。在公開數據集的基礎上通過肺結節疑似區域提取、構建 2.5D 結構特征、多視角 DBN 特征學習和訓練等步驟,采用不同的融合策略完成對肺結節的識別,結果表明,其在肺結節的識別達到了 92.8% 的敏感性,高于傳統的肺結節檢測系統,同時有效降低了假陽性率[49]。楊佳玲等[50]構建了一個 5 層 DBN,不僅有效地降低肺結節分類的假陽性,而且還提高了其檢測的精度。通過圖像預處理、肺結節特征集(形狀、灰度、紋理、位置等)構建并形成特征向量、使用 5 層 DBN 對肺結節良惡性進行分類,該算法達到了 95.3% 的精度、92.5% 的敏感性和 93.2% 的特異性,可以為臨床醫生提供比較客觀的輔助診斷[50]。Sun 等[51]采用了 CNN、DBN、堆棧降噪自編碼器(stacked denoising auto-encoder,SDAE)等深度學習方法對肺結節的特征進行提取,結果表明 CNN 和 DBN 的結果明顯優于 CADx。Hua 等[52]比較分析了 DBN、CNN、尺度不變特征轉換(scale invariant feature transform,SIFT)、Fractal 四類模型在結節分類的應用,結果表明 DBN 達到了最高的敏感性和特異性。
3 結語
本文對 CNN、自編碼器、DBN 等深度學習技術的發展以及這 3 種技術在肺結節檢測和分類領域的應用進行了概述。使用 CNN、SAE、DBN 等作為醫學成像中圖像識別和分類的工具是一種相對較新的技術。相對于傳統 CAD 系統,深度學習技術在肺結節檢測領域有較高的準確性、敏感性和特異性,不過距離真正應用于臨床實踐還有一段的距離。新技術需要臨床醫生的反復使用從而進行反饋以及軟件開發者不斷地優化模型才能更快的落地,AI 存在的“黑盒子”問題仍然讓許多臨床醫師難以信服,僅僅單一的肺結節檢測、分類、良惡性篩查等模型均不能滿足臨床復雜診斷場景的需求,單一的深度學習技術不可避免出現假陽性,AI 進入臨床進行應用的標準還未制定,等等。新技術帶來的困境如何有效應對是目前亟待解決的問題。
深度學習技術在醫療領域的應用逐步體現出自身的優越性。如何更好地讓 AI 進入臨床進而輔助醫生的臨床診療和決策呢?海量優質數據的獲取和規范標注,最優質的數據才能訓練出最聰明的模型;CNN 模型的選擇和算法的優化,可以讓 AI 具有持有的活力;AI 人才加醫學專家的多學科團隊的搭建和融合才能使應用于臨床的 AI 產品具有持久的生命力。AI 算法的飛速發展,跨學科團隊的深度合作,海量的優質數據獲取和標注,將引領臨床醫學診斷進入 AI 新時代,讓患者在受到最小傷害的同時得到最佳的診療。