基于電子計算機斷層掃描(CT)影像的計算機輔助診斷可實現對肺結節的檢測與分類,提高早期肺癌的生存率,具有重要臨床意義。近年來,隨著醫療大數據與人工智能技術的飛速發展,基于深度學習算法的肺癌輔助診斷已逐漸成為該領域最為活躍的研究方向之一。為了進一步推動深度學習算法在肺結節檢測和分類中的研究,本文結合近年國內外發表的相關文獻,對該領域的研究進展進行綜述。首先,簡要介紹了兩大廣泛使用的肺 CT 影像數據庫:肺部圖像數據庫聯盟與圖像數據庫資源計劃(LIDC-IDRI)和 2017 數據科學杯(Data Science Bowl 2017)。然后,對多種不同深度網絡架構的肺結節檢測與分類研究分別進行詳細的介紹。最后,討論了深度學習在結節檢測和分類中面臨的一些問題并給出結論,并對發展前景進行了展望,為今后該領域的應用研究提供參考。
引用本文: 王婧璇, 林嵐, 趙思遠, 鄔雪濤, 吳水才. 基于深度學習的肺結節計算機斷層掃描影像檢測與分類的研究進展. 生物醫學工程學雜志, 2019, 36(4): 670-676. doi: 10.7507/1001-5515.201806019 復制
引言
肺癌是發病率和死亡率增長最快的惡性腫瘤之一,已對人群健康和生命造成了極大的威脅[1-2]。我國每年約有 59 萬人死于肺癌,未來可能還會進一步增加。肺癌生存率與首次確診時的疾病階段高度相關,如能在其早期發現則 5 年生存率可以達到 70%~90%。相對于其他癌癥,肺癌的生物學特性十分復雜,早期多無明顯癥狀,大多數(約 75%)被發現時已是中晚期,治療費用高昂且效果不佳。因此,肺癌的早期檢測和診斷尤為重要。肺癌早期一般表現為肺部惡性結節,因此早期排查一般從肺結節的檢測入手。臨床實踐證明,檢測肺結節最有效的手段是進行低劑量計算機斷層掃描(low-dose computed tomography,LDCT)獲取肺部高分辨率圖像[3-4]。一般來說,計算機斷層掃描(computed tomography,CT)包括數百張切片,需要耗費放射科醫師相當長的時間用于對圖像進行解釋;而且僅憑借醫生肉眼觀察,容易產生漏診和誤診。過去的二十多年間,研究者一直致力于開發計算機輔助診斷(computer aided diagnosis,CAD)系統來協助醫生自動識別胸部 CT 圖像中的可疑病灶[5]。CAD 系統的處理過程主要分為肺實質分割、肺結節檢測與分割、肺結節特征提取和肺結節良惡性判斷這幾個步驟,如圖 1 所示。其中,肺結節特征提取是整個 CAD 系統中最關鍵的一步,需要通過機器學習技術對結節亮度、密度、體積、面積以及紋理等特征進行定義和學習,這種方法在肺結節檢測和分類中有著廣泛的應用。例如:Han 等[6]利用 CAD 系統提取胸腔 CT 圖像中肺結節的二維紋理特征并擴展到三維空間進行研究。羅紅兵等[7]利用 CAD 系統對不同位置、大小、密度的非鈣化結節進行檢測。

隨著樣本數量的增大以及樣本多樣性增強,傳統的機器學習方法逐漸變得難以適應復雜的樣本,由于存在對復雜函數的表示能力有限、學習能力不強等不足,它們往往只能提取初級特征。同時,因為以人工方式選取特征的步驟繁復冗雜,傳統的機器學習方法有時并不能有效地挖掘 CT 影像中蘊含的豐富信息。深度學習算法是機器學習方法的一個新領域,是一種深層的神經網絡。通過模擬人腦建立分層模型,它具有強大的自動特征提取能力及高效的特征表達能力。基于原始影像數據,深度學習算法可以實現從低層到高層漸進的特征提取,最終獲得較理想的特征表達。基于以上優勢,深度學習算法為肺結節的檢測和良惡性識別問題提供了新思路。隨之陸續提出了多種基于深度學習算法的肺 CT 影像結節檢測和分類方法,并顯示出其優于傳統機器學習方法的性能。
為了給今后將深度學習算法應用于肺結節研究中的其他學者提供參考,本文首先介紹已被研究者們廣泛使用的兩大肺癌數據庫資源,然后根據深度學習算法構建的不同模型,重點介紹了幾種典型的深度學習模型在肺結節檢測和良惡性識別中的應用以及研究進展,最后對應用情況進行比較分析,指出目前存在的問題,并展望了未來發展方向,為研究者們提供新的研究思路。
1 肺癌數據庫介紹
深度學習,特別是有監督的深度學習,需要大量標注好的數據進行模型訓練。近年來,肺部圖像數據庫聯盟與圖像數據庫資源計劃(lung image database consortium and image database resource initiative,LIDC-IDRI)等數據庫提供了大量專家標注的肺部 CT 影像數據,為深度學習在此領域的研究提供了大量數據素材。同時,與肺部結節相關的醫療競賽的興起,也為研究者創建了一個重要的基礎平臺,2017 數據科學杯(Data Science Bowl 2017)是基于全球最著名的數據科學競賽而推出的數據庫。這兩種數據庫都為推動結節檢測和分類研究的發展奠定了堅實的基礎。
1.1 LIDC-IDRI 數據庫
LIDC-IDRI 數據庫(網址為:https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI),由 7 個學術中心和 8 個醫學影像公司共同合作建立,為肺結節領域的研究者提供了一個權威且公開的標準[8]。目前 LIDC-IDRI 數據庫包括來自于 1 010 個不同患者的 1 018 套病例的十幾萬張胸部螺旋 CT 掃描圖像[9]。掃描使用了不同的掃描儀器和模型,掃描層厚 0.6~5.0 mm,512 × 512 像素。每個文件夾代表一個病例,每個病例中含有若干臨床胸部 CT 掃描圖像和一個可擴展標記語言(extensive markup language,XML)的文件。XML 文件記錄的是 4 名有經驗的胸部放射科醫師執行的兩階段圖像注釋過程的結果。結節被分為 3 類,分別為:直徑大于 3 mm 的大結節、直徑小于 3 mm 的小結節和非結節。由于 LIDC-IDRI 數據庫已被研究者廣泛接納和使用,因而著名的 2016 肺結節分析挑戰賽(lung nodule analysis 2016,LUNA16)(網址為:https://luna16.grand-challenge.org/home/)都利用該數據庫測試與比較不同算法,為參與者提供一個標準化評估的機會[10]。
1.2 Data Science Bowl 2017 數據
Data Science Bowl 2017(網址為:https://www.kaggle.com/c/data-science-bowl-2017/)是美國凱戈(Kaggle)公司舉辦的一場通過 CT 掃描圖診斷出個體是否患有肺癌的競賽,它可以幫助數據科學和醫學界等領域共同發展肺癌檢測算法。該數據由美國國家癌癥研究中心(national cancer institute,NCI)提供,高危患者的 CT 影像以醫學數字成像和通信(digital imaging and communications in medicine,DICOM)格式存儲,頭文件中包含一些重要信息,如:切片厚度及掃描參數等。NCI 提供的數據集包含兩個階段的數據:第一階段數據容量超過 66 GB,為訓練集和測試集的所有圖片,用于有監督訓練;第二個階段的數據為近期更高質量的數據,容量超過 38 GB。參與者期望利用這些數據可以設計出能準確判斷肺部病變及何時癌變的算法,以降低臨床檢測中存在的假陽率,即陰性被誤判為陽性所占的百分比。
2 基于深度學習算法的肺結節檢測和分類方法
深度學習算法是目前最接近人類大腦的分層智能學習方法,它通過組合低層特征形成更加抽象的高層表示特征,以發現數據的分布式特征,最終完成到目標任務的映射,這種從原始影像數據到期望輸出的映射可以將肺 CAD 系統中的多個流程整合到一起[11]。由于深度置信網絡(deep belief network,DBN)、棧式去噪自編碼器(stacked denoising autoencoders,SDAE)和卷積神經網絡(convolutional neural networks,CNN)等深度學習模型在分類領域取得巨大成功,因此這些模型多被用于結節分類這一任務。而近年來,更加快速的區域卷積神經網絡(faster region CNN,Faster R-CNN)發展迅猛[11-13],給實現肺結節檢測和分類的一體化應用帶來了曙光。
2.1 基于 DBN 的分類研究
DBN 既可以作為一個自編碼機用于非監督學習,也可以作為分類器用于監督學習。楊佳玲等[14]基于 156 例 LIDC-IDRI 數據庫中的數據和 50 例自采集數據,從 2 943 個結節中提取了 87 個不同特征(形狀、灰度、紋理、空間位置等)構成肺結節特征集。如圖 2 所示,結節良惡性分類采用包含 3 個隱藏層的 5 層 DBN 網絡架構,結節特征集作為輸入數據,輸入層與第一個隱藏層構成第一個受限波爾茲曼機,隱藏層的輸出數據作為新的輸入數據送入到下一個隱藏層中,如此反復,最后根據誤差反向傳播算法進行調參。在該研究中,研究人員還分析了隱藏層的層數和結點數對于網絡性能的影響,結果顯示 3 個隱藏層(90、120、90 個結點)對應最好的訓練效果,良惡性分類準確率可達 95.3%[14]。

2.2 基于 SDAE 的分類研究
自編碼器(autoencoder,AE)是一種無監督的數據特征提取算法。它嘗試學習一個 h(x)= x 的函數,使經過訓練后網絡的輸出盡可能接近輸入,這樣就能自動提取輸入圖像中結節特征。棧式自編碼器(stacked AE,SAE)由多層 AE 堆疊構成,其中前一層的輸出作為后一層的輸入,可獲得更抽象的特征。在 SAE 的輸入層引入噪聲,基于加噪數據來重構原始數據,可構成泛化能力更優的 SDAE。Chen 等[15]從 LIDC-IDRI 數據庫隨機選取 2 400 個肺結節用于特征計算。為了便于 SDAE 網絡的輸入,將 28 × 28 尺寸的圖像拉伸為 784 維的矩陣。3 層 SDAE 網絡作為特征提取器被用于無監督的預訓練,第一、二隱藏層對應的神經元分別為 200 和 100。最后,SDAE 提取產生的特征被用于結節分類。
2.3 基于 CNN 的分類研究
CNN 因其具有卷積操作運算的特點從而區別于其他網絡模型。2012 年,Krizhevsky 等[16]利用基于 CNN 算法架構設計的亞歷克斯網絡(AlexNet)在大規模視覺識別挑戰賽(imageNet large scale visual recognition challenge,ILSVRC)上一舉奪魁[16],將大眾的視線再次拉回到 CNN 的時代。AlexNet 是包含 5 個卷積層、3 個最大池化層和 3 個全連接層的網絡架構,它分為上下兩個完全相同的分支,在第 3 個卷積層和全連接層上可以相互交換信息。隨著研究的深入,大量比 AlexNet 更快速更準確的 CNN 架構,如牛津大學視覺幾何組(visual geometry group,VGG)提出的 VGG-Net、谷歌網絡(GoogLeNet)和深度殘差網絡(residual network,ResNet)等也相繼用于處理影像大數據方面的問題[17-19],并表現出優異的性能。但在醫學圖像領域,由于數據量相對較小且對其的標注不易獲取,僅使用 CNN 經典算法對數據進行訓練會產生過擬合的問題,錯誤率較高。所以,越來越多的研究者將 CNN 經典網絡架構與遷移學習相結合,基于圖像特征的共性,實現個性化的特征遷移,將適用于大數據的模型遷移到數據量有限的醫學影像識別和分類任務中。
Shin 等[20]在研究中采用標記著含有 6 個肺組織類型注解的間質性肺疾病公開數據集(interstitial lung disease dataset,ILD)中的 120 個患者的 905 張二維 CT 圖像[21]。分類模型分為三類:① 含隨機初始化訓練集的 AlexNet;② 與遷移學習相結合的 AlexNet;③ 包含經過 ImageNet 結合 CNN 模型預先訓練的 AlexNet。該項研究結果表明,3 個深度學習模型分類準確率分別達到 74%、76% 和 76%[20]。
2014 年 VGG-Net 和 GoogLeNet 分別取得 ILSVRC 挑戰賽定位任務第一名和分類任務第一名的好成績,它們顯示出網絡的深度是算法優良性能的關鍵。VGG-Net 結構采用更小的卷積核與更深的網絡提升參數效率,將卷積層的深度提升到了 16~19 層。Shi 等[22]在 LIDC-IDRI 數據庫上選用 700 個大于 3 mm 的結節,采用 VGG-16 作為特征提取器提取肺結節特征,最后與支持向量機(support vector machine,SVM)分類器相結合的平均分類準確率可達到 87.2%。與 VGG-Net 繼承前人框架結構不同的是,GoogLeNet 在網絡結構上做了更大膽的嘗試。它并沒有大量使用全連接網絡,而是采用非常高效的密集化模塊來構建 22 層網絡,網絡參數量非常小。而 GoogLeNet 最大的特點就是通過構建密集的塊結構來近似最優的稀疏結構,實現了一種具有優良局部拓撲結構的網絡。對輸入圖像并行地執行 1 × 1、3 × 3 或 5 × 5 等不同的卷積運算與池化操作,并將所有輸出結果拼接為一個非常深的特征圖,可獲得更好的圖像表征。在研究間質性肺結節分類中,VGG-16 和 GoogLeNet 兩種基于遷移學習的網絡模型準確率分別為 89.3% 和 91.1%[20]。
ResNet 在 2015 年被 He 等[19]提出,通過殘差模塊中的近路連接可直接完成恒等映射,能夠很好地解決反向傳播過程中的梯度消失問題,將網絡深度由十幾、二十層提升到上百層。Nibali 等[23]利用結節軸向、矢狀和冠狀三個方向的圖像并行構建 Resnet-18 解決結節分類問題,如圖 3 所示。他們選取 LIDC-IDRI 數據庫中的 831 個結節樣本,其中包含 50.66% 的正樣本。在該研究中,卷積層被調整以適應 64 × 64 分辨率的輸入圖像,以降低特征圖的數量。同時,在圖形處理器中加入 3 個并列的網絡,而不犧牲微批尺寸或網絡深度。另外,ResNet 被修改為“完全卷積”并且不包含任何全連接層。對原始數據的分類準確率為 89.64%,進行數據增廣之后的分類準確率是 89.90%。

2.4 基于 Faster R-CNN 的肺結節檢測與分類
區域卷積神經網絡(region CNN,R-CNN)將 CNN 方法引入目標檢測領域[24],大大提高了目標檢測效果,是將 CNN 應用到目標檢測問題上的一個里程碑。如圖 4 所示,快速區域卷積神經網絡(fast region CNN,Fast R-CNN)和 Faster R-CNN 相繼被提出[25-26],在檢測方法和檢測速度上都有很大的改變和提升。

在 Faster R-CNN 模型中,結節特征提取、候選結節區域生成、結節位置精修和結節分類四個基本步驟被統一到一個完整的深度網絡框架之內。如圖 5 所示,Ding 等[27]采用二維 Faster R-CNN 結合三維 CNN 降低假陽率的方法檢測肺結節。他們選取 LIDC-IDRI 數據庫中大于 3 mm 的結節,并去除不一致的切片間距和缺失切片后,保留 888 份患者病例。這里采用的基礎網絡是包含 5 層卷積層的 VGG-16,將其用于提取肺結節的特征。而作為目標檢測器的區域建議網絡(region proposal networks,RPN)用來生成潛在結節區域[26],結節感興趣區和提取的 CT 圖像特征被輸入到池化層中,對感興趣區域進行分類,判斷其是否屬于結節,同時對這些區域的位置進行微調。由于 VGG-16 不能明確描述結節特征,在原始特征提取器的最后一層添加了反卷積層,進一步提升系統性能。

3 討論
在肺結節檢測與分類方面,深度學習模型取得了不錯的效果。SDAE 的優勢在于訓練后的模型對噪聲信息不敏感,魯棒性強。但是,它僅能接受一維數據的輸入,二維的圖像數據一般需要經過維度變換。CNN 是圖像處理和目標檢測的通用算法,它被廣泛用于結節特征提取和分類。Sun 等[28]選用 SDAE、DBN 和 CNN 三種架構評估 CAD 系統提取結節特征的能力,CNN 的最高曲線下的面積為 0.899 ± 0.018,高于傳統 CAD 系統的 0.848 ± 0.026。DBN 結果也略高于 CAD 系統,而 SDAE 稍低。這說明,基于 CNN 架構的模型相對于 DBN 與 SDAE 具有一定優勢。Shin 等[20]進一步研究發現,AlexNet、VGG-16 和 GoogLeNet 等三種網絡模型在遷移學習的結節分類中,準確率從 86.5%~91.1% 不等。研究結果表明,隨著 CNN 模型網絡層次的增加,網絡復雜度的增加,模型分類的準確率也會隨之增加。
在肺癌的診斷過程中,臨床醫師對 CT 影像的判讀是診斷的金標準。深度學習模型預測結果和臨床醫師的具體診斷描述間存在差異,這在一定程度上會制約 CAD 系統的效果。肺部 CT 圖像的具體診斷描述可為深入分析肺結節提供豐富的定量線索。從低層次圖像特征到高層級的臨床語義特征的映射過程十分繁瑣復雜[29],需要進行人工圖像特征選擇和設計,且對不同語義特征需要不同的特征選擇和設計。Chen 等[15]選取了基于深度網絡的 CNN 特征、SDAE 特征、進行物體檢測的方向梯度直方圖特征和反映了圖像灰度變化的類哈爾(Haar-like)特征,共同形成異構特征,將肺結節中的 9 個語義特征(紋理、細致度、毛刺征、圓度、邊界、良惡性、分葉征、內部結構以及鈣化)作為一個任務,使用多任務學習回歸模型發掘不同任務間的共享特征和獨立特征,自動回歸出語義特征的評級結果[29]。當 CAD 系統可以提供廣義的語義特征時,可以更好輔助臨床醫師做出更好的結節分析和管理。
4 總結與展望
本文基于深度學習模型架構下的肺結節檢測與分類方法進行了簡述和討論。當前,不少研究已能將深度學習算法的前沿方法應用到肺結節檢測和分類中。近年來網絡架構的不同也影響著模型檢測或者分類的效果。當前來說,不同研究者使用的肺 CT 影像數據庫和數據集往往存在不同,因此無法通過直接對比有效判斷模型性能的優劣性。對于 CNN 網絡,整體模型架構越復雜,在自然圖像分類識別中的效果越好,在結節分類中也可能更好。前人對于 CNN 的研究多集中于網絡層次相對較淺的深層網絡。理論上來說網絡越深,其對復雜數據的特征表達能力越強。以 ResNet 為代表的新興深層 CNN 網絡架構可提取更優的圖像特征,因此可將深層的 RestNet 網絡架構應用于肺結節診斷中,或可進一步提高智能系統的性能。
雖然深度學習算法在肺結節的檢測和分類領域的研究已取得了不小的成就,不可否認的是,該領域還有十分廣闊的研究內容等待學者們深入的探索。從訓練集上,Kaggle 網站舉辦的肺癌檢測競賽,訓練數據集的標注已經不再給出病變區域,而只是簡單的標注每張 CT 對應的個體是否真的患有肺癌。模型訓練正逐漸實現從強監督到弱監督的學習演變。值得注意的是,從廣義定義而言,深度學習算法實現了從低層到高層漸進的特征提取,最終獲得較理想的特征表達,形成端到端的輸出。但在實際應用中,如 DBN、SDAE 和 CNN 等深度學習算法模型,主要被用于肺結節特征提取與分類這個肺 CAD 的子環節,結節的檢測一般需要結合其他算法進行。Faster R-CNN 這一目標檢測算法,可以做到肺結節檢測和分類流程的一體化,大幅度減少了整體算法設計的復雜度,是結節檢測和分類算法的一個潛在發展方向。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
肺癌是發病率和死亡率增長最快的惡性腫瘤之一,已對人群健康和生命造成了極大的威脅[1-2]。我國每年約有 59 萬人死于肺癌,未來可能還會進一步增加。肺癌生存率與首次確診時的疾病階段高度相關,如能在其早期發現則 5 年生存率可以達到 70%~90%。相對于其他癌癥,肺癌的生物學特性十分復雜,早期多無明顯癥狀,大多數(約 75%)被發現時已是中晚期,治療費用高昂且效果不佳。因此,肺癌的早期檢測和診斷尤為重要。肺癌早期一般表現為肺部惡性結節,因此早期排查一般從肺結節的檢測入手。臨床實踐證明,檢測肺結節最有效的手段是進行低劑量計算機斷層掃描(low-dose computed tomography,LDCT)獲取肺部高分辨率圖像[3-4]。一般來說,計算機斷層掃描(computed tomography,CT)包括數百張切片,需要耗費放射科醫師相當長的時間用于對圖像進行解釋;而且僅憑借醫生肉眼觀察,容易產生漏診和誤診。過去的二十多年間,研究者一直致力于開發計算機輔助診斷(computer aided diagnosis,CAD)系統來協助醫生自動識別胸部 CT 圖像中的可疑病灶[5]。CAD 系統的處理過程主要分為肺實質分割、肺結節檢測與分割、肺結節特征提取和肺結節良惡性判斷這幾個步驟,如圖 1 所示。其中,肺結節特征提取是整個 CAD 系統中最關鍵的一步,需要通過機器學習技術對結節亮度、密度、體積、面積以及紋理等特征進行定義和學習,這種方法在肺結節檢測和分類中有著廣泛的應用。例如:Han 等[6]利用 CAD 系統提取胸腔 CT 圖像中肺結節的二維紋理特征并擴展到三維空間進行研究。羅紅兵等[7]利用 CAD 系統對不同位置、大小、密度的非鈣化結節進行檢測。

隨著樣本數量的增大以及樣本多樣性增強,傳統的機器學習方法逐漸變得難以適應復雜的樣本,由于存在對復雜函數的表示能力有限、學習能力不強等不足,它們往往只能提取初級特征。同時,因為以人工方式選取特征的步驟繁復冗雜,傳統的機器學習方法有時并不能有效地挖掘 CT 影像中蘊含的豐富信息。深度學習算法是機器學習方法的一個新領域,是一種深層的神經網絡。通過模擬人腦建立分層模型,它具有強大的自動特征提取能力及高效的特征表達能力。基于原始影像數據,深度學習算法可以實現從低層到高層漸進的特征提取,最終獲得較理想的特征表達。基于以上優勢,深度學習算法為肺結節的檢測和良惡性識別問題提供了新思路。隨之陸續提出了多種基于深度學習算法的肺 CT 影像結節檢測和分類方法,并顯示出其優于傳統機器學習方法的性能。
為了給今后將深度學習算法應用于肺結節研究中的其他學者提供參考,本文首先介紹已被研究者們廣泛使用的兩大肺癌數據庫資源,然后根據深度學習算法構建的不同模型,重點介紹了幾種典型的深度學習模型在肺結節檢測和良惡性識別中的應用以及研究進展,最后對應用情況進行比較分析,指出目前存在的問題,并展望了未來發展方向,為研究者們提供新的研究思路。
1 肺癌數據庫介紹
深度學習,特別是有監督的深度學習,需要大量標注好的數據進行模型訓練。近年來,肺部圖像數據庫聯盟與圖像數據庫資源計劃(lung image database consortium and image database resource initiative,LIDC-IDRI)等數據庫提供了大量專家標注的肺部 CT 影像數據,為深度學習在此領域的研究提供了大量數據素材。同時,與肺部結節相關的醫療競賽的興起,也為研究者創建了一個重要的基礎平臺,2017 數據科學杯(Data Science Bowl 2017)是基于全球最著名的數據科學競賽而推出的數據庫。這兩種數據庫都為推動結節檢測和分類研究的發展奠定了堅實的基礎。
1.1 LIDC-IDRI 數據庫
LIDC-IDRI 數據庫(網址為:https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI),由 7 個學術中心和 8 個醫學影像公司共同合作建立,為肺結節領域的研究者提供了一個權威且公開的標準[8]。目前 LIDC-IDRI 數據庫包括來自于 1 010 個不同患者的 1 018 套病例的十幾萬張胸部螺旋 CT 掃描圖像[9]。掃描使用了不同的掃描儀器和模型,掃描層厚 0.6~5.0 mm,512 × 512 像素。每個文件夾代表一個病例,每個病例中含有若干臨床胸部 CT 掃描圖像和一個可擴展標記語言(extensive markup language,XML)的文件。XML 文件記錄的是 4 名有經驗的胸部放射科醫師執行的兩階段圖像注釋過程的結果。結節被分為 3 類,分別為:直徑大于 3 mm 的大結節、直徑小于 3 mm 的小結節和非結節。由于 LIDC-IDRI 數據庫已被研究者廣泛接納和使用,因而著名的 2016 肺結節分析挑戰賽(lung nodule analysis 2016,LUNA16)(網址為:https://luna16.grand-challenge.org/home/)都利用該數據庫測試與比較不同算法,為參與者提供一個標準化評估的機會[10]。
1.2 Data Science Bowl 2017 數據
Data Science Bowl 2017(網址為:https://www.kaggle.com/c/data-science-bowl-2017/)是美國凱戈(Kaggle)公司舉辦的一場通過 CT 掃描圖診斷出個體是否患有肺癌的競賽,它可以幫助數據科學和醫學界等領域共同發展肺癌檢測算法。該數據由美國國家癌癥研究中心(national cancer institute,NCI)提供,高危患者的 CT 影像以醫學數字成像和通信(digital imaging and communications in medicine,DICOM)格式存儲,頭文件中包含一些重要信息,如:切片厚度及掃描參數等。NCI 提供的數據集包含兩個階段的數據:第一階段數據容量超過 66 GB,為訓練集和測試集的所有圖片,用于有監督訓練;第二個階段的數據為近期更高質量的數據,容量超過 38 GB。參與者期望利用這些數據可以設計出能準確判斷肺部病變及何時癌變的算法,以降低臨床檢測中存在的假陽率,即陰性被誤判為陽性所占的百分比。
2 基于深度學習算法的肺結節檢測和分類方法
深度學習算法是目前最接近人類大腦的分層智能學習方法,它通過組合低層特征形成更加抽象的高層表示特征,以發現數據的分布式特征,最終完成到目標任務的映射,這種從原始影像數據到期望輸出的映射可以將肺 CAD 系統中的多個流程整合到一起[11]。由于深度置信網絡(deep belief network,DBN)、棧式去噪自編碼器(stacked denoising autoencoders,SDAE)和卷積神經網絡(convolutional neural networks,CNN)等深度學習模型在分類領域取得巨大成功,因此這些模型多被用于結節分類這一任務。而近年來,更加快速的區域卷積神經網絡(faster region CNN,Faster R-CNN)發展迅猛[11-13],給實現肺結節檢測和分類的一體化應用帶來了曙光。
2.1 基于 DBN 的分類研究
DBN 既可以作為一個自編碼機用于非監督學習,也可以作為分類器用于監督學習。楊佳玲等[14]基于 156 例 LIDC-IDRI 數據庫中的數據和 50 例自采集數據,從 2 943 個結節中提取了 87 個不同特征(形狀、灰度、紋理、空間位置等)構成肺結節特征集。如圖 2 所示,結節良惡性分類采用包含 3 個隱藏層的 5 層 DBN 網絡架構,結節特征集作為輸入數據,輸入層與第一個隱藏層構成第一個受限波爾茲曼機,隱藏層的輸出數據作為新的輸入數據送入到下一個隱藏層中,如此反復,最后根據誤差反向傳播算法進行調參。在該研究中,研究人員還分析了隱藏層的層數和結點數對于網絡性能的影響,結果顯示 3 個隱藏層(90、120、90 個結點)對應最好的訓練效果,良惡性分類準確率可達 95.3%[14]。

2.2 基于 SDAE 的分類研究
自編碼器(autoencoder,AE)是一種無監督的數據特征提取算法。它嘗試學習一個 h(x)= x 的函數,使經過訓練后網絡的輸出盡可能接近輸入,這樣就能自動提取輸入圖像中結節特征。棧式自編碼器(stacked AE,SAE)由多層 AE 堆疊構成,其中前一層的輸出作為后一層的輸入,可獲得更抽象的特征。在 SAE 的輸入層引入噪聲,基于加噪數據來重構原始數據,可構成泛化能力更優的 SDAE。Chen 等[15]從 LIDC-IDRI 數據庫隨機選取 2 400 個肺結節用于特征計算。為了便于 SDAE 網絡的輸入,將 28 × 28 尺寸的圖像拉伸為 784 維的矩陣。3 層 SDAE 網絡作為特征提取器被用于無監督的預訓練,第一、二隱藏層對應的神經元分別為 200 和 100。最后,SDAE 提取產生的特征被用于結節分類。
2.3 基于 CNN 的分類研究
CNN 因其具有卷積操作運算的特點從而區別于其他網絡模型。2012 年,Krizhevsky 等[16]利用基于 CNN 算法架構設計的亞歷克斯網絡(AlexNet)在大規模視覺識別挑戰賽(imageNet large scale visual recognition challenge,ILSVRC)上一舉奪魁[16],將大眾的視線再次拉回到 CNN 的時代。AlexNet 是包含 5 個卷積層、3 個最大池化層和 3 個全連接層的網絡架構,它分為上下兩個完全相同的分支,在第 3 個卷積層和全連接層上可以相互交換信息。隨著研究的深入,大量比 AlexNet 更快速更準確的 CNN 架構,如牛津大學視覺幾何組(visual geometry group,VGG)提出的 VGG-Net、谷歌網絡(GoogLeNet)和深度殘差網絡(residual network,ResNet)等也相繼用于處理影像大數據方面的問題[17-19],并表現出優異的性能。但在醫學圖像領域,由于數據量相對較小且對其的標注不易獲取,僅使用 CNN 經典算法對數據進行訓練會產生過擬合的問題,錯誤率較高。所以,越來越多的研究者將 CNN 經典網絡架構與遷移學習相結合,基于圖像特征的共性,實現個性化的特征遷移,將適用于大數據的模型遷移到數據量有限的醫學影像識別和分類任務中。
Shin 等[20]在研究中采用標記著含有 6 個肺組織類型注解的間質性肺疾病公開數據集(interstitial lung disease dataset,ILD)中的 120 個患者的 905 張二維 CT 圖像[21]。分類模型分為三類:① 含隨機初始化訓練集的 AlexNet;② 與遷移學習相結合的 AlexNet;③ 包含經過 ImageNet 結合 CNN 模型預先訓練的 AlexNet。該項研究結果表明,3 個深度學習模型分類準確率分別達到 74%、76% 和 76%[20]。
2014 年 VGG-Net 和 GoogLeNet 分別取得 ILSVRC 挑戰賽定位任務第一名和分類任務第一名的好成績,它們顯示出網絡的深度是算法優良性能的關鍵。VGG-Net 結構采用更小的卷積核與更深的網絡提升參數效率,將卷積層的深度提升到了 16~19 層。Shi 等[22]在 LIDC-IDRI 數據庫上選用 700 個大于 3 mm 的結節,采用 VGG-16 作為特征提取器提取肺結節特征,最后與支持向量機(support vector machine,SVM)分類器相結合的平均分類準確率可達到 87.2%。與 VGG-Net 繼承前人框架結構不同的是,GoogLeNet 在網絡結構上做了更大膽的嘗試。它并沒有大量使用全連接網絡,而是采用非常高效的密集化模塊來構建 22 層網絡,網絡參數量非常小。而 GoogLeNet 最大的特點就是通過構建密集的塊結構來近似最優的稀疏結構,實現了一種具有優良局部拓撲結構的網絡。對輸入圖像并行地執行 1 × 1、3 × 3 或 5 × 5 等不同的卷積運算與池化操作,并將所有輸出結果拼接為一個非常深的特征圖,可獲得更好的圖像表征。在研究間質性肺結節分類中,VGG-16 和 GoogLeNet 兩種基于遷移學習的網絡模型準確率分別為 89.3% 和 91.1%[20]。
ResNet 在 2015 年被 He 等[19]提出,通過殘差模塊中的近路連接可直接完成恒等映射,能夠很好地解決反向傳播過程中的梯度消失問題,將網絡深度由十幾、二十層提升到上百層。Nibali 等[23]利用結節軸向、矢狀和冠狀三個方向的圖像并行構建 Resnet-18 解決結節分類問題,如圖 3 所示。他們選取 LIDC-IDRI 數據庫中的 831 個結節樣本,其中包含 50.66% 的正樣本。在該研究中,卷積層被調整以適應 64 × 64 分辨率的輸入圖像,以降低特征圖的數量。同時,在圖形處理器中加入 3 個并列的網絡,而不犧牲微批尺寸或網絡深度。另外,ResNet 被修改為“完全卷積”并且不包含任何全連接層。對原始數據的分類準確率為 89.64%,進行數據增廣之后的分類準確率是 89.90%。

2.4 基于 Faster R-CNN 的肺結節檢測與分類
區域卷積神經網絡(region CNN,R-CNN)將 CNN 方法引入目標檢測領域[24],大大提高了目標檢測效果,是將 CNN 應用到目標檢測問題上的一個里程碑。如圖 4 所示,快速區域卷積神經網絡(fast region CNN,Fast R-CNN)和 Faster R-CNN 相繼被提出[25-26],在檢測方法和檢測速度上都有很大的改變和提升。

在 Faster R-CNN 模型中,結節特征提取、候選結節區域生成、結節位置精修和結節分類四個基本步驟被統一到一個完整的深度網絡框架之內。如圖 5 所示,Ding 等[27]采用二維 Faster R-CNN 結合三維 CNN 降低假陽率的方法檢測肺結節。他們選取 LIDC-IDRI 數據庫中大于 3 mm 的結節,并去除不一致的切片間距和缺失切片后,保留 888 份患者病例。這里采用的基礎網絡是包含 5 層卷積層的 VGG-16,將其用于提取肺結節的特征。而作為目標檢測器的區域建議網絡(region proposal networks,RPN)用來生成潛在結節區域[26],結節感興趣區和提取的 CT 圖像特征被輸入到池化層中,對感興趣區域進行分類,判斷其是否屬于結節,同時對這些區域的位置進行微調。由于 VGG-16 不能明確描述結節特征,在原始特征提取器的最后一層添加了反卷積層,進一步提升系統性能。

3 討論
在肺結節檢測與分類方面,深度學習模型取得了不錯的效果。SDAE 的優勢在于訓練后的模型對噪聲信息不敏感,魯棒性強。但是,它僅能接受一維數據的輸入,二維的圖像數據一般需要經過維度變換。CNN 是圖像處理和目標檢測的通用算法,它被廣泛用于結節特征提取和分類。Sun 等[28]選用 SDAE、DBN 和 CNN 三種架構評估 CAD 系統提取結節特征的能力,CNN 的最高曲線下的面積為 0.899 ± 0.018,高于傳統 CAD 系統的 0.848 ± 0.026。DBN 結果也略高于 CAD 系統,而 SDAE 稍低。這說明,基于 CNN 架構的模型相對于 DBN 與 SDAE 具有一定優勢。Shin 等[20]進一步研究發現,AlexNet、VGG-16 和 GoogLeNet 等三種網絡模型在遷移學習的結節分類中,準確率從 86.5%~91.1% 不等。研究結果表明,隨著 CNN 模型網絡層次的增加,網絡復雜度的增加,模型分類的準確率也會隨之增加。
在肺癌的診斷過程中,臨床醫師對 CT 影像的判讀是診斷的金標準。深度學習模型預測結果和臨床醫師的具體診斷描述間存在差異,這在一定程度上會制約 CAD 系統的效果。肺部 CT 圖像的具體診斷描述可為深入分析肺結節提供豐富的定量線索。從低層次圖像特征到高層級的臨床語義特征的映射過程十分繁瑣復雜[29],需要進行人工圖像特征選擇和設計,且對不同語義特征需要不同的特征選擇和設計。Chen 等[15]選取了基于深度網絡的 CNN 特征、SDAE 特征、進行物體檢測的方向梯度直方圖特征和反映了圖像灰度變化的類哈爾(Haar-like)特征,共同形成異構特征,將肺結節中的 9 個語義特征(紋理、細致度、毛刺征、圓度、邊界、良惡性、分葉征、內部結構以及鈣化)作為一個任務,使用多任務學習回歸模型發掘不同任務間的共享特征和獨立特征,自動回歸出語義特征的評級結果[29]。當 CAD 系統可以提供廣義的語義特征時,可以更好輔助臨床醫師做出更好的結節分析和管理。
4 總結與展望
本文基于深度學習模型架構下的肺結節檢測與分類方法進行了簡述和討論。當前,不少研究已能將深度學習算法的前沿方法應用到肺結節檢測和分類中。近年來網絡架構的不同也影響著模型檢測或者分類的效果。當前來說,不同研究者使用的肺 CT 影像數據庫和數據集往往存在不同,因此無法通過直接對比有效判斷模型性能的優劣性。對于 CNN 網絡,整體模型架構越復雜,在自然圖像分類識別中的效果越好,在結節分類中也可能更好。前人對于 CNN 的研究多集中于網絡層次相對較淺的深層網絡。理論上來說網絡越深,其對復雜數據的特征表達能力越強。以 ResNet 為代表的新興深層 CNN 網絡架構可提取更優的圖像特征,因此可將深層的 RestNet 網絡架構應用于肺結節診斷中,或可進一步提高智能系統的性能。
雖然深度學習算法在肺結節的檢測和分類領域的研究已取得了不小的成就,不可否認的是,該領域還有十分廣闊的研究內容等待學者們深入的探索。從訓練集上,Kaggle 網站舉辦的肺癌檢測競賽,訓練數據集的標注已經不再給出病變區域,而只是簡單的標注每張 CT 對應的個體是否真的患有肺癌。模型訓練正逐漸實現從強監督到弱監督的學習演變。值得注意的是,從廣義定義而言,深度學習算法實現了從低層到高層漸進的特征提取,最終獲得較理想的特征表達,形成端到端的輸出。但在實際應用中,如 DBN、SDAE 和 CNN 等深度學習算法模型,主要被用于肺結節特征提取與分類這個肺 CAD 的子環節,結節的檢測一般需要結合其他算法進行。Faster R-CNN 這一目標檢測算法,可以做到肺結節檢測和分類流程的一體化,大幅度減少了整體算法設計的復雜度,是結節檢測和分類算法的一個潛在發展方向。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。