肺癌和新冠肺炎等肺部疾病嚴重危害著人類的健康與生命安全,其早期篩查與診斷尤為重要。電子計算機斷層掃描(CT)技術是肺部疾病篩查的重要途徑之一。其中,基于 CT 圖像的肺實質分割是肺部疾病篩查的關鍵步驟,高質量的肺實質分割能有效提高肺部疾病早期診斷和治療水平。基于 CT 圖像的肺實質自動、快速、準確分割能有效彌補手動分割效率低、主觀性強等不足,已成為該領域研究的熱點之一。本文結合近年國內外發表的相關文獻,對肺實質分割的研究進展進行綜述,對比分析了傳統機器學習方法和深度學習方法,重點介紹了深度學習模型網絡結構的改進等研究進展。討論了肺實質分割中待解決的一些問題,對發展前景進行了展望,為相關領域的科研工作者提供參考。
引用本文: 肖漢光, 冉智強, 黃金鋒, 任慧嬌, 劉暢, 張邦林, 張勃龍, 黨軍. 基于電子計算機斷層掃描圖像的肺實質分割方法研究進展. 生物醫學工程學雜志, 2021, 38(2): 379-386. doi: 10.7507/1001-5515.202008032 復制
引言
肺是人體的呼吸器官,一旦肺部出現問題,人體就無法正常地與外界進行氣體交換,從而導致缺氧甚至危及生命。肺癌的發病率與死亡率均居惡性腫瘤之首[1]。于 2019 年 12 月爆發的新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)已在全球蔓延,據世界衛生組織(World Health Organization,WHO)統計,截至 2021 年 1 月 26 日,全球累計確診 98 925 221 例,死亡 2 127 294 例,并且數據正在與日俱增。肺部疾病還會引發諸多并發癥,如:氣管炎、心臟疾病、淋巴系統疾病等,嚴重危害人體健康。因此,肺部疾病的早期篩查與診斷尤為重要。
作為肺部疾病最有效的無創檢測技術,CT 以其分層薄、高分辨率、低噪聲等特點,被廣泛應用到肺部疾病篩查和輔助診斷當中[2]。基于 CT 圖像的計算機輔助診斷(computer aided diagnosis,CAD)系統旨在向醫生提供寶貴的“第二意見”,以減輕醫生的工作量,從而提高肺部疾病診斷的準確率[3]。CAD 系統通常分為四個階段:預處理、感興趣區域(region of interest,ROI)提取、特征提取和結果評估,肺實質分割是 ROI 提取的重要環節之一,因為絕大部分病灶只存在于肺實質中,精確地分割肺實質區域,有助于使病灶搜索區域最小化,并使檢測病灶的靈敏度最大化[4]。
肺部疾病的影像特征有數十種,包括磨玻璃樣陰影、實變、空洞、樹芽和微結節、結節、胸腔積液、蜂窩狀等,每種疾病在 CT 圖像上都有不同的形狀、紋理和密度信息[5]。疾病進一步縮小了肺實質與周圍組織結構之間的區別,造成肺部疾病患者的肺邊界難以識別,因此自動化肺實質分割是一項具有挑戰性的任務。為解決上述難題,科研工作者基于不同原理提出了大量算法,這些算法可以分為傳統機器學習方法和深度學習方法兩大類。傳統機器學習方法通常是對 CT 圖像特征進行手動提取并通過相關規則進行處理,這樣有效地結合了操作者的知識和計算機處理數據的性能,從而實現交互式地肺實質分割。其中,利用數字圖像處理技術分割肺實質是最基礎的方法,首先操作者根據 CT 圖像中各結構的灰度值設定一個閾值粗略分割肺實質,再通過觀察分析閾值分割造成的肺空洞的形狀與大小,選取合適的修補方法,例如膨脹腐蝕、凸包法、滾球法等,最后將所得掩膜與原圖相乘,即可得到肺實質圖像。而深度學習方法通過構建具有多個隱藏層的人工神經網絡,把海量的原始數據或簡單加工后的數據作為系統的輸入,系統對 CT 圖像特征自動提取并訓練,最終得到效果優良的模型用于肺實質分割。
本文分別對傳統機器學習方法和深度學習方法的最新研究進展進行了討論,其中重點介紹了應用于肺實質分割領域的深度學習網絡模型的基本架構及其改進方案,并對比其分割準確率。最后,分析了該研究領域面臨的挑戰,并對未來研究發展方向進行了展望。
1 基于傳統機器學習方法的肺實質分割
應用于肺實質分割的傳統機器學習方法可以分為兩大類:基于區域的分割方法[6~11]和基于活動輪廓的分割方法[12~15]。若疾病病灶或部分組織位于肺實質邊界,如與胸膜相連的結節、實變、血管等,由于其灰度值和密度與胸膜相似,得到的初始邊界易出現錯誤。如圖 1 所示,肺部疾病患者 CT 圖像中處于邊界的病灶與血管被排除在肺實質外,造成明顯的凹陷,而這些恰恰是 CAD 系統下一步特征提取中不可缺少的部分。因此,通常還需要結合機器學習的算法對邊界非正常凹陷進行修補。圖 1 中,新冠肺炎患者 CT 圖像來源于電子科技大學收集的新冠肺炎數據集(UESTC-COVID-19),非公開數據集,已獲得授權[16]。網址為,http://faculty.uestc.edu.cn/HiLab/en/article/379152/list/index.htm。而圖 1 中肺癌早期患者 CT 圖像來源于美國國家癌癥研究所發布的公開數據集肺部圖像數據庫聯盟與圖像數據庫資源計劃(lung image database consortium and image database resource initiative,LIDC-IDRI),網址為 https://imaging.cancer.gov/informatics/lidc_idri.htm。

1.1 基于區域的分割方法
基于區域的方法是根據 CT 圖像中不同區域之間特征的差異性以及同一區域特征的相似性來分割圖像,主要包括閾值法、區域生長法、隨機游走法等。其中,閾值法主要的思想是:使用低密度肺和周圍高密度胸壁之間的對比度來指導分割過程,并將灰度值高于所選閾值的組織排除在肺實質區域之外。雖然閾值分割計算量小、分割速度快,但由于肺部區域的灰度值與氣管、支氣管區域相似,分割效果并不理想。區域生長法主要的思想是:通過判定種子點與周圍鄰域像素點的相似性,選擇性地合并與生長,直到條件不被滿足時終止。該方法能彌補閾值法較少考慮到的空間關系不足的情況,但需要人為地選取種子點。剩下其余方法都有各自明顯的優劣勢,但用單一的算法難以達到良好的分割效果。
當前提出的肺實質分割方法通常結合了多種基礎算法。Xiao 等[6]提出了一種結合閾值迭代法分割肺實質圖像和分形幾何方法檢測凹陷邊界的自動框架,采用包括改進的凸包修復算法以完成肺實質的精確分割,其中充分利用了 CT 圖像序列與 CT 圖像自動閾值分割序列之間的相關性。研究人員選取了來自 LIDC-IDRI 的 50 例和自建的 47 例包含胸膜結節的 CT 圖像進行分割測試,得到的像素準確度(pixel accuracy,PA)為 92.45%,交并比(intersection over union,IOU)為 95.9%。Gopalakrishnan 等[7]提出一種利用自適應多級閾值的直方圖來估計高斯函數的總數及其初始參數,采用期望最大化(expectation maximization,EM)算法對高斯分量的參數進行更新,對高斯混合模型分割出的肺實質進行自適應形態濾波以減少邊界誤差。研究人員對來自 LIDC-IDRI 的 28 例患者的 70 幅病變肺切片和 119 幅正常肺切片進行了測試,測試得到的骰子相似系數(dice similarity coefficient,DSC)為 97.22%、豪斯多夫距離(hausdorff distance,HD)為 1.02 mm、敏感度為 99.91% 以及特異度為 99.67%。Zhang 等[8]提出了一種改進的基于圖論的肺實質分割算法,該算法基于粗分割的結果自動選擇與肺實質相對應的邊界框(bounding box),然后在 bounding box 中使用基于圖論的分割算法準確地分割 CT 圖像中的肺實質。該算法克服了傳統算法手工選擇 bounding box 的缺點,測試得到的精確度為 97%、召回率為 93% 和 F1 分數為 95%,優于基于單一閾值和區域生長的分割方法。Kumar 等[9]首先使用迭代閾值法粗分割肺實質區域,然后采用改進的雙向鏈碼方法獲取垂直和水平方向的肺邊界判定點,最后在支持向量機(support vector machine,SVM)分析位置、距離、凹凸率等信息的基礎上,采用中點法對肺邊界進行修正。該方法在來自 LIDC-IDRI 和用于評估響應的參考圖像數據庫(reference image database to evaluate response,RIDER)的 180 例 CT 圖像上進行了測試,得到 DSC 系數為 95.85%,體積重疊率(volumetric overlap rate,VOR)為 97.72%。Peng 等[10]針對自身研究做出改進,提出了一種基于像素的雙掃描連通分量標記(pixel-based two-scan connected component labeling,PSCCL)-凸包(convex hull,CH)-閉合主曲線(closed principal curve,CPC)方法(PSCCL-CH-CPC)。首先結合 PSCCL 和 CH 從整個胸部 CT 掃描中粗略地提取肺區域,然后將改進的 CPC 和反向傳播神經網絡(backpropagation neural network,BNN)相結合來表示肺部輪廓的平滑數學表達式,實現細分割。實驗結果表明,在 100 例 CT 圖像中測試得到的 DSC 系數高達 98.21%,敏感度為 96.66%。張華海等[11]提出一種融合表面波變換與脈沖耦合神經網絡(pulse coupled neural network,PCNN)的算法。利用表面波變換的多尺度、多方向分解特性及局部修正拉普拉斯算子增強圖像中的邊緣及細節信息,輸入 PCNN 通過循環迭代完成肺實質的分割。選取 500 張切片進行測試,所得 DSC 系數為 97.85%,分割所有切片花費 11.68 s。
綜上所述,基于區域的肺實質分割方法原理簡單、計算量小,能快速準確地分離出肺實質區域,但對參數敏感,易造成過度分割。特別是在肺部存在嚴重病變的情況下,出現的凹陷形狀、大小、位置差距較大,單一的邊界修補方法難以應對不同的凹陷,導致分割效果不理想。
1.2 基于活動輪廓的分割方法
基于活動輪廓的分割方法主要思想是:設定一條初始輪廓,然后利用內外引力的驅動使得輪廓發生形變,直到能量函數最小,該輪廓線到達肺實質區域的邊界為止。常規的活動輪廓法在分割肺實質時存在一些問題,如輪廓初始化困難、對邊界凹陷的收斂能力不足、活動輪廓線的鞍點和靜止點的難以連接,從而使得輪廓模型不能很好地應用于形狀復雜的肺部。
近年來,研究人員提出了一些解決方法。Cheimariotis 等[12]通過簡單閾值法和二值形態學操作相結合的方法,分別尋找代表左右肺的兩個最大連通區域,隨后填補肺葉空洞,提取邊緣作為初始輪廓。然后使用普氏算法(Procrustes)通過拉伸和旋轉來變換一個形狀中的所有點,最后進行主成分分析(principal component analysis,PCA),并將結果輸入到分割過程中,以將輪廓變形約束到肺實質精確邊界。針對 69 例阻塞性肺病和 8 例無明顯肺灌注衰竭患者的單光子發射計算機斷層成像術(single-photon emission computed tomography,SPECT)圖像,測試得到左右肺的 DSC 系數分別為 82% 和 83%。Chung 等[13]首先使用活動輪廓的陳-韋塞(chan-vese,CV)模型,然后根據模型的結果采用貝葉斯方法,結合相鄰幀圖像中分割出的肺輪廓來預測肺部圖像。在得到的候選胸膜結節中,通過凹點檢測和霍夫變換消除了假陽性。最后,通過將最終的候選結節添加到模型結果區域來修改肺輪廓。在 84 例肺部 CT 圖像中測得的 DSC 系數為 98.09%,HD 距離為 0.480 6 mm,敏感度為 97.85%,特異度為 99.81%,準確率為 99.64%,胸膜結節檢出率為 96%,優于單獨使用的 CV 模型、歸一化 CV 模型和蛇形(snake)算法。Chen 等[14]將稀疏形狀合成與特征向量空間形狀先驗模型相結合,以減少外觀先驗信息較弱和誤導性造成的局部形狀重構誤差。為了初始化活動輪廓,引入了一種基于字典學習的方法來處理病變和局部細節。此外,還提出了一種基于梯度矢量流(gradient vector flow,GVF)的頂點搜索策略,將輪廓變形驅動到目標邊界。在 78 例肺部腫瘤的低劑量 CT 圖像上對該算法進行了測試,左右肺的 DSC 系數分別為 96.39% 和 97.25%,該算法的平均運行時間為 310 s。Nithila 等[15]提出了一種基于符號壓力(signed pressure force,SPF)函數的活動輪廓模型。首先懲罰水平集函數為二進制,然后使用高斯濾波器對其進行正則化,從而得到初始輪廓。然后在 SPF 函數中加入輪廓常數,調節壓力的符號,使物體內部的輪廓收縮,物體外部的輪廓擴張,最后使用邊緣停止函數將輪廓拉到肺實質邊界。該方法的準確度達到了 98.95%,模型收斂于 150 次迭代,耗時僅 17 s。
綜上所述,該類方法受噪聲干擾小,可以對形狀不規則的曲線能達到亞像素級的逼近精度,且能保證其拓撲性,但在建立模型時存在困難,計算成本較高,可重復性較差。大部分模型對初始曲線的位置較敏感,當初始輪廓離目標輪廓較遠時,難以檢測到肺實質的輪廓,容易造成能量函數局部最小值。
對比分析基于區域的分割方法和基于活動輪廓的分割方法可得:近年來所提出兩類方法數量相當,具有從傳統數字圖像處理方法向機器學習方法相結合的發展趨勢。由于各項研究的測試樣本數量存在差異,且不同的肺部疾病類型對分割效果的影響程度不一,所以這些結果無法橫向對比,但整體形勢上 DSC 系數穩定上升。
2 基于深度學習方法的肺實質分割
近年來興起的深度學習技術,使得計算機能夠自動從目標數據中學習獲得更深層次、更抽象的特征,并且能夠有效排除人為因素的影響,相比于傳統機器學習方法,更易于實現全自動化,更具發展潛力,當前已有多種深度學習網絡被應用到肺實質分割中。本文將深度學習方法按照其輸出類型分為分類網絡和分割網絡進行論述。
2.1 分類網絡
近年來,卷積神經網絡(convolutional neural networks,CNN)在圖像分類、目標識別、檢測等領域取得了巨大的成功[17]。CNN 是一種多層神經網絡,主要包括卷積層、池化層和全連接層。淺層網絡主要由卷積層和池化層交替組成,以實現特征提取,深層網絡則是全連接層,對應邏輯回歸分類器,完成目標識別等任務[18]。
基于 CNN 的肺實質分割方法就是將分割任務轉化為對像素點或圖像塊的分類,如圖 2 分類網絡所示,首先將 CT 圖像分為若干小圖像塊,其中屬于肺實質區域的圖像塊被送入 CNN 網絡中,經過 5 次卷積和 3 次池化操作,再通過 3 個全連接層,最終被正確地分類為肺實質。該類算法只需將每個圖像塊輸入到 CNN 中,再將分類結果為肺實質的圖像塊拼接起來即可得到完整的肺實質區域。Liu 等[19]提出了一種結合超像素簡單線性迭代聚類(simple linear iterative clustering,SLIC)和 SVM 的 CNN 新框架,解決了由于傳統 CNN 冗余輸入量巨大所導致的分割效果不佳的問題。為了在像素級別上找到精確的肺實質邊界,需要對像素進行逐級分類。首先,SLIC 用于將圖像分割成網格并提取各自的數字標簽。然后,利用 SVM 對標簽進行分類,得到粗糙邊緣。最后,CNN 基于每個像素點周圍的圖像塊得到精確的邊界。其中,CNN 模型采用的是亞歷克斯網絡(AlexNet),它包含 5 個卷積層、3 個池化層以及 3 個全連接層。Liu 等[19]保留了原有的損失函數、優化器等參數,僅僅修改了該網絡的輸出,即判斷該像素點是否為肺實質的邊界點。該方法在阿里云天池數據集上得到的 DSC 系數為 97.93%,處理一張切片需要 40 s。Xu 等[5]利用 k 均值聚類算法生成的數據集訓練 CNN 模型,該模型能夠區分 32 × 32 大小的圖像塊是否屬于肺實質區域。該研究的網絡結構是在 AlexNet 基礎上簡化而成的,僅保留了 1 個包含 6 個卷積核的卷積層、1 個池化層和 1 個全連接層。針對 201 例肺部疾病患者 CT 圖像得到 DSC 系數為 96.71%,每張切片花費 10.75 s。Liu 等[20]提出的算法同樣是對小圖像塊進行分類,其采用的 CNN 結構包括 3 個卷積層、3 個池化層和 1 個全連接層,但是該類方法會造成分割出來的肺實質邊界呈鋸齒狀,從而影響分割的準確率。因此該研究使用基于超像素的方法來細化局部輪廓,并使用邊緣方向跟蹤方法來細化肺實質的整體輪廓。該算法在一組患有間質性肺疾病的 CT 數據上進行了測試,實驗得到的 DSC 系數為 97.95%。

上述分類算法相比于傳統機器學習方法在分割精度方面有了提升,但運行時間較長,其原因在于 CNN 中間的卷積層尺度過大,導致內存和計算量的消耗也非常大。
2.2 分割網絡
CNN 模型能夠在犧牲空間信息的情況下,通過層到層的傳播自動學習高層特征。而研究發現,通過上采樣(包括反池化和反卷積)可以恢復下采樣操作中丟失的空間信息[21]。因此,分割網絡使用下采樣和上采樣結合的方式實現圖片的語義分割,網絡可分為前端的編碼器結構和后端的解碼器結構。編碼器通常使用預訓練的 CNN 模型進行圖像特征提取和特征的編碼壓縮,產生低分辨率特征圖,解碼器則利用上采樣等手段將其映射到高分辨率的像素空間上,從而輸出對應原圖的分割掩膜[22]。
2.2.1 全卷積網絡
全卷積網絡(fully convolutional networks,FCN)是最經典的編解碼結構。它由 Long 等[23]首次提出,之后提出的語義分割網絡大多基于 FCN 的改進發展而來。如圖 2 分割網絡所示,FCN 將傳統 CNN 結構中最后的全連接層改成卷積層,并通過上采樣將特征圖恢復到原圖大小,以實現精確的分割效果。
卷積層和池化層的組合能夠在不增加額外參數的情況下增大圖像的感受野,但池化操作會將圖像尺寸壓縮,從而丟失圖像細節信息,在 FCN 中先池化再上采樣的操作雖然能恢復部分空間信息,但仍然有少量信息難以恢復。空洞卷積利用更大的感受野覆蓋圖像,但只采用感受野中的部分像素進行卷積操作,相當于在卷積核各個權重之間插入空洞。因此,空洞卷積能在不做池化損失信息的情況下,增大感受野同時控制特征映射的分辨率。Geng 等[24]提出了一種基于牛津大學計算機視覺組(visual geometry group,VGG)的 深度卷積網絡(VGG16)和空洞卷積相結合的肺實質分割方法。首先,使用 VGG16 網絡結構的前三部分對輸入圖像進行卷積和池化。其次,利用多組空洞卷積使網絡具有足夠大的感受野。最后,融合多尺度卷積特征,利用多層感知機(multi-layer perceptron,MLP)對每個像素進行預測,分割出肺實質區域。在 137 幅測試切片中,DSC 系數為 98.67%,相比于 FCN 提升了 1.84%。Anthimopoulos 等[25]提出的網絡模型同樣使用了空洞卷積,但它的網絡層數更深,具有 13 個卷積層和 287 × 287 的總感受野。在 172 例間質性肺病 CT 數據集中,準確率到達 81.8%,相比于傳統 CNN 提升了 9.6%,處理每張切片僅需 58 ms。Hofmanninger 等[26]將擴張殘差網絡(dilated residual networks,DRN)和金字塔網絡(DeepLab v3+)應用到肺實質分割領域,DRN 網絡使用空洞卷積替換了殘差網絡(ResNet)結構中的下采樣層,DeepLab v3+網絡使用了空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP),即用不同采樣率的空洞卷積實現多尺度特征提取。該研究在多個數據集上進行了測試,DRN 網絡的 DSC 系數最高達到了 97%,DeepLab v3+網絡達到了 98%。
Hu 等[27]將掩膜循環卷積神經網絡(mask recycle-CNN,Mask R-CNN)應用到肺實質分割領域,骨干網絡使用 ResNet 提取特征,然后獲取特征圖中的 ROI,接著將 ROI 送入區域生成網絡(region proposal network,RPN)進行過濾,最后分別對 ROI 進行分類、檢測和分割,其中分割支路通過上采樣操作得到掩膜。Hu 等[27]還結合了多種機器學習方法,對比發現,Mask R-CNN 結合 k 均值的方法效果最佳,DSC 系數達到 97.33%,平均運行時間為 11.2 s。Han 等[28]在 Mask R-CNN 的基礎上改進了臉書網絡(Detectron2),該網絡除了需要原始圖像和對應的真實掩膜(ground truth)外,還要求在訓練集中標注對應的 bounding box。該研究使用了與文獻[27]相同的肺部 CT 數據集進行測試,DSC 系數達到了 99.6%,所需時間縮短至 2.3 s。
2.2.2 對稱分割網絡
對稱分割網絡(U-Net)在經典 FCN 基礎上改良后被廣泛應用到醫學影像分割領域,由 Ronneberger 等[29]首次提出。U-Net 的網絡結構非常清晰,即下采樣后經過兩次卷積再次下采樣,而對于上采樣階段,特征圖先與對應尺寸的下采樣特征層進行拼接融合,然后經過兩次卷積后再次反卷積,最后輸出對應原圖的掩膜。
文獻[30-31]都將原始的 U-Net 應用到了肺實質分割領域并取得了不錯的效果,同時也有大量研究提出基于 U-Net 改進的方法[32~39]。Tan 等[32]在生成對抗網絡(generative adversarial networks,GAN)的基礎上提出了肺部生成對抗網絡(Lung GAN,LGAN),該網絡由生成器網絡和判別器網絡組成,生成器網絡使用的是 U-Net,經其訓練后生成類似于 ground truth 的肺實質掩膜;判別器網絡使用的是 CNN,用來區分生成的圖像與 ground truth。CNN 的分類結果幫助 U-Net 生成更精確的圖像,同時該圖像作為 CNN 的輸入能夠幫助其提高分類準確率,兩者的性能在迭代過程中不斷被提升。該研究從 LIDC-IDRI 數據集中隨機選取了 40 例患者的 CT 掃描圖像進行測試,實驗表明 LGAN 的 DSC 系數達到了 98.5%,相比于 U-Net 提高了 1.5%。Khanna 等[33]提出了帶有殘差模塊的深層 U-Net,每兩個卷積層使用一次跳躍連接的結構稱為一個殘差模塊,每次下采樣之間包含有多個殘差模塊。加入了殘差模塊后的 U-Net,層次更深,訓練參數更多,在一定程度上彌補了 U-Net 層數淺的問題,同時由于跳躍連接可以實現恒等映射,這也解決了 U-Net 在深度條件下性能退化的問題。該研究在肺結節公開數據集(lung nodule analysis 2016,LUNA16)上進行肺實質分割測試,得到的 DSC 系數為 98.63%,相比于 U-Net 提高了 3%。Zhang 等[34]提出了密集殘差對稱分割網絡(dense-inception U-Net,DIU-Net),該網絡不僅使用了殘差模塊,還引入了密集連接模塊。為了確保網絡中最大的信息流通,密集連接模塊內部的所有層都被相互連接起來,即每層的輸入來自前面所有層的輸出。U-Net 的編碼器結構由 3 個殘差模塊、1 個密集連接模塊和 4 個下采樣模塊組成,解碼器結構由 3 個殘差模塊、1 個密集連接模塊和 4 個上采樣模塊組成,在網絡的中間部署了單個密集連接模塊,它相比其他模塊包含了更多的殘差層。這樣的網絡結構能夠有效地避免網絡訓練過程中梯度消失或冗余計算。該研究在 267 例肺部 CT 掃描上測試得到的 DSC 系數為 98.57%,相比于 U-Net 提高了 0.31%,處理每張切片僅需 1.36 s。實驗表明,該算法對于分割血管和腦腫瘤同樣具有良好的效果,所得 DSC 系數均大于 95%。
當前,應用最廣泛的改進方法是將二維 U-Net 改為三維。使用二維 U-Net 時,由于每張切片都是獨立處理的,因此會丟失部分維度信息,但該系統可以學習到大量的樣本。使用三維 U-Net 時,三維圖像能最大程度地保留原始信息,減少特征遺漏,從而提高肺實質分割的精度,但是所能學習的樣本數量較少。Zhu 等[35]將三維 U-Net 用于分割肺、肝、心臟等高風險器官,由于所用數據集不大,相應地縮減了網絡的卷積層數,訓練得到的模型對于分割肺實質具有不錯的效果。Park 等[36]將原始 U-Net 中的二維卷積全部改為三維卷積,實現了肺葉分割。使用 40 幅獨立的外部 CT 圖像對該模型進行了評估,得到 DSC 系數 97%,左肺和右肺的肺葉分割時間分別為 6.49 s 和 8.61 s。Nemoto 等[37]利用了更多的數據訓練模型,并對比了二維、三維和傳統方法,實驗表明,深度學習方法在準確率上優于數字圖像處理方法,二維和三維方法差距不大,在 32 例測試數據上均得到了高達 99% 的 DSC 系數。Dong 等[38]在三維 U-Net 基礎上引入了 GAN 能夠分別對左肺和右肺進行分割,在 35 例 CT 掃描中測試得到的 DSC 系數均為 97%。該算法具有良好的魯棒性,對脊髓、食道和心臟同樣有良好的分割效果。Ma 等[39]利用多級對稱分割網絡(nnU-Net)對多個數據集中的左右肺實質進行分割,該網絡能根據給定數據集的屬性自動調整所有超參數,其結構由 1 個二維 U-Net、1 個三維 U-Net 和級聯的三維 U-Net 組成。單獨的二維 U-Net 和三維 U-Net 用于生成全分辨率的結果,級聯網絡的第一級三維 U-Net 在下采樣的圖像上進行訓練,然后將上采樣的結果作為一個額外的輸入通道送入第二級三維 U-Net,并在全分辨率的圖像上進行訓練,級聯的結構有利于解決三維 U-Net 為了減小顯卡顯存占用而喪失太多上下文信息的問題。左肺測試得到的 DSC 系數為 92.2%,右肺為 95.5%。
對比分析基于深度學習的肺實質分割方法發現,近年提出的方法以具有編解碼結構的分割網絡為主,結合了其它方法的模型通常優于基本模型,訓練模型的 CT 圖像越多,模型的 DSC 系數越高。在運行速度方面,三維模型的分割速度稍慢于二維模型。
3 總結與展望
本文分別介紹了肺實質分割領域中的傳統機器學習方法和深度學習方法,將傳統機器學習方法分為基于區域的分割方法和基于活動輪廓的分割方法兩大類進行闡述;而將深度學習方法根據神經網絡輸出類型分為分類網絡和分割網絡兩大類,其中分割網絡作為深度學習中完成分割任務的主要方法予以重點介紹。通過對比分析,無論是哪一類方法相比于更早的研究都有了明顯的改進,例如分割準確率更高、處理一張切片所需時間更短、在分割基礎上還可以實現目標檢測等。但仍存在一些問題亟待解決,例如在處理病變嚴重或者橫膈膜區域的 CT 切片時,肺實質分割效果不佳。另外,由于肺的呼吸運動,同一患者不同切片中的肺正處于擴張和收縮兩個不同的時期,導致分割重建出來的肺實質模型與實際情況差距較大。
為解決上述難題,該領域未來應該向以下方向發展:第一,算法不僅僅使用軸位面的 CT 圖像進行肺實質分割,針對難以處理的部分應該融合冠狀面和矢狀面的信息綜合評估。第二,在分割之前對不同切片的呼吸時期進行分類,再選擇處于相同時期的 CT 切片進行三維重建。第三,擴充數據集,規范數據標注,優化算法,訓練模型以適用于多種器官的分割。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
肺是人體的呼吸器官,一旦肺部出現問題,人體就無法正常地與外界進行氣體交換,從而導致缺氧甚至危及生命。肺癌的發病率與死亡率均居惡性腫瘤之首[1]。于 2019 年 12 月爆發的新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)已在全球蔓延,據世界衛生組織(World Health Organization,WHO)統計,截至 2021 年 1 月 26 日,全球累計確診 98 925 221 例,死亡 2 127 294 例,并且數據正在與日俱增。肺部疾病還會引發諸多并發癥,如:氣管炎、心臟疾病、淋巴系統疾病等,嚴重危害人體健康。因此,肺部疾病的早期篩查與診斷尤為重要。
作為肺部疾病最有效的無創檢測技術,CT 以其分層薄、高分辨率、低噪聲等特點,被廣泛應用到肺部疾病篩查和輔助診斷當中[2]。基于 CT 圖像的計算機輔助診斷(computer aided diagnosis,CAD)系統旨在向醫生提供寶貴的“第二意見”,以減輕醫生的工作量,從而提高肺部疾病診斷的準確率[3]。CAD 系統通常分為四個階段:預處理、感興趣區域(region of interest,ROI)提取、特征提取和結果評估,肺實質分割是 ROI 提取的重要環節之一,因為絕大部分病灶只存在于肺實質中,精確地分割肺實質區域,有助于使病灶搜索區域最小化,并使檢測病灶的靈敏度最大化[4]。
肺部疾病的影像特征有數十種,包括磨玻璃樣陰影、實變、空洞、樹芽和微結節、結節、胸腔積液、蜂窩狀等,每種疾病在 CT 圖像上都有不同的形狀、紋理和密度信息[5]。疾病進一步縮小了肺實質與周圍組織結構之間的區別,造成肺部疾病患者的肺邊界難以識別,因此自動化肺實質分割是一項具有挑戰性的任務。為解決上述難題,科研工作者基于不同原理提出了大量算法,這些算法可以分為傳統機器學習方法和深度學習方法兩大類。傳統機器學習方法通常是對 CT 圖像特征進行手動提取并通過相關規則進行處理,這樣有效地結合了操作者的知識和計算機處理數據的性能,從而實現交互式地肺實質分割。其中,利用數字圖像處理技術分割肺實質是最基礎的方法,首先操作者根據 CT 圖像中各結構的灰度值設定一個閾值粗略分割肺實質,再通過觀察分析閾值分割造成的肺空洞的形狀與大小,選取合適的修補方法,例如膨脹腐蝕、凸包法、滾球法等,最后將所得掩膜與原圖相乘,即可得到肺實質圖像。而深度學習方法通過構建具有多個隱藏層的人工神經網絡,把海量的原始數據或簡單加工后的數據作為系統的輸入,系統對 CT 圖像特征自動提取并訓練,最終得到效果優良的模型用于肺實質分割。
本文分別對傳統機器學習方法和深度學習方法的最新研究進展進行了討論,其中重點介紹了應用于肺實質分割領域的深度學習網絡模型的基本架構及其改進方案,并對比其分割準確率。最后,分析了該研究領域面臨的挑戰,并對未來研究發展方向進行了展望。
1 基于傳統機器學習方法的肺實質分割
應用于肺實質分割的傳統機器學習方法可以分為兩大類:基于區域的分割方法[6~11]和基于活動輪廓的分割方法[12~15]。若疾病病灶或部分組織位于肺實質邊界,如與胸膜相連的結節、實變、血管等,由于其灰度值和密度與胸膜相似,得到的初始邊界易出現錯誤。如圖 1 所示,肺部疾病患者 CT 圖像中處于邊界的病灶與血管被排除在肺實質外,造成明顯的凹陷,而這些恰恰是 CAD 系統下一步特征提取中不可缺少的部分。因此,通常還需要結合機器學習的算法對邊界非正常凹陷進行修補。圖 1 中,新冠肺炎患者 CT 圖像來源于電子科技大學收集的新冠肺炎數據集(UESTC-COVID-19),非公開數據集,已獲得授權[16]。網址為,http://faculty.uestc.edu.cn/HiLab/en/article/379152/list/index.htm。而圖 1 中肺癌早期患者 CT 圖像來源于美國國家癌癥研究所發布的公開數據集肺部圖像數據庫聯盟與圖像數據庫資源計劃(lung image database consortium and image database resource initiative,LIDC-IDRI),網址為 https://imaging.cancer.gov/informatics/lidc_idri.htm。

1.1 基于區域的分割方法
基于區域的方法是根據 CT 圖像中不同區域之間特征的差異性以及同一區域特征的相似性來分割圖像,主要包括閾值法、區域生長法、隨機游走法等。其中,閾值法主要的思想是:使用低密度肺和周圍高密度胸壁之間的對比度來指導分割過程,并將灰度值高于所選閾值的組織排除在肺實質區域之外。雖然閾值分割計算量小、分割速度快,但由于肺部區域的灰度值與氣管、支氣管區域相似,分割效果并不理想。區域生長法主要的思想是:通過判定種子點與周圍鄰域像素點的相似性,選擇性地合并與生長,直到條件不被滿足時終止。該方法能彌補閾值法較少考慮到的空間關系不足的情況,但需要人為地選取種子點。剩下其余方法都有各自明顯的優劣勢,但用單一的算法難以達到良好的分割效果。
當前提出的肺實質分割方法通常結合了多種基礎算法。Xiao 等[6]提出了一種結合閾值迭代法分割肺實質圖像和分形幾何方法檢測凹陷邊界的自動框架,采用包括改進的凸包修復算法以完成肺實質的精確分割,其中充分利用了 CT 圖像序列與 CT 圖像自動閾值分割序列之間的相關性。研究人員選取了來自 LIDC-IDRI 的 50 例和自建的 47 例包含胸膜結節的 CT 圖像進行分割測試,得到的像素準確度(pixel accuracy,PA)為 92.45%,交并比(intersection over union,IOU)為 95.9%。Gopalakrishnan 等[7]提出一種利用自適應多級閾值的直方圖來估計高斯函數的總數及其初始參數,采用期望最大化(expectation maximization,EM)算法對高斯分量的參數進行更新,對高斯混合模型分割出的肺實質進行自適應形態濾波以減少邊界誤差。研究人員對來自 LIDC-IDRI 的 28 例患者的 70 幅病變肺切片和 119 幅正常肺切片進行了測試,測試得到的骰子相似系數(dice similarity coefficient,DSC)為 97.22%、豪斯多夫距離(hausdorff distance,HD)為 1.02 mm、敏感度為 99.91% 以及特異度為 99.67%。Zhang 等[8]提出了一種改進的基于圖論的肺實質分割算法,該算法基于粗分割的結果自動選擇與肺實質相對應的邊界框(bounding box),然后在 bounding box 中使用基于圖論的分割算法準確地分割 CT 圖像中的肺實質。該算法克服了傳統算法手工選擇 bounding box 的缺點,測試得到的精確度為 97%、召回率為 93% 和 F1 分數為 95%,優于基于單一閾值和區域生長的分割方法。Kumar 等[9]首先使用迭代閾值法粗分割肺實質區域,然后采用改進的雙向鏈碼方法獲取垂直和水平方向的肺邊界判定點,最后在支持向量機(support vector machine,SVM)分析位置、距離、凹凸率等信息的基礎上,采用中點法對肺邊界進行修正。該方法在來自 LIDC-IDRI 和用于評估響應的參考圖像數據庫(reference image database to evaluate response,RIDER)的 180 例 CT 圖像上進行了測試,得到 DSC 系數為 95.85%,體積重疊率(volumetric overlap rate,VOR)為 97.72%。Peng 等[10]針對自身研究做出改進,提出了一種基于像素的雙掃描連通分量標記(pixel-based two-scan connected component labeling,PSCCL)-凸包(convex hull,CH)-閉合主曲線(closed principal curve,CPC)方法(PSCCL-CH-CPC)。首先結合 PSCCL 和 CH 從整個胸部 CT 掃描中粗略地提取肺區域,然后將改進的 CPC 和反向傳播神經網絡(backpropagation neural network,BNN)相結合來表示肺部輪廓的平滑數學表達式,實現細分割。實驗結果表明,在 100 例 CT 圖像中測試得到的 DSC 系數高達 98.21%,敏感度為 96.66%。張華海等[11]提出一種融合表面波變換與脈沖耦合神經網絡(pulse coupled neural network,PCNN)的算法。利用表面波變換的多尺度、多方向分解特性及局部修正拉普拉斯算子增強圖像中的邊緣及細節信息,輸入 PCNN 通過循環迭代完成肺實質的分割。選取 500 張切片進行測試,所得 DSC 系數為 97.85%,分割所有切片花費 11.68 s。
綜上所述,基于區域的肺實質分割方法原理簡單、計算量小,能快速準確地分離出肺實質區域,但對參數敏感,易造成過度分割。特別是在肺部存在嚴重病變的情況下,出現的凹陷形狀、大小、位置差距較大,單一的邊界修補方法難以應對不同的凹陷,導致分割效果不理想。
1.2 基于活動輪廓的分割方法
基于活動輪廓的分割方法主要思想是:設定一條初始輪廓,然后利用內外引力的驅動使得輪廓發生形變,直到能量函數最小,該輪廓線到達肺實質區域的邊界為止。常規的活動輪廓法在分割肺實質時存在一些問題,如輪廓初始化困難、對邊界凹陷的收斂能力不足、活動輪廓線的鞍點和靜止點的難以連接,從而使得輪廓模型不能很好地應用于形狀復雜的肺部。
近年來,研究人員提出了一些解決方法。Cheimariotis 等[12]通過簡單閾值法和二值形態學操作相結合的方法,分別尋找代表左右肺的兩個最大連通區域,隨后填補肺葉空洞,提取邊緣作為初始輪廓。然后使用普氏算法(Procrustes)通過拉伸和旋轉來變換一個形狀中的所有點,最后進行主成分分析(principal component analysis,PCA),并將結果輸入到分割過程中,以將輪廓變形約束到肺實質精確邊界。針對 69 例阻塞性肺病和 8 例無明顯肺灌注衰竭患者的單光子發射計算機斷層成像術(single-photon emission computed tomography,SPECT)圖像,測試得到左右肺的 DSC 系數分別為 82% 和 83%。Chung 等[13]首先使用活動輪廓的陳-韋塞(chan-vese,CV)模型,然后根據模型的結果采用貝葉斯方法,結合相鄰幀圖像中分割出的肺輪廓來預測肺部圖像。在得到的候選胸膜結節中,通過凹點檢測和霍夫變換消除了假陽性。最后,通過將最終的候選結節添加到模型結果區域來修改肺輪廓。在 84 例肺部 CT 圖像中測得的 DSC 系數為 98.09%,HD 距離為 0.480 6 mm,敏感度為 97.85%,特異度為 99.81%,準確率為 99.64%,胸膜結節檢出率為 96%,優于單獨使用的 CV 模型、歸一化 CV 模型和蛇形(snake)算法。Chen 等[14]將稀疏形狀合成與特征向量空間形狀先驗模型相結合,以減少外觀先驗信息較弱和誤導性造成的局部形狀重構誤差。為了初始化活動輪廓,引入了一種基于字典學習的方法來處理病變和局部細節。此外,還提出了一種基于梯度矢量流(gradient vector flow,GVF)的頂點搜索策略,將輪廓變形驅動到目標邊界。在 78 例肺部腫瘤的低劑量 CT 圖像上對該算法進行了測試,左右肺的 DSC 系數分別為 96.39% 和 97.25%,該算法的平均運行時間為 310 s。Nithila 等[15]提出了一種基于符號壓力(signed pressure force,SPF)函數的活動輪廓模型。首先懲罰水平集函數為二進制,然后使用高斯濾波器對其進行正則化,從而得到初始輪廓。然后在 SPF 函數中加入輪廓常數,調節壓力的符號,使物體內部的輪廓收縮,物體外部的輪廓擴張,最后使用邊緣停止函數將輪廓拉到肺實質邊界。該方法的準確度達到了 98.95%,模型收斂于 150 次迭代,耗時僅 17 s。
綜上所述,該類方法受噪聲干擾小,可以對形狀不規則的曲線能達到亞像素級的逼近精度,且能保證其拓撲性,但在建立模型時存在困難,計算成本較高,可重復性較差。大部分模型對初始曲線的位置較敏感,當初始輪廓離目標輪廓較遠時,難以檢測到肺實質的輪廓,容易造成能量函數局部最小值。
對比分析基于區域的分割方法和基于活動輪廓的分割方法可得:近年來所提出兩類方法數量相當,具有從傳統數字圖像處理方法向機器學習方法相結合的發展趨勢。由于各項研究的測試樣本數量存在差異,且不同的肺部疾病類型對分割效果的影響程度不一,所以這些結果無法橫向對比,但整體形勢上 DSC 系數穩定上升。
2 基于深度學習方法的肺實質分割
近年來興起的深度學習技術,使得計算機能夠自動從目標數據中學習獲得更深層次、更抽象的特征,并且能夠有效排除人為因素的影響,相比于傳統機器學習方法,更易于實現全自動化,更具發展潛力,當前已有多種深度學習網絡被應用到肺實質分割中。本文將深度學習方法按照其輸出類型分為分類網絡和分割網絡進行論述。
2.1 分類網絡
近年來,卷積神經網絡(convolutional neural networks,CNN)在圖像分類、目標識別、檢測等領域取得了巨大的成功[17]。CNN 是一種多層神經網絡,主要包括卷積層、池化層和全連接層。淺層網絡主要由卷積層和池化層交替組成,以實現特征提取,深層網絡則是全連接層,對應邏輯回歸分類器,完成目標識別等任務[18]。
基于 CNN 的肺實質分割方法就是將分割任務轉化為對像素點或圖像塊的分類,如圖 2 分類網絡所示,首先將 CT 圖像分為若干小圖像塊,其中屬于肺實質區域的圖像塊被送入 CNN 網絡中,經過 5 次卷積和 3 次池化操作,再通過 3 個全連接層,最終被正確地分類為肺實質。該類算法只需將每個圖像塊輸入到 CNN 中,再將分類結果為肺實質的圖像塊拼接起來即可得到完整的肺實質區域。Liu 等[19]提出了一種結合超像素簡單線性迭代聚類(simple linear iterative clustering,SLIC)和 SVM 的 CNN 新框架,解決了由于傳統 CNN 冗余輸入量巨大所導致的分割效果不佳的問題。為了在像素級別上找到精確的肺實質邊界,需要對像素進行逐級分類。首先,SLIC 用于將圖像分割成網格并提取各自的數字標簽。然后,利用 SVM 對標簽進行分類,得到粗糙邊緣。最后,CNN 基于每個像素點周圍的圖像塊得到精確的邊界。其中,CNN 模型采用的是亞歷克斯網絡(AlexNet),它包含 5 個卷積層、3 個池化層以及 3 個全連接層。Liu 等[19]保留了原有的損失函數、優化器等參數,僅僅修改了該網絡的輸出,即判斷該像素點是否為肺實質的邊界點。該方法在阿里云天池數據集上得到的 DSC 系數為 97.93%,處理一張切片需要 40 s。Xu 等[5]利用 k 均值聚類算法生成的數據集訓練 CNN 模型,該模型能夠區分 32 × 32 大小的圖像塊是否屬于肺實質區域。該研究的網絡結構是在 AlexNet 基礎上簡化而成的,僅保留了 1 個包含 6 個卷積核的卷積層、1 個池化層和 1 個全連接層。針對 201 例肺部疾病患者 CT 圖像得到 DSC 系數為 96.71%,每張切片花費 10.75 s。Liu 等[20]提出的算法同樣是對小圖像塊進行分類,其采用的 CNN 結構包括 3 個卷積層、3 個池化層和 1 個全連接層,但是該類方法會造成分割出來的肺實質邊界呈鋸齒狀,從而影響分割的準確率。因此該研究使用基于超像素的方法來細化局部輪廓,并使用邊緣方向跟蹤方法來細化肺實質的整體輪廓。該算法在一組患有間質性肺疾病的 CT 數據上進行了測試,實驗得到的 DSC 系數為 97.95%。

上述分類算法相比于傳統機器學習方法在分割精度方面有了提升,但運行時間較長,其原因在于 CNN 中間的卷積層尺度過大,導致內存和計算量的消耗也非常大。
2.2 分割網絡
CNN 模型能夠在犧牲空間信息的情況下,通過層到層的傳播自動學習高層特征。而研究發現,通過上采樣(包括反池化和反卷積)可以恢復下采樣操作中丟失的空間信息[21]。因此,分割網絡使用下采樣和上采樣結合的方式實現圖片的語義分割,網絡可分為前端的編碼器結構和后端的解碼器結構。編碼器通常使用預訓練的 CNN 模型進行圖像特征提取和特征的編碼壓縮,產生低分辨率特征圖,解碼器則利用上采樣等手段將其映射到高分辨率的像素空間上,從而輸出對應原圖的分割掩膜[22]。
2.2.1 全卷積網絡
全卷積網絡(fully convolutional networks,FCN)是最經典的編解碼結構。它由 Long 等[23]首次提出,之后提出的語義分割網絡大多基于 FCN 的改進發展而來。如圖 2 分割網絡所示,FCN 將傳統 CNN 結構中最后的全連接層改成卷積層,并通過上采樣將特征圖恢復到原圖大小,以實現精確的分割效果。
卷積層和池化層的組合能夠在不增加額外參數的情況下增大圖像的感受野,但池化操作會將圖像尺寸壓縮,從而丟失圖像細節信息,在 FCN 中先池化再上采樣的操作雖然能恢復部分空間信息,但仍然有少量信息難以恢復。空洞卷積利用更大的感受野覆蓋圖像,但只采用感受野中的部分像素進行卷積操作,相當于在卷積核各個權重之間插入空洞。因此,空洞卷積能在不做池化損失信息的情況下,增大感受野同時控制特征映射的分辨率。Geng 等[24]提出了一種基于牛津大學計算機視覺組(visual geometry group,VGG)的 深度卷積網絡(VGG16)和空洞卷積相結合的肺實質分割方法。首先,使用 VGG16 網絡結構的前三部分對輸入圖像進行卷積和池化。其次,利用多組空洞卷積使網絡具有足夠大的感受野。最后,融合多尺度卷積特征,利用多層感知機(multi-layer perceptron,MLP)對每個像素進行預測,分割出肺實質區域。在 137 幅測試切片中,DSC 系數為 98.67%,相比于 FCN 提升了 1.84%。Anthimopoulos 等[25]提出的網絡模型同樣使用了空洞卷積,但它的網絡層數更深,具有 13 個卷積層和 287 × 287 的總感受野。在 172 例間質性肺病 CT 數據集中,準確率到達 81.8%,相比于傳統 CNN 提升了 9.6%,處理每張切片僅需 58 ms。Hofmanninger 等[26]將擴張殘差網絡(dilated residual networks,DRN)和金字塔網絡(DeepLab v3+)應用到肺實質分割領域,DRN 網絡使用空洞卷積替換了殘差網絡(ResNet)結構中的下采樣層,DeepLab v3+網絡使用了空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP),即用不同采樣率的空洞卷積實現多尺度特征提取。該研究在多個數據集上進行了測試,DRN 網絡的 DSC 系數最高達到了 97%,DeepLab v3+網絡達到了 98%。
Hu 等[27]將掩膜循環卷積神經網絡(mask recycle-CNN,Mask R-CNN)應用到肺實質分割領域,骨干網絡使用 ResNet 提取特征,然后獲取特征圖中的 ROI,接著將 ROI 送入區域生成網絡(region proposal network,RPN)進行過濾,最后分別對 ROI 進行分類、檢測和分割,其中分割支路通過上采樣操作得到掩膜。Hu 等[27]還結合了多種機器學習方法,對比發現,Mask R-CNN 結合 k 均值的方法效果最佳,DSC 系數達到 97.33%,平均運行時間為 11.2 s。Han 等[28]在 Mask R-CNN 的基礎上改進了臉書網絡(Detectron2),該網絡除了需要原始圖像和對應的真實掩膜(ground truth)外,還要求在訓練集中標注對應的 bounding box。該研究使用了與文獻[27]相同的肺部 CT 數據集進行測試,DSC 系數達到了 99.6%,所需時間縮短至 2.3 s。
2.2.2 對稱分割網絡
對稱分割網絡(U-Net)在經典 FCN 基礎上改良后被廣泛應用到醫學影像分割領域,由 Ronneberger 等[29]首次提出。U-Net 的網絡結構非常清晰,即下采樣后經過兩次卷積再次下采樣,而對于上采樣階段,特征圖先與對應尺寸的下采樣特征層進行拼接融合,然后經過兩次卷積后再次反卷積,最后輸出對應原圖的掩膜。
文獻[30-31]都將原始的 U-Net 應用到了肺實質分割領域并取得了不錯的效果,同時也有大量研究提出基于 U-Net 改進的方法[32~39]。Tan 等[32]在生成對抗網絡(generative adversarial networks,GAN)的基礎上提出了肺部生成對抗網絡(Lung GAN,LGAN),該網絡由生成器網絡和判別器網絡組成,生成器網絡使用的是 U-Net,經其訓練后生成類似于 ground truth 的肺實質掩膜;判別器網絡使用的是 CNN,用來區分生成的圖像與 ground truth。CNN 的分類結果幫助 U-Net 生成更精確的圖像,同時該圖像作為 CNN 的輸入能夠幫助其提高分類準確率,兩者的性能在迭代過程中不斷被提升。該研究從 LIDC-IDRI 數據集中隨機選取了 40 例患者的 CT 掃描圖像進行測試,實驗表明 LGAN 的 DSC 系數達到了 98.5%,相比于 U-Net 提高了 1.5%。Khanna 等[33]提出了帶有殘差模塊的深層 U-Net,每兩個卷積層使用一次跳躍連接的結構稱為一個殘差模塊,每次下采樣之間包含有多個殘差模塊。加入了殘差模塊后的 U-Net,層次更深,訓練參數更多,在一定程度上彌補了 U-Net 層數淺的問題,同時由于跳躍連接可以實現恒等映射,這也解決了 U-Net 在深度條件下性能退化的問題。該研究在肺結節公開數據集(lung nodule analysis 2016,LUNA16)上進行肺實質分割測試,得到的 DSC 系數為 98.63%,相比于 U-Net 提高了 3%。Zhang 等[34]提出了密集殘差對稱分割網絡(dense-inception U-Net,DIU-Net),該網絡不僅使用了殘差模塊,還引入了密集連接模塊。為了確保網絡中最大的信息流通,密集連接模塊內部的所有層都被相互連接起來,即每層的輸入來自前面所有層的輸出。U-Net 的編碼器結構由 3 個殘差模塊、1 個密集連接模塊和 4 個下采樣模塊組成,解碼器結構由 3 個殘差模塊、1 個密集連接模塊和 4 個上采樣模塊組成,在網絡的中間部署了單個密集連接模塊,它相比其他模塊包含了更多的殘差層。這樣的網絡結構能夠有效地避免網絡訓練過程中梯度消失或冗余計算。該研究在 267 例肺部 CT 掃描上測試得到的 DSC 系數為 98.57%,相比于 U-Net 提高了 0.31%,處理每張切片僅需 1.36 s。實驗表明,該算法對于分割血管和腦腫瘤同樣具有良好的效果,所得 DSC 系數均大于 95%。
當前,應用最廣泛的改進方法是將二維 U-Net 改為三維。使用二維 U-Net 時,由于每張切片都是獨立處理的,因此會丟失部分維度信息,但該系統可以學習到大量的樣本。使用三維 U-Net 時,三維圖像能最大程度地保留原始信息,減少特征遺漏,從而提高肺實質分割的精度,但是所能學習的樣本數量較少。Zhu 等[35]將三維 U-Net 用于分割肺、肝、心臟等高風險器官,由于所用數據集不大,相應地縮減了網絡的卷積層數,訓練得到的模型對于分割肺實質具有不錯的效果。Park 等[36]將原始 U-Net 中的二維卷積全部改為三維卷積,實現了肺葉分割。使用 40 幅獨立的外部 CT 圖像對該模型進行了評估,得到 DSC 系數 97%,左肺和右肺的肺葉分割時間分別為 6.49 s 和 8.61 s。Nemoto 等[37]利用了更多的數據訓練模型,并對比了二維、三維和傳統方法,實驗表明,深度學習方法在準確率上優于數字圖像處理方法,二維和三維方法差距不大,在 32 例測試數據上均得到了高達 99% 的 DSC 系數。Dong 等[38]在三維 U-Net 基礎上引入了 GAN 能夠分別對左肺和右肺進行分割,在 35 例 CT 掃描中測試得到的 DSC 系數均為 97%。該算法具有良好的魯棒性,對脊髓、食道和心臟同樣有良好的分割效果。Ma 等[39]利用多級對稱分割網絡(nnU-Net)對多個數據集中的左右肺實質進行分割,該網絡能根據給定數據集的屬性自動調整所有超參數,其結構由 1 個二維 U-Net、1 個三維 U-Net 和級聯的三維 U-Net 組成。單獨的二維 U-Net 和三維 U-Net 用于生成全分辨率的結果,級聯網絡的第一級三維 U-Net 在下采樣的圖像上進行訓練,然后將上采樣的結果作為一個額外的輸入通道送入第二級三維 U-Net,并在全分辨率的圖像上進行訓練,級聯的結構有利于解決三維 U-Net 為了減小顯卡顯存占用而喪失太多上下文信息的問題。左肺測試得到的 DSC 系數為 92.2%,右肺為 95.5%。
對比分析基于深度學習的肺實質分割方法發現,近年提出的方法以具有編解碼結構的分割網絡為主,結合了其它方法的模型通常優于基本模型,訓練模型的 CT 圖像越多,模型的 DSC 系數越高。在運行速度方面,三維模型的分割速度稍慢于二維模型。
3 總結與展望
本文分別介紹了肺實質分割領域中的傳統機器學習方法和深度學習方法,將傳統機器學習方法分為基于區域的分割方法和基于活動輪廓的分割方法兩大類進行闡述;而將深度學習方法根據神經網絡輸出類型分為分類網絡和分割網絡兩大類,其中分割網絡作為深度學習中完成分割任務的主要方法予以重點介紹。通過對比分析,無論是哪一類方法相比于更早的研究都有了明顯的改進,例如分割準確率更高、處理一張切片所需時間更短、在分割基礎上還可以實現目標檢測等。但仍存在一些問題亟待解決,例如在處理病變嚴重或者橫膈膜區域的 CT 切片時,肺實質分割效果不佳。另外,由于肺的呼吸運動,同一患者不同切片中的肺正處于擴張和收縮兩個不同的時期,導致分割重建出來的肺實質模型與實際情況差距較大。
為解決上述難題,該領域未來應該向以下方向發展:第一,算法不僅僅使用軸位面的 CT 圖像進行肺實質分割,針對難以處理的部分應該融合冠狀面和矢狀面的信息綜合評估。第二,在分割之前對不同切片的呼吸時期進行分類,再選擇處于相同時期的 CT 切片進行三維重建。第三,擴充數據集,規范數據標注,優化算法,訓練模型以適用于多種器官的分割。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。