準確分割磨玻璃肺結節(GGN)具有重要臨床意義。針對電子計算機斷層掃描(CT)圖像中GGN邊界模糊、形狀不規則、強度不均勻等特點導致其分割困難的問題,本文提出一種全卷積殘差網絡算法,即基于空洞空間卷積池化金字塔結構和注意力機制的殘差網絡(ResAANet)算法。該網絡算法利用空洞空間卷積池化金字塔(ASPP)結構擴大特征圖感受野,提取更充分的目標特征,并采用注意力機制、殘差連接和長跳躍連接充分保留卷積層提取的GGN敏感特征。首先,用上海市胸科醫院收集的565個GGN對ResAANet進行全監督訓練、驗證,得到穩定的模型;然后,利用收集的另84個GGN和肺部圖像數據庫聯盟 (LIDC)公共數據庫中145個GGN分別測試模型得到粗分割結果;最后,用連通域分析方法去除假陽性區域得到優化結果。本文所提算法在采集的臨床數據和LIDC測試集上的戴斯相似系數(DSC)達到83.46%、83.26%,平均重合度(IoU)達到72.39%、71.56%,切片分割效率達到0.1 s/張。與其他算法相比,本文提出的方法能準確、快速分割GGN,且具有較好的穩健性,可以為醫生提供結節大小、密度等重要信息,輔助醫生后續的診斷和治療。
引用本文: 董婷, 魏瓏, 葉曉丹, 陳陽, 侯學文, 聶生東. 基于空洞空間卷積池化金字塔結構和注意力機制的全卷積殘差網絡磨玻璃肺結節分割方法. 生物醫學工程學雜志, 2022, 39(3): 441-451. doi: 10.7507/1001-5515.202010051 復制
引言
據2020年癌癥報告(Cancer statistics,2020)顯示,肺癌仍是全球惡性腫瘤致死的主要原因,而我國肺癌新發患者數占全球肺癌新發患者數的20%以上[1]。計算機斷層掃描成像技術(computed tomography,CT)成像快、圖像分辨率高,已成為目前發現、監測早期肺癌的首選技術[2]。早期肺癌的影像表現是肺結節形成,在計算機輔助肺癌診斷中,準確提取CT掃描圖像中肺結節的完整邊界可以為醫生提供腫瘤大小、密度等重要信息,輔助醫生后續的診斷和治療。此外,在肺癌的分子亞型和放射組學中,肺結節分割也起著舉足輕重的作用。磨玻璃肺結節(ground glass nodule,GGN)是一類特殊的結節,與實性結節相比,GGN具有邊界模糊、形狀不規則、強度不均勻、與周圍正常組織對比度低等特點,易被醫生忽略。因此,GGN的分割與診斷一直是醫學圖像分割領域的重點和難點[3]。準確分割GGN可為醫學影像評價和治療方案的制定提供重要依據,對提高早期肺癌的監測效率有重要意義。根據所含實性成分,GGN可分為混合GGN (mixed GGN,mGGN)和純GGN (pure GGN,pGGN),其形態如圖1所示。圖1中白色小框內,mGGN邊界模糊、中心區域密度稍高,但其較高的密度不能完全遮蓋穿行其中的正常支氣管、血管束;pGGN為灰度輕度增高的云霧狀淡薄影,與肺實質的灰度相近,更易被忽略。

近年來,GGN分割主要依靠聚類、可變形模型、基于馬爾科夫隨機場(Markov random field,MRF)理論等傳統的無監督方法。其中,聚類方法主要利用GGN區域的特征相似性實現像素聚簇,如Liu等[4-5]提出了一種快速自適應模糊C均值(fuzzy C mean,FCM)聚類算法及其改進算法,在GGN的分割上有一定效果,但對直徑<10 mm的GGN分割效果不佳。另外,Shakibapour等[6]基于元啟發式搜索策略對像素進行聚類,可自動分割具有不同位置和紋理特征的結節,但分割效率有待提升。而可變形模型主要利用曲線在邊界停止演化得到結節輪廓,如有研究者先后將活動輪廓模型(active contour model,ACM)與FCM聚類結合、提出基于自適應局部區域能量和后驗概率的ACM,在GGN分割上效果較好,但方法的計算復雜度高[7-8]。Jung等[9]提出非對稱多相變形模型解決了GGN分割中易發生活動輪廓泄露的問題[10]。此外,基于MRF理論的方法通過求解模型局部能量最小值完成GGN分割,比如Zhang等[11]利用MRF能量構造ACM的區域項,并用高斯混合模型(Gaussian mixture mode,GMM)得到邊界檢測函數,完成目標分割。上述傳統方法雖在分割復雜背景下的GGN有優勢,但對人工干預的依賴性較強,如聚類方法過度依賴種子點的選擇;ACM依賴初始輪廓的位置,且對噪聲敏感;基于MRF理論的分割方法易消耗不必要的計算等。隨著深度學習方法的發展,神經網絡已成功用于一般類型結節的分割中,但針對GGN分割的神經網絡較少。Wang等[12]提出一種中心聚焦卷積神經網絡(central focused-convolutional neural network,CF-CNN),在含未知數量GGN的測試集上戴斯相似性系數(Dice similarity coefficient,DSC)均值達81.09%。Liu等[13]的級聯雙路徑殘差網絡(cascaded dual pathway-residual network,CDP-ResNet)和Cao等[14]的雙分支殘差網絡(dual branch-residual network,DB-ResNet)也在含GGN的測試集進行了測試,DSC均值分別達81.58%、82.74%,但GGN的數據量未見報道。Wu等[15]用三維U型網絡(U-Net)分割結節聯合條件隨機場(conditional random field,CRF)優化分割結果的方法,在僅有的68個GGN測試中,DSC達83.28%。深度學習分割方法已在許多實驗研究中表現出了精度高、速度快的優勢,備受關注;但目前針對GGN分割的深度學習方法仍較少。在此基礎上,本文將深度學習與傳統方法結合,先用提出的基于空洞空間卷積池化金字塔結構和注意力機制的殘差網絡(residual network based on atrous spatial pyramid pooling structure and attention mechanism,ResAANet)粗分割GGN,再用傳統方法去除假陽性區域,力求解決GGN分割精度低、分割難度大的問題,旨在為醫生提供準確的結節大小、密度等信息,輔助醫生后續的診斷和治療。
1 GGN分割模型
針對GGN分割,本文設計的分割框架主要包括針對感興趣區域(region of interest,ROI)的圖像預處理、ResAANet粗分割和連通域分析細分割三部分,最終實現結節分割結果優化,其流程如圖2所示。

1.1 圖像預處理
本文實驗數據分三組:① 臨床數據組1:從上海市胸科醫院采集的565個GGN原圖及對應標注信息,圖像層厚為0.625~3.0 mm,作為模型的訓練集和驗證集;② 臨床數據組2:從上海市胸科醫院采集的另84個GGN,圖像層厚為0.625~1.0 mm,作為模型的測試集1;③ 來自美國國家癌癥研究中心創建的肺部圖像數據庫聯盟(lung image database consortium,LIDC)(https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI)的145個GGN,圖像層厚為0.45~5.0 mm,作為模型的測試集2;該LIDC數據庫是全球范圍內可用于肺結節分割算法研究的公共數據庫,包含1 010例患者共1 018次胸部CT掃描序列以及相應的診斷報告,報告中包含四位放射科醫生對序列中結節數量、邊界和良惡性判斷的注釋。
本文使用的臨床數據已得到上海市胸科醫院倫理審查委員會的批準。將醫生標注的結節信息視為金標準,而LIDC數據庫也包含有四位醫生標注結節信息的記錄,由于不同醫生標注的輪廓信息存在互異性,本文取50%的置信度生成唯一的金標準[16]。采用的數據其直徑信息如圖3所示。

本文在前人工作[17-19]的基礎上,先將醫學數字成像和通信(digital imaging and communications in medicine,DICOM)圖像的CT值調整到[?1 000,400] Hu之間,再以8 bit灰度圖像進行保存,以凸顯GGN與周圍結構組織的差異。然后,以結節為中心,分別對原圖像和金標準提取256×256個像素大小的ROI做網絡輸入,預處理效果如圖4所示。

1.2 ResAANet分割網絡
本文基于U-Net框架設計了一個分割網絡:使用空洞空間卷積池化金字塔(atrous spatial pyramid pooling,ASPP)結構橋接編、解碼路徑,利用多個并行的空洞卷積提取目標區域的多尺度感受野特征,提高模型對尺度變化明顯的結節的分割精度;通過注意力機制加強結節區域的權重,減少結節區域與背景區分度低對模型的干擾,提升分割精度;引入改進的殘差塊,使深層特征與淺層特征進行融合,增強特征的傳播能力,同時避免訓練中梯度消失問題。對于結果中的假陽性區域,利用提出的連通域分析方法得到有效優化。
1.2.1 改進的殘差塊
在一定程度上,網絡的表達能力會隨著網絡深度的增加而增強。而對于用殘差單元加深網絡深度帶來的梯度消失問題,He等[20]將線性整流函數(rectified linear unit,ReLU)激活層加入殘差單元中,獲得了收斂性能和像素分類性能都有所提升的網絡。在本文提出的網絡中,將批量標準化(batch normalization,BN)層加在ReLU激活函數之前,得到改進的殘差塊,如圖5所示。ReLU是非線性激活函數,其表達式及其導數形式(ReLU’),如式(1)~式(2)所示:

![]() |
![]() |
式中,x表示輸入的特征值,max(x, 0)表示取二者中的最大值。由式(2)可知,當網絡的學習率較大時,反向傳播過程會產生較大的梯度進入ReLU層,使該層更新的偏置和權重過小,造成下一輪正向傳播過程中該層的輸出為0,相關參數不再更新,最終導致整體數據分布往ReLU函數的上下限兩端靠、神經元失活。于是,使用BN層將輸入ReLU層之前的數據強行轉換為標準正態分布,如式(3)所示:
![]() |
式中,x(k)表示k維數據矩陣,其中E[x(k)]表示最小批處理的均值, Var[x(k)]表示最小批處理的方差。然而,這樣強行變換數據分布會導致部分特征無法學習到。因此,引入γ、β兩個參數,同時使模型通過反向傳播自適應學習這兩個參數,得到BN層的輸出y,如式(4)所示:
![]() |
BN層的加入使輸入ReLU激活層的數據在反向傳播中能產生更明顯的梯度,增強了特征的傳播能力,打破了較大學習率的設置對ReLU函數激活神經元的干擾,讓網絡加速收斂,同時避免了梯度消失的問題。
1.2.2 ASPP模塊
ASPP模塊,如圖6所示,主要利用空洞卷積[21]設置不同的擴張率得到不同視野大小的特征圖,以捕獲分割目標的多尺度信息。空洞卷積通過在濾波器中間填充0來擴大核間隔得到大小為k + (k ? 1)×(r ? 1)的膨脹卷積核,式中k表示當前層卷積核的大小,r表示擴張率,當r = 1時,空洞卷積即標準卷積。空洞卷積雖擴大了感受野,但并未增加新的參數和計算量。ASPP模塊主要由4個卷積層,1個全局均值池化 (global average pooling,GAP)層并行組成,最后將5個通道的輸出合并在一起,實現了不同尺度特征圖的獲取以及跨通道信息的整合,接收信息的區域得到增加,從而合并更多的上下文特征。

1.2.3 注意力模塊
網絡的特征表示會隨著網絡的加深越加豐富,但由于級聯卷積及下采樣操作,很多空間信息會丟失。為此,本網絡在編、解碼路徑中加入注意力模塊,不僅將編碼層中的空間信息傳播到解碼層,也減少了前向傳播過程中信息的丟失。本網絡使用的注意力模塊由通道注意力和空間注意力模塊共同組成[22],同時在空間和通道上對輸入進行較準,當輸入特征圖的位置信息在通道及空間較準中均有更高的重要性時,即得到更高的激活度,從而鼓勵網絡學習更多的有效特征,其結構如圖7所示。對于通道注意力模塊,輸入的全局特征映射先由一個GAP層壓縮至一個矢量中,并經全連接(dense)層和ReLU激活函數處理后輸入權重不同的另一個全連接層,然后經“S”形函數(Sigmoid)較準;最后將該輸出與輸入特征圖相乘,能充分保留通道信息,隨著網絡的學習,其輸出會自適應地調整,以學習更多重要的目標特征。對于空間注意力模塊,輸入的特征映射先輸入一個核大小為1×1的卷積層中,得到一個輸出張量,該張量經Sigmoid函數較準后與輸入特征圖相乘,得到該模塊的輸出,可保留更多重要的空間信息。

1.2.4 網絡結構
ResAANet結構,如圖8所示,采用256 × 256 × 1個像素大小的圖像輸入,并在每個卷積層后使用BN處理及ReLU激活函數,有效避免了訓練過程中的過擬合或欠擬合。網絡的編碼路徑包含4個下采樣模塊和1個ASPP模塊,每個下采樣模塊又包含一個改進的殘差塊和一個注意力模塊。網絡的解碼路徑由4個上采樣模塊組成,每個上采樣模塊同樣包含1個改進的殘差塊和一個注意力模塊,將局部特征的分辨率恢復至輸入圖像大小。編碼路徑與解碼路徑使用ASPP模塊橋接,該模塊從編碼路徑學習到的高層特征中提取結節的多尺度特征,并將這些特征傳遞至解碼路徑中。此時各模塊的輸出,如式(5)~式(7)所示:

![]() |
![]() |
![]() |
式中,YAttention是注意力模塊輸出,YIm-Res是改進的殘差模塊輸出,YConv是卷積層輸出,wX1、 wX2、wX3是每層的權重,bX1、bX2、 bX3是每層的偏置。由上式可知,編碼路徑的輸出已融合了注意力模塊和改進殘差塊所學習到的GGN特征,各模塊利用各自的結構優勢,減少了前向傳播過程中信息的丟失,提取了結節更充分的抽象特征。在解碼路徑的最后一級使用1 × 1卷積和Sigmoid函數將多通道特征映射投影到目標區域的分割中,并取0.5的閾值[18, 23]生成最終預測掩模。
1.2.5 模型訓練
數據經預處理后,將臨床數據組1的565個GGN隨機打亂;然后,將該數據集按9:1隨機劃分為訓練集、驗證集,并對訓練集和驗證集做旋轉、平移、縮放操作進行數據擴增,輸入網絡訓練;最后,使用測試集1和測試集2測試模型。模型訓練的批處理大小為32,初始學習率為10?2,卷積層權重使用He正態分布方法初始化。訓練過程中,使用后向傳播算法和動量(momentum)值為0.9、衰減率為10?4的隨機梯度下降(stochastic gradient descent,SGD)優化器監督損失函數,優化網絡參數,使訓練樣本的輸出愈加接近對應的標簽,并降低損失率,直到模型趨于穩定,保存損失值最小時模型的權重和偏置,用此權重和偏置分割測試集,得到GGN粗分割結果。深度學習分割網絡主要利用損失函數反映預測圖像與標簽的差異,本文使用的是重疊度(intersection over union,IoU) 損失函數(),如式(8)所示:
![]() |
式中,pi和gi分別表示第i個像素對應的算法預測結果和金標準值,經Sigmoid函數分類后,pi∈[0,1]。
本文提出的ResAANet經過500次迭代訓練、耗時約11.39 h后,訓練結果趨于穩定。如圖9所示,損失不斷減小,網絡不斷優化,且最終訓練與驗證的損失值基本一致,同時,訓練與驗證的重疊率曲線擬合得也很好,不存在過擬合或欠擬合現象。然而,由于訓練集與驗證集是按照GGN個體進行隨機劃分的,兩個數據集不可避免地存在樣本差異,以致訓練過程中驗證曲線出現輕微震蕩,但仍屬正常情況。

1.3 分割結果優化
由于部分解剖結構的灰度值與GGN相近,導致深度學習網絡的預測結果中存在部分假陽性區域。本文采用連通域分析方法去除假陽性區域,其實施流程如圖10所示。對預測結果中連通域進行標記,利用GGN質心即ROI中心,計算連通域質心與ROI中心的距離,以鎖定該距離最短的目標連通域,并以該連通域的面積S為最佳閾值,去除假陽性區域。

2 實驗結果
實驗工具為Python 3.6(Centrum Wiskunde & Informatica,荷蘭)中的Keras 2.1.6,編譯環境搭建在64位Windows 10操作系統上,中央處理器(central processing unit,CPU)為3.20 GHz,圖形處理器(graphics processing unit,GPU)為1 080 Ti,內存32 GB。Keras(Google Inc.,美國)是一個高度開源的深度學習庫,它可以利用諸如GPU等并行結構優化深度學習模型,本文使用端對端開源機器學習平臺Tensorflow(Google Inc.,美國)作后端搭建模型。經反復訓練、驗證,得到穩定模型后,將測試數據輸入網絡得到預測掩模,并用上述連通域分析方法進行分割結果優化,得到最終的分割掩模。
本文算法分割效果及優化效果,如圖11所示。圖11中綠色輪廓為金標準,藍色輪廓為算法分割結果。從分割結果與金標準的擬合程度來看,本文提出的方法在pGGN與mGGN兩類結節的分割上效果較好,且對分割難度大的空洞型mGGN(見圖11中最后一行所示)的分割也適用。根據優化結果來看,本文提出的優化分割方法能有效去除因臨近組織灰度相近而產生的假陽性區域,并且對不含假陽性區域的分割結果不產生影響。

2.1 分割方法評價指標
在分割結果的量化評價方面,本文將算法自動分割結果和金標準之間的戴斯相似性系數(Dice similarity coefficient,DSC)、陽性預測值(positive prediction value,PPV)、敏感性(sensitivity,SEN)和IoU作為評價指標,如式(9)~式(12)所示:
![]() |
![]() |
![]() |
![]() |
式中,真陽性(true positive,TP) 即算法檢測為結節區域且為金標準區域;假陽性(false positive,FP) 即算法檢測為結節區域但非金標準區域;假陰性(false negative,FN) 即算法檢測為非結節區域且非金標準區域;真陰性(true negative,TN) 即算法檢測為非結節區域但是金標準區域[24]。
以上指標中,DSC用來衡量分割結果與金標準之間的輪廓擬合程度;PPV是指分割結果中分類正確的像素占分割結果中總像素的比例;SEN則是用來表示分割結果中分類正確的像素占金標準中總像素的比例;IoU用來衡量分割結果與金標準之間的重合程度。以上四個評價指標的數值范圍均在0~1之間,且值越大表明分割結果與金標準越接近,分割效果越好。
2.2 實驗結果與對比
用模型對測試集1和測試集2進行粗分割后,對該結果進行優化,兩測試集的各指標值及分割效率,如表1所示。

本文的ResAANet分割網絡主要是將改進的殘差塊、ASPP模塊、注意力模塊巧妙地融合于U-Net框架中得到。為進一步驗證該分割網絡的性能,本文在U-Net結構的基礎上設計了是否含改進的殘差塊、ASPP模塊、注意力模塊等7個基于深度學習方法(U-Net結合ASPP模塊、U-Net結合注意力模塊、U-Net結合ASPP與注意力模塊、殘差U-Net、殘差U-Net結合ASPP模塊、殘差U-Net結合注意力模塊)的對比實驗,以及基于GMM的MRF (GMM-MRF) 水平集(level set) 的兩種傳統方法的對比實驗。以上實驗均在同一計算機環境中進行,并在相同數據集劃分情況下訓練、驗證,在各模型穩定后,對兩組測試集進行相同測試。得到對比實驗結果,如表2所示。

同時,將本文提出的ResAANet分割網絡與其他一些結節分割方法[6, 9, 13-14, 23, 25-26]在LIDC數據庫中的GGN數據集上的分割表現進行對比,并以算法分割結果和金標準之間的DSC、IoU值和分割效率作為評價指標,結果如表3所示。

2.3 實驗結果討論
從表2與表3中可以看出,GMM-MRF及level set方法用于分割GGN的各評價指標值明顯低于其他8個深度學習分割網絡的,分析其原因,GMM-MRF方法在實施分割之前需要人工指定GGN區域與背景區域種子點,兩個種子點的灰度對比度于分割結果的影響非常大,而level set方法需要人工給定初始輪廓的位置及大小,對于與周圍組織對比度低的GGN而言,分割難度較大。相比之下,本文提出的ResAANet分割網絡較其他7個對比分割網絡的分割結果要更好,說明同時融合改進的殘差塊、ASPP模塊、注意力模塊三個結構的ResAANet其分割性能最好。在針對具體類型的GGN分割中,各類方法各有其優缺點。在孤立型pGGN的分割中,各類方法均表現較好;在粘連型GGN的分割中,GMM-MRF方法出現了嚴重的邊界泄露,level set方法在該類結節分割中存在明顯的欠分割,U-Net等其他神經網絡雖能準確定位出結節的位置,但出現了不同程度的假陽性區域,而本文方法則保證了較高的分割準確率;在空洞型mGGN的分割中,GMM-MRF方法無法準確區分結節區域和血管區域從而導致分割不準確,level set則通過曲線演化只分割出了結節中的空洞成分,U-Net等其他神經網絡皆產生明顯的欠分割現象,但本文方法對該類結節的分割效果較好。此外,通過對比各方法的分割效率后,可看出本文提出的方法分割精度更高、速度更快,更能滿足臨床對GGN分割的需求。
另外,將以上8個深度學習網絡取前300輪的訓練損失值進行比較,如圖12所示,可以看出本文的ResAANet的訓練損失曲線下降平緩,且比其他網絡的損失率低,故本文提出的網絡分割性能更佳。

3 總結
為解決CT影像中GGN灰度對比度低、邊界模糊給圖像分割帶來的難題,本文先用深度學習方法粗分割結節,再用傳統方法去除假陽性區域,優化分割結果。本文提出的ResAANet分割網絡基于U-Net框架進行改進:① 將BN層加入殘差結構,減少了內部協方差的漂移,同時避免了殘差結構加深網絡深度帶來的網絡梯度消失、性能退化的問題;并以跳躍連接將低層特征和高層特征進行了有效融合,使整個網絡的有效信息損失最小化。② 用ASPP模塊替代網絡瓶頸層中的卷積層,有效地從高層特征圖中提取GGN多尺度感受野特征,提高了模型處理大小不同的GGN的能力;③ 通道注意力模塊和空間注意力模塊結合,有效減少了傳遞過程中結節特征信息的損失。
本文提出的分割網絡在臨床收集的數據集以及LIDC公共數據集上進行了大量實驗,并與其他結節分割方法進行了比較,驗證了本文方法在GGN分割上的有效性。對于深度學習分割結果中存在的假陽性區域,本文提出的連通域分析方法能有效去除假陽性區域。最終,本文方法在臨床數據集和LIDC數據集的測試結果顯示DSC可達83.46%、83.26%,IoU可達72.39%、71.56%,此外,切片分割效率達0.1 s/張,表明該方法不僅支持GGN自動分割方法的研究,而且為肺癌的計算機輔助診斷提供了一個強大而有效的工具,該工具不僅可以提高GGN的人工識別能力,還可以減少使用輔助工具分割的時間,有望成為醫生進行結節大小、密度等計算工作的“好幫手”。在未來工作中,本課題組計劃提高粘連型GGN及其他類型結節的分割精度,同時通過優化分割網絡模型,實現無假陽性區域分割。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:董婷是本研究的實驗設計者和實驗研究的執行人,完成數據分析,論文初稿的寫作與 修改;魏瓏和葉曉丹指導論文寫作,提出修改意見;陳陽與侯學文參與實驗設計和試驗結果分析;聶生東是項目的構思者及負責人,指導實驗設計、數據分析、論文寫作與修改。全體作者都閱讀并同意最終的文本。
倫理聲明:本研究通過了上海市胸科醫院倫理委員會的審批(批文編號:KS1832)。
引言
據2020年癌癥報告(Cancer statistics,2020)顯示,肺癌仍是全球惡性腫瘤致死的主要原因,而我國肺癌新發患者數占全球肺癌新發患者數的20%以上[1]。計算機斷層掃描成像技術(computed tomography,CT)成像快、圖像分辨率高,已成為目前發現、監測早期肺癌的首選技術[2]。早期肺癌的影像表現是肺結節形成,在計算機輔助肺癌診斷中,準確提取CT掃描圖像中肺結節的完整邊界可以為醫生提供腫瘤大小、密度等重要信息,輔助醫生后續的診斷和治療。此外,在肺癌的分子亞型和放射組學中,肺結節分割也起著舉足輕重的作用。磨玻璃肺結節(ground glass nodule,GGN)是一類特殊的結節,與實性結節相比,GGN具有邊界模糊、形狀不規則、強度不均勻、與周圍正常組織對比度低等特點,易被醫生忽略。因此,GGN的分割與診斷一直是醫學圖像分割領域的重點和難點[3]。準確分割GGN可為醫學影像評價和治療方案的制定提供重要依據,對提高早期肺癌的監測效率有重要意義。根據所含實性成分,GGN可分為混合GGN (mixed GGN,mGGN)和純GGN (pure GGN,pGGN),其形態如圖1所示。圖1中白色小框內,mGGN邊界模糊、中心區域密度稍高,但其較高的密度不能完全遮蓋穿行其中的正常支氣管、血管束;pGGN為灰度輕度增高的云霧狀淡薄影,與肺實質的灰度相近,更易被忽略。

近年來,GGN分割主要依靠聚類、可變形模型、基于馬爾科夫隨機場(Markov random field,MRF)理論等傳統的無監督方法。其中,聚類方法主要利用GGN區域的特征相似性實現像素聚簇,如Liu等[4-5]提出了一種快速自適應模糊C均值(fuzzy C mean,FCM)聚類算法及其改進算法,在GGN的分割上有一定效果,但對直徑<10 mm的GGN分割效果不佳。另外,Shakibapour等[6]基于元啟發式搜索策略對像素進行聚類,可自動分割具有不同位置和紋理特征的結節,但分割效率有待提升。而可變形模型主要利用曲線在邊界停止演化得到結節輪廓,如有研究者先后將活動輪廓模型(active contour model,ACM)與FCM聚類結合、提出基于自適應局部區域能量和后驗概率的ACM,在GGN分割上效果較好,但方法的計算復雜度高[7-8]。Jung等[9]提出非對稱多相變形模型解決了GGN分割中易發生活動輪廓泄露的問題[10]。此外,基于MRF理論的方法通過求解模型局部能量最小值完成GGN分割,比如Zhang等[11]利用MRF能量構造ACM的區域項,并用高斯混合模型(Gaussian mixture mode,GMM)得到邊界檢測函數,完成目標分割。上述傳統方法雖在分割復雜背景下的GGN有優勢,但對人工干預的依賴性較強,如聚類方法過度依賴種子點的選擇;ACM依賴初始輪廓的位置,且對噪聲敏感;基于MRF理論的分割方法易消耗不必要的計算等。隨著深度學習方法的發展,神經網絡已成功用于一般類型結節的分割中,但針對GGN分割的神經網絡較少。Wang等[12]提出一種中心聚焦卷積神經網絡(central focused-convolutional neural network,CF-CNN),在含未知數量GGN的測試集上戴斯相似性系數(Dice similarity coefficient,DSC)均值達81.09%。Liu等[13]的級聯雙路徑殘差網絡(cascaded dual pathway-residual network,CDP-ResNet)和Cao等[14]的雙分支殘差網絡(dual branch-residual network,DB-ResNet)也在含GGN的測試集進行了測試,DSC均值分別達81.58%、82.74%,但GGN的數據量未見報道。Wu等[15]用三維U型網絡(U-Net)分割結節聯合條件隨機場(conditional random field,CRF)優化分割結果的方法,在僅有的68個GGN測試中,DSC達83.28%。深度學習分割方法已在許多實驗研究中表現出了精度高、速度快的優勢,備受關注;但目前針對GGN分割的深度學習方法仍較少。在此基礎上,本文將深度學習與傳統方法結合,先用提出的基于空洞空間卷積池化金字塔結構和注意力機制的殘差網絡(residual network based on atrous spatial pyramid pooling structure and attention mechanism,ResAANet)粗分割GGN,再用傳統方法去除假陽性區域,力求解決GGN分割精度低、分割難度大的問題,旨在為醫生提供準確的結節大小、密度等信息,輔助醫生后續的診斷和治療。
1 GGN分割模型
針對GGN分割,本文設計的分割框架主要包括針對感興趣區域(region of interest,ROI)的圖像預處理、ResAANet粗分割和連通域分析細分割三部分,最終實現結節分割結果優化,其流程如圖2所示。

1.1 圖像預處理
本文實驗數據分三組:① 臨床數據組1:從上海市胸科醫院采集的565個GGN原圖及對應標注信息,圖像層厚為0.625~3.0 mm,作為模型的訓練集和驗證集;② 臨床數據組2:從上海市胸科醫院采集的另84個GGN,圖像層厚為0.625~1.0 mm,作為模型的測試集1;③ 來自美國國家癌癥研究中心創建的肺部圖像數據庫聯盟(lung image database consortium,LIDC)(https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI)的145個GGN,圖像層厚為0.45~5.0 mm,作為模型的測試集2;該LIDC數據庫是全球范圍內可用于肺結節分割算法研究的公共數據庫,包含1 010例患者共1 018次胸部CT掃描序列以及相應的診斷報告,報告中包含四位放射科醫生對序列中結節數量、邊界和良惡性判斷的注釋。
本文使用的臨床數據已得到上海市胸科醫院倫理審查委員會的批準。將醫生標注的結節信息視為金標準,而LIDC數據庫也包含有四位醫生標注結節信息的記錄,由于不同醫生標注的輪廓信息存在互異性,本文取50%的置信度生成唯一的金標準[16]。采用的數據其直徑信息如圖3所示。

本文在前人工作[17-19]的基礎上,先將醫學數字成像和通信(digital imaging and communications in medicine,DICOM)圖像的CT值調整到[?1 000,400] Hu之間,再以8 bit灰度圖像進行保存,以凸顯GGN與周圍結構組織的差異。然后,以結節為中心,分別對原圖像和金標準提取256×256個像素大小的ROI做網絡輸入,預處理效果如圖4所示。

1.2 ResAANet分割網絡
本文基于U-Net框架設計了一個分割網絡:使用空洞空間卷積池化金字塔(atrous spatial pyramid pooling,ASPP)結構橋接編、解碼路徑,利用多個并行的空洞卷積提取目標區域的多尺度感受野特征,提高模型對尺度變化明顯的結節的分割精度;通過注意力機制加強結節區域的權重,減少結節區域與背景區分度低對模型的干擾,提升分割精度;引入改進的殘差塊,使深層特征與淺層特征進行融合,增強特征的傳播能力,同時避免訓練中梯度消失問題。對于結果中的假陽性區域,利用提出的連通域分析方法得到有效優化。
1.2.1 改進的殘差塊
在一定程度上,網絡的表達能力會隨著網絡深度的增加而增強。而對于用殘差單元加深網絡深度帶來的梯度消失問題,He等[20]將線性整流函數(rectified linear unit,ReLU)激活層加入殘差單元中,獲得了收斂性能和像素分類性能都有所提升的網絡。在本文提出的網絡中,將批量標準化(batch normalization,BN)層加在ReLU激活函數之前,得到改進的殘差塊,如圖5所示。ReLU是非線性激活函數,其表達式及其導數形式(ReLU’),如式(1)~式(2)所示:

![]() |
![]() |
式中,x表示輸入的特征值,max(x, 0)表示取二者中的最大值。由式(2)可知,當網絡的學習率較大時,反向傳播過程會產生較大的梯度進入ReLU層,使該層更新的偏置和權重過小,造成下一輪正向傳播過程中該層的輸出為0,相關參數不再更新,最終導致整體數據分布往ReLU函數的上下限兩端靠、神經元失活。于是,使用BN層將輸入ReLU層之前的數據強行轉換為標準正態分布,如式(3)所示:
![]() |
式中,x(k)表示k維數據矩陣,其中E[x(k)]表示最小批處理的均值, Var[x(k)]表示最小批處理的方差。然而,這樣強行變換數據分布會導致部分特征無法學習到。因此,引入γ、β兩個參數,同時使模型通過反向傳播自適應學習這兩個參數,得到BN層的輸出y,如式(4)所示:
![]() |
BN層的加入使輸入ReLU激活層的數據在反向傳播中能產生更明顯的梯度,增強了特征的傳播能力,打破了較大學習率的設置對ReLU函數激活神經元的干擾,讓網絡加速收斂,同時避免了梯度消失的問題。
1.2.2 ASPP模塊
ASPP模塊,如圖6所示,主要利用空洞卷積[21]設置不同的擴張率得到不同視野大小的特征圖,以捕獲分割目標的多尺度信息。空洞卷積通過在濾波器中間填充0來擴大核間隔得到大小為k + (k ? 1)×(r ? 1)的膨脹卷積核,式中k表示當前層卷積核的大小,r表示擴張率,當r = 1時,空洞卷積即標準卷積。空洞卷積雖擴大了感受野,但并未增加新的參數和計算量。ASPP模塊主要由4個卷積層,1個全局均值池化 (global average pooling,GAP)層并行組成,最后將5個通道的輸出合并在一起,實現了不同尺度特征圖的獲取以及跨通道信息的整合,接收信息的區域得到增加,從而合并更多的上下文特征。

1.2.3 注意力模塊
網絡的特征表示會隨著網絡的加深越加豐富,但由于級聯卷積及下采樣操作,很多空間信息會丟失。為此,本網絡在編、解碼路徑中加入注意力模塊,不僅將編碼層中的空間信息傳播到解碼層,也減少了前向傳播過程中信息的丟失。本網絡使用的注意力模塊由通道注意力和空間注意力模塊共同組成[22],同時在空間和通道上對輸入進行較準,當輸入特征圖的位置信息在通道及空間較準中均有更高的重要性時,即得到更高的激活度,從而鼓勵網絡學習更多的有效特征,其結構如圖7所示。對于通道注意力模塊,輸入的全局特征映射先由一個GAP層壓縮至一個矢量中,并經全連接(dense)層和ReLU激活函數處理后輸入權重不同的另一個全連接層,然后經“S”形函數(Sigmoid)較準;最后將該輸出與輸入特征圖相乘,能充分保留通道信息,隨著網絡的學習,其輸出會自適應地調整,以學習更多重要的目標特征。對于空間注意力模塊,輸入的特征映射先輸入一個核大小為1×1的卷積層中,得到一個輸出張量,該張量經Sigmoid函數較準后與輸入特征圖相乘,得到該模塊的輸出,可保留更多重要的空間信息。

1.2.4 網絡結構
ResAANet結構,如圖8所示,采用256 × 256 × 1個像素大小的圖像輸入,并在每個卷積層后使用BN處理及ReLU激活函數,有效避免了訓練過程中的過擬合或欠擬合。網絡的編碼路徑包含4個下采樣模塊和1個ASPP模塊,每個下采樣模塊又包含一個改進的殘差塊和一個注意力模塊。網絡的解碼路徑由4個上采樣模塊組成,每個上采樣模塊同樣包含1個改進的殘差塊和一個注意力模塊,將局部特征的分辨率恢復至輸入圖像大小。編碼路徑與解碼路徑使用ASPP模塊橋接,該模塊從編碼路徑學習到的高層特征中提取結節的多尺度特征,并將這些特征傳遞至解碼路徑中。此時各模塊的輸出,如式(5)~式(7)所示:

![]() |
![]() |
![]() |
式中,YAttention是注意力模塊輸出,YIm-Res是改進的殘差模塊輸出,YConv是卷積層輸出,wX1、 wX2、wX3是每層的權重,bX1、bX2、 bX3是每層的偏置。由上式可知,編碼路徑的輸出已融合了注意力模塊和改進殘差塊所學習到的GGN特征,各模塊利用各自的結構優勢,減少了前向傳播過程中信息的丟失,提取了結節更充分的抽象特征。在解碼路徑的最后一級使用1 × 1卷積和Sigmoid函數將多通道特征映射投影到目標區域的分割中,并取0.5的閾值[18, 23]生成最終預測掩模。
1.2.5 模型訓練
數據經預處理后,將臨床數據組1的565個GGN隨機打亂;然后,將該數據集按9:1隨機劃分為訓練集、驗證集,并對訓練集和驗證集做旋轉、平移、縮放操作進行數據擴增,輸入網絡訓練;最后,使用測試集1和測試集2測試模型。模型訓練的批處理大小為32,初始學習率為10?2,卷積層權重使用He正態分布方法初始化。訓練過程中,使用后向傳播算法和動量(momentum)值為0.9、衰減率為10?4的隨機梯度下降(stochastic gradient descent,SGD)優化器監督損失函數,優化網絡參數,使訓練樣本的輸出愈加接近對應的標簽,并降低損失率,直到模型趨于穩定,保存損失值最小時模型的權重和偏置,用此權重和偏置分割測試集,得到GGN粗分割結果。深度學習分割網絡主要利用損失函數反映預測圖像與標簽的差異,本文使用的是重疊度(intersection over union,IoU) 損失函數(),如式(8)所示:
![]() |
式中,pi和gi分別表示第i個像素對應的算法預測結果和金標準值,經Sigmoid函數分類后,pi∈[0,1]。
本文提出的ResAANet經過500次迭代訓練、耗時約11.39 h后,訓練結果趨于穩定。如圖9所示,損失不斷減小,網絡不斷優化,且最終訓練與驗證的損失值基本一致,同時,訓練與驗證的重疊率曲線擬合得也很好,不存在過擬合或欠擬合現象。然而,由于訓練集與驗證集是按照GGN個體進行隨機劃分的,兩個數據集不可避免地存在樣本差異,以致訓練過程中驗證曲線出現輕微震蕩,但仍屬正常情況。

1.3 分割結果優化
由于部分解剖結構的灰度值與GGN相近,導致深度學習網絡的預測結果中存在部分假陽性區域。本文采用連通域分析方法去除假陽性區域,其實施流程如圖10所示。對預測結果中連通域進行標記,利用GGN質心即ROI中心,計算連通域質心與ROI中心的距離,以鎖定該距離最短的目標連通域,并以該連通域的面積S為最佳閾值,去除假陽性區域。

2 實驗結果
實驗工具為Python 3.6(Centrum Wiskunde & Informatica,荷蘭)中的Keras 2.1.6,編譯環境搭建在64位Windows 10操作系統上,中央處理器(central processing unit,CPU)為3.20 GHz,圖形處理器(graphics processing unit,GPU)為1 080 Ti,內存32 GB。Keras(Google Inc.,美國)是一個高度開源的深度學習庫,它可以利用諸如GPU等并行結構優化深度學習模型,本文使用端對端開源機器學習平臺Tensorflow(Google Inc.,美國)作后端搭建模型。經反復訓練、驗證,得到穩定模型后,將測試數據輸入網絡得到預測掩模,并用上述連通域分析方法進行分割結果優化,得到最終的分割掩模。
本文算法分割效果及優化效果,如圖11所示。圖11中綠色輪廓為金標準,藍色輪廓為算法分割結果。從分割結果與金標準的擬合程度來看,本文提出的方法在pGGN與mGGN兩類結節的分割上效果較好,且對分割難度大的空洞型mGGN(見圖11中最后一行所示)的分割也適用。根據優化結果來看,本文提出的優化分割方法能有效去除因臨近組織灰度相近而產生的假陽性區域,并且對不含假陽性區域的分割結果不產生影響。

2.1 分割方法評價指標
在分割結果的量化評價方面,本文將算法自動分割結果和金標準之間的戴斯相似性系數(Dice similarity coefficient,DSC)、陽性預測值(positive prediction value,PPV)、敏感性(sensitivity,SEN)和IoU作為評價指標,如式(9)~式(12)所示:
![]() |
![]() |
![]() |
![]() |
式中,真陽性(true positive,TP) 即算法檢測為結節區域且為金標準區域;假陽性(false positive,FP) 即算法檢測為結節區域但非金標準區域;假陰性(false negative,FN) 即算法檢測為非結節區域且非金標準區域;真陰性(true negative,TN) 即算法檢測為非結節區域但是金標準區域[24]。
以上指標中,DSC用來衡量分割結果與金標準之間的輪廓擬合程度;PPV是指分割結果中分類正確的像素占分割結果中總像素的比例;SEN則是用來表示分割結果中分類正確的像素占金標準中總像素的比例;IoU用來衡量分割結果與金標準之間的重合程度。以上四個評價指標的數值范圍均在0~1之間,且值越大表明分割結果與金標準越接近,分割效果越好。
2.2 實驗結果與對比
用模型對測試集1和測試集2進行粗分割后,對該結果進行優化,兩測試集的各指標值及分割效率,如表1所示。

本文的ResAANet分割網絡主要是將改進的殘差塊、ASPP模塊、注意力模塊巧妙地融合于U-Net框架中得到。為進一步驗證該分割網絡的性能,本文在U-Net結構的基礎上設計了是否含改進的殘差塊、ASPP模塊、注意力模塊等7個基于深度學習方法(U-Net結合ASPP模塊、U-Net結合注意力模塊、U-Net結合ASPP與注意力模塊、殘差U-Net、殘差U-Net結合ASPP模塊、殘差U-Net結合注意力模塊)的對比實驗,以及基于GMM的MRF (GMM-MRF) 水平集(level set) 的兩種傳統方法的對比實驗。以上實驗均在同一計算機環境中進行,并在相同數據集劃分情況下訓練、驗證,在各模型穩定后,對兩組測試集進行相同測試。得到對比實驗結果,如表2所示。

同時,將本文提出的ResAANet分割網絡與其他一些結節分割方法[6, 9, 13-14, 23, 25-26]在LIDC數據庫中的GGN數據集上的分割表現進行對比,并以算法分割結果和金標準之間的DSC、IoU值和分割效率作為評價指標,結果如表3所示。

2.3 實驗結果討論
從表2與表3中可以看出,GMM-MRF及level set方法用于分割GGN的各評價指標值明顯低于其他8個深度學習分割網絡的,分析其原因,GMM-MRF方法在實施分割之前需要人工指定GGN區域與背景區域種子點,兩個種子點的灰度對比度于分割結果的影響非常大,而level set方法需要人工給定初始輪廓的位置及大小,對于與周圍組織對比度低的GGN而言,分割難度較大。相比之下,本文提出的ResAANet分割網絡較其他7個對比分割網絡的分割結果要更好,說明同時融合改進的殘差塊、ASPP模塊、注意力模塊三個結構的ResAANet其分割性能最好。在針對具體類型的GGN分割中,各類方法各有其優缺點。在孤立型pGGN的分割中,各類方法均表現較好;在粘連型GGN的分割中,GMM-MRF方法出現了嚴重的邊界泄露,level set方法在該類結節分割中存在明顯的欠分割,U-Net等其他神經網絡雖能準確定位出結節的位置,但出現了不同程度的假陽性區域,而本文方法則保證了較高的分割準確率;在空洞型mGGN的分割中,GMM-MRF方法無法準確區分結節區域和血管區域從而導致分割不準確,level set則通過曲線演化只分割出了結節中的空洞成分,U-Net等其他神經網絡皆產生明顯的欠分割現象,但本文方法對該類結節的分割效果較好。此外,通過對比各方法的分割效率后,可看出本文提出的方法分割精度更高、速度更快,更能滿足臨床對GGN分割的需求。
另外,將以上8個深度學習網絡取前300輪的訓練損失值進行比較,如圖12所示,可以看出本文的ResAANet的訓練損失曲線下降平緩,且比其他網絡的損失率低,故本文提出的網絡分割性能更佳。

3 總結
為解決CT影像中GGN灰度對比度低、邊界模糊給圖像分割帶來的難題,本文先用深度學習方法粗分割結節,再用傳統方法去除假陽性區域,優化分割結果。本文提出的ResAANet分割網絡基于U-Net框架進行改進:① 將BN層加入殘差結構,減少了內部協方差的漂移,同時避免了殘差結構加深網絡深度帶來的網絡梯度消失、性能退化的問題;并以跳躍連接將低層特征和高層特征進行了有效融合,使整個網絡的有效信息損失最小化。② 用ASPP模塊替代網絡瓶頸層中的卷積層,有效地從高層特征圖中提取GGN多尺度感受野特征,提高了模型處理大小不同的GGN的能力;③ 通道注意力模塊和空間注意力模塊結合,有效減少了傳遞過程中結節特征信息的損失。
本文提出的分割網絡在臨床收集的數據集以及LIDC公共數據集上進行了大量實驗,并與其他結節分割方法進行了比較,驗證了本文方法在GGN分割上的有效性。對于深度學習分割結果中存在的假陽性區域,本文提出的連通域分析方法能有效去除假陽性區域。最終,本文方法在臨床數據集和LIDC數據集的測試結果顯示DSC可達83.46%、83.26%,IoU可達72.39%、71.56%,此外,切片分割效率達0.1 s/張,表明該方法不僅支持GGN自動分割方法的研究,而且為肺癌的計算機輔助診斷提供了一個強大而有效的工具,該工具不僅可以提高GGN的人工識別能力,還可以減少使用輔助工具分割的時間,有望成為醫生進行結節大小、密度等計算工作的“好幫手”。在未來工作中,本課題組計劃提高粘連型GGN及其他類型結節的分割精度,同時通過優化分割網絡模型,實現無假陽性區域分割。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:董婷是本研究的實驗設計者和實驗研究的執行人,完成數據分析,論文初稿的寫作與 修改;魏瓏和葉曉丹指導論文寫作,提出修改意見;陳陽與侯學文參與實驗設計和試驗結果分析;聶生東是項目的構思者及負責人,指導實驗設計、數據分析、論文寫作與修改。全體作者都閱讀并同意最終的文本。
倫理聲明:本研究通過了上海市胸科醫院倫理委員會的審批(批文編號:KS1832)。