自動準確地對肺實質進行分割對于肺癌輔助診斷至關重要。近年來,深度學習領域的研究者們提出了許多基于U型網絡(U-Net)改進的肺實質分割方法。但是現有的分割方法忽視了不同層級間特征圖語義信息的融合互補,并且無法區分特征圖中不同空間與通道的重要性。為解決該問題,本文提出雙尺度并行注意力(DSPA)網絡(DSPA-Net)架構,在“編碼器—解碼器”結構中引入了DSPA模塊和空洞空間金字塔池化(ASPP)模塊。其中,DSPA模塊通過協同注意力(CA)得到特征圖精確的空間和通道信息,并對不同層級特征圖的語義信息進行聚合。ASPP模塊利用不同空洞率的多個并行卷積核獲取不同感受野下包含多尺度信息的特征圖。兩個模塊分別解決了不同層級特征圖與同一層級特征圖中多尺度信息處理問題。本文在卡格爾(Kaggle)競賽數據集上進行了實驗驗證,實驗結果證明該網絡架構與目前主流的分割網絡相比具有明顯的優勢,戴斯相似性系數(DSC)和交并比(IoU)的值分別達到了0.972 ± 0.002和0.945 ± 0.004。基于以上研究,本文實現了肺實質自動準確的分割,為注意力機制和多尺度信息在肺實質分割領域的應用提供參考。
引用本文: 馮凱麗, 任莉莉, 吳彥林, 李艷, 王洪瑞, 王光磊. 基于雙尺度并行注意力網絡的肺實質分割. 生物醫學工程學雜志, 2022, 39(4): 721-729. doi: 10.7507/1001-5515.202108005 復制
引言
肺癌是危及人們生命的嚴重疾病之一。研究表明,肺癌的早期檢測和治療可以有效地提高肺癌患者的生存率,而肺部計算機斷層掃描(computed tomography,CT)圖像是早期臨床診斷的主要手段,其中肺實質的分割對于輔助診斷至關重要。然而,由于受肺部CT圖像中其他組織和空氣等影響,快速準確地對肺實質進行分割依然是肺癌輔助診斷研究的熱點和難點之一。
卷積神經網絡(convolutional neural network,CNN)是一種常見的基于自然視覺認知的網絡模型,能直接應用視覺規律對圖像進行有效表征。經典的CNN網絡結構包括:亞歷克斯網絡、視覺幾何組(visual geometry group,VGG)、基于Inception模塊的深度神經網絡、殘差網絡(residual network,ResNet)、U型網絡(U-Net)和分割網絡(SegNet)等[1-6]。在CNN應用于肺實質分割方面,Shaziya等[7]使用基于U-Net的網絡對胸部X射線圖像中的肺實質進行自動分割。Gu等[8]設計了一種多尺度預測網絡并將其應用于胸部CT圖像的肺區域分割。Gholamiankhah等[9]利用網絡中的殘差模型實現了肺區域的自動分割。近年來,越來越多的注意力機制相繼被提出并應用到各種網絡結構中[10-11],如通過采用不同的空間注意力機制或設計高級注意力塊[12-15],或者利用非局部機制來捕獲不同類型的空間信息[16-21]。與此同時,多尺度信息在網絡中的結合也受到了研究者們的關注[22-24],其主要思想是通過高低級特征融合或通過具有不同感受野大小的卷積核提取多尺度信息來提升模型的特征表達能力[25-27]。這些方法雖然可以提升網絡的分割精度,但普遍存在以下問題:① 忽視了不同層級間特征圖語義信息的融合互補,并且無法區分特征圖中不同空間與通道的重要性;② 注意力機制計算量大、參數冗余;③ 缺少同一特征圖不同尺度信息的提取。
針對上述問題本文提出了一個基于U-Net的雙尺度并行注意力(double scale parallel attention,DSPA)網絡(DSPA-Net),其中DSPA模塊使網絡具備區分特征圖中不同空間與通道的重要性的能力,并且可以對不同層級特征圖的語義信息進行聚合;引入的協同注意力(collaborative attention,CA)[28]通過卷積操作對空間與通道依賴關系進行捕獲,相比于全連接激活操作有效減少計算量與參數量;在瓶頸層中加入空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)模塊,利用不同采樣率組成的空洞卷積組獲取同一層級不同感受野下包含多尺度信息的特征圖。本文通過以上三點改進實現對肺實質區域準確高效的分割,為注意力機制和多尺度信息在肺實質分割領域的應用與改進提供相應參考。
1 方法
1.1 網絡結構
本文采用改進的U-Net網絡進行肺實質分割的研究,新網絡結構包括DSPA模塊和ASPP模塊,如圖1所示。為將低級特征圖中的空間信息與高級特征圖中的語義信息進行有效融合,在跳躍連接位置上加入DSPA模塊。在特征互補融合的過程中,通過CA得到精確位置信息后對兩種尺度特征圖的通道關系和長距離依賴性進行編碼。ASPP模塊的作用在于提取不同尺度感受野下的語義信息進行融合,當語義信息越豐富時,對網絡性能的提升效果越明顯,而U-Net編碼器輸出的特征圖包含了豐富的語義信息,因此本文在瓶頸層之后加入ASPP模塊,進一步增強網絡的特征表達能力。

1.2 DSPA模塊
為解決不同層級特征圖中多尺度信息處理問題,本文提出DSPA模塊,如圖2所示,分別在高維低維兩個尺度上并行實現特征提取。以低級特征圖 為例(C、H、W分別表示特征圖的通道數、長度、寬度),分別沿著水平方向與垂直方向對特征圖進行平均池化得到
、
,如式(1)~式(2)所示:

![]() |
![]() |
其中,Xlow表示輸入特征圖; 表示輸入特征圖在水平方向平均池化得到的輸出特征圖;
表示輸入特征圖在垂直方向平均池化得到的輸出特征圖;c、h、w表示特征圖中坐標值,為特征值所在位置。
對 經過行列轉置操作后與
進行空間維度的拼接得到張量
,如式(3)所示:
![]() |
其中, 表示將
在空間維度進行轉置操作。將Flow進行1×1卷積,批量歸一化和激活,得到張量
,如式(4)所示:
![]() |
其中,Conv()表示卷積,如式(5)~式(6)所示;δ()代表批量歸一化操作,如式(7)~式(10)所示;Δ()代表sigmoid激活函數,如式(11)所示。
![]() |
![]() |
其中,Fj表示卷積操作后輸出圖合集x的第j個特征圖(0 ≤ j < C);(x, y)代表輸入特征圖像素點的坐標(x = 0,0 ≤ y < H + W);(u, v)代表卷積核中心點的坐標(u = 0,0 ≤ v < H + W);Flow(x + u, y + v)表示對應坐標像素值;Wk(u, v)代表1 × 1卷積核第k層對應坐標的權值;w11表示卷積核Wk的權值。
![]() |
![]() |
![]() |
![]() |
其中,x表示批量歸一化操作前的輸入圖合集;m表示當前輸入圖合集中的樣本數;μ表示x的均值;σ2表示x的方差; 表示x經過標準化之后的特征圖;ε表示防止分母為零的非零正數;γ和β為兩個可學習的參數;Fδ表示批量歸一化操作得到的輸出圖合集。
![]() |
將 在空間維度進行拆分、轉置后得到張量
、
,通過1 × 1的卷積核計算,得到兩個空間方向的雙尺度并行特征圖,分別為
、
。將
、
與原低級特征圖Xlow進行矩陣乘法,得到與Xlow尺寸相同的特征圖
如式(12)所示:
![]() |
同理,針對高級特征圖 ,由式(1)~式(12)的相同操作可得到
,對其進行3 × 3卷積和上采樣得到
如式(13)所示:
![]() |
其中,卷積操作Conv()的權值矩陣Wk如式(14)所示,w11~w33表示Wk的權值:
![]() |
式(13)中,Fbli()表示雙線性插值操作:對于一個目的像素,通過坐標的反向設置變換得到浮點的坐標(x + u, y + v),其中x和y均為大于等于零的整數,u和v為[0, 1)區間的浮點數,則這個像素的值可由原圖像中坐標為(x, y)、(x + 1, y)、(x, y + 1)、(x + 1, y + 1)所對應的相鄰四個像素的值決定,計算過程如式(15)所示:
![]() |
其中,f(x, y)表示雙線性插值操作前的輸入特征圖在(x, y)處的像素值。
最終的輸出 由
和H′逐像素相乘得到。
高級特征圖Xhigh具有較多的語義信息和較少的空間信息,而低級特征圖Xlow的特點與其相反,二者通過CA處理后的結合實現了優勢互補,如圖2所示。在DSPA模塊中,CA將特征圖進行水平池化和垂直池化操作,分別沿兩個空間方向聚合特征,解決傳統通道注意力池化方式單一的問題。DSPA模塊在水平方向捕獲遠程依賴關系的同時在垂直方向保留精確的位置信息,得到對方向和位置敏感的注意力特征圖后與輸入特征圖進行信息融合,增強模型的特征表達能力。當網絡中加入DSPA模塊后,輸入到解碼器中的特征圖Fout相較于Xlow噪聲更少,肺實質區域邊緣輪廓更加清楚,且類內差異性明顯減小,與其它組織的對比度得到明顯提升。
為了驗證DSPA模塊的有效性,本文使用梯度加權類激活映射(gradient-weighted class activation mapping,Grad-CAM)方法將U-Net網絡加入DSPA模塊前后的兩個網絡輸出圖進行處理[29],得到對比熱力圖。如圖3所示,同一行的熱力圖是根據同一張數據集初始圖像進入不同網絡生成的,在網絡反向傳播時利用Grad-CAM方法求得熱力圖后與輸入圖像進行疊加得到Grad-CAM定位圖,紅色區域即為網絡所關注的區域。對比兩種網絡熱力圖可以發現,加入DSPA模塊后肺實質區域以外的紅色明顯減少,說明網絡更加聚焦于目標區域,從而加強網絡對于肺實質區域的定位與分割。由此可見DSPA模塊能夠有效提升網絡的性能。

1.3 ASPP模塊
為解決同一層級特征圖中多尺度信息處理問題,本文引用了金字塔網絡(DeepLabv3 +)中的ASPP模塊[30],利用空洞卷積增加卷積核的感受野,并通過不同空洞率的卷積構造出金字塔結構。如圖4所示,ASPP模塊的具體結構包括一個1 × 1卷積,三個3 × 3卷積(空洞率分別為6,12,18)和全局平均池化操作,并在每個并行卷積層之后加入批量歸一化。空洞卷積的輸出特征圖定義如式(16)所示:

![]() |
其中,H、W分別表示輸入圖像(或前一層特征圖)的長度和寬度;x(i, j)表示該輸入圖像上(i, j)位置的像素值;ar表示空洞率;y(i, j)表示該輸入圖像經過空洞卷積后的輸出;(u, v)代表卷積核中心點的坐標(0 ≤ u < H,0 ≤ v < W);W(u, v)表示卷積核對應坐標位置的權重。
全局平均池化的輸出定義如式(17)所示:
![]() |
其中,X(c, i, j)表示輸入特征圖X第c個通道中對應坐標的像素值;(c, 1, 1)表示輸出特征圖。
ASPP模塊的五條路徑分別提供不同大小的感受野,大空洞率的卷積層為網絡提供更多的全局性上下文特征信息,小空洞率的卷積層為網絡補充細節信息。在不同感受野下處理得到的特征圖即為同一層級特征圖的多尺度信息。前四個卷積操作不改變特征圖的空間維度,僅改變通道維度大小得到X1、X2、X3、X4;經過全局平均池化操作后的特征圖 通過雙線性插值上采樣的方式將空間尺寸還原為與輸入特征圖大小相同的X5。所有分支處理好的特征圖在通道維度進行拼接,如式(18)所示:
![]() |
其中,C、H、W分別表示特征圖的通道數、長度、寬度。拼接后通過卷積核大小為1 × 1的卷積,將特征圖壓縮到指定維度的同時,在通道維度實現同一層級特征圖中多尺度信息的交互。
ASPP模塊和普通卷積操作對編碼器最后一層進行特征提取的效果圖,如圖5所示。在對編碼器輸出特征圖進行特征提取時,普通卷積操作提取出的特征圖保留了原特征圖大部分的形狀、輪廓和顏色等低級特征。而ASPP模塊進一步對網絡深層特征圖中的高級特征進行提取,得到具有豐富語義信息的特征圖,以此增強網絡的特征提取能力,為解碼路徑中的特征圖提供更多抽象和高級的特征。

2 實驗和結果
2.1 數據來源
本文使用卡格爾(Kaggle)競賽的在CT數據中發現和測量肺(finding and measuring lungs in CT data,FML-CT)(網址:https://www.kaggle.com/kmader/finding-lungs-in-ct-data)數據集進行了實驗。本文將此數據集中的200張圖像劃分為訓練集,37張圖像劃分為驗證集,30張圖像劃分為測試集。為了提升模型的泛化能力和魯棒性,對原數據集進行了水平翻轉、垂直翻轉和旋轉的數據增強操作,并且在訓練階段將輸入的圖像進行大小為368 × 368像素的中心裁剪,以此加快訓練速度。實驗過程中操作系統為Ubuntu18.04(開源,美國),圖形處理器(graphics processing unit,GPU)硬件為QuadroRTX8000(英偉達,美國),優化器采用適應性矩估計,初始學習率設置為0.000 1,每三個訓練周期降低一半,設置最大訓練周期為40,并采取了提前停止訓練的策略防止模型過擬合,深度學習框架為Pytorch1.8.1(Facebook,美國)。
2.2 指標
為評價DSPA-Net網絡的性能,本文使用戴斯相似性系數(dice similarity coefficient,DSC)、交并比(intersection over union,IoU)、體積重疊誤差(volumetric overlap error,VOE)、相對體積差(relative volume difference,RVD)、特異性(specificity,SP)、敏感性(sensitivity,SE)和精確率(precision,PC)作為指標評價分割性能,計算公式分別如式(19)~式(25)所示。
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
其中,A表示網絡模型預測輸出的肺實質分割結果,B表示真實的肺實質區域,A和B的交集表示正確分割的肺實質區域。真陰性(true negative,TN)表示被正確分為非肺實質的像素個數,真陽性(true positive,TP)表示被正確分為肺實質的像素個數,假陰性(false negative,FN)表示被錯誤分為非肺實質的像素個數,假陽性(false positive,FP)表示被錯誤分為肺實質的像素個數。DSC∈(0,1)是醫學圖像分割中常用來評估分割結果和真實標記之間相似度的評估矩陣,IoU∈(0,1)是預測標簽圖像和真實標簽圖像的交疊率,DSC和IoU越接近1,分割性能越好。VOE和RVD越接近0,分割性能越好。SP、SE、PC∈(0,1),越趨近1,分割效果越好。
2.3 消融實驗
在保證實驗環境相同的前提下,本文將U-Net設置為基礎參考網絡,并逐步加入DSPA模塊和ASPP模塊進行消融實驗。如表1所示,與參考網絡相比,DSPA模塊的增加使得IoU指數和DSC指數分別增加了4.9%和2.8%。添加ASPP模塊后,IoU和DSC分別增加了5.4%和3%。這些結果證明了DSPA模塊和ASPP模塊的有效性。DSPA-Net的IoU和DSC分別達到94.5%和97.2%,比參考網絡的值高出6.6%和3.7%,證明DSPA-Net可以有效地提高分割精度。



2.4 對比實驗
為驗證本文所提出網絡的優越性,將DSPA-Net與常用的語義分割網絡進行了對比,對比網絡包括U-Net、SegNet、U-Net++、U-Net3+和DeepLabv3+,實驗結果如表2所示。



從表2可以看出,DSPA-Net在這七個指標上的表現都優于其他網絡。在參數量方面,U-Net作為醫學圖像分割中最經典的網絡,其參數量為17.27 M,而DSPA-Net、DeepLabv3+的參數量分別為28.83 M、54.94 M,在取得性能提升的情況下DSPA-Net相比于DeepLabv3+引入了更少的參數,再次證明了DSPA-Net在肺實質分割任務中的優越性。
此外,本文列出了上述六種方法針對六張肺部CT圖像(圖像1~圖像6)的分割結果,如圖6所示,每一行依次為六張不同的肺部CT圖像;每一列依次為預處理圖像、真實標簽與由U-Net、SegNet、U-Net++、U-Net3+、DeepLabv3+、本文方法DSPA-Net得到的分割結果圖;預處理圖像由原始位深度為16的圖像轉換為位深度為24的圖像得到,并經過翻轉和旋轉等數據增強操作。分割結果中紅色區域代表真實肺實質位置被網絡錯誤判定為非肺實質位置的欠分割區域,綠色區域代表非肺實質位置被網絡錯誤判定為肺實質位置的過分割區域。如圖6所示,DSPA-Net在肺實質周圍的過分割綠色區域面積、欠分割紅色區域面積,以及背景中的誤分割綠色區域面積都明顯少于其他先進方法,分割結果更為精確。由此可以看出,本文提出的方法在肺實質分割方面相較于其他方法能夠進一步增加肺實質區域自動分割的精度。

3 討論
本研究在傳統U-Net基本框架的基礎上加入了DSPA模塊,分別在高維、低維兩個尺度上并行實現特征提取,解決了不同層級特征圖中多尺度信息處理問題。在最初的設計中,本文僅用CA模塊對跳躍連接中的特征圖進行處理,相較與其他注意力機制,CA的優點是將位置信息嵌入到通道注意力中,有助于網絡更準確地定位感興趣的目標。但通過實驗發現單獨加入CA的性能并不理想。在進一步分析了相關特征融合網絡的結構和思想后,本文將多尺度信息處理機制與CA注意力相結合,進而提出DSPA模塊,使得網絡將不同層級間特征圖語義信息進行融合互補,并且區分特征圖中不同空間與通道的重要性。實驗結果表明,在跳躍連接中加入多尺度信息處理機制和并行注意力機制有效增強了類間不一致性和類內一致性,從而將肺實質區域與其他組織結構進行更加清晰的區分,避免過度分割的同時減少肺實質內部的誤分割。同時在U-Net網絡的瓶頸層后引入ASPP模塊,讓網絡擁有處理同一層級特征圖多尺度信息的能力。DSPA模塊與ASPP模塊兩者的有效結合實現了網絡分割性能的提升。
4 總結
本文設計了名為DSPA-Net的新型網絡架構,并將其用于肺部CT圖像中肺實質的分割。該網絡在U-Net的跳躍連接中加入DSPA模塊,解決了不同層級特征圖中多尺度信息處理問題,并且引入的CA模塊通過卷積激活操作極大減少了傳統注意力機制中的參數量與計算量。在U-Net的瓶頸層加入ASPP模塊,利用不同采樣率組成的空洞卷積組獲取不同感受野下包含多尺度信息的特征圖,解決了同一層級特征圖中多尺度信息處理問題。在FML-CT數據集上的實驗證明了本文所提出的網絡在肺實質分割方面的優越性,其分割結果可為肺癌的診斷與治療過程提供相應參考。但DSPA-Net也存在一些不足,本文僅實現了對肺實質進行分割。后續,本課題組將研究DSPA-Net在已分割出肺實質輪廓的情況下對肺結節的分割性能,盡可能開發DSPA-Net的潛力。除此之外,DSPA-Net并未使用CT圖像的3D信息,而CT圖像的3D信息對于肺實質和肺結節分割也至關重要。在未來的研究中,本課題組考慮將CT圖像的3D信息添加到DSPA-Net模型中,并探索其應用于更多醫學圖像分割任務的可能性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:馮凱麗負責數據處理分析,算法設計與開發,論文寫作與修改;吳彥林參與圖表繪制;王光磊提供實驗指導,論文審閱修訂;任莉莉、李艷、王洪瑞提供論文指導。
倫理聲明:本論文所用實驗數據均來自公開數據庫,不涉及倫理問題。
引言
肺癌是危及人們生命的嚴重疾病之一。研究表明,肺癌的早期檢測和治療可以有效地提高肺癌患者的生存率,而肺部計算機斷層掃描(computed tomography,CT)圖像是早期臨床診斷的主要手段,其中肺實質的分割對于輔助診斷至關重要。然而,由于受肺部CT圖像中其他組織和空氣等影響,快速準確地對肺實質進行分割依然是肺癌輔助診斷研究的熱點和難點之一。
卷積神經網絡(convolutional neural network,CNN)是一種常見的基于自然視覺認知的網絡模型,能直接應用視覺規律對圖像進行有效表征。經典的CNN網絡結構包括:亞歷克斯網絡、視覺幾何組(visual geometry group,VGG)、基于Inception模塊的深度神經網絡、殘差網絡(residual network,ResNet)、U型網絡(U-Net)和分割網絡(SegNet)等[1-6]。在CNN應用于肺實質分割方面,Shaziya等[7]使用基于U-Net的網絡對胸部X射線圖像中的肺實質進行自動分割。Gu等[8]設計了一種多尺度預測網絡并將其應用于胸部CT圖像的肺區域分割。Gholamiankhah等[9]利用網絡中的殘差模型實現了肺區域的自動分割。近年來,越來越多的注意力機制相繼被提出并應用到各種網絡結構中[10-11],如通過采用不同的空間注意力機制或設計高級注意力塊[12-15],或者利用非局部機制來捕獲不同類型的空間信息[16-21]。與此同時,多尺度信息在網絡中的結合也受到了研究者們的關注[22-24],其主要思想是通過高低級特征融合或通過具有不同感受野大小的卷積核提取多尺度信息來提升模型的特征表達能力[25-27]。這些方法雖然可以提升網絡的分割精度,但普遍存在以下問題:① 忽視了不同層級間特征圖語義信息的融合互補,并且無法區分特征圖中不同空間與通道的重要性;② 注意力機制計算量大、參數冗余;③ 缺少同一特征圖不同尺度信息的提取。
針對上述問題本文提出了一個基于U-Net的雙尺度并行注意力(double scale parallel attention,DSPA)網絡(DSPA-Net),其中DSPA模塊使網絡具備區分特征圖中不同空間與通道的重要性的能力,并且可以對不同層級特征圖的語義信息進行聚合;引入的協同注意力(collaborative attention,CA)[28]通過卷積操作對空間與通道依賴關系進行捕獲,相比于全連接激活操作有效減少計算量與參數量;在瓶頸層中加入空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)模塊,利用不同采樣率組成的空洞卷積組獲取同一層級不同感受野下包含多尺度信息的特征圖。本文通過以上三點改進實現對肺實質區域準確高效的分割,為注意力機制和多尺度信息在肺實質分割領域的應用與改進提供相應參考。
1 方法
1.1 網絡結構
本文采用改進的U-Net網絡進行肺實質分割的研究,新網絡結構包括DSPA模塊和ASPP模塊,如圖1所示。為將低級特征圖中的空間信息與高級特征圖中的語義信息進行有效融合,在跳躍連接位置上加入DSPA模塊。在特征互補融合的過程中,通過CA得到精確位置信息后對兩種尺度特征圖的通道關系和長距離依賴性進行編碼。ASPP模塊的作用在于提取不同尺度感受野下的語義信息進行融合,當語義信息越豐富時,對網絡性能的提升效果越明顯,而U-Net編碼器輸出的特征圖包含了豐富的語義信息,因此本文在瓶頸層之后加入ASPP模塊,進一步增強網絡的特征表達能力。

1.2 DSPA模塊
為解決不同層級特征圖中多尺度信息處理問題,本文提出DSPA模塊,如圖2所示,分別在高維低維兩個尺度上并行實現特征提取。以低級特征圖 為例(C、H、W分別表示特征圖的通道數、長度、寬度),分別沿著水平方向與垂直方向對特征圖進行平均池化得到
、
,如式(1)~式(2)所示:

![]() |
![]() |
其中,Xlow表示輸入特征圖; 表示輸入特征圖在水平方向平均池化得到的輸出特征圖;
表示輸入特征圖在垂直方向平均池化得到的輸出特征圖;c、h、w表示特征圖中坐標值,為特征值所在位置。
對 經過行列轉置操作后與
進行空間維度的拼接得到張量
,如式(3)所示:
![]() |
其中, 表示將
在空間維度進行轉置操作。將Flow進行1×1卷積,批量歸一化和激活,得到張量
,如式(4)所示:
![]() |
其中,Conv()表示卷積,如式(5)~式(6)所示;δ()代表批量歸一化操作,如式(7)~式(10)所示;Δ()代表sigmoid激活函數,如式(11)所示。
![]() |
![]() |
其中,Fj表示卷積操作后輸出圖合集x的第j個特征圖(0 ≤ j < C);(x, y)代表輸入特征圖像素點的坐標(x = 0,0 ≤ y < H + W);(u, v)代表卷積核中心點的坐標(u = 0,0 ≤ v < H + W);Flow(x + u, y + v)表示對應坐標像素值;Wk(u, v)代表1 × 1卷積核第k層對應坐標的權值;w11表示卷積核Wk的權值。
![]() |
![]() |
![]() |
![]() |
其中,x表示批量歸一化操作前的輸入圖合集;m表示當前輸入圖合集中的樣本數;μ表示x的均值;σ2表示x的方差; 表示x經過標準化之后的特征圖;ε表示防止分母為零的非零正數;γ和β為兩個可學習的參數;Fδ表示批量歸一化操作得到的輸出圖合集。
![]() |
將 在空間維度進行拆分、轉置后得到張量
、
,通過1 × 1的卷積核計算,得到兩個空間方向的雙尺度并行特征圖,分別為
、
。將
、
與原低級特征圖Xlow進行矩陣乘法,得到與Xlow尺寸相同的特征圖
如式(12)所示:
![]() |
同理,針對高級特征圖 ,由式(1)~式(12)的相同操作可得到
,對其進行3 × 3卷積和上采樣得到
如式(13)所示:
![]() |
其中,卷積操作Conv()的權值矩陣Wk如式(14)所示,w11~w33表示Wk的權值:
![]() |
式(13)中,Fbli()表示雙線性插值操作:對于一個目的像素,通過坐標的反向設置變換得到浮點的坐標(x + u, y + v),其中x和y均為大于等于零的整數,u和v為[0, 1)區間的浮點數,則這個像素的值可由原圖像中坐標為(x, y)、(x + 1, y)、(x, y + 1)、(x + 1, y + 1)所對應的相鄰四個像素的值決定,計算過程如式(15)所示:
![]() |
其中,f(x, y)表示雙線性插值操作前的輸入特征圖在(x, y)處的像素值。
最終的輸出 由
和H′逐像素相乘得到。
高級特征圖Xhigh具有較多的語義信息和較少的空間信息,而低級特征圖Xlow的特點與其相反,二者通過CA處理后的結合實現了優勢互補,如圖2所示。在DSPA模塊中,CA將特征圖進行水平池化和垂直池化操作,分別沿兩個空間方向聚合特征,解決傳統通道注意力池化方式單一的問題。DSPA模塊在水平方向捕獲遠程依賴關系的同時在垂直方向保留精確的位置信息,得到對方向和位置敏感的注意力特征圖后與輸入特征圖進行信息融合,增強模型的特征表達能力。當網絡中加入DSPA模塊后,輸入到解碼器中的特征圖Fout相較于Xlow噪聲更少,肺實質區域邊緣輪廓更加清楚,且類內差異性明顯減小,與其它組織的對比度得到明顯提升。
為了驗證DSPA模塊的有效性,本文使用梯度加權類激活映射(gradient-weighted class activation mapping,Grad-CAM)方法將U-Net網絡加入DSPA模塊前后的兩個網絡輸出圖進行處理[29],得到對比熱力圖。如圖3所示,同一行的熱力圖是根據同一張數據集初始圖像進入不同網絡生成的,在網絡反向傳播時利用Grad-CAM方法求得熱力圖后與輸入圖像進行疊加得到Grad-CAM定位圖,紅色區域即為網絡所關注的區域。對比兩種網絡熱力圖可以發現,加入DSPA模塊后肺實質區域以外的紅色明顯減少,說明網絡更加聚焦于目標區域,從而加強網絡對于肺實質區域的定位與分割。由此可見DSPA模塊能夠有效提升網絡的性能。

1.3 ASPP模塊
為解決同一層級特征圖中多尺度信息處理問題,本文引用了金字塔網絡(DeepLabv3 +)中的ASPP模塊[30],利用空洞卷積增加卷積核的感受野,并通過不同空洞率的卷積構造出金字塔結構。如圖4所示,ASPP模塊的具體結構包括一個1 × 1卷積,三個3 × 3卷積(空洞率分別為6,12,18)和全局平均池化操作,并在每個并行卷積層之后加入批量歸一化。空洞卷積的輸出特征圖定義如式(16)所示:

![]() |
其中,H、W分別表示輸入圖像(或前一層特征圖)的長度和寬度;x(i, j)表示該輸入圖像上(i, j)位置的像素值;ar表示空洞率;y(i, j)表示該輸入圖像經過空洞卷積后的輸出;(u, v)代表卷積核中心點的坐標(0 ≤ u < H,0 ≤ v < W);W(u, v)表示卷積核對應坐標位置的權重。
全局平均池化的輸出定義如式(17)所示:
![]() |
其中,X(c, i, j)表示輸入特征圖X第c個通道中對應坐標的像素值;(c, 1, 1)表示輸出特征圖。
ASPP模塊的五條路徑分別提供不同大小的感受野,大空洞率的卷積層為網絡提供更多的全局性上下文特征信息,小空洞率的卷積層為網絡補充細節信息。在不同感受野下處理得到的特征圖即為同一層級特征圖的多尺度信息。前四個卷積操作不改變特征圖的空間維度,僅改變通道維度大小得到X1、X2、X3、X4;經過全局平均池化操作后的特征圖 通過雙線性插值上采樣的方式將空間尺寸還原為與輸入特征圖大小相同的X5。所有分支處理好的特征圖在通道維度進行拼接,如式(18)所示:
![]() |
其中,C、H、W分別表示特征圖的通道數、長度、寬度。拼接后通過卷積核大小為1 × 1的卷積,將特征圖壓縮到指定維度的同時,在通道維度實現同一層級特征圖中多尺度信息的交互。
ASPP模塊和普通卷積操作對編碼器最后一層進行特征提取的效果圖,如圖5所示。在對編碼器輸出特征圖進行特征提取時,普通卷積操作提取出的特征圖保留了原特征圖大部分的形狀、輪廓和顏色等低級特征。而ASPP模塊進一步對網絡深層特征圖中的高級特征進行提取,得到具有豐富語義信息的特征圖,以此增強網絡的特征提取能力,為解碼路徑中的特征圖提供更多抽象和高級的特征。

2 實驗和結果
2.1 數據來源
本文使用卡格爾(Kaggle)競賽的在CT數據中發現和測量肺(finding and measuring lungs in CT data,FML-CT)(網址:https://www.kaggle.com/kmader/finding-lungs-in-ct-data)數據集進行了實驗。本文將此數據集中的200張圖像劃分為訓練集,37張圖像劃分為驗證集,30張圖像劃分為測試集。為了提升模型的泛化能力和魯棒性,對原數據集進行了水平翻轉、垂直翻轉和旋轉的數據增強操作,并且在訓練階段將輸入的圖像進行大小為368 × 368像素的中心裁剪,以此加快訓練速度。實驗過程中操作系統為Ubuntu18.04(開源,美國),圖形處理器(graphics processing unit,GPU)硬件為QuadroRTX8000(英偉達,美國),優化器采用適應性矩估計,初始學習率設置為0.000 1,每三個訓練周期降低一半,設置最大訓練周期為40,并采取了提前停止訓練的策略防止模型過擬合,深度學習框架為Pytorch1.8.1(Facebook,美國)。
2.2 指標
為評價DSPA-Net網絡的性能,本文使用戴斯相似性系數(dice similarity coefficient,DSC)、交并比(intersection over union,IoU)、體積重疊誤差(volumetric overlap error,VOE)、相對體積差(relative volume difference,RVD)、特異性(specificity,SP)、敏感性(sensitivity,SE)和精確率(precision,PC)作為指標評價分割性能,計算公式分別如式(19)~式(25)所示。
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
其中,A表示網絡模型預測輸出的肺實質分割結果,B表示真實的肺實質區域,A和B的交集表示正確分割的肺實質區域。真陰性(true negative,TN)表示被正確分為非肺實質的像素個數,真陽性(true positive,TP)表示被正確分為肺實質的像素個數,假陰性(false negative,FN)表示被錯誤分為非肺實質的像素個數,假陽性(false positive,FP)表示被錯誤分為肺實質的像素個數。DSC∈(0,1)是醫學圖像分割中常用來評估分割結果和真實標記之間相似度的評估矩陣,IoU∈(0,1)是預測標簽圖像和真實標簽圖像的交疊率,DSC和IoU越接近1,分割性能越好。VOE和RVD越接近0,分割性能越好。SP、SE、PC∈(0,1),越趨近1,分割效果越好。
2.3 消融實驗
在保證實驗環境相同的前提下,本文將U-Net設置為基礎參考網絡,并逐步加入DSPA模塊和ASPP模塊進行消融實驗。如表1所示,與參考網絡相比,DSPA模塊的增加使得IoU指數和DSC指數分別增加了4.9%和2.8%。添加ASPP模塊后,IoU和DSC分別增加了5.4%和3%。這些結果證明了DSPA模塊和ASPP模塊的有效性。DSPA-Net的IoU和DSC分別達到94.5%和97.2%,比參考網絡的值高出6.6%和3.7%,證明DSPA-Net可以有效地提高分割精度。



2.4 對比實驗
為驗證本文所提出網絡的優越性,將DSPA-Net與常用的語義分割網絡進行了對比,對比網絡包括U-Net、SegNet、U-Net++、U-Net3+和DeepLabv3+,實驗結果如表2所示。



從表2可以看出,DSPA-Net在這七個指標上的表現都優于其他網絡。在參數量方面,U-Net作為醫學圖像分割中最經典的網絡,其參數量為17.27 M,而DSPA-Net、DeepLabv3+的參數量分別為28.83 M、54.94 M,在取得性能提升的情況下DSPA-Net相比于DeepLabv3+引入了更少的參數,再次證明了DSPA-Net在肺實質分割任務中的優越性。
此外,本文列出了上述六種方法針對六張肺部CT圖像(圖像1~圖像6)的分割結果,如圖6所示,每一行依次為六張不同的肺部CT圖像;每一列依次為預處理圖像、真實標簽與由U-Net、SegNet、U-Net++、U-Net3+、DeepLabv3+、本文方法DSPA-Net得到的分割結果圖;預處理圖像由原始位深度為16的圖像轉換為位深度為24的圖像得到,并經過翻轉和旋轉等數據增強操作。分割結果中紅色區域代表真實肺實質位置被網絡錯誤判定為非肺實質位置的欠分割區域,綠色區域代表非肺實質位置被網絡錯誤判定為肺實質位置的過分割區域。如圖6所示,DSPA-Net在肺實質周圍的過分割綠色區域面積、欠分割紅色區域面積,以及背景中的誤分割綠色區域面積都明顯少于其他先進方法,分割結果更為精確。由此可以看出,本文提出的方法在肺實質分割方面相較于其他方法能夠進一步增加肺實質區域自動分割的精度。

3 討論
本研究在傳統U-Net基本框架的基礎上加入了DSPA模塊,分別在高維、低維兩個尺度上并行實現特征提取,解決了不同層級特征圖中多尺度信息處理問題。在最初的設計中,本文僅用CA模塊對跳躍連接中的特征圖進行處理,相較與其他注意力機制,CA的優點是將位置信息嵌入到通道注意力中,有助于網絡更準確地定位感興趣的目標。但通過實驗發現單獨加入CA的性能并不理想。在進一步分析了相關特征融合網絡的結構和思想后,本文將多尺度信息處理機制與CA注意力相結合,進而提出DSPA模塊,使得網絡將不同層級間特征圖語義信息進行融合互補,并且區分特征圖中不同空間與通道的重要性。實驗結果表明,在跳躍連接中加入多尺度信息處理機制和并行注意力機制有效增強了類間不一致性和類內一致性,從而將肺實質區域與其他組織結構進行更加清晰的區分,避免過度分割的同時減少肺實質內部的誤分割。同時在U-Net網絡的瓶頸層后引入ASPP模塊,讓網絡擁有處理同一層級特征圖多尺度信息的能力。DSPA模塊與ASPP模塊兩者的有效結合實現了網絡分割性能的提升。
4 總結
本文設計了名為DSPA-Net的新型網絡架構,并將其用于肺部CT圖像中肺實質的分割。該網絡在U-Net的跳躍連接中加入DSPA模塊,解決了不同層級特征圖中多尺度信息處理問題,并且引入的CA模塊通過卷積激活操作極大減少了傳統注意力機制中的參數量與計算量。在U-Net的瓶頸層加入ASPP模塊,利用不同采樣率組成的空洞卷積組獲取不同感受野下包含多尺度信息的特征圖,解決了同一層級特征圖中多尺度信息處理問題。在FML-CT數據集上的實驗證明了本文所提出的網絡在肺實質分割方面的優越性,其分割結果可為肺癌的診斷與治療過程提供相應參考。但DSPA-Net也存在一些不足,本文僅實現了對肺實質進行分割。后續,本課題組將研究DSPA-Net在已分割出肺實質輪廓的情況下對肺結節的分割性能,盡可能開發DSPA-Net的潛力。除此之外,DSPA-Net并未使用CT圖像的3D信息,而CT圖像的3D信息對于肺實質和肺結節分割也至關重要。在未來的研究中,本課題組考慮將CT圖像的3D信息添加到DSPA-Net模型中,并探索其應用于更多醫學圖像分割任務的可能性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:馮凱麗負責數據處理分析,算法設計與開發,論文寫作與修改;吳彥林參與圖表繪制;王光磊提供實驗指導,論文審閱修訂;任莉莉、李艷、王洪瑞提供論文指導。
倫理聲明:本論文所用實驗數據均來自公開數據庫,不涉及倫理問題。