腹部計算機斷層掃描(CT)圖像背景復雜,且腎臟腫瘤存在形態各異、大小不一以及邊緣不清晰等特點,直接對整個 CT 圖像進行分割往往無法有效分割出腎腫瘤。針對這些問題,提出一種基于 3D U-Net 和 DeepLabV3+級聯的多尺度腎腫瘤分割網絡,利用基于空洞卷積的多尺度特征金字塔自適應地控制網絡的感受野范圍,將高級語義特征和低級語義特征融合,有效改善大腫瘤的分割邊緣同時提升小腫瘤的分割精度。采用 Kits2019 公開的 210 例 CT 數據進行五折交叉驗證,并對從蘇州科技城醫院收集的 30 例 CT 數據進行獨立測試。五折交叉驗證實驗獲得的 Dice 系數為 0.796 2 ± 0.274 1,敏感度為 0.824 5 ± 0.276 3,精確度為 0.805 1 ± 0.284 0;在外部測試集上獲得的 Dice 系數為 0.817 2 ± 0.110 0,敏感度為 0.829 6 ± 0.150 7,精確度為 0.831 8 ± 0.116 8,對比其他多種方法分割精度有較大提升。
引用本文: 冀宏, 錢旭升, 周志勇, 朱建兵, 葉陸爽, 汪豐, 戴亞康. 基于級聯多尺度卷積網絡的計算機斷層掃描圖像腎腫瘤自動分割方法. 生物醫學工程學雜志, 2021, 38(4): 722-731. doi: 10.7507/1001-5515.202101044 復制
引言
腎細胞癌(renal cell carcinoma,RCC)是泌尿系統最常見的惡性腫瘤之一,病死率較高。根據世界衛生組織提供的最新數據,每年有超過 14 萬人死于 RCC[1-2]。近年來,計算機斷層掃描(computed tomography,CT)已成為腎腫瘤的首選檢查方法之一,對 CT 圖像中的腎腫瘤進行分割有助于醫生對腫瘤進行定量分析,評估其惡性程度,為制定個性化的治療方案提供客觀依據。然而人工分割腎腫瘤非常耗時,且主觀性較強,會因個人經驗的差異產生不同的分割結果。與手動分割相比,針對 CT 圖像的自動分割方法僅僅依賴于客觀數據,將更為高效地提供客觀可靠的腎腫瘤分割結果。但由于不同患者的腎腫瘤在體積大小、生長位置、形狀、質地等方面存在較大的差異[3],目前針對 CT 圖像腎腫瘤的自動精準分割仍然具有極大的挑戰性。
近年來隨著深度學習技術的快速發展,深度卷積神經網絡已廣泛應用于肝腫瘤[4-7]、腦腫瘤[8-10]等分割任務中[11],其中全卷積網絡(fully convolutional networks,FCN)[12]和 U-Net[13]是語義分割中兩種常用的網絡結構。FCN 網絡將全連接層改為全卷積層,使得網絡能夠接受任意大小的輸入,從而實現了端到端的訓練。U-Net 網絡同樣可以實現端到端的訓練,由獲取高級語義信息的下采樣路徑和用于恢復圖像分辨率的上采樣路徑組成,通過跳躍連接將下采樣路徑中包含豐富細節信息的低級特征圖和上采樣路徑中包含豐富語義信息高級特征的特征圖進行拼接得到多尺度特征,有助于提升分割精度。在 U-Net 的基礎上,研究者們提出了多種基于 U-Net 的改進網絡,如 MDU-Net[14]、Dense-Inception U-Net[15]、MultiResUnet[16]等。3D U-Net[17]通過使用 3D 卷積學習圖像層間信息,有利于提升分割組織的三維連通性。但是 3D 網絡的參數量通常遠多于 2D 網絡,往往需要更多的訓練數據才能提升網絡性能,否則易導致過擬合。針對 2D 輸入圖像,Unet++[18]通過嵌套的子 U-Net 結構將低分辨率的特征圖通過上采樣操作在解碼路徑中融合多尺度的高分辨率特征圖,并采用密集連接加強特征的融合和傳遞。在肺結節分割、肝臟分割、息肉分割以及細胞核分割任務中,相比 U-Net 和 wide U-Net 網絡,Unet++的平均 IoU 分別提升了 3.9% 和 3.4%。Unet3+[19]在 Unet++的基礎上進行改進,采用全尺度特征拼接和深度監督方法,在腹部 CT 圖像多器官分割任務中,對大器官肝臟和小器官胰腺分割結果的 Dice 系數(Dice similarity coefficient,DSC)分別達到 0.960 1 和 0.956 0,相對于 U-Net 和 Unet++分別提升 2.7% 和 1.6%。
目前,在分割任務中如何進一步有效地提取圖像的多尺度特征以更好地感知不同大小的目標已成為一個研究熱點。Zhao 等[20]提出的 PSPNet 通過金字塔池化模塊(pyramid pooling module,PPM)可以有效提取多尺度特征以整合不同區域的上下文信息。Yang 等[21]將三維 FCN 與 PPM 進行有效結合,將其應用于 CT 圖像中的腎臟和腎腫瘤分割,得到腎臟和腎腫瘤分割的 Dice 系數分別為 0.931 0 和 0.802 0。Chen 等[22]提出的 DeepLabV3+網絡采用基于空洞卷積的空間金字塔模塊(atrous spatial pyramid pooling,ASPP),以并行的方式通過不同膨脹率的空洞卷積提取圖像語義特征并編碼多尺度的上下文信息,在解碼方面將高級語義特征圖和低級細節特征圖進行融合細化分割結果。該方法在自然圖像分割領域被廣泛應用,但在醫學圖像領域該方法應用較少。
由于腹部 CT 圖像背景復雜,且腎腫瘤區域在腹部 CT 中所占比例較小,直接從完整的 3D CT 圖像自動分割腎腫瘤難以取得令人滿意的分割精度。因此,本文針對腎腫瘤自動分割提出基于 3D U-Net 與 DeepLabV3+級聯的多尺度卷積網絡。首先使用 3D U-Net 對完整的 3D CT 圖像進行腎臟分割,然后采用具有多尺度金字塔特征編碼模塊的 DeepLabV3+網絡對腎臟區域進行多尺度特征提取及融合分析,以得到更準確的腎腫瘤分割結果。
1 研究方法
1.1 腎腫瘤自動分割方法流程
本文方法的整體流程如圖 1 所示,包括圖像預處理,基于 3D U-Net 的腎臟分割,基于連通域分析的腎臟分割后處理,基于 DeepLabV3+網絡的腎腫瘤分割以及利用腎臟分割模板信息剔除部分假陽性目標的腎腫瘤分割結果后處理。

1.2 圖像預處理和數據增強
數據預處理包括以下三個步驟:① 灰度截斷:通過計算所有數據腎臟范圍內灰度值的第 5 和第 95 百分位數分別作為灰度截斷的上限值和下限值[23]。經計算得到上限值,下限值為
= –79;② Z-score 標準化:通過減去圖像灰度值的均值并除以方差進行計算,其中均值和標準差的計算只基于腎臟區域的灰度值;③ 重采樣:在腎臟分割預處理過程中將所有樣本的空間分辨率重采樣至(1.62 mm,1.62 mm,3.22 mm),在腎腫瘤分割網絡中所有樣本的空間分辨率保持不變。
為提高訓練樣本數量和多樣性從而提升模型泛化能力,在腎臟分割網絡訓練過程中對完整的 3D CT 圖像隨機裁剪 patch 作為 3D U-Net 的輸入,并基于鏡像變換進行數據增強。對于腎腫瘤分割任務,基于 Albumentations 庫[24]對腎臟區域訓練圖像進行在線擴充,方式包括隨機旋轉、彈性形變、上下左右四個方向隨機翻轉以及對比度增強。
1.3 基于 3D U-Net 的腎臟分割網絡
為了實現腎臟自動分割,設計了五層結構的 3D U-Net,如圖 2 所示。在特征提取的下采樣階段包含 5 層卷積下采樣層,采用步長為 2 的 3 × 3 × 3 卷積。特征提取階段的每一層采用單層卷積結構,解碼階段采用雙卷積結構。每一層卷積結構由標準 3 × 3 × 3 卷積層、實例標準化層(instance normalization,IN)以及 ReLU 激活函數構成。特征提取階段的基準通道數設置為 30,在每次下采樣的過程中,特征圖通道數以 2 倍擴增并且特征圖的大小變成原來的 1/2。由于層間分辨率為層內分辨率的 1/2,在第一次下采樣時保持Z軸方向的特征圖尺寸不變,X和Y軸方向的特征圖減半,從而得到三個方向上尺寸大小一致的特征圖。隨后每次下采樣后特征圖尺寸大小減半,編碼路徑將得到最小為 5 × 5 × 5 的特征圖。在上采樣過程中,利用步長為 2、卷積核尺寸為 3 × 3 × 3 的反卷積恢復圖像分辨率,通過同級之間的跳躍連接進行特征融合以增強圖像細節。融合特征圖經過 Softmax 分類層得到 CT 圖像的像素級分類標簽,然后采取基于最大連通域的后處理算法,只保留兩個或一個(只有一個腎臟時)連通區域,其他非最大連通域的像素點都被設置為背景,從而從完整的 3D CT 圖像中分割出腎臟區域。

在通過 3D U-Net 和后處理自動分割出腎臟區域后,計算腎臟區域的最小包圍立方體,X軸和 Y 軸方向分別向外擴展 20 個體素點,Z軸方向向外擴展 5 個體素點,進行圖像裁剪以獲取腎臟感興趣區域(region of interest,ROI)作為腎腫瘤分割任務的訓練數據。
1.4 基于 DeepLabV3+的腎腫瘤分割
1.4.1 DeepLabV3+網絡
腎腫瘤分割網絡采用融合多尺度結構信息的 DeepLabV3+網絡,如圖 3 所示。其中的特征提取網絡采用 ResNet50[25]的預訓練模型,基于殘差連接的特征提取網絡可減輕網絡訓練過程中的梯度消失問題,使網絡能夠提取到具有抽象語義性的深層特征。網絡的初始化卷積層采用 stride = 2、padding = 3、卷積核大小為 7 × 7、卷積核數量為 64 的標準卷積以及批標準化(batch normalization,BN)操作和 ReLU 激活函數,去掉原始的最大池化層。經過初始化卷積層的特征圖大小為 80 × 80,通道數為 64,后面連接四個特征提取階段,每個階段由一個殘差瓶頸結構 1 和若干個殘差瓶頸結構 2 組成,如圖 4 所示。殘差瓶頸結構 1 位于每個特征提取階段的第一層,其中第一個 1 × 1 卷積將特征圖通道數和大小同時減半,中間的 3 × 3 卷積用于提取語義特征;第二個 1 × 1 卷積將特征通道數恢復至原來的大小;側邊 1 × 1 卷積將輸入特征圖的通道數擴充至輸出特征圖的大小。殘差瓶頸結構 2 中的兩個 1 × 1 卷積分別用于壓縮和擴充通道數以增強非線性能力,同時可節省計算資源。為了減少下采樣造成的腎腫瘤細節信息丟失,在特征提取的最后三個階段采用步長為 2 的卷積層并保持特征圖尺寸不變,經過特征提取 Backbone 輸入到 ASPP 模塊中的特征大小為 20 × 20。表 1 列出了特征提取 Backbone 的具體細節。



在基于殘差連接的特征提取路徑后連接基于空洞卷積的 ASPP 模塊,包含 5 個分支結構,分別為 1 × 1 卷積和膨脹率為 2、4、8 的 3 × 3 卷積。采用不同膨脹率的卷積核,可使網絡具有不同大小的感受野,提取多尺度特征,從而更好地適應不同大小的腫瘤,全局平均池化操作能夠增強網絡的全局特征,有助于增強腫瘤的識別能力。將 5 個分支輸出的不同尺度的特征通過插值上采樣至相同尺寸并沿著特征通道方向將 5 組特征圖拼接后得到多尺度融合特征。
在解碼階段,將階段 1 的低級特征和多尺度高級特征進行融合以增強分割結果的細節信息和邊緣信息。具體流程為將階段 1 輸出的 256 通道特征圖通過 1 × 1 卷積映射為通道數為 48 的特征圖,然后和上采樣后的多尺度特征融合結果拼接,再通過 3 × 3 卷積操作和上采樣恢復圖像的分辨率,經過 Sigmoid 函數映射并二值化后得到腎腫瘤分割結果。
1.4.2 損失函數
采用交叉熵損失函數,通過逐像素計算像素點預測概率值與金標準分布之間的差異得到損失函數的值。其計算方式如下:
![]() |
其中,代表真實值,
代表網絡模型的預測值。
1.5 腎腫瘤分割后處理
通過 DeepLabV3+網絡得到的腎腫瘤分割結果,可能會包含一部分位于腎臟外的過分割區域。為了去除這部分假陽性區域,采用腎臟分割結果作為腎腫瘤位置的先驗信息,取腎臟分割結果和基于 DeepLabV3+網絡的腎腫瘤分割結果的交集作為最終的腎腫瘤分割結果。
2 實驗與結果分析
2.1 實驗數據
本文使用的數據來自生物醫學圖像分析平臺 Grand Challenges 上公開的 Kits2019 腎腫瘤公開挑戰賽[26]的訓練數據集共 210 例。該數據集提供腎臟和腎腫瘤的金標準,其中腎臟標記為 1,腎腫瘤標記為 2,背景標記值為 0。圖像大小為 512 × 512 × L(L 為 CT 數據中的切片數量,范圍為 30~1 000),X和Y軸方向上的分辨率范圍為 0.45~1.0 mm,層厚為 0.5~5.0 mm。
從蘇州科技城醫院搜集 30 例腎腫瘤患者的動脈期增強 CT 圖像作為外部測試集。每例 CT 數據的冠狀位、矢狀位和橫斷位三個方向的空間分辨率均為 0.66 mm,包含的切片數量為 53~134 張。每個患者均含有兩只腎臟且只有單側腎臟含有腫瘤。由 2 名經驗豐富的影像科醫生對腎腫瘤進行手工勾畫,確定分割金標準。實驗獲得蘇州科技城醫院倫理委員會批準。
2.2 評估指標
為了準確評估分割精度,本文采用了廣泛使用的 Dice 系數和 Jaccard 系數作為主要的評價指標,其定義如下:
![]() |
![]() |
其中,代表網絡模型預測輸出的腫瘤分割結果,
代表真實的腫瘤區域。
和
的交集代表正確分割的腫瘤區域。考慮到圖像分割可以看成是一種像素級別的分類任務,因此另外采用分類任務中常用的敏感度和精確度評價指標來進一步衡量分割精度,其計算公式如下:
![]() |
![]() |
其中,被正確分為腫瘤的像素個數為真陽性(true positive,TP),被正確分為正常組織的像素個數記為真陰性(true negative,TN),被錯誤分為腫瘤的像素個數記為假陽性(false positive,FP),被錯誤分為正常組織的像素個數記為假陰性(false negative,FN)。所有評價指標越高表明模型的分割效果越好。
2.3 實驗設置
本文將公開數據集的 210 例數據隨機劃分進行五次五折交叉驗證實驗,每種網絡選取五折交叉驗證中的最優模型在蘇州科技城醫院的 30 例外部測試集上進行測試,以評估模型的泛化能力。
實驗環境配置為如下。CPU:Intel i7-9700k@3.6 GHz,內存:32 GB,GPU:NVIDIA GTX 2080Ti;所用系統為 Windows10 操作系統,深度學習框架為 Pytorch1.1.0[27],圖像預處理和后處理庫為 SimpleITK。
所有網絡的訓練均采用 Adam 優化算法,初始學習率設置為 0.000 3。在訓練腎臟分割模型時,將訓練集批大小設置為 1,每個 epoch 里隨機對 250 個樣本進行采樣作為網絡輸入。整個訓練過程共設置 100 次迭代,每 20 次迭代將學習率衰減一半。在進行腎腫瘤分割模型訓練時,將訓練集批大小設置為 16。采用基于 ReduceLROnPlateau 的自動學習率衰減,即當驗證集 loss 值在 30 個 epoch 內的下降幅度小于 0.000 1,則將學習率自動減小為原來的 1/5。訓練的最大 epoch 設置為 200,每個 epoch 中所有的訓練集數據都參與網絡參數的更新。
2.4 結果分析
3D U-Net 分割網絡結合基于最大連通域的后處理,可以從整個腹部 CT 圖像中準確分割出腎臟,驗證集平均 Dice 系數及標準差為 0.932 0 ± 0.043 0,平均 Jaccard 系數及標準差為 0.875 0 ± 0.068 0,平均敏感度及標準差為 0.922 0 ± 0.068 0,平均精確度及標準差為 0.945 0 ± 0.037 0。圖 5 展示了基于 3D U-Net 及后處理的腎臟分割結果,可以看到分割結果包含絕大部分腎臟區域,盡管邊緣存在一定的欠分割,但是能夠滿足準確裁減出包含腎腫瘤的腎臟 ROI 區域的要求。

針對腎腫瘤分割,表 2 列出了在公開數據集上進行五折交叉實驗得到的平均分割結果。可以看出,DeepLabV3+和 PSPNet 的分割性能顯著優于 Unet++和 Unet3+。Unet++和 Unet3+網絡只是基于編碼路徑在下采樣的作用下獲取多尺度的感受野,但是下采樣擴充感受野的能力有限且無法自由調整感受野的大小。過分追求大感受野而采用大量的下采樣操作反而會丟失圖像細節信息。PSPNet 和 DeepLabV3+采用的是特征金字塔策略,其中 PSPNet 采用的多尺度池化可能造成細節信息的損失,而本文采用的 DeepLabV3+利用多尺度空洞卷積核直接提取圖像的多尺度特征且可以針對具體任務設計相應的尺度大小。針對尺度差異較大的腎腫瘤分割任務,基于空洞卷積的特征金字塔策略能獲取更為有效的多尺度特征。實驗結果表明,DeepLabV3+網絡在 Dice 系數、Jaccard 系數、敏感度和精確度四項評估指標中均達到了最優。

表 3 所示的是使用公開數據集上訓練得到的分割模型在蘇州科技城醫院 30 例臨床數據中進行測試的結果,DeepLabV3+網絡同樣取得了最優的分割精度,并且遠優于在公開數據集上表現較為接近的 PSPNet。綜合來看,DeepLabV3+網絡對腎腫瘤分割的泛化能力優于其余三種網絡。

為了進一步直觀地對比不同網絡模型對腎腫瘤分割結果的差異,我們從 Kits 數據集選取部分典型的分割結果進行直觀的定性分析,并與專家手工標注的金標準進行對比,如圖 6 所示。其中紅色邊緣為金標準輪廓線,綠色邊緣為網絡分割結果的輪廓線。可以看到,對于腫瘤邊界較為明顯且紋理清晰的腎腫瘤(Case26),所有網絡均取得了很高的分割精度,Dice 系數均能達到 0.950 0 以上。而對于灰度對比度較低的圖像(如 Case14、Case137、Case65 和 Case188),由于腫瘤與其周邊區域不存在明顯的邊界,分割網絡往往難以取得較高的分割精度。從這些困難樣本的分割結果可以看出,基于空洞卷積金字塔特征模塊的 DeeplabV3+在對比度較差的情況下也能得到較為準確的分割邊界,其他多尺度網絡框架對于對比度低的圖像則幾乎無法準確識別腎腫瘤。另外,四種分割網絡對大腫瘤 Case78 均能得到較高的分割精度,但是 DeepLabV3+分割得到的腫瘤邊界更貼合金標準。對于小腫瘤 Case27,Unet++和 Unet3+無法準確定位腫瘤位置;PSPNet 網絡雖然能定位到腎腫瘤,但分割結果中包含過分割的背景部分。只有 DeepLabV3+網絡能準確定位腎腫瘤并取得了較高的分割精度。分析網絡結構可知,基于空洞卷積多尺度模塊的 DeepLabV3+網絡能夠感知的感受野范圍更大,更適用于多尺度腫瘤分割;同時在解碼時融合了分辨率較高的低級特征圖,能夠有效優化分割細節。而其他網絡都存在不同程度的過分割現象,且在低對比度圖像中更加明顯,其原因可能為網絡感受野受限,過于關注局部信息,難以有效學習全局信息,導致難以正確分割與腫瘤相似的背景區域。

紅色曲線為金標準輪廓線,綠色曲線為網絡分割結果的輪廓線
Figure6. Segmentation results of validation set for kidney tumorsthe red curve is the gold standard contour,and the green curve is the contour generated by the deep model
從圖 7 中外部測試數據的分割結果來看,DeepLabV3+網絡與其他方法相比,對腫瘤的欠分割和過分割現象同樣有較大改善。DeepLabV3+對 Case15 的分割結果與金標準十分接近,而其他三種方法均存在不同程度的過分割和欠分割。Case39 中的腎腫瘤內部紋理存在較大差異,表現出明顯的異質性。在其他三種網絡存在明顯欠分割的情況下,DeepLabV3+依然能夠較為準確地分割出腎腫瘤,表明其能更好地處理因腫瘤異質性引起的紋理差異問題。

紅色曲線為金標準輪廓線,綠色曲線為網絡分割結果的輪廓線
Figure7. Segmentation results of external test set for kidney tumorsthe red curve is the gold standard contour, and the green curve is the contour generated by the deep model
綜合以上實驗結果可知,相較于其他網絡,DeepLabV3+網絡具有更優的腎腫瘤分割精度,但仍難以滿足臨床實際需求。以放療需求為例,腫瘤的位置、大小和形狀等信息都會直接關系到照射野、計量配比等治療參數的確定,因此對于分割結果與實際腫瘤的一致性要求非常高。本文方法的自動分割結果常常無法滿足適形放療的精度要求。圖 8 展示了兩類較為典型的分割精度較低的樣例。第一類在腎臟區域存在其他與腎腫瘤表現相似的非腫瘤病變(如腎臟囊腫),如圖 8 左列所示。此時網絡模型往往會將良性的腎囊腫判斷為腎腫瘤,導致過分割。可能的原因是訓練數據中腎囊腫病例數量少,深度網絡在訓練過程中無法對良性腎囊腫進行充分學習,難以提取有效的語義特征來區分腎囊腫和腎腫瘤從而導致誤分割。腎腫瘤與周圍腎實質邊界模糊、灰度相似也容易導致分割結果欠佳,如圖 8 右列所示。此時網絡模型對腫瘤邊緣的識別能力減弱,易將腫瘤誤分為正常組織或將正常組織誤劃分為腫瘤。此外,針對公開數據集中 90 例局限于腎臟且最大徑 ≤ 4 cm 的小腫瘤,DeepLabV3+網絡的平均 Dice 系數及標準差為 0.696 4 ± 0.168 6,這表明僅依靠 DeepLabV3+的多尺度特征策略難以完全克服小腫瘤相對大腫瘤分割精度較低的問題。

紅色曲線為金標準輪廓線,綠色曲線為網絡分割結果的輪廓線
Figure8. Poor segmentation results of validation set for kidney tumorsthe red curve is the gold standard contour, and the green curve is the contour generated by the deep model
為了進一步提高腎腫瘤的分割精度,可以在訓練集加入更多的包含腎囊腫的數據來提升網絡模型腎囊腫和腎腫瘤的區分能力。從網絡模型的優化角度出發,可以在網絡中添加注意力模塊[28-29]來更好地挖掘有效特征信息并抑制無關信息,同時通過在損失函數中增加基于邊緣信息的損失[30]以引導網絡有效學習腫瘤邊緣特征,從而獲得與實際腫瘤一致性更高的分割結果,是今后主要的研究方向。
3 結 語
本研究提出了一種基于 3D U-Net 與 DeepLabV3+級聯網絡的腎腫瘤自動分割方法。通過 3D U-Net 從完整的 CT 數據中分割出腎臟,并基于分割結果得到腎臟 ROI 區域作為 DeepLabV3+網絡的輸入,大大減少了腹部 CT 圖像中復雜背景對于腎腫瘤分割的干擾。采用基于 DeepLabV3+的空間金字塔池化卷積模塊有效地提取腎腫瘤多尺度特征,相比基于多階段特征連接的多尺度分割網絡 Unet++、Unet3+,能有效解決小腫瘤漏診和大腫瘤欠分割的問題。相比于 PSPNet 單純依靠上采樣恢復圖像分辨率,DeepLabV3+采用簡單有效的高低分辨率特征圖融合解碼,優化了分割細節,在低對比度、邊緣模糊、小腫瘤等多種困難樣本中的分割精度更高,且在外部測試集上的泛化能力較好。因此,本文采用的基于 3D U-Net 和多尺度 DeepLabV3+級聯網絡的方法能夠更好地應用于腎腫瘤分割任務。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
腎細胞癌(renal cell carcinoma,RCC)是泌尿系統最常見的惡性腫瘤之一,病死率較高。根據世界衛生組織提供的最新數據,每年有超過 14 萬人死于 RCC[1-2]。近年來,計算機斷層掃描(computed tomography,CT)已成為腎腫瘤的首選檢查方法之一,對 CT 圖像中的腎腫瘤進行分割有助于醫生對腫瘤進行定量分析,評估其惡性程度,為制定個性化的治療方案提供客觀依據。然而人工分割腎腫瘤非常耗時,且主觀性較強,會因個人經驗的差異產生不同的分割結果。與手動分割相比,針對 CT 圖像的自動分割方法僅僅依賴于客觀數據,將更為高效地提供客觀可靠的腎腫瘤分割結果。但由于不同患者的腎腫瘤在體積大小、生長位置、形狀、質地等方面存在較大的差異[3],目前針對 CT 圖像腎腫瘤的自動精準分割仍然具有極大的挑戰性。
近年來隨著深度學習技術的快速發展,深度卷積神經網絡已廣泛應用于肝腫瘤[4-7]、腦腫瘤[8-10]等分割任務中[11],其中全卷積網絡(fully convolutional networks,FCN)[12]和 U-Net[13]是語義分割中兩種常用的網絡結構。FCN 網絡將全連接層改為全卷積層,使得網絡能夠接受任意大小的輸入,從而實現了端到端的訓練。U-Net 網絡同樣可以實現端到端的訓練,由獲取高級語義信息的下采樣路徑和用于恢復圖像分辨率的上采樣路徑組成,通過跳躍連接將下采樣路徑中包含豐富細節信息的低級特征圖和上采樣路徑中包含豐富語義信息高級特征的特征圖進行拼接得到多尺度特征,有助于提升分割精度。在 U-Net 的基礎上,研究者們提出了多種基于 U-Net 的改進網絡,如 MDU-Net[14]、Dense-Inception U-Net[15]、MultiResUnet[16]等。3D U-Net[17]通過使用 3D 卷積學習圖像層間信息,有利于提升分割組織的三維連通性。但是 3D 網絡的參數量通常遠多于 2D 網絡,往往需要更多的訓練數據才能提升網絡性能,否則易導致過擬合。針對 2D 輸入圖像,Unet++[18]通過嵌套的子 U-Net 結構將低分辨率的特征圖通過上采樣操作在解碼路徑中融合多尺度的高分辨率特征圖,并采用密集連接加強特征的融合和傳遞。在肺結節分割、肝臟分割、息肉分割以及細胞核分割任務中,相比 U-Net 和 wide U-Net 網絡,Unet++的平均 IoU 分別提升了 3.9% 和 3.4%。Unet3+[19]在 Unet++的基礎上進行改進,采用全尺度特征拼接和深度監督方法,在腹部 CT 圖像多器官分割任務中,對大器官肝臟和小器官胰腺分割結果的 Dice 系數(Dice similarity coefficient,DSC)分別達到 0.960 1 和 0.956 0,相對于 U-Net 和 Unet++分別提升 2.7% 和 1.6%。
目前,在分割任務中如何進一步有效地提取圖像的多尺度特征以更好地感知不同大小的目標已成為一個研究熱點。Zhao 等[20]提出的 PSPNet 通過金字塔池化模塊(pyramid pooling module,PPM)可以有效提取多尺度特征以整合不同區域的上下文信息。Yang 等[21]將三維 FCN 與 PPM 進行有效結合,將其應用于 CT 圖像中的腎臟和腎腫瘤分割,得到腎臟和腎腫瘤分割的 Dice 系數分別為 0.931 0 和 0.802 0。Chen 等[22]提出的 DeepLabV3+網絡采用基于空洞卷積的空間金字塔模塊(atrous spatial pyramid pooling,ASPP),以并行的方式通過不同膨脹率的空洞卷積提取圖像語義特征并編碼多尺度的上下文信息,在解碼方面將高級語義特征圖和低級細節特征圖進行融合細化分割結果。該方法在自然圖像分割領域被廣泛應用,但在醫學圖像領域該方法應用較少。
由于腹部 CT 圖像背景復雜,且腎腫瘤區域在腹部 CT 中所占比例較小,直接從完整的 3D CT 圖像自動分割腎腫瘤難以取得令人滿意的分割精度。因此,本文針對腎腫瘤自動分割提出基于 3D U-Net 與 DeepLabV3+級聯的多尺度卷積網絡。首先使用 3D U-Net 對完整的 3D CT 圖像進行腎臟分割,然后采用具有多尺度金字塔特征編碼模塊的 DeepLabV3+網絡對腎臟區域進行多尺度特征提取及融合分析,以得到更準確的腎腫瘤分割結果。
1 研究方法
1.1 腎腫瘤自動分割方法流程
本文方法的整體流程如圖 1 所示,包括圖像預處理,基于 3D U-Net 的腎臟分割,基于連通域分析的腎臟分割后處理,基于 DeepLabV3+網絡的腎腫瘤分割以及利用腎臟分割模板信息剔除部分假陽性目標的腎腫瘤分割結果后處理。

1.2 圖像預處理和數據增強
數據預處理包括以下三個步驟:① 灰度截斷:通過計算所有數據腎臟范圍內灰度值的第 5 和第 95 百分位數分別作為灰度截斷的上限值和下限值[23]。經計算得到上限值,下限值為
= –79;② Z-score 標準化:通過減去圖像灰度值的均值并除以方差進行計算,其中均值和標準差的計算只基于腎臟區域的灰度值;③ 重采樣:在腎臟分割預處理過程中將所有樣本的空間分辨率重采樣至(1.62 mm,1.62 mm,3.22 mm),在腎腫瘤分割網絡中所有樣本的空間分辨率保持不變。
為提高訓練樣本數量和多樣性從而提升模型泛化能力,在腎臟分割網絡訓練過程中對完整的 3D CT 圖像隨機裁剪 patch 作為 3D U-Net 的輸入,并基于鏡像變換進行數據增強。對于腎腫瘤分割任務,基于 Albumentations 庫[24]對腎臟區域訓練圖像進行在線擴充,方式包括隨機旋轉、彈性形變、上下左右四個方向隨機翻轉以及對比度增強。
1.3 基于 3D U-Net 的腎臟分割網絡
為了實現腎臟自動分割,設計了五層結構的 3D U-Net,如圖 2 所示。在特征提取的下采樣階段包含 5 層卷積下采樣層,采用步長為 2 的 3 × 3 × 3 卷積。特征提取階段的每一層采用單層卷積結構,解碼階段采用雙卷積結構。每一層卷積結構由標準 3 × 3 × 3 卷積層、實例標準化層(instance normalization,IN)以及 ReLU 激活函數構成。特征提取階段的基準通道數設置為 30,在每次下采樣的過程中,特征圖通道數以 2 倍擴增并且特征圖的大小變成原來的 1/2。由于層間分辨率為層內分辨率的 1/2,在第一次下采樣時保持Z軸方向的特征圖尺寸不變,X和Y軸方向的特征圖減半,從而得到三個方向上尺寸大小一致的特征圖。隨后每次下采樣后特征圖尺寸大小減半,編碼路徑將得到最小為 5 × 5 × 5 的特征圖。在上采樣過程中,利用步長為 2、卷積核尺寸為 3 × 3 × 3 的反卷積恢復圖像分辨率,通過同級之間的跳躍連接進行特征融合以增強圖像細節。融合特征圖經過 Softmax 分類層得到 CT 圖像的像素級分類標簽,然后采取基于最大連通域的后處理算法,只保留兩個或一個(只有一個腎臟時)連通區域,其他非最大連通域的像素點都被設置為背景,從而從完整的 3D CT 圖像中分割出腎臟區域。

在通過 3D U-Net 和后處理自動分割出腎臟區域后,計算腎臟區域的最小包圍立方體,X軸和 Y 軸方向分別向外擴展 20 個體素點,Z軸方向向外擴展 5 個體素點,進行圖像裁剪以獲取腎臟感興趣區域(region of interest,ROI)作為腎腫瘤分割任務的訓練數據。
1.4 基于 DeepLabV3+的腎腫瘤分割
1.4.1 DeepLabV3+網絡
腎腫瘤分割網絡采用融合多尺度結構信息的 DeepLabV3+網絡,如圖 3 所示。其中的特征提取網絡采用 ResNet50[25]的預訓練模型,基于殘差連接的特征提取網絡可減輕網絡訓練過程中的梯度消失問題,使網絡能夠提取到具有抽象語義性的深層特征。網絡的初始化卷積層采用 stride = 2、padding = 3、卷積核大小為 7 × 7、卷積核數量為 64 的標準卷積以及批標準化(batch normalization,BN)操作和 ReLU 激活函數,去掉原始的最大池化層。經過初始化卷積層的特征圖大小為 80 × 80,通道數為 64,后面連接四個特征提取階段,每個階段由一個殘差瓶頸結構 1 和若干個殘差瓶頸結構 2 組成,如圖 4 所示。殘差瓶頸結構 1 位于每個特征提取階段的第一層,其中第一個 1 × 1 卷積將特征圖通道數和大小同時減半,中間的 3 × 3 卷積用于提取語義特征;第二個 1 × 1 卷積將特征通道數恢復至原來的大小;側邊 1 × 1 卷積將輸入特征圖的通道數擴充至輸出特征圖的大小。殘差瓶頸結構 2 中的兩個 1 × 1 卷積分別用于壓縮和擴充通道數以增強非線性能力,同時可節省計算資源。為了減少下采樣造成的腎腫瘤細節信息丟失,在特征提取的最后三個階段采用步長為 2 的卷積層并保持特征圖尺寸不變,經過特征提取 Backbone 輸入到 ASPP 模塊中的特征大小為 20 × 20。表 1 列出了特征提取 Backbone 的具體細節。



在基于殘差連接的特征提取路徑后連接基于空洞卷積的 ASPP 模塊,包含 5 個分支結構,分別為 1 × 1 卷積和膨脹率為 2、4、8 的 3 × 3 卷積。采用不同膨脹率的卷積核,可使網絡具有不同大小的感受野,提取多尺度特征,從而更好地適應不同大小的腫瘤,全局平均池化操作能夠增強網絡的全局特征,有助于增強腫瘤的識別能力。將 5 個分支輸出的不同尺度的特征通過插值上采樣至相同尺寸并沿著特征通道方向將 5 組特征圖拼接后得到多尺度融合特征。
在解碼階段,將階段 1 的低級特征和多尺度高級特征進行融合以增強分割結果的細節信息和邊緣信息。具體流程為將階段 1 輸出的 256 通道特征圖通過 1 × 1 卷積映射為通道數為 48 的特征圖,然后和上采樣后的多尺度特征融合結果拼接,再通過 3 × 3 卷積操作和上采樣恢復圖像的分辨率,經過 Sigmoid 函數映射并二值化后得到腎腫瘤分割結果。
1.4.2 損失函數
采用交叉熵損失函數,通過逐像素計算像素點預測概率值與金標準分布之間的差異得到損失函數的值。其計算方式如下:
![]() |
其中,代表真實值,
代表網絡模型的預測值。
1.5 腎腫瘤分割后處理
通過 DeepLabV3+網絡得到的腎腫瘤分割結果,可能會包含一部分位于腎臟外的過分割區域。為了去除這部分假陽性區域,采用腎臟分割結果作為腎腫瘤位置的先驗信息,取腎臟分割結果和基于 DeepLabV3+網絡的腎腫瘤分割結果的交集作為最終的腎腫瘤分割結果。
2 實驗與結果分析
2.1 實驗數據
本文使用的數據來自生物醫學圖像分析平臺 Grand Challenges 上公開的 Kits2019 腎腫瘤公開挑戰賽[26]的訓練數據集共 210 例。該數據集提供腎臟和腎腫瘤的金標準,其中腎臟標記為 1,腎腫瘤標記為 2,背景標記值為 0。圖像大小為 512 × 512 × L(L 為 CT 數據中的切片數量,范圍為 30~1 000),X和Y軸方向上的分辨率范圍為 0.45~1.0 mm,層厚為 0.5~5.0 mm。
從蘇州科技城醫院搜集 30 例腎腫瘤患者的動脈期增強 CT 圖像作為外部測試集。每例 CT 數據的冠狀位、矢狀位和橫斷位三個方向的空間分辨率均為 0.66 mm,包含的切片數量為 53~134 張。每個患者均含有兩只腎臟且只有單側腎臟含有腫瘤。由 2 名經驗豐富的影像科醫生對腎腫瘤進行手工勾畫,確定分割金標準。實驗獲得蘇州科技城醫院倫理委員會批準。
2.2 評估指標
為了準確評估分割精度,本文采用了廣泛使用的 Dice 系數和 Jaccard 系數作為主要的評價指標,其定義如下:
![]() |
![]() |
其中,代表網絡模型預測輸出的腫瘤分割結果,
代表真實的腫瘤區域。
和
的交集代表正確分割的腫瘤區域。考慮到圖像分割可以看成是一種像素級別的分類任務,因此另外采用分類任務中常用的敏感度和精確度評價指標來進一步衡量分割精度,其計算公式如下:
![]() |
![]() |
其中,被正確分為腫瘤的像素個數為真陽性(true positive,TP),被正確分為正常組織的像素個數記為真陰性(true negative,TN),被錯誤分為腫瘤的像素個數記為假陽性(false positive,FP),被錯誤分為正常組織的像素個數記為假陰性(false negative,FN)。所有評價指標越高表明模型的分割效果越好。
2.3 實驗設置
本文將公開數據集的 210 例數據隨機劃分進行五次五折交叉驗證實驗,每種網絡選取五折交叉驗證中的最優模型在蘇州科技城醫院的 30 例外部測試集上進行測試,以評估模型的泛化能力。
實驗環境配置為如下。CPU:Intel i7-9700k@3.6 GHz,內存:32 GB,GPU:NVIDIA GTX 2080Ti;所用系統為 Windows10 操作系統,深度學習框架為 Pytorch1.1.0[27],圖像預處理和后處理庫為 SimpleITK。
所有網絡的訓練均采用 Adam 優化算法,初始學習率設置為 0.000 3。在訓練腎臟分割模型時,將訓練集批大小設置為 1,每個 epoch 里隨機對 250 個樣本進行采樣作為網絡輸入。整個訓練過程共設置 100 次迭代,每 20 次迭代將學習率衰減一半。在進行腎腫瘤分割模型訓練時,將訓練集批大小設置為 16。采用基于 ReduceLROnPlateau 的自動學習率衰減,即當驗證集 loss 值在 30 個 epoch 內的下降幅度小于 0.000 1,則將學習率自動減小為原來的 1/5。訓練的最大 epoch 設置為 200,每個 epoch 中所有的訓練集數據都參與網絡參數的更新。
2.4 結果分析
3D U-Net 分割網絡結合基于最大連通域的后處理,可以從整個腹部 CT 圖像中準確分割出腎臟,驗證集平均 Dice 系數及標準差為 0.932 0 ± 0.043 0,平均 Jaccard 系數及標準差為 0.875 0 ± 0.068 0,平均敏感度及標準差為 0.922 0 ± 0.068 0,平均精確度及標準差為 0.945 0 ± 0.037 0。圖 5 展示了基于 3D U-Net 及后處理的腎臟分割結果,可以看到分割結果包含絕大部分腎臟區域,盡管邊緣存在一定的欠分割,但是能夠滿足準確裁減出包含腎腫瘤的腎臟 ROI 區域的要求。

針對腎腫瘤分割,表 2 列出了在公開數據集上進行五折交叉實驗得到的平均分割結果。可以看出,DeepLabV3+和 PSPNet 的分割性能顯著優于 Unet++和 Unet3+。Unet++和 Unet3+網絡只是基于編碼路徑在下采樣的作用下獲取多尺度的感受野,但是下采樣擴充感受野的能力有限且無法自由調整感受野的大小。過分追求大感受野而采用大量的下采樣操作反而會丟失圖像細節信息。PSPNet 和 DeepLabV3+采用的是特征金字塔策略,其中 PSPNet 采用的多尺度池化可能造成細節信息的損失,而本文采用的 DeepLabV3+利用多尺度空洞卷積核直接提取圖像的多尺度特征且可以針對具體任務設計相應的尺度大小。針對尺度差異較大的腎腫瘤分割任務,基于空洞卷積的特征金字塔策略能獲取更為有效的多尺度特征。實驗結果表明,DeepLabV3+網絡在 Dice 系數、Jaccard 系數、敏感度和精確度四項評估指標中均達到了最優。

表 3 所示的是使用公開數據集上訓練得到的分割模型在蘇州科技城醫院 30 例臨床數據中進行測試的結果,DeepLabV3+網絡同樣取得了最優的分割精度,并且遠優于在公開數據集上表現較為接近的 PSPNet。綜合來看,DeepLabV3+網絡對腎腫瘤分割的泛化能力優于其余三種網絡。

為了進一步直觀地對比不同網絡模型對腎腫瘤分割結果的差異,我們從 Kits 數據集選取部分典型的分割結果進行直觀的定性分析,并與專家手工標注的金標準進行對比,如圖 6 所示。其中紅色邊緣為金標準輪廓線,綠色邊緣為網絡分割結果的輪廓線。可以看到,對于腫瘤邊界較為明顯且紋理清晰的腎腫瘤(Case26),所有網絡均取得了很高的分割精度,Dice 系數均能達到 0.950 0 以上。而對于灰度對比度較低的圖像(如 Case14、Case137、Case65 和 Case188),由于腫瘤與其周邊區域不存在明顯的邊界,分割網絡往往難以取得較高的分割精度。從這些困難樣本的分割結果可以看出,基于空洞卷積金字塔特征模塊的 DeeplabV3+在對比度較差的情況下也能得到較為準確的分割邊界,其他多尺度網絡框架對于對比度低的圖像則幾乎無法準確識別腎腫瘤。另外,四種分割網絡對大腫瘤 Case78 均能得到較高的分割精度,但是 DeepLabV3+分割得到的腫瘤邊界更貼合金標準。對于小腫瘤 Case27,Unet++和 Unet3+無法準確定位腫瘤位置;PSPNet 網絡雖然能定位到腎腫瘤,但分割結果中包含過分割的背景部分。只有 DeepLabV3+網絡能準確定位腎腫瘤并取得了較高的分割精度。分析網絡結構可知,基于空洞卷積多尺度模塊的 DeepLabV3+網絡能夠感知的感受野范圍更大,更適用于多尺度腫瘤分割;同時在解碼時融合了分辨率較高的低級特征圖,能夠有效優化分割細節。而其他網絡都存在不同程度的過分割現象,且在低對比度圖像中更加明顯,其原因可能為網絡感受野受限,過于關注局部信息,難以有效學習全局信息,導致難以正確分割與腫瘤相似的背景區域。

紅色曲線為金標準輪廓線,綠色曲線為網絡分割結果的輪廓線
Figure6. Segmentation results of validation set for kidney tumorsthe red curve is the gold standard contour,and the green curve is the contour generated by the deep model
從圖 7 中外部測試數據的分割結果來看,DeepLabV3+網絡與其他方法相比,對腫瘤的欠分割和過分割現象同樣有較大改善。DeepLabV3+對 Case15 的分割結果與金標準十分接近,而其他三種方法均存在不同程度的過分割和欠分割。Case39 中的腎腫瘤內部紋理存在較大差異,表現出明顯的異質性。在其他三種網絡存在明顯欠分割的情況下,DeepLabV3+依然能夠較為準確地分割出腎腫瘤,表明其能更好地處理因腫瘤異質性引起的紋理差異問題。

紅色曲線為金標準輪廓線,綠色曲線為網絡分割結果的輪廓線
Figure7. Segmentation results of external test set for kidney tumorsthe red curve is the gold standard contour, and the green curve is the contour generated by the deep model
綜合以上實驗結果可知,相較于其他網絡,DeepLabV3+網絡具有更優的腎腫瘤分割精度,但仍難以滿足臨床實際需求。以放療需求為例,腫瘤的位置、大小和形狀等信息都會直接關系到照射野、計量配比等治療參數的確定,因此對于分割結果與實際腫瘤的一致性要求非常高。本文方法的自動分割結果常常無法滿足適形放療的精度要求。圖 8 展示了兩類較為典型的分割精度較低的樣例。第一類在腎臟區域存在其他與腎腫瘤表現相似的非腫瘤病變(如腎臟囊腫),如圖 8 左列所示。此時網絡模型往往會將良性的腎囊腫判斷為腎腫瘤,導致過分割。可能的原因是訓練數據中腎囊腫病例數量少,深度網絡在訓練過程中無法對良性腎囊腫進行充分學習,難以提取有效的語義特征來區分腎囊腫和腎腫瘤從而導致誤分割。腎腫瘤與周圍腎實質邊界模糊、灰度相似也容易導致分割結果欠佳,如圖 8 右列所示。此時網絡模型對腫瘤邊緣的識別能力減弱,易將腫瘤誤分為正常組織或將正常組織誤劃分為腫瘤。此外,針對公開數據集中 90 例局限于腎臟且最大徑 ≤ 4 cm 的小腫瘤,DeepLabV3+網絡的平均 Dice 系數及標準差為 0.696 4 ± 0.168 6,這表明僅依靠 DeepLabV3+的多尺度特征策略難以完全克服小腫瘤相對大腫瘤分割精度較低的問題。

紅色曲線為金標準輪廓線,綠色曲線為網絡分割結果的輪廓線
Figure8. Poor segmentation results of validation set for kidney tumorsthe red curve is the gold standard contour, and the green curve is the contour generated by the deep model
為了進一步提高腎腫瘤的分割精度,可以在訓練集加入更多的包含腎囊腫的數據來提升網絡模型腎囊腫和腎腫瘤的區分能力。從網絡模型的優化角度出發,可以在網絡中添加注意力模塊[28-29]來更好地挖掘有效特征信息并抑制無關信息,同時通過在損失函數中增加基于邊緣信息的損失[30]以引導網絡有效學習腫瘤邊緣特征,從而獲得與實際腫瘤一致性更高的分割結果,是今后主要的研究方向。
3 結 語
本研究提出了一種基于 3D U-Net 與 DeepLabV3+級聯網絡的腎腫瘤自動分割方法。通過 3D U-Net 從完整的 CT 數據中分割出腎臟,并基于分割結果得到腎臟 ROI 區域作為 DeepLabV3+網絡的輸入,大大減少了腹部 CT 圖像中復雜背景對于腎腫瘤分割的干擾。采用基于 DeepLabV3+的空間金字塔池化卷積模塊有效地提取腎腫瘤多尺度特征,相比基于多階段特征連接的多尺度分割網絡 Unet++、Unet3+,能有效解決小腫瘤漏診和大腫瘤欠分割的問題。相比于 PSPNet 單純依靠上采樣恢復圖像分辨率,DeepLabV3+采用簡單有效的高低分辨率特征圖融合解碼,優化了分割細節,在低對比度、邊緣模糊、小腫瘤等多種困難樣本中的分割精度更高,且在外部測試集上的泛化能力較好。因此,本文采用的基于 3D U-Net 和多尺度 DeepLabV3+級聯網絡的方法能夠更好地應用于腎腫瘤分割任務。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。