磁共振(MR)成像技術是前列腺癌診斷的重要工具,通過計算機輔助診斷技術準確分割磁共振前列腺區域對于前列腺癌的診斷具有重要意義。本文使用深度學習方法,對傳統V型網絡(V-Net)網絡進行了改進,提出了一種改進的端到端的三維圖像分割網絡,以期提供更精確的圖像分割結果。本文首先將軟注意力機制融合進傳統V-Net的跳躍連接中,結合短跳躍連接、小卷積核進一步提升網絡分割精度。然后使用前列腺MR圖像分割評估2012年挑戰賽(PROMISE 12)數據集,針對前列腺區域進行了分割,使用戴斯相似系數(DSC)和豪斯多夫距離(HD)對模型進行了評估,分割模型的DSC值和HD值分別可達到0.903和3.912 mm。實驗結果表明,本文算法能夠提供更準確的三維分割結果,可以準確高效地分割前列腺MR圖像,為臨床診斷和治療提供可靠的依據。
引用本文: 高銘遠, 閆士舉, 宋成利, 朱澤華, 解爾澤, 方博雅. 基于改進V型網絡的磁共振圖像前列腺區域分割. 生物醫學工程學雜志, 2023, 40(2): 226-233. doi: 10.7507/1001-5515.202202052 復制
0 引言
根據世界衛生組織國際癌癥研究機構2020年發布的全球癌癥統計數據顯示,前列腺癌是2020年男性第二大常見癌癥[1],發病率和死亡率僅次于肺癌,并且其也是世界上超過一半的國家中男性最常診斷出的癌癥。近年來,隨著人口老齡化程度的不斷加深,我國前列腺癌發病率及死亡率都有逐年增高的趨勢[2-3],2020年我國前列腺癌的新發病例數為11.5萬人,死亡人數為5.1萬人[4]。早期前列腺癌可以進行有效診療和控制,及時接受根治性手術可以獲得良好的預后,在晚期時前列腺癌通常會轉移,患者前列腺癌細胞未發生轉移則其生存時期或較長,癌細胞轉移后則難以治愈[5-7],所以前列腺癌早篩查、早治療就極為重要。
磁共振(magnetic resonance,MR)成像作為一種無損無創的影像學檢查工具,在前列腺癌的檢測和診斷中發揮著重要的作用[8]。在進行前列腺診斷時,醫生首先要將MR圖像中感興趣區域分割出來,進而獲得其位置、大小、形狀等信息。隨著計算機輔助診斷技術的不斷發展,利用計算機輔助診斷技術進行前列腺癌的診斷,可以有效地提高臨床醫生的診斷效率[9]。而前列腺區域的精確劃分,是計算機輔助診斷前列腺癌的關鍵環節,直接影響對腫瘤良惡性的準確判斷。
在過去的幾十年間,研究者們基于傳統的方法提出了很多前列腺區域分割算法,包括傳統機器學習算法、水平集、主動輪廓模型等方法。例如,Vincent等[10]提出了一種基于主動外觀模型構建的全自動系統分割前列腺MR圖像,但該方法有時會忽略插值導致的尖銳特征。Malmberg等[11]提出了一種交互式分割前列腺MR圖像的通用方法,以二維切片顯示分割結果,但該方法需要人工較多地進行交互。張永德等[12]提出的基于邊緣距離正則化的兩步前列腺MR圖像分割方法,首先在T1圖像分割出前列腺外輪廓,之后在T2加權圖像上分割出前列腺內輪廓,該方法只能對二維圖像進行分割,不能進行三維圖像分割。
近年來,隨著計算機技術的不斷發展,深度學習技術已逐漸應用于醫學圖像分割領域[13-14],以U型網絡(U-Net)為代表的全卷積網絡(fully convolutional network,FCN)取得了良好的性能[15-16],研究人員提出了各種基于FCN的醫學圖像分割方法[17]。Milletari等[18]提出的V型網絡(V-Net)是一種可以對圖像體素進行處理的FCN,雖然效果有一定的提升,但是該模型的泛化程度較低且邊界不清晰。Kohl等[19]將對抗網絡的思想結合進U-Net網絡中,提出了一種新的卷積神經網絡,該方法雖然能有效地檢測出病灶大致區域,但是分割精度需要加強。因此,準確有效地自動分割前列腺仍然是前列腺干預和前列腺癌檢測中重要且困難的任務。
本文以傳統V-Net為框架,引入軟注意力機制,對前列腺MR圖像的 T2加權圖像進行分割算法研究,利用搭建好的網絡模型直接對現有圖像進行處理,以期實現端到端的三維圖像分割,達到提高原有算法自動分割精度的目的,進而為臨床診斷和治療提供可靠的依據。
1 材料與方法
1.1 實驗數據
本文研究的數據來源為國際醫學圖像計算和計算機輔助干預協會組織的前列腺MR圖像分割評估2012年挑戰賽(prostate MR image segmentation evaluation 2012,PROMISE 12)(網址:https://promise12.grand-challenge.org/)中提供的免費公開使用的圖像數據集[20]。該數據集包含50例患有良性疾病和前列腺癌患者的MR T2加權圖像及對應的金標準區域。金標準區域首先由經驗豐富的醫生手動分割,之后再由專家進行確認,以確保分割結果的準確性。
1.2 實驗流程
由于數據集圖像的空間分辨率從320 × 320到512 × 512,切片數量從24~48片不等,所以要先進行數據預處理,通過對體積的重新采樣和插值,將它們統一分辨率調整到128 × 128 × 64的相同維度,并且使用隨機數據增強方法來增加圖像數量。隨機數據增強方法包括隨機水平翻轉、隨機角度旋轉、平移、縮放以及加噪聲等操作進行十倍擴充。將擴增后的訓練樣本按照 8:2 的比例分為訓練集和測試集,使用5折交叉驗證的方式訓練網絡模型。在模型訓練時將圖像和掩碼一一對應送入改進V-Net網絡進行模型訓練,通過戴斯相似系數(dice similarity coefficient,DSC),豪斯多夫距離(hausdorff distance,HD),敏感度(sensitivity,SEN)和精確度(precision,PRE)來衡量模型性能。調取合適參數,取得最優解后預測分割結果,實驗整個流程圖如圖1所示。

1.3 方法
1.3.1 V-Net模型
U-Net的提出為醫學圖像分割領域提供了新方法,并且其也成為了最常用的圖像分割網絡之一。在此基礎上,V-Net提出了一種廣泛應用于三維圖像的分割模型,并使用三維卷積來捕捉更多特征信息,以預測每個體素的分類。此外,V-Net引入了新的目標函數,該目標函數專門用于醫學圖像分割,可以處理由目標區域較小而造成的樣本極端不平衡的情況。由于V-Net具有出色的性能,在進行如肺結節、腦腫瘤、胰腺腫瘤等具有三維結構的病灶分割時,也可以獲得良好效果[21-22]。V-Net為一種典型的編碼器—解碼器結構,編碼器部分將不同分辨率下的操作分為不同階段,每個階段分別進行卷積操作,并且由于受到殘差網絡(residual net,ResNet)的啟發[23],在進行下采樣操作前引入殘差學習,可使網絡更深入,同時減輕梯度消失問題。具體而言,下采樣會減少輸入的尺寸并增加后續網絡層的感受野;解碼器部分主要是提取特征和擴展低分辨率的空間支持,并通過卷積操作將分割結果恢復成與輸入圖像大小一致的分割結果。在編碼器中每個階段的結果都會作為解碼器的部分輸入,以保留相關信息提升分割結果的精度。
1.3.2 注意力機制
在深度學習領域,注意力機制在圖像處理領域中發揮著很大的作用,無論是圖像分類、分割還是重建,都可以看到注意力機制的身影,其已經成為神經網絡技術中最值得關注的重要組成部分。與人類的視覺注意力機制相似,人類可以通過快速掃描全局的圖像,定位到需要重點關注的部分,然后對這區域投入更多的精力,以獲取目標區域的更多信息,人類的視覺注意力機制極大地提高了對信息處理的準確性及效率。其中,注意力U-net(attention U-Net,At-Unet)[24]將軟注意力機制融入了U-Net網絡中用于醫學圖像的分割。At-Unet在U-Net的跳躍連接過程中加入了注意力門(attention gate,AG)模塊,可以使網絡在使用編碼器的相關特征時,更多地注意與輸入相關的特定部分,而不是每個輸入的特征,AG模塊如圖2所示。

圖2中,g為來自于下一層的解碼層特征圖,x為來自于上一層的編碼層特征圖,分別通過1×1×1的卷積層后相加,之后經過線性整流(rectified linear unit,ReLU)激活函數、1×1×1的卷積層和S型生長曲線(sigmoid)激活函數,通過重采樣后可得到與輸入的編碼層特征圖大小相同的注意力系數α,注意力系數的值為0~1之間,這一部分是可導的,可以通過訓練調節注意力系數的值,最后將注意力系數α和編碼層特征圖x相乘得到最終的輸出特征圖。
1.3.3 改進V-Net網絡
傳統的V-Net采用和U-Net相同的跳躍連接機制,允許解碼器在解碼期間使用來自編碼器提取的特征,但是這種機制并沒有充分利用到編碼器階段提取到的低層特征信息。本文以V-Net為基礎框架,將AG模塊融入V-Net中,改進了其跳躍連接部分的輸出機制,使網絡更多關注目標區域的信息,進而提升整個分割網絡的性能,改進V-Net 模型架構的示意圖如圖3所示。

本文考慮將整個MR圖像輸入網絡,可充分利用其三維空間信息,因此首先將輸入圖像統一到同一分辨率大小,即統一成128 × 128 × 64的尺寸,該網絡架構中定義了一個卷積—標準化—激活—隨機失活(convolution-batchnorm-ReLU-dropout, CBRD)塊,它由兩個連續的3 × 3 × 3卷積層,批量標準化(batch normalization,BN)層和 ReLu 激活函數層以及隨機失活(dropout)層共同組成。BN層被視為正則化器,這使得網絡更加泛化,并且提高神經網絡的訓練速度[25]。兩個3×3×3的卷積有著和5 × 5 × 5的卷積核相同的感受野,參數量卻更少,這也稱為卷積層的智能分解[26]。dropout 層被添加在神經網絡中,可以在模型訓練期間隨機舍棄部分神經元,以防止出現過擬合的情況,進而提高整個網絡的性能。此外,CBRD塊中的所有卷積都應用了適當的填充,在解碼和編碼的過程中每一層都由許多的CBRD塊組成。使用步長為2的2 × 2 × 2的卷積來完成下采樣操作,每次下采樣操作將體積減少為原來的2倍,并增加了網絡層的感受野,與普通的池化操作不同,步長為2的卷積操作增加了特征間的依賴關系,以防止特征丟失。由于沒有輸出映射池化層的反向傳播,利用卷積操作來代替池化操作可以使訓練期間占用更小的內存。
在編碼完成后進行解碼操作時,使用轉置卷積進行上采樣。在上采樣期間,U-Net在相應的編碼器層與解碼器層之間級聯,以形成長跳躍連接,從而提供更多的特征并有助于恢復下采樣過程中丟失的空間信息。在此基礎上,將AG模塊加到長跳躍連接之間。AG模塊兩個輸入信號分別來自于上一層的編碼層特征圖以及下一層的解碼層特征圖,在經過AG模塊之后,會得到帶有注意力權重系數的輸出特征圖,讓目標區域的注意力系數值趨近1,不相關的區域趨近0。這樣,注意力就被聚焦在目標區域的分割上,同時抑制神經網絡去學習與目標區域不相關的區域。
除了這些長跳躍連接外,CBRD塊之間還使用了短跳躍連接,這提供了更快的收斂速度并防止了深度網絡中的梯度消失問題[27]。最后一個卷積層的輸出將通過一個1 × 1 × 1的卷積和sigmoid 激活函數進行最終的分類預測,當體素點的預測結果大于閾值(本文設置為 0.6)時,則被預測為前景,從而得到整個圖像的分割結果。
1.4 模型訓練
本文軟硬件環境為:機器學習平臺TensorFlow(Google Inc.,美國),編程語言Python 3.6(Centrum Wiskunde & Informatica,荷蘭),操作系統CentOS(Red Hat Inc.,美國),中央處理器(Intel(R) Xeon(R) Gold 6132 @ 2.60 GHz,Intel Inc.,美國),圖形處理器(NVIDIA Tesla V100,NVIDIA Inc,美國)。實驗初始學習率為0.000 1,批處理大小設置為2,訓練迭代周期(epoch)為22 949,使用自適應矩估計(adaptive moment estimation,Adam)優化算法自適應地調整學習率。
模型訓練使用特維斯基損失函數(Tversky Loss),它是DSC和杰卡德(Jaccard)系數的廣義系數,Tversky Loss公式如式(1)所示:
![]() |
式中,A表示模型分割出的預測圖像,而B表示標注好的真實掩碼圖像。通過調整α和β這兩個超參數可以控制這兩者之間的權衡,進而影響SEN等指標。本網絡中α = 0.7、β = 0.3。
1.5 評價指標
為了實現對網絡模型的定量評估,本文使用DSC、HD、SEN、PRE作為評價指標,如式(2)~式(5)所示:
![]() |
![]() |
![]() |
![]() |
式中,表示了集合AB間所有像素點對之間的最大值,
表示了集合A中像素點a到集合B中像素點b的最小距離的最大值。同理可得,
表示了集合B中像素點b到集合A中像素點a的最小距離的最大值。以上指標中DSC用來衡量預測結果和金標準之間的相似度;HD衡量了網絡預測結果和標簽圖像的最大不匹配度;SEN表示了預測結果中分類正確的像素占金標準中總像素的比例;PRE表示了預測結果中分類正確的像素占分割結果中總像素的比例。
2 結果與討論
2.1 實驗結果
模型訓練開始時,本文所提網絡會嘗試在圖像中心找到一個橢圓形物體。隨著迭代次數的不斷增加,網絡會不斷調整參數以尋找最優解。本文模型最優訓練時間約為5 h,epoch設置過大會造成過擬合現象,而如果epoch設置的不足則會欠擬合,本文中的epoch設置為10倍的訓練圖像,保存不同參數下的訓練結果。通過對同一圖像進行預測,將訓練過程中的預測圖像變化可視化,如圖4所示。

在對測試集進行測試時,將測試數據輸入訓練好的最優模型進行預測,計算評價指標,無需過多的后處理,即可得到前列腺區域分割結果。隨機選取其中一例患者的金標準和預測結果的三維圖像不同視圖展示結果,如圖5所示。

本文提出的改進V-Net算法DSC值為0.903,HD值為3.912 mm,SEN和PRE分別為0.892和0.887,明顯優于V-Net網絡的分割結果,如表1所示。將同一幅圖像分割結果與V-Net網絡分割結果和醫生分割出的金標準進行對比,其水平面、矢狀面和冠狀面分割結果如圖6所示,其中紅色標簽為醫生分割的金標準圖像,綠色標簽為本文提出的改進V-Net的分割結果,黃色標簽為V-Net的分割結果,可以明顯看出,在三個解剖面內本文提出的改進V-Net算法都明顯優于V-Net算法的分割結果。


2.2 與其他算法對比
在使用同一數據集的情況下,如圖7所示,分別是以本文算法、文獻[18]和文獻[28]中不同深度學習方法所得到的同一測試樣本的分割結果以及醫生給出的金標準區域,其中青色區域為三維U-Net(three-dimensional U-Net,3D-Unet)的分割結果,黃色區域為V-Net的分割結果,紅色區域為金標準區域,綠色區域為本文算法分割結果,通過圖7可以直觀看出,本文算法優于其他兩種深度學習算法。

表2中分別列舉了文獻[10]、文獻[23]、文獻[29]中提出的算法在前列腺MR圖像區域分割得到的DSC值和HD值。可以看出,其中文獻[29]所提算法分割效果最差,DSC值為0.835,HD值為7.73 mm。其余算法中,文獻[10]的算法分割效果較好為0.879,但是由于該方法會忽視掉尖銳特征,DSC值仍低于本文提出的算法。文獻[23]的V-Net方法相比于其他算法獲得HD值較低,為5.71 mm,但仍然大于本文中提出的算法,這表明本文提出的改進V-Net算法對前列腺MR圖像的分割效果較好,精度較高。

2.3 討論
對于MR圖像中前列腺區域而言,由于前列腺與周圍組織形狀差異較大,占圖像比例較小,并且存在與相鄰器官一側邊界模糊的問題,臨床醫生在進行人工分割標注時會存在主觀性大、耗時長等問題,因此需要一種自動的前列腺區域分割算法以提高效率。此外,醫學圖像大多是三維的,在進行疾病診斷時,需要評定病灶的體積大小,如果先對二維切片進行處理,再進行三維重建,整個處理過程將消耗很多時間。因此,在這種情況下,直接對三維圖像進行處理,并自動將前列腺區域分割出來,將在一定程度上提高分割的速度,進而提高計算機輔助診斷前列腺相關疾病的效率。
本文提出的算法,可以直接對三維圖像進行處理,一次輸入整個三維圖像,在沒有進行后處理的情況下,分割效果依然優于傳統的V-Net網絡。通過圖6展示的本文算法與V-Net和金標準的不同解剖面的分割結果對比圖可以看出,作為基線的V-Net網絡雖然能夠把前列腺區域分割出來,但仍然存在假陽性區域,分割結果不準確等現象,這可能是由于分割網絡對特征提取的不明顯所致。本文提出的算法通過引入軟注意力機制,可以使網絡更多地關注目標區域,從而提高網絡的分割精度,因此在結果上更接近于醫生勾畫的金標準區域。在使用DSC和HD進行評估時,本文提出的算法DSC值相比V-Net提升了3.6%,HD降低了1.798 mm。本文算法還與其他傳統方法進行了比較,通過表2可以看出,本文提出的算法分割效果較為理想,精度較高。三維圖像相比二維圖像可以提供更多的空間信息,使用端到端的深度學習方法進行前列腺區域分割,能夠為臨床診斷提供更多的依據,從而有利于提高對前列腺相關疾病的精確診斷。
本文提出的網絡模型相較傳統V-Net的分割精度有所提高,但在某些方面仍然存在不足。例如,在分割后的三維結果中,可以看出本文算法分割結果與金標準相比仍存在邊界不清晰的情況。這可能是由于使用深度學習的分割方法時,需要較多的圖像數據,且訓練樣本的數量和質量都會在一定程度上影響網絡的分割性能。另外,引入了軟注意力模塊后,會增加網絡的計算量,易導致訓練時間較長,對硬件要求較高等缺點。基于以上原因,本課題組計劃在未來收集更多數據并優化算法結構以提升算法的性能。
3 結論
本文提出了一種端到端的帶有軟注意力機制的改進V-Net的分割方法,一次性將前列腺MR圖像整個輸入,對其T2加權圖像進行了分割。該方法使用FCN,將AG模塊融入進V-Net網絡的跳躍連接中,使網絡更加關注與目標區域相關的區域,同時抑制其它不相關區域,從而提升網絡的分割性能。同時本文還提出了使用短跳躍連接和小卷積核的CBRD塊,與作為基線的V-Net相比,本文算法在分割前列腺區域方面更為準確。實驗結果表明,改進后的V-Net分割網絡DSC值和HD值分別可達到0.903和3.912 mm,優于其他網絡。綜上所述,本文算法能夠準確地分割出前列腺的三維體積,對前列腺疾病的診斷和治療有著重要意義。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:高銘遠負責本文實驗設計及論文撰寫;閆士舉、宋成利對論文修改提出建設性意見并審核;朱澤華指導實驗設計及結果分析;解爾澤、方博雅負責實驗環境的搭建及數據預處理。
0 引言
根據世界衛生組織國際癌癥研究機構2020年發布的全球癌癥統計數據顯示,前列腺癌是2020年男性第二大常見癌癥[1],發病率和死亡率僅次于肺癌,并且其也是世界上超過一半的國家中男性最常診斷出的癌癥。近年來,隨著人口老齡化程度的不斷加深,我國前列腺癌發病率及死亡率都有逐年增高的趨勢[2-3],2020年我國前列腺癌的新發病例數為11.5萬人,死亡人數為5.1萬人[4]。早期前列腺癌可以進行有效診療和控制,及時接受根治性手術可以獲得良好的預后,在晚期時前列腺癌通常會轉移,患者前列腺癌細胞未發生轉移則其生存時期或較長,癌細胞轉移后則難以治愈[5-7],所以前列腺癌早篩查、早治療就極為重要。
磁共振(magnetic resonance,MR)成像作為一種無損無創的影像學檢查工具,在前列腺癌的檢測和診斷中發揮著重要的作用[8]。在進行前列腺診斷時,醫生首先要將MR圖像中感興趣區域分割出來,進而獲得其位置、大小、形狀等信息。隨著計算機輔助診斷技術的不斷發展,利用計算機輔助診斷技術進行前列腺癌的診斷,可以有效地提高臨床醫生的診斷效率[9]。而前列腺區域的精確劃分,是計算機輔助診斷前列腺癌的關鍵環節,直接影響對腫瘤良惡性的準確判斷。
在過去的幾十年間,研究者們基于傳統的方法提出了很多前列腺區域分割算法,包括傳統機器學習算法、水平集、主動輪廓模型等方法。例如,Vincent等[10]提出了一種基于主動外觀模型構建的全自動系統分割前列腺MR圖像,但該方法有時會忽略插值導致的尖銳特征。Malmberg等[11]提出了一種交互式分割前列腺MR圖像的通用方法,以二維切片顯示分割結果,但該方法需要人工較多地進行交互。張永德等[12]提出的基于邊緣距離正則化的兩步前列腺MR圖像分割方法,首先在T1圖像分割出前列腺外輪廓,之后在T2加權圖像上分割出前列腺內輪廓,該方法只能對二維圖像進行分割,不能進行三維圖像分割。
近年來,隨著計算機技術的不斷發展,深度學習技術已逐漸應用于醫學圖像分割領域[13-14],以U型網絡(U-Net)為代表的全卷積網絡(fully convolutional network,FCN)取得了良好的性能[15-16],研究人員提出了各種基于FCN的醫學圖像分割方法[17]。Milletari等[18]提出的V型網絡(V-Net)是一種可以對圖像體素進行處理的FCN,雖然效果有一定的提升,但是該模型的泛化程度較低且邊界不清晰。Kohl等[19]將對抗網絡的思想結合進U-Net網絡中,提出了一種新的卷積神經網絡,該方法雖然能有效地檢測出病灶大致區域,但是分割精度需要加強。因此,準確有效地自動分割前列腺仍然是前列腺干預和前列腺癌檢測中重要且困難的任務。
本文以傳統V-Net為框架,引入軟注意力機制,對前列腺MR圖像的 T2加權圖像進行分割算法研究,利用搭建好的網絡模型直接對現有圖像進行處理,以期實現端到端的三維圖像分割,達到提高原有算法自動分割精度的目的,進而為臨床診斷和治療提供可靠的依據。
1 材料與方法
1.1 實驗數據
本文研究的數據來源為國際醫學圖像計算和計算機輔助干預協會組織的前列腺MR圖像分割評估2012年挑戰賽(prostate MR image segmentation evaluation 2012,PROMISE 12)(網址:https://promise12.grand-challenge.org/)中提供的免費公開使用的圖像數據集[20]。該數據集包含50例患有良性疾病和前列腺癌患者的MR T2加權圖像及對應的金標準區域。金標準區域首先由經驗豐富的醫生手動分割,之后再由專家進行確認,以確保分割結果的準確性。
1.2 實驗流程
由于數據集圖像的空間分辨率從320 × 320到512 × 512,切片數量從24~48片不等,所以要先進行數據預處理,通過對體積的重新采樣和插值,將它們統一分辨率調整到128 × 128 × 64的相同維度,并且使用隨機數據增強方法來增加圖像數量。隨機數據增強方法包括隨機水平翻轉、隨機角度旋轉、平移、縮放以及加噪聲等操作進行十倍擴充。將擴增后的訓練樣本按照 8:2 的比例分為訓練集和測試集,使用5折交叉驗證的方式訓練網絡模型。在模型訓練時將圖像和掩碼一一對應送入改進V-Net網絡進行模型訓練,通過戴斯相似系數(dice similarity coefficient,DSC),豪斯多夫距離(hausdorff distance,HD),敏感度(sensitivity,SEN)和精確度(precision,PRE)來衡量模型性能。調取合適參數,取得最優解后預測分割結果,實驗整個流程圖如圖1所示。

1.3 方法
1.3.1 V-Net模型
U-Net的提出為醫學圖像分割領域提供了新方法,并且其也成為了最常用的圖像分割網絡之一。在此基礎上,V-Net提出了一種廣泛應用于三維圖像的分割模型,并使用三維卷積來捕捉更多特征信息,以預測每個體素的分類。此外,V-Net引入了新的目標函數,該目標函數專門用于醫學圖像分割,可以處理由目標區域較小而造成的樣本極端不平衡的情況。由于V-Net具有出色的性能,在進行如肺結節、腦腫瘤、胰腺腫瘤等具有三維結構的病灶分割時,也可以獲得良好效果[21-22]。V-Net為一種典型的編碼器—解碼器結構,編碼器部分將不同分辨率下的操作分為不同階段,每個階段分別進行卷積操作,并且由于受到殘差網絡(residual net,ResNet)的啟發[23],在進行下采樣操作前引入殘差學習,可使網絡更深入,同時減輕梯度消失問題。具體而言,下采樣會減少輸入的尺寸并增加后續網絡層的感受野;解碼器部分主要是提取特征和擴展低分辨率的空間支持,并通過卷積操作將分割結果恢復成與輸入圖像大小一致的分割結果。在編碼器中每個階段的結果都會作為解碼器的部分輸入,以保留相關信息提升分割結果的精度。
1.3.2 注意力機制
在深度學習領域,注意力機制在圖像處理領域中發揮著很大的作用,無論是圖像分類、分割還是重建,都可以看到注意力機制的身影,其已經成為神經網絡技術中最值得關注的重要組成部分。與人類的視覺注意力機制相似,人類可以通過快速掃描全局的圖像,定位到需要重點關注的部分,然后對這區域投入更多的精力,以獲取目標區域的更多信息,人類的視覺注意力機制極大地提高了對信息處理的準確性及效率。其中,注意力U-net(attention U-Net,At-Unet)[24]將軟注意力機制融入了U-Net網絡中用于醫學圖像的分割。At-Unet在U-Net的跳躍連接過程中加入了注意力門(attention gate,AG)模塊,可以使網絡在使用編碼器的相關特征時,更多地注意與輸入相關的特定部分,而不是每個輸入的特征,AG模塊如圖2所示。

圖2中,g為來自于下一層的解碼層特征圖,x為來自于上一層的編碼層特征圖,分別通過1×1×1的卷積層后相加,之后經過線性整流(rectified linear unit,ReLU)激活函數、1×1×1的卷積層和S型生長曲線(sigmoid)激活函數,通過重采樣后可得到與輸入的編碼層特征圖大小相同的注意力系數α,注意力系數的值為0~1之間,這一部分是可導的,可以通過訓練調節注意力系數的值,最后將注意力系數α和編碼層特征圖x相乘得到最終的輸出特征圖。
1.3.3 改進V-Net網絡
傳統的V-Net采用和U-Net相同的跳躍連接機制,允許解碼器在解碼期間使用來自編碼器提取的特征,但是這種機制并沒有充分利用到編碼器階段提取到的低層特征信息。本文以V-Net為基礎框架,將AG模塊融入V-Net中,改進了其跳躍連接部分的輸出機制,使網絡更多關注目標區域的信息,進而提升整個分割網絡的性能,改進V-Net 模型架構的示意圖如圖3所示。

本文考慮將整個MR圖像輸入網絡,可充分利用其三維空間信息,因此首先將輸入圖像統一到同一分辨率大小,即統一成128 × 128 × 64的尺寸,該網絡架構中定義了一個卷積—標準化—激活—隨機失活(convolution-batchnorm-ReLU-dropout, CBRD)塊,它由兩個連續的3 × 3 × 3卷積層,批量標準化(batch normalization,BN)層和 ReLu 激活函數層以及隨機失活(dropout)層共同組成。BN層被視為正則化器,這使得網絡更加泛化,并且提高神經網絡的訓練速度[25]。兩個3×3×3的卷積有著和5 × 5 × 5的卷積核相同的感受野,參數量卻更少,這也稱為卷積層的智能分解[26]。dropout 層被添加在神經網絡中,可以在模型訓練期間隨機舍棄部分神經元,以防止出現過擬合的情況,進而提高整個網絡的性能。此外,CBRD塊中的所有卷積都應用了適當的填充,在解碼和編碼的過程中每一層都由許多的CBRD塊組成。使用步長為2的2 × 2 × 2的卷積來完成下采樣操作,每次下采樣操作將體積減少為原來的2倍,并增加了網絡層的感受野,與普通的池化操作不同,步長為2的卷積操作增加了特征間的依賴關系,以防止特征丟失。由于沒有輸出映射池化層的反向傳播,利用卷積操作來代替池化操作可以使訓練期間占用更小的內存。
在編碼完成后進行解碼操作時,使用轉置卷積進行上采樣。在上采樣期間,U-Net在相應的編碼器層與解碼器層之間級聯,以形成長跳躍連接,從而提供更多的特征并有助于恢復下采樣過程中丟失的空間信息。在此基礎上,將AG模塊加到長跳躍連接之間。AG模塊兩個輸入信號分別來自于上一層的編碼層特征圖以及下一層的解碼層特征圖,在經過AG模塊之后,會得到帶有注意力權重系數的輸出特征圖,讓目標區域的注意力系數值趨近1,不相關的區域趨近0。這樣,注意力就被聚焦在目標區域的分割上,同時抑制神經網絡去學習與目標區域不相關的區域。
除了這些長跳躍連接外,CBRD塊之間還使用了短跳躍連接,這提供了更快的收斂速度并防止了深度網絡中的梯度消失問題[27]。最后一個卷積層的輸出將通過一個1 × 1 × 1的卷積和sigmoid 激活函數進行最終的分類預測,當體素點的預測結果大于閾值(本文設置為 0.6)時,則被預測為前景,從而得到整個圖像的分割結果。
1.4 模型訓練
本文軟硬件環境為:機器學習平臺TensorFlow(Google Inc.,美國),編程語言Python 3.6(Centrum Wiskunde & Informatica,荷蘭),操作系統CentOS(Red Hat Inc.,美國),中央處理器(Intel(R) Xeon(R) Gold 6132 @ 2.60 GHz,Intel Inc.,美國),圖形處理器(NVIDIA Tesla V100,NVIDIA Inc,美國)。實驗初始學習率為0.000 1,批處理大小設置為2,訓練迭代周期(epoch)為22 949,使用自適應矩估計(adaptive moment estimation,Adam)優化算法自適應地調整學習率。
模型訓練使用特維斯基損失函數(Tversky Loss),它是DSC和杰卡德(Jaccard)系數的廣義系數,Tversky Loss公式如式(1)所示:
![]() |
式中,A表示模型分割出的預測圖像,而B表示標注好的真實掩碼圖像。通過調整α和β這兩個超參數可以控制這兩者之間的權衡,進而影響SEN等指標。本網絡中α = 0.7、β = 0.3。
1.5 評價指標
為了實現對網絡模型的定量評估,本文使用DSC、HD、SEN、PRE作為評價指標,如式(2)~式(5)所示:
![]() |
![]() |
![]() |
![]() |
式中,表示了集合AB間所有像素點對之間的最大值,
表示了集合A中像素點a到集合B中像素點b的最小距離的最大值。同理可得,
表示了集合B中像素點b到集合A中像素點a的最小距離的最大值。以上指標中DSC用來衡量預測結果和金標準之間的相似度;HD衡量了網絡預測結果和標簽圖像的最大不匹配度;SEN表示了預測結果中分類正確的像素占金標準中總像素的比例;PRE表示了預測結果中分類正確的像素占分割結果中總像素的比例。
2 結果與討論
2.1 實驗結果
模型訓練開始時,本文所提網絡會嘗試在圖像中心找到一個橢圓形物體。隨著迭代次數的不斷增加,網絡會不斷調整參數以尋找最優解。本文模型最優訓練時間約為5 h,epoch設置過大會造成過擬合現象,而如果epoch設置的不足則會欠擬合,本文中的epoch設置為10倍的訓練圖像,保存不同參數下的訓練結果。通過對同一圖像進行預測,將訓練過程中的預測圖像變化可視化,如圖4所示。

在對測試集進行測試時,將測試數據輸入訓練好的最優模型進行預測,計算評價指標,無需過多的后處理,即可得到前列腺區域分割結果。隨機選取其中一例患者的金標準和預測結果的三維圖像不同視圖展示結果,如圖5所示。

本文提出的改進V-Net算法DSC值為0.903,HD值為3.912 mm,SEN和PRE分別為0.892和0.887,明顯優于V-Net網絡的分割結果,如表1所示。將同一幅圖像分割結果與V-Net網絡分割結果和醫生分割出的金標準進行對比,其水平面、矢狀面和冠狀面分割結果如圖6所示,其中紅色標簽為醫生分割的金標準圖像,綠色標簽為本文提出的改進V-Net的分割結果,黃色標簽為V-Net的分割結果,可以明顯看出,在三個解剖面內本文提出的改進V-Net算法都明顯優于V-Net算法的分割結果。


2.2 與其他算法對比
在使用同一數據集的情況下,如圖7所示,分別是以本文算法、文獻[18]和文獻[28]中不同深度學習方法所得到的同一測試樣本的分割結果以及醫生給出的金標準區域,其中青色區域為三維U-Net(three-dimensional U-Net,3D-Unet)的分割結果,黃色區域為V-Net的分割結果,紅色區域為金標準區域,綠色區域為本文算法分割結果,通過圖7可以直觀看出,本文算法優于其他兩種深度學習算法。

表2中分別列舉了文獻[10]、文獻[23]、文獻[29]中提出的算法在前列腺MR圖像區域分割得到的DSC值和HD值。可以看出,其中文獻[29]所提算法分割效果最差,DSC值為0.835,HD值為7.73 mm。其余算法中,文獻[10]的算法分割效果較好為0.879,但是由于該方法會忽視掉尖銳特征,DSC值仍低于本文提出的算法。文獻[23]的V-Net方法相比于其他算法獲得HD值較低,為5.71 mm,但仍然大于本文中提出的算法,這表明本文提出的改進V-Net算法對前列腺MR圖像的分割效果較好,精度較高。

2.3 討論
對于MR圖像中前列腺區域而言,由于前列腺與周圍組織形狀差異較大,占圖像比例較小,并且存在與相鄰器官一側邊界模糊的問題,臨床醫生在進行人工分割標注時會存在主觀性大、耗時長等問題,因此需要一種自動的前列腺區域分割算法以提高效率。此外,醫學圖像大多是三維的,在進行疾病診斷時,需要評定病灶的體積大小,如果先對二維切片進行處理,再進行三維重建,整個處理過程將消耗很多時間。因此,在這種情況下,直接對三維圖像進行處理,并自動將前列腺區域分割出來,將在一定程度上提高分割的速度,進而提高計算機輔助診斷前列腺相關疾病的效率。
本文提出的算法,可以直接對三維圖像進行處理,一次輸入整個三維圖像,在沒有進行后處理的情況下,分割效果依然優于傳統的V-Net網絡。通過圖6展示的本文算法與V-Net和金標準的不同解剖面的分割結果對比圖可以看出,作為基線的V-Net網絡雖然能夠把前列腺區域分割出來,但仍然存在假陽性區域,分割結果不準確等現象,這可能是由于分割網絡對特征提取的不明顯所致。本文提出的算法通過引入軟注意力機制,可以使網絡更多地關注目標區域,從而提高網絡的分割精度,因此在結果上更接近于醫生勾畫的金標準區域。在使用DSC和HD進行評估時,本文提出的算法DSC值相比V-Net提升了3.6%,HD降低了1.798 mm。本文算法還與其他傳統方法進行了比較,通過表2可以看出,本文提出的算法分割效果較為理想,精度較高。三維圖像相比二維圖像可以提供更多的空間信息,使用端到端的深度學習方法進行前列腺區域分割,能夠為臨床診斷提供更多的依據,從而有利于提高對前列腺相關疾病的精確診斷。
本文提出的網絡模型相較傳統V-Net的分割精度有所提高,但在某些方面仍然存在不足。例如,在分割后的三維結果中,可以看出本文算法分割結果與金標準相比仍存在邊界不清晰的情況。這可能是由于使用深度學習的分割方法時,需要較多的圖像數據,且訓練樣本的數量和質量都會在一定程度上影響網絡的分割性能。另外,引入了軟注意力模塊后,會增加網絡的計算量,易導致訓練時間較長,對硬件要求較高等缺點。基于以上原因,本課題組計劃在未來收集更多數據并優化算法結構以提升算法的性能。
3 結論
本文提出了一種端到端的帶有軟注意力機制的改進V-Net的分割方法,一次性將前列腺MR圖像整個輸入,對其T2加權圖像進行了分割。該方法使用FCN,將AG模塊融入進V-Net網絡的跳躍連接中,使網絡更加關注與目標區域相關的區域,同時抑制其它不相關區域,從而提升網絡的分割性能。同時本文還提出了使用短跳躍連接和小卷積核的CBRD塊,與作為基線的V-Net相比,本文算法在分割前列腺區域方面更為準確。實驗結果表明,改進后的V-Net分割網絡DSC值和HD值分別可達到0.903和3.912 mm,優于其他網絡。綜上所述,本文算法能夠準確地分割出前列腺的三維體積,對前列腺疾病的診斷和治療有著重要意義。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:高銘遠負責本文實驗設計及論文撰寫;閆士舉、宋成利對論文修改提出建設性意見并審核;朱澤華指導實驗設計及結果分析;解爾澤、方博雅負責實驗環境的搭建及數據預處理。