U-Net網絡在醫學圖像分割任務中取得了很好的成績。近年來,眾多學者針對U-Net結構不斷地進行研究和擴展,比如編、解碼器的改進和跳躍連接的改進。本文針對基于U-Net網絡結構改進的醫學圖像分割技術從以下角度進行總結:首先,闡述U-Net網絡在醫學圖像分割領域中的應用;然后,總結U-Net的七大改進機制:密集連接機制、殘差連接機制、多尺度機制、集成機制、膨脹機制、注意力機制以及Transformer機制;最后,探討U-Net結構改進的思路和方法,為相關研究提供參考,對U-Net的進一步發展具有一定的積極意義。
引用本文: 周濤, 侯森寶, 陸惠玲, 趙雅楠, 黨培, 董雅麗. 探析U-Net的改進機制及其在醫學圖像分割的應用. 生物醫學工程學雜志, 2022, 39(4): 806-825. doi: 10.7507/1001-5515.202111010 復制
引言
隨著現代醫學技術的快速發展,醫學圖像已經成為醫生進行疾病術前診斷規劃、手術方案制定、術中檢測與術后評估等許多醫療活動的重要信息來源,通過醫學圖像醫生可以更直觀、全面地了解病變的結構和特征,提高診斷效率和正確性。醫學圖像分割能夠從特定組織圖像中提取關鍵信息,是實現醫學圖像可視化的關鍵步驟,分割后的圖像被提供給醫生用于定量分析、診斷、解剖結構的描繪、病理改變組織的定位、制訂治療計劃等不同任務。但醫學圖像信息量巨大,臨床上手工勾畫醫學圖像目標區域是一件費時費力的工作,給臨床醫生的工作增加了很大負擔,故醫學圖像分割仍然是一個難題。在過去的幾年里,深度學習在醫學圖像處理的應用中引起了人們極大的興趣。迄今為止,最成功的圖像分析方法是卷積神經網絡(convolutional neural network,CNN),CNN[1]的突破對于醫學圖像分割領域非常重要。CNN經典模型有LeNet[2]、AlexNet[3]和U-Net[4],其中U-Net取得了突出的成就[5],成為醫學圖像分割的熱門技術,在深度卷積神經網絡的發展中具有非常重要的意義。為了解決醫學圖像分割中的問題,許多研究人員針對U-Net網絡結構進行了研究。Millemari等[6]提出的V-Net用于三維(three-dimensional,3D)醫學圖像分割,在輸入3D圖像按照通道拆分的同時,在每一層加入殘差結構,以快速和精確的方式實現磁共振成像中前列腺體積的分割。Zhou等[7]提出U-Net++網絡用于醫學圖像分割,網絡中增加新的跳躍連接,以便在每個深度之間傳輸更多信息。Oktay等[8]提出Attention U-Net網絡用于胰腺分割,將注意力模塊引入U-Net中的跳躍連接使得圖像信息更加清晰,提高分割的準確性。Ma等[9]提出多尺度水平跳躍連接U-Net(multi-scale hybird skip U-Net,MHSU-Net)網絡用于肺分割,在跳躍連接中加入上下文模塊,該架構提高了分割模型的特征提取能力,有效地減少了分割過程中的特征丟失。Peng等[10]提出局部上下文感知網絡(locally context-perception Net,LCP-Net),通過并行膨脹卷積提高了特征編碼器上下文信息的利用率,有利于獲得特征圖的豐富信息。Chen等[11]提出了交叉尺度殘差網絡(cross-scale residual network,CSR-Net)用于舟骨骨折分割,利用不同層的特征通過跨尺度殘差連接實現融合,實現不同層特征之間的尺度和通道轉換,可以在不同的比例特征之間建立緊密的聯系。由此可見,U-Net在醫學圖像分割中已經有了廣泛的應用。
本文從網絡結構出發對U-Net進行總結,先闡述U-Net在醫學圖像分割領域中的應用,再綜述U-Net的七大改進機制(密集連接機制、殘差連接機制、多尺度機制、集成機制、膨脹機制、注意力機制和Transformer機制),最后總結與展望U-Net未來的發展方向。
1 U-Net網絡在醫學圖像分割中的應用
U-Net是一種端到端神經網絡架構[12],以其“U”形而聞名,U-Net網絡以交并比(Intersection over Union,IOU)值達到了92%的優勢,在ISBI 2014年膠質母細胞瘤分割挑戰賽中名列前茅。在2016年,Cicek等[13]進一步將U-Net的二維網絡推廣到三維網絡,并在MICCAI 2016中利用3D-Unet從稀疏注釋中分割密集體積圖像。由于其卓越的性能和優良的體系結構,U-Net迅速成為醫學圖像分割中的重要網絡模型。
1.1 U-Net基本原理
U-Net采用的結構如圖1所示,網絡首先對輸入圖像進行4組卷積和下采樣操作來獲得圖像特征信息,然后通過右側的4組反卷積和上采樣將圖像放大。U-Net相同通道數的下采樣和上采樣操作之間增加了跳躍連接(如圖中水平黃色箭頭所示),能幫助解碼器更好地修復目標細節。左側卷積塊的輸出拼接到右側相同深度反卷積塊的輸入,反卷積塊的輸入特征圖尺寸沒有變化,但通道數增大了一倍。

1.2 U-Net在醫學圖像分割領域中的應用
U-Net網絡由于其結構性能卓越,在醫學圖像分割領域被廣泛應用,目前在腦腫瘤、肺癌、肝腫瘤、乳腺癌等重大疾病的臨床輔助診斷方面取得良好效果。如表1所示,從疾病分類、網絡名稱、時間、模型維度、數據集五方面對U-Net在醫學圖像分割中的應用進行歸納和總結。

腦腫瘤分為原發性和繼發性腫瘤,由于腦病變結構的高可變性,組織邊界模糊,以及數據有限和類不平衡性,使腦腫瘤的分割面臨巨大的挑戰。針對這些挑戰,一些專家學者提出以下解決方法:Kumar等[14]提出分類器-分割器網絡(Classifier-Segmenter network,CSNet)用于自動執行急性腦卒中診斷任務,以輔助和加快醫務人員的決策過程,并進一步提高了模型的分割精度;Wang等[15]提出一種跨水平連接跨層連通U-Net(cross-level connected U-shaped network,CLCU-Net)用于從多模態磁共振圖像中自動準確分割腦腫瘤,充分利用不同大小腦腫瘤的不同尺度信息,以獲得更有效的特征連接,提取更多的判別信息。
肺癌的早期發現有助于盡早治療,計算機斷層掃描(computed tomography,CT)是診斷肺部疾病的首選方法。然而,肺癌患者的病灶區域通常和正常組織粘連,現有的方法不能準確地進行肺部病灶區域的分割。一些專家學者提出以下解決方案:Zhou等[16]提出注意力并行U-Net網絡(attention mechanism parallel U-Net,APU-Net),該網絡結合正電子發射計算機斷層掃描(positron emission tomography,PET)、CT和PET/CT三種模態的肺部腫瘤特征,并使用混合注意力機制聚焦病灶區域,提高了肺部腫瘤分割的精度;Zhao等[17]提出一種新的級聯兩階段U-Net模型(Distraction-Sensitive U-Net,DSU-Net),第一階段對整個輸入CT體積進行全局分割,并預測潛在的干擾區域,其中包含假陰性區域和假陽性區域,第二階段將分散區域信息轉化為局部分割用于體積塊,以進一步分割肺部腫瘤區域。
肝臟具有豐富的血流供應,與人體的重要血管關系密切且肝臟惡性腫瘤發病隱匿、生長快速,因此治療甚為困難。在臨床實踐中,醫生通常采用手工分割的方法從腹部CT圖像中獲取肝臟區域,但是該方法耗時、勞動強度大、操作繁瑣。為了更準確地分割肝臟區域,一些專家學者提出以下解決方案:Xie等[18]提出動態自適應殘差網絡(dynamic adaptive residual network,DAR-Net),此網絡去除不相關像素并采用條件隨機場對肝臟邊界和紋理進行優化,提升了對肝臟病灶的分割精度;Jiang等[19]提出注意力與混合連接網絡(Attention Hybrid Connection Network,AHCNet),該網絡結合了UNet++、注意力機制和跳躍連接,實現更快的網絡收斂和準確的語義分割,并進一步證明了所提出的方法對肝臟病灶分割具有良好的臨床價值。
乳腺癌是乳腺上皮細胞在多種致癌因子的作用下,發生增殖失控的病變。乳腺X線攝影是早期發現和診斷乳腺癌的標準篩查方式,但是在發現致密和極度致密乳房的癌癥病灶方面仍然無效。采用計算機視覺分割方法可以幫助放射科醫生進行輔助診斷,例如:Belh等[20]提出結合殘差塊和混合注意力損失函數的改進U-Net乳腺腫瘤分割方法,利用殘差卷積模塊和擴展殘差卷積模塊代替編碼路徑的卷積模塊,在不增加計算代價的情況下提取超聲乳腺腫瘤更詳細的特征;Zhang等[21]提出密集雙任務網絡(dense dual-task network,DDTNet),采用有效的特征融合策略引入癌細胞位置信息的多尺度特征,以實現精確的乳腺癌病灶分割。
2 改進機制
近年來,U-Net得到了長遠的發展,從U-Net與其他深度模型耦合的角度出發,本文詳細總結了基于U-Net的七大改進機制。如圖2所示,七大機制具體包括:密集連接機制、殘差連接機制、多尺度機制、集成機制、膨脹機制、注意力機制和Transformer機制。

2.1 密集連接機制
U-Net中的密集連接機制就是將卷積層或者編、解碼器部分使用密集連接[22]。圖3給出基于U-Net的密集連接機制典型代表DenseUNet[23],該網絡由三部分組成:用于特征提取的下采樣過程、用于增加網絡深度的密集塊和用于圖像重建的上采樣過程。DenseNet[24]通過增加網絡深度有效提取面部特征,而U-Net則通過跳躍連接保留重要的面部細節,引入密集塊來提高網絡擬合能力,從而較好地解決了醫學圖像細節的丟失。U-Net中密集連接機制的特點是:任何兩層之間都存在直接連接,這意味著每一層網絡的輸入是所有網絡輸出的并集之前的層,以及這一層學習到的特征圖是作為輸入直接傳遞給它后面的所有層,不僅可以減輕梯度消失問題,增強了特征傳播,鼓勵特征重用,并大大減少了參數量。

密集連接神經網絡(Densely Connected Convolutional Networks,DenseNet)主要包含卷積層、密集塊、過渡層和分類器,任一卷積層的輸入包含前面所有卷積層的輸出,使得特征充分復用,并且高低層次的特征融合使得網絡具有較強的抗過擬合性能。近年來許多學者在U-Net中引入密集連接機制:Li等[25]結合U-Net和密集跳躍連接的嵌套分割網絡(attention-based nested U-Net,ANU-Net)獲得不同語義層次的全分辨率特征圖;Tang等[26]提出基于雙重注意力的密集網絡(Dual Attention-based Dense SU-net,DA-DSUnet),用密集塊替換了U-Net中的卷積層使得分割精度和參數效率均為更優。本節將詳細歸納U-Net的密集連接機制,從卷積層的替換以及編、解碼器中加入密集連接兩個方面進行總結。
2.1.1 卷積層的替換
卷積層的替換是指U-Net將原卷積層替換為密集塊。在密集塊中,任意兩層之間存在直接連接,意味著網絡每一層的輸入都是所有前一層輸出的并集,該層學習到的特征圖信息作為輸入直接傳遞給其后面的所有層。本節從原卷積層替換成密集連接塊、3D密集塊與Dense-Inception模塊三部分進行介紹。如圖4所示,箭頭按照時間先后順序的方式從左到右依次呈現,每種背景顏色分別代表著一種密集塊。

第一,將傳統的密集塊引入到U-Net中,提高了傳輸效率,使網絡提取的特征信息更加清晰,從而較好地解決了精細圖像細節的丟失問題,提高了網絡分割的準確性。將卷積層替換為密集塊主要方法有DU-Net和AD-Unet兩種模型:Manal等[27]提出密集塊U-Net(Denseblock U-Net,DU-Net),此網絡將卷積層替換為密集塊,該模型優于其他相關的深度學習模型,并改善了梯度流動性;Luo等[28]提出注意力密集網絡(Attention-Dense-UNet,AD-Unet),該網絡在卷積層的基礎上加入密集連接,較好地解決了精細血管細節的丟失問題。
第二,3D密集塊可以提取圖像中多變和復雜的空間信息,有助于網絡提取時空特征信息,從而提高網絡參數的利用率。將卷積層替換為3D密集塊主要方法有SC-DenseNet和3D-DenseNet-569兩種模型:Ke等[29]提出自約束密集網絡(self-constrained DenseNet,SC-DenseNet),該模型保留原U-Net中首、尾卷積層,將其余卷積層替換為3D密集連接模塊,將3D密集塊下采樣與上采樣的圖像做加和,實現了輸入圖像的自動檢測和分割;Nasser等[30]提出3D-DenseNet-569,用卷積層與3D密集塊組合代替了原U-Net的兩次卷積,增強了在深層網絡中收斂到最優解的能力。
第三,Dense-Inception模塊是將密集連接與Inception結構組合起來用于U-Net中,使網絡更深更寬,減少梯度消失現象和冗余計算。將卷積層替換為Dense-Inception的主要方法有DIU-Net和LCU-Net兩種模型:Zhang等[31]提出密集Inception U-Net(Dense-Inception U-Net,DIU-Net),此網絡用Dense-Inception模塊替換瓶頸層的卷積層,模塊內部使用Res-Inception模塊,外部使用密集連接,將該模塊連接到U-Net結構體系中,避免了網絡訓練期間梯度消失或冗余計算;Zhang等[32]提出低消耗U-Net(low-cost U-Net,LCU-Net),此網絡用Inception模塊替換卷積層,解決了U-Net單一感受野設置的局限性和相對較高的存儲成本。
2.1.2 編、解碼器中加入密集連接
編、解碼器加入密集連接是在U-Net的編碼器或者解碼器中加入密集連接,具體拓撲結構如圖5所示,按照箭頭的時間年份從左到右呈現了編、解碼器中加入密集連接的簡略圖,可以更好地構建編、解碼器不同模塊之間的關系。

Jose等[33]提出椎間盤分割網絡(intervertebral disc network,IVD-Net),該模型使用密集機制將編碼器逐層連接,每個編碼器處理不同的圖像模式,使得模型可以自由地了解不同的模式應該在哪里以及如何進行處理和組合。Zhang等[34]提出多尺度密集連接U-Net(multi-scale densely connected U-Net,MDU-Net),該網絡的編、解碼之間使用密集連接,直接融合相鄰的高低層不同尺度的特征圖,改進了編碼器、解碼器與跳躍連接,減少了來自密集連接的過擬合。Wang等[35]提出自適應全密集連接網絡(adaptive fully dense UNet,AFD-UNet),此網絡在Unet++的基礎上,通過水平密集連接將Unet++每層的特征密集連接起來,自適應地有效利用淺層和深層特征。Shi等[36]提出雙密集上下文感知網絡(dual dense context-aware network,DDC-Net),在編碼器和解碼器中引入密集連接融合來自較高層和較低層的多分辨率特征圖,以加強當前層中的特征傳播,從而改善編碼器和解碼器之間的信息流。Mohammad等[37]提出Dense-Unet,此網絡將編碼器的每層逐層向下層連接與解碼器的每層逐層向上連接形成密集連接的效果,從而可以利用不同級別的圖像組合。
2.2 殘差連接機制
U-Net中的殘差連接機制(residual neural network,ResNet)[38]就是將U-Net的卷積層替換為殘差塊,跳躍連接使用殘差連接路徑與編、解碼器用殘差網絡來替換。圖6描述了ResUnet[39]架構的細節,在ResUnet架構中進行反卷積操作提高圖像分辨率,并從低分辨率特征中恢復高質量圖像。跳躍連接對于ResUnet來說是不可或缺的,它可以提高網絡的表示能力,加快梯度反向傳播,防止訓練的不穩定性。基于U-Net中殘差連接機制的兩個特點是:① 殘差結構會簡化網絡的訓練;② 殘差單元中的跳躍連接以及U-Net網絡的編碼和解碼之間的跳躍連接可以促進信息傳播,避免梯度消失現象。

殘差單元是殘差網絡的基本組成部分[40],殘差單元由卷積層(convolution,Conv),批量歸一化層(batch normalization,BN)、線性整流函數(rectified linear unit,ReLU)激活函數和跳躍連接構成。殘差連接的特點是保證反向傳播參數的更新,避免反向傳播導致的梯度消失問題,使得優化深層模型更為簡單。近年來許多學者將殘差連接機制引入U-Net中:Lu等[41]提出環狀殘差網絡(ringed residual U-Net,RRA-UNet),此網路添加環形殘差模塊提取網絡深層的附加特征,可有效地解決胰腺的邊界模糊問題;Gu等[42]提出上下文編碼器網絡(context encoder network,CE-Net),使用ResNet-34殘差塊替換原始U-Net編碼器塊作為固定特征提取器。本節對U-Net中加入殘差連接機制進行總結,具體分為:卷積層的改進,跳躍連接處的改進和編、解碼單元的改進。
2.2.1 卷積層的改進
通過將U-Net的卷積層改成殘差單元,可以對網絡進行有效的訓練,很好地解決退化問題,加深網絡層數并提高模型性能。本節從基本殘差單元、預激活殘差單元、雙路徑殘差單元、SE殘差單元、遞歸殘差單元和注意力殘差單元等方面進行總結,如圖7所示。

第一,殘差單元。殘差單元包括相鄰堆疊的卷積層進行殘差連接,由卷積層、批量歸一化層和ReLU函數組成,許多專家學者將殘差單元加入U-Net中,以提高網絡架構的性能。Hu等[43]提出基于補丁的可變形配準網絡(patch-based deformable registration network,PR-Net),該網絡是由殘差單元組成,用于縮短整個網絡,并減輕梯度消失問題;Feng等[44]提出基于U-Net的殘差網絡(U-Net based residual network,URNet),網絡在瓶頸結構中嵌入了殘差單元,顯著改善了圖像去霧效果。Liu等[45]提出Res-Unet結構,編、解碼部分包含兩個殘差單元,此網絡加深了網絡中的層數,對毛細血管分割具有良好的性能。Wang等[46]提出混合注意力殘差網絡(hybrid dilation and attention residual U-Net,HDA-ResUNet),將每層卷積中都加入了殘差連接來獲取高級特征,與U-Net相比,此模型具有更少的參數和更好的分割性能。
第二,預激活殘差單元。預激活殘差單元是通過調整BN和卷積層位置實現預激活方式使得網絡結構達到最優。研究數據表明,預激活殘差單元比基本殘差單元更容易訓練和泛化。Waldner等[47]提出ResUNet-a,此架構中編碼器和解碼器的構建模塊由預激活殘差單元組成,有助于緩解梯度消失和爆炸的問題,以準確檢測邊界并丟棄無關的邊界。
第三,雙通道殘差單元。雙通道殘差單元能共享公共特征,重復利用已有特征,同時該架構保留了殘差連接路徑使得神經網絡足夠靈活而能夠學習新的特征。Albert等[48]提出Asymmetrical Net,此架構在編碼器中使用雙通道殘差單元,允許編碼器在原始和對稱模式之間提取關鍵特征,這種策略可避免表征的瓶頸,同時保留所包含的參數數量。
第四,擠壓激勵(Squeeze-and-Excitation,SE)殘差單元。SE殘差單元是由殘差路徑和SE模塊組成,網絡在進行粗略定位之后,加入SE殘差單元,由粗到細的策略大幅提高了分割精度,可以獲得更好的特征表示。Cao等[49]提出SE-ResUNet,在編碼器部分使用SE殘差單元來得到清晰的圖像特征,在分割小體積器官方面,此架構比其他的網絡架構擁有更好的分割性能。
第五,遞歸殘差單元。主要將每次的卷積遞歸一次做感興趣點積累的方法,遞歸殘差卷積執行兩次之后再輸出給其他模塊,具有遞歸殘差卷積層的特征累積確保了分割任務中更好的特征表示。Alom等[50]提出R2Unet,在編、解碼單元中使用遞歸卷積層(recurrent convolutional layer,RCL)和帶有殘差單元的RCL代替常規卷積層,有助于開發更有效、更深入的模型。
第六,注意力殘差單元。注意力殘差單元是將通道注意力與空間注意力先后依次加入殘差單元當中,加入注意力模型能夠忽略無關信息而更多地關注重點信息,再與原特征層進行拼接。Aamer等[51]提出注意力殘差網(Attention Residual U-Net,AReN-UNet),該架構將殘差注意力模塊加入UNet++中的卷積塊,可以提高網絡的泛化和表示能力,有效地增加了分割結果。
2.2.2 跳躍連接的改進
跳躍連接的改進是將殘差機制應用在U-Net中的跳躍連接處,網絡左、右側分別表示U-Net中的編、解碼器,中間為殘差跳躍連接(residual path,Respath),可以提高U-Net網絡的分割效果,減少參數量,具體如圖8所示。Ibtehaz等[52]提出MultiResUNet,此架構殘差跳躍連接是由一系列卷積層組成,使得網絡學習更為容易,可以更好地勾畫模糊邊界。Zhuang等[53]提出LadderNet,在每一級中通過殘差跳躍連接將每對相鄰編碼器和解碼器分支進行連接,殘差跳躍連接由兩次卷積、BN、ReLU與殘差連接組成,可以捕獲更復雜的特征并產生更高的精度。Yuan等[54]提出ResD-Unet,此架構的殘差跳躍連接由BN、ReLU、卷積組成,解決了網絡加深時出現的梯度消失的問題,能夠準確分割肺部CT圖像的肺動脈。Shuvo等[55]提出分類和定位器網絡(Classifier and Localizer UNet,CNL-UNet),殘差跳躍連接是由兩次不同的卷積與兩次殘差連接組成,使用改進的跳躍連接來減少原跳躍連接之間的語義差距,有助于模型提高精度。Wang等[56]提出自適應接受域多尺度網絡(adaptive receptive field multi-scale network,ARMS Net),使用兩次卷積與殘差連接操作構成了殘差跳躍連接,來代替U-Net中的跳躍連接,可以在不縮放或裁剪圖像尺寸的情況下自適應地校正感受野,以保留更多的圖像細節。

2.2.3 編、解碼單元的改進
在殘差連接機制中,編、解碼單元的改進是指將U-Net中的編碼器替換為殘差網絡。
Yu等[57]開發了一種改進的U-Net架構,采用ResNet-34模型作為U-Net架構的編碼器部分,可以加快模型訓練速度,提高魯棒性。Hari等[58]提出UNetResNext50,將U-Net的編碼器替換為ResNet-50,從ResNet-50模型接收到的結果被送到U-Net的擴展路徑,將其向上采樣到原始尺寸,對于磁共振圖像中的腦腫瘤自動檢測和分割非常有效。
2.3 多尺度機制
所謂多尺度,實際上就是對圖像的不同粒度的采樣,在一種尺度下難以獲取圖像信息時在另外某種尺度下容易發現或者提取圖像信息,在不同尺度下可以觀察到不同的特征,從而完成不同的任務,所以多尺度技術常用于提取圖像。將多尺度方法加入U-Net中可以通過對不同層次的上下文信息進行編碼來生成區分性特征,即低層關注局部外觀特征,高層關注全局表示。多尺度特征圖捕捉目標圖像的每個空間位置的局部鄰域的豐富上下文信息,并且在U-Net中不同尺度的特征圖的空間位置之間存在對應關系。
如圖9所示,多尺度U-Net[59](multi-scale U-Net,MU-Net)由多個U-Net組成,其中單個U-Net去除不同尺度的噪聲,然后基于從粗到精的策略產生性能改進。此網絡是由圖像金字塔中具有不同空間尺度的K個U-Net組成,通過聯合卷積輸入圖像,在較低級別U-Net中重建輸出圖像,上采樣與當前級別U-Net的輸入圖像一起使用。這種多尺度學習方法能夠實現從粗到細的圖像重建,從低頻到高頻逐步構建目標輸出。因此,MU-Net在保留圖像細節的同時有效地去除了圖像噪聲。

在醫學圖像器官分割場景中,由于器官尺度差異較為嚴重,有的器官占據整個輸入圖像,有的器官只覆蓋了幾個像素點,不同尺度的器官需要不同尺寸的感受野才能完整地對其特征進行提取。在U-Net網絡中多尺度機制有兩個特點:一是基于U-Net使用多尺度輸入,提升網絡對不同尺度物體的識別能力;二是通過在U-Net嵌入金字塔池化模塊,提升網絡對多尺度特征的提取和學習能力。
2.3.1 多尺度輸入
在U-Net各階段的輸入特征圖中,不同階段得到的特征圖的尺寸不同,多尺度輸入就是使用多個尺度的圖像輸入,然后將其結果進行融合,使得最終的輸出融合了不同尺寸感受野的特征,從而提升U-Net對多尺度目標的識別能力,在U-Net中多尺度輸入的方法主要有:AID、MDFA-Net、SLSNet、MED-Net。
Cui等[60]提出注意力輸入深度監督網絡(attention input deep-supervised,AID),在編碼層使用了多尺度輸入結構,在跳躍連接處使用了多尺度注意力模塊,有效提高了心臟分割的準確性。Li等[61]提出多尺度雙路徑特征聚合網絡(multiscale dual-path feature aggregation network,MDFA-Net),網絡的輸入層中采用多尺度輸入來保持原始全局特征,該方法在心臟分割的問題中取得了良好的性能。Sarker等[62]提出皮損分割網絡(skin lesion segmentation network,SLSNet),圖像經過多尺度輸入,將其輸入在編碼器的每一層內,用于聚集輸入皮膚圖像的從粗到細的特征,并減少偽影的影響。Kose等[63]提出多尺度編碼器-解碼器網絡(multiscale encoder-decoder network,MED-Net),網絡將圖像以不同尺度的圖像大小輸入到編碼器之中,對其進行多尺度融合之后,提取中間層特征輸入到解碼器當中,MED-Net實現了更高的量化指標。
2.3.2 金字塔池化模塊
U-Net中使用金字塔池化模塊是一種充分利用全局信息的方式,捕獲多尺度全局上下文信息并生成具有豐富表示的特征,這對于解決遮擋問題和提高分割性能至關重要。金字塔池化模塊比起普通的單一池化更能保留全局上下文信息,在U-Net中金字塔池化模塊主要有CMM-Net、MCNet、GC-DCNN。
Almasni等[64]提出上下文多尺度多層次網絡(contextual multi-scale multi-level network,CMM-Net),其主要思想是在網絡編碼器卷積之后反復利用金字塔池化模塊融合多個空間尺度的全局上下文特征,有效地用作各種醫學圖像分割的工具。Wang等[65]提出多路徑連接網絡(multi-path connected network,MCNet),它將金字塔池化生成的多條路徑集成到編碼階段以保留語義信息和空間細節從而增強網絡編碼器的細節表示能力,具有更強的特征提取能力。Lan等[66]提出基于全局上下文的膨脹卷積神經網絡(global context based dilated convolutional neural network,GC-DCNN),該網絡在解碼器中使用空間金字塔池化模塊產生多級全局上下文特征,并將它們與原始提取的特征連接起來,形成具有更豐富表示信息的最終特征。
2.4 集成機制
U-Net中集成機制是由一組網絡集成而成,這些神經網絡可以并行處理相同的輸入數據后將它們的輸出組合起來完成分割。集成機制的特點是建立多個同質且存在差異的個體分類器來解決同一個問題,然后將所有個體分類器的預測結果通過策略組合得到集成機制的最終結果,目的是更好地提高模型的魯棒性和泛化能力。
為了改善池化過程造成的空間信息損失,利用多尺度[67]和多層級學習的方式[68],構建兩個差異化的同質型分割模型,并與U-Net集成在一起形成新的分割模型。構建的多模型集成算法的典型代表如圖10所示,中間虛線框為U-Net模型O,左上角虛線框為模型A的編碼器結構,右下角虛線框為模型B的多尺度高中層語義信息融合結構圖。

U-Net分割算法通常對某些目標類的分割效果好,但對其他部分類的分割效果較差,無法滿足所有類別的分割要求,導致模型泛化性能不佳,而其他分割模型可能會與該模型互補,因此可以將多個模型的分割結果集成起來,提升單模型分割算法效果。集成機制構建并結合多個分割網絡可有效地規避單個分割網絡的缺陷。U-Net中集成的方法可以使用許多并行的模型,然后結合它們產生更精確的分割結果,比較適合用于對分割圖像精度要求較高的場合特別是用在醫學圖像分割領域,具有較大的實用價值。在U-Net中使用集成機制的主要有:2.5D Net、AssemblyNet、Ensemble U-Net、UNet-SCDC。
Mei等[69]提出2.5D Net來處理不同的圖像信息,使用多個U-Net集成到一起來提高分割結果的魯棒性,獲得更穩健的結果。Coupe等[70]提出AssemblyNet,此模型引入兩個U-Net集成模型用于知識共享,每個U-Net都用不同的訓練和驗證集進行訓練,以利用所有可用的訓練數據,使訓練和執行速度更快。Li等[71]提出Ensemble U-Net,采用集成U-Net網絡作為基礎網絡架構,應用膨脹空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)結構來合并U-Net的邊緣特征和高級特征,對其結構和參數進行優化和改進,以更好地提取圖像特征。Lei等[72]提出跳躍連接和密集連接網絡(skip connection and dense convolution U-Net,UNet-SCDC),該網絡集成兩個模塊:基于跳躍連接和密集卷積的U-Net分割模塊和雙重區分模塊(dual discrimination,DD),當UNet-SCDC模塊使用密集的膨脹卷積塊來生成保留細粒度信息的深度表示時,DD模塊使用兩個CNN架構組合起來的鑒別器來共同決定鑒別器的輸入是真或否。
2.5 膨脹機制
膨脹機制就是在U-Net的編、解碼器中使用膨脹卷積,膨脹卷積[73]是在標準卷積核中注入空洞,擴大的幅度稱為擴張率,將小的卷積核尺寸變大同時保持卷積的參數量不變。膨脹機制的特點是在不使用大卷積核、不增加參數量、不增加卷積深度的基礎上擴大感受野,獲取更大范圍內獨立的特征信息,可以提高對大目標的分割準確率。
在U-Net卷積塊中,用膨脹卷積代替標準卷積,改進網絡提取的語義信息。膨脹卷積與普通卷積相比除了卷積核的大小以外,還有膨脹率參數,主要用來表示膨脹的大小,從而達到一次卷積看到的空間范圍變化大的目的,可以使模型獲得更大的感受野,減少特征信息的丟失,有助于提高模型的性能。本文從在編、解碼中使用膨脹機制,與瓶頸層使用膨脹機制兩個方面來詳細闡述U-Net改進中的膨脹機制。
2.5.1 編、解碼器中使用膨脹機制
在編、解碼器中加入膨脹機制是指在U-Net中,將編、解碼器的原始卷積替換為膨脹卷積,主要方法有:DiSegNet、DIN、DC-U-Net、URNet、EFSNet。Xu等[74]提出膨脹SegNet(Dilated SegNet,DiSegNet),在編碼器與解碼器體系結構中引入了膨脹空間金字塔池化,以不同的膨脹速率提取更多的局部上下文信息,有助于恢復解碼器部分的心臟器官邊界,提高心臟邊界的語義準確預測和詳細分割。Li等[75]提出膨脹初始網絡(dilated-inception net,DIN)來提取和聚焦多尺度特征用于右心室分割,該網絡在U-Net的基礎上將編、解碼器的每層卷積全部替換成膨脹卷積,在右心室分割挑戰的基準數據庫上表現優于許多最先進的模型。Chen等[76]提出膨脹卷積的U-Net(dilated convolution U-Net,DC-U-Net),此模型引入了膨脹卷積來替換卷積塊的結構,使腔體結構可以在不增加參數的情況下擴大模型的感受野,提高模型的非線性表達能力。Feng等[77]提出基于U-Net的殘差網絡(U-Net based residual network,URNet)用于圖像去噪,編碼器模塊旨在通過標準卷積和膨脹卷積的混合卷積來提取圖像的淺層特征圖,以提取更多細節的圖像特征。Hu等[78]提出高效快速語義分割網絡(efficient fast semantic network,EFSNet),使用膨脹卷積替換原卷積,可以在不增加額外參數的情況下擴大感受野,并且提高分割精度,降低分段的噪聲。
2.5.2 瓶頸層使用膨脹機制
瓶頸層使用膨脹卷積是將U-Net底層的卷積塊換成膨脹卷積。原始的卷積在很多情況都不能增大感受野,不能全面地捕獲上下文信息,因此需要將瓶頸層中的卷積替換成膨脹卷積。主要方法有:HDC-Net、SD U-Net、MD-Unet。Fang等[79]為了填充圖像中缺失或遮罩的區域提出了混合膨脹卷積網絡(Hybrid Dilated Convolution network,HDC-Net)。此架構在瓶頸層中集成3次不同擴張率的膨脹卷積,這樣可以有效地擴大網絡的感受野,進一步提高訓練的穩定性。Rad等[80]提出堆疊膨脹卷積(stacked dilated U-Net,SD U-Net)用于識別發育中人類胚胎。該模型在瓶頸層中添加一個由5個膨脹卷積層組成的堆棧,采用了五次不同膨脹率的膨脹卷積進一步增加了感受野,在準確性方面比現有技術高出2.5%。Ge等[81]提出多輸入膨脹U-Net(multi-input dilated U-Net,MD-Unet)用于分割膀胱癌。其架構在U-Net瓶頸層中將最大池化與膨脹卷積相結合,間歇性地使用膨脹卷積,以減少腫瘤信息丟失,提高網絡分割性能。
2.6 注意力機制
注意力機制[82]會對輸入的上下文表示進行一次基于權重的篩選,通過這種加權的方式讓U-Net能學到空間上或者時序上的結構關系。U-Net中的注意力機制是在編、解碼器中加入注意力模塊,以及在跳躍連接中加入注意力模塊,如圖11所示。在U-Net中將注意力模塊用在跳躍連接上,可以選擇聚焦位置,產生更具分辨性的特征表示,并且不同模塊的特征隨著網絡的加深會產生適應性改變。編、解碼器中加入注意力機制,可以更有針對性地對圖像進行分割。注意力機制的特點是幫助U-Net更好地學到多種內容模態之間的相互關系,從而更好地表示這些信息,克服其無法解釋從而難以設計的缺陷。

注意力機制的基本思想是忽略無關信息而關注重點信息,通過神經網絡計算出梯度并通過前向傳播和后向反饋來學習獲得注意力權重。注意力機制分為空間注意力和通道注意力,因此模型可以在空間和通道上學到“在哪里”和“是什么”。本文對編、解碼中加入注意力機制與跳躍連接處加入注意力機制進行了總結。
2.6.1 編碼器、解碼器中加入注意力機制
編、解碼器使用注意力機制是在每次卷積或者反卷積之后使用注意力機制,本文從編碼器、編解碼器之間以及解碼器加入注意力機制進行總結,如圖12所示。

第一,在編碼器中使用注意力機制是指將注意力機制加入U-Net的特征提取層,在編碼階段通過使用混合注意塊來有效地增強圖像特征并抑制斑點噪聲。Lan等[83]提出基于混合注意力的殘差U-Net(mixed-attention based residual U-Net,MARU),該網絡在編碼器中采用輕量級的混合注意塊,通過對通道和空間注意的分離和再融合策略,有效地增強了圖像特征,抑制了編碼階段的散斑噪聲。
第二,編解碼器之間使用注意力機制是指在下采樣與上采樣之間使用注意力機制和瓶頸層中使用注意力機制,這樣可以從編碼的特征中選擇更有用的特征,并將其發送到上層解碼器。Li等[25]提出基于注意力的嵌套U-Net(attention-based nested U-Net,ANU-Net),此網絡在上采樣與下采樣之間引入注意門,使得在不同層次提取的特征可以與相關特征圖進行選擇合并,同時抑制與分割任務無關的背景區域。Guo等[84]提出空間注意力U-Net (Spatial Attention U-Net,SA-UNet),此模型在瓶頸層中添加空間注意力模塊,可以幫助網絡聚焦于重要特征,抑制不必要的特征,提高網絡的表示能力。
第三,解碼器中使用注意力機制是指在U-Net解碼器中加入如圖12所示的注意力模塊,以自動突出相關的特征信息,同時抑制不必要的圖像特征。Gu等[85]提出綜合注意力網絡(comprehensive attention network,CA-Net),CA-Net中的大部分注意力塊都在解碼器中,使用解碼器中的注意力塊來突出所有候選特征中的相關特征。Pang等[86]提出腫瘤注意力網絡(Tumor Attention Networks,TA-Net),該架構的解碼器連續執行通道注意力和空間注意力,可以通過進一步利用不同特征圖之間的通道和空間關系更好地生成注意力圖。Ding等[87]提出類別注意力提升網絡(category attention boosting network,CAB U-Net),在解碼器中利用類別注意力提升模塊對特征圖上的不同區域給予不同的關注,生成不同的類別圖,再將類別圖拼接在一起。此模型在大量壓縮U-Net結構的情況下,增強了網絡中的梯度流。
2.6.2 跳躍連接中加入注意力機制
跳躍連接加入注意力機制是在U-Net的跳躍連接處加入注意力模塊。原始U-Net只是把同層下采樣層的特征值接拼接到上采樣層中,改進后使用注意力模塊可以對提取的特征進行重標定。如圖13所示,按照年份的先后順序將跳躍連接中加入注意力機制的方法進行總結。Jin等[88]提出殘差注意力U-Net(residual attention U-Net,RAUNet)用于肝腫瘤分割。該網絡中的注意力殘差機制包含一個主干分支和一個軟掩碼分支,主干分支學習原始特征,而軟掩模分支專注于減少噪聲和增強好的特征,該方法在肝臟腫瘤分割中取得了較好的效果,在腦腫瘤分割中具有很高的擴展性和泛化能力。Liu等[89]提出深度殘差注意力網絡(deep residual attention network,DRANet),此模型中的注意力機制是由殘差塊和膨脹卷積組成的,注意力機制改進了網絡的編碼器和解碼器之間的特征處理,使得模型可以更好地區分兩種病變類型。Wang等[15]提出跨層連接的CLCU-Net,在編碼路徑與跳躍連接路徑中加入由通道注意力模塊組成的分割的注意力機制,提取連通特征中的有用信息,剔除冗余信息。Wang等[46]提出HDA-ResUNet,此模型在跳躍連接中增加了通道注意力機制,使用混合膨脹注意力卷積層放在模型最后一層與反卷積相連,以準確有效地進行醫學圖像分割。

2.7 Transformer機制
Transformer[90]采用編碼器-解碼器(Encoder-Decoder)架構,如圖14所示堆疊了6層的編碼器和解碼器,是一種避免循環的模型結構。編碼器每個層結構包含兩個子層:多頭注意力層和前饋連接層。解碼器有三個子層結構:遮掩多頭注意力層、多頭注意力層,前饋連接層,每個子層后面都加上殘差連接和正則化層。Transformer 機制的特點為善于處理空間上下文關系的優勢,對醫學圖像上器官之間的關系進行挖掘,提高醫學圖像的分割精度。Transformer模型也采用了編碼器與解碼器結構,調整流通張量的結構與數據稠密程度,提高了網絡精度與效率。

U-Net中的Transformer機制是將編碼器、解碼器與跳躍連接的操作改變為Transformer。如圖15所示Chen等[91]提出了一種基于U-Net的Transformer,此模型具有跳躍連接的多級Transformer,每個級別的轉換器解碼器接收三部分輸入,跳躍連接的殘差嵌入、更高級別的轉換器解碼器的輸出和查詢嵌入,使得更多信息特征得以重建,實現了更穩定的訓練過程和更精確的異常檢測和定位結果。此外,隨著注意力層被分解為多級,模型計算成本和內存使用量逐漸減少。

在醫學圖像分割中,癌癥患者病灶邊緣對比度低且圖像分割在單個圖像塊級別通常是不明確的,還需要上下文信息來達成語義共識,很容易造成漏診。因此,如何構造更大的感受野進行上下文建模,達到既能抽取特征信息又盡量不損失空間分辨率,一直是圖像分割的難點。許多分割算法將Transformer與U-Net結合作為分割病灶的網絡。
Li等[92]提出三重注意力網絡(triple attention network,TA-Net),在編碼器與解碼器上分別運用了Transformer機制,專注于捕獲各種全局特征維度和特征圖的長期依賴關系。Wu等[93]提出一種特征自適應Transformers網絡(feature adaptive transformers network,FAT-Net),在編碼器部分集成了一個額外的Transformer分支,有效地捕獲了遠程全局上下文信息。Wang等[94]提出多尺度Transformer全局注意力網絡(multi-scale transformer global attention network,MSTGANet),將Transformer模塊插入編碼器路徑,旨在捕獲多尺度非局部來自不同領域的具有長期依賴關系的特征編碼器層,從而利用未標記數據進一步提高分割性能。
3 總結與展望
將上文介紹的基于U-Net改進機制的技術脈絡總結成表,按照U-Net結構總結成表2~4,分別從結構改進、網絡名稱、使用方法、時間、數據集、評價參數這6個方面進行總結。



(1)關于結構的改進:包括卷積操作的改進,編、解碼器的改進和跳躍連接的改進。
(2)關于使用方法:將本文綜述的基于U-Net結構改進機制(密集連接機制、殘差連接機制、多尺度機制、集成機制、膨脹機制、注意力機制和Transformer機制)進行詳細的總結,所列舉的方法為近五年一些專家學者所提出的。
(3)關于數據集,主要包括:腦部腫瘤分割(Brain Tumor Segmentation,BraTS)是MICCAI所有比賽中歷史最悠久的數據集,BraTS 2017中的訓練集有285個病例,每個病例有四個模態(t1、t2、flair、t1ce),需要分割三個部分:整個腫瘤 (whole tumor,WT)、增強腫瘤(enhance tumor,ET)與腫瘤核心(tumor core,TC);DDSM數據集里存放了Cancer、Normal、Benign與Benign_without_callback四類數據,是一個用于篩選乳腺攝影的數字數據庫,是乳腺攝影圖像分析研究社區使用的資源;LIDC-IDRI數據集共收錄了1 018個研究實例,該數據集由胸部醫學圖像文件(如CT、X線)和對應的診斷結果病變標注組成;DRIVE數據集是一個用于血管分割的數字視網膜圖像數據集,它由40張圖像組成,其中7張顯示出輕度早期糖尿病視網膜病變跡象;STARE數據集是用來進行視網膜血管分割的彩色眼底圖數據庫,包括20幅眼底圖像,其中10幅有病變,10幅沒有病變。由于各種方法采用的數據集不盡相同,本文列舉的數據集只提供一個數據集名稱索引。
(4)表中總結各個網絡采用的評價指標以及指標數值,評價指標主要包括Dice scores、IOU和Accuracy等,可以為研究學者在改進U-Net網絡模型時提供參考。
U-Net已在深度學習領域取得突破性的進展,本文對U-Net的研究背景和意義進行概述,闡述了U-Net在醫學圖像分割中的應用;歸納了U-Net的七大機制:密集連接機制、殘差連接機制、多尺度機制、集成機制、膨脹機制、注意力機制和Transformer機制;最后對U-Net網絡結構的改進進行總結,為臨床計算機輔助診斷提供參考。雖然U-Net在醫學圖像領域取得了顯著性進展,但該網絡在醫學圖像分割領域的應用中仍然存在一些挑戰和局限。
第一,醫學圖像的分割與自然圖像分割大相徑庭,即使同一張病灶圖像,不同經驗的醫學專家也可能會給出不同的診斷方案。資歷深厚的專家更能迅速找出器官與病變組織,這表明先驗知識在醫學診斷中占很大比重。針對這種現象,根據醫學圖像中不同對象灰度分布情況與不同成像設備的特點,融合先驗知識指導分割網絡模型結構的設計是未來的研究方向。
第二,在腫瘤患者的醫學圖像分割中,通常是PET、CT與PET-CT三種模態圖像,由于這三種模態圖像具備局部相關性,不同模態之間腫瘤病灶密切相關,將網絡設置成三種模態輸入便會造成輸入冗余度非常高。而Transformer在醫學圖像分割任務中激起了熱潮,因此如何利用Transfomer與U-Net二者架構的優勢,解決輸入的冗余性會成為未來一個非常值得研究的方向。
第三,U-Net不僅在醫學圖像上表現出了優異的成績,而且在其他應用領域也做出了巨大的貢獻,例如:基于U-Net的人體活動識別(Human Activity Recognition,HAR)架構[95];光學領域中的variant U-Net[96]架構解決了多光譜圖像問題;建筑行業中用于分割鋼筋圖像的Multi-Attention U-Net[97]方法;基于U-Net的方法[98]解決了地震數據偏移;在服裝行業Tan等[99]提出了非局部試衣網絡(non-local virtual try-on network,NL-VTON)等。將U-Net擴展到更多行業領域里,并進一步提升U-Net的準確性與計算效率是未來值得研究的方向。
綜上所述,從深度學習的發展可以預見,U-Net網絡將會邁向更加廣闊的應用,極大可能推動醫學圖像分割領域不斷突破和創新,為醫療水平的提升做出巨大貢獻。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:侯森寶為綜述主要撰寫人,完成文獻資料的整理收集與分析;趙雅楠、黨培參與文獻資料分析與論文修改;周濤與陸惠玲參與論文的修改與指導;董雅麗參與論文的指導與審校。
引言
隨著現代醫學技術的快速發展,醫學圖像已經成為醫生進行疾病術前診斷規劃、手術方案制定、術中檢測與術后評估等許多醫療活動的重要信息來源,通過醫學圖像醫生可以更直觀、全面地了解病變的結構和特征,提高診斷效率和正確性。醫學圖像分割能夠從特定組織圖像中提取關鍵信息,是實現醫學圖像可視化的關鍵步驟,分割后的圖像被提供給醫生用于定量分析、診斷、解剖結構的描繪、病理改變組織的定位、制訂治療計劃等不同任務。但醫學圖像信息量巨大,臨床上手工勾畫醫學圖像目標區域是一件費時費力的工作,給臨床醫生的工作增加了很大負擔,故醫學圖像分割仍然是一個難題。在過去的幾年里,深度學習在醫學圖像處理的應用中引起了人們極大的興趣。迄今為止,最成功的圖像分析方法是卷積神經網絡(convolutional neural network,CNN),CNN[1]的突破對于醫學圖像分割領域非常重要。CNN經典模型有LeNet[2]、AlexNet[3]和U-Net[4],其中U-Net取得了突出的成就[5],成為醫學圖像分割的熱門技術,在深度卷積神經網絡的發展中具有非常重要的意義。為了解決醫學圖像分割中的問題,許多研究人員針對U-Net網絡結構進行了研究。Millemari等[6]提出的V-Net用于三維(three-dimensional,3D)醫學圖像分割,在輸入3D圖像按照通道拆分的同時,在每一層加入殘差結構,以快速和精確的方式實現磁共振成像中前列腺體積的分割。Zhou等[7]提出U-Net++網絡用于醫學圖像分割,網絡中增加新的跳躍連接,以便在每個深度之間傳輸更多信息。Oktay等[8]提出Attention U-Net網絡用于胰腺分割,將注意力模塊引入U-Net中的跳躍連接使得圖像信息更加清晰,提高分割的準確性。Ma等[9]提出多尺度水平跳躍連接U-Net(multi-scale hybird skip U-Net,MHSU-Net)網絡用于肺分割,在跳躍連接中加入上下文模塊,該架構提高了分割模型的特征提取能力,有效地減少了分割過程中的特征丟失。Peng等[10]提出局部上下文感知網絡(locally context-perception Net,LCP-Net),通過并行膨脹卷積提高了特征編碼器上下文信息的利用率,有利于獲得特征圖的豐富信息。Chen等[11]提出了交叉尺度殘差網絡(cross-scale residual network,CSR-Net)用于舟骨骨折分割,利用不同層的特征通過跨尺度殘差連接實現融合,實現不同層特征之間的尺度和通道轉換,可以在不同的比例特征之間建立緊密的聯系。由此可見,U-Net在醫學圖像分割中已經有了廣泛的應用。
本文從網絡結構出發對U-Net進行總結,先闡述U-Net在醫學圖像分割領域中的應用,再綜述U-Net的七大改進機制(密集連接機制、殘差連接機制、多尺度機制、集成機制、膨脹機制、注意力機制和Transformer機制),最后總結與展望U-Net未來的發展方向。
1 U-Net網絡在醫學圖像分割中的應用
U-Net是一種端到端神經網絡架構[12],以其“U”形而聞名,U-Net網絡以交并比(Intersection over Union,IOU)值達到了92%的優勢,在ISBI 2014年膠質母細胞瘤分割挑戰賽中名列前茅。在2016年,Cicek等[13]進一步將U-Net的二維網絡推廣到三維網絡,并在MICCAI 2016中利用3D-Unet從稀疏注釋中分割密集體積圖像。由于其卓越的性能和優良的體系結構,U-Net迅速成為醫學圖像分割中的重要網絡模型。
1.1 U-Net基本原理
U-Net采用的結構如圖1所示,網絡首先對輸入圖像進行4組卷積和下采樣操作來獲得圖像特征信息,然后通過右側的4組反卷積和上采樣將圖像放大。U-Net相同通道數的下采樣和上采樣操作之間增加了跳躍連接(如圖中水平黃色箭頭所示),能幫助解碼器更好地修復目標細節。左側卷積塊的輸出拼接到右側相同深度反卷積塊的輸入,反卷積塊的輸入特征圖尺寸沒有變化,但通道數增大了一倍。

1.2 U-Net在醫學圖像分割領域中的應用
U-Net網絡由于其結構性能卓越,在醫學圖像分割領域被廣泛應用,目前在腦腫瘤、肺癌、肝腫瘤、乳腺癌等重大疾病的臨床輔助診斷方面取得良好效果。如表1所示,從疾病分類、網絡名稱、時間、模型維度、數據集五方面對U-Net在醫學圖像分割中的應用進行歸納和總結。

腦腫瘤分為原發性和繼發性腫瘤,由于腦病變結構的高可變性,組織邊界模糊,以及數據有限和類不平衡性,使腦腫瘤的分割面臨巨大的挑戰。針對這些挑戰,一些專家學者提出以下解決方法:Kumar等[14]提出分類器-分割器網絡(Classifier-Segmenter network,CSNet)用于自動執行急性腦卒中診斷任務,以輔助和加快醫務人員的決策過程,并進一步提高了模型的分割精度;Wang等[15]提出一種跨水平連接跨層連通U-Net(cross-level connected U-shaped network,CLCU-Net)用于從多模態磁共振圖像中自動準確分割腦腫瘤,充分利用不同大小腦腫瘤的不同尺度信息,以獲得更有效的特征連接,提取更多的判別信息。
肺癌的早期發現有助于盡早治療,計算機斷層掃描(computed tomography,CT)是診斷肺部疾病的首選方法。然而,肺癌患者的病灶區域通常和正常組織粘連,現有的方法不能準確地進行肺部病灶區域的分割。一些專家學者提出以下解決方案:Zhou等[16]提出注意力并行U-Net網絡(attention mechanism parallel U-Net,APU-Net),該網絡結合正電子發射計算機斷層掃描(positron emission tomography,PET)、CT和PET/CT三種模態的肺部腫瘤特征,并使用混合注意力機制聚焦病灶區域,提高了肺部腫瘤分割的精度;Zhao等[17]提出一種新的級聯兩階段U-Net模型(Distraction-Sensitive U-Net,DSU-Net),第一階段對整個輸入CT體積進行全局分割,并預測潛在的干擾區域,其中包含假陰性區域和假陽性區域,第二階段將分散區域信息轉化為局部分割用于體積塊,以進一步分割肺部腫瘤區域。
肝臟具有豐富的血流供應,與人體的重要血管關系密切且肝臟惡性腫瘤發病隱匿、生長快速,因此治療甚為困難。在臨床實踐中,醫生通常采用手工分割的方法從腹部CT圖像中獲取肝臟區域,但是該方法耗時、勞動強度大、操作繁瑣。為了更準確地分割肝臟區域,一些專家學者提出以下解決方案:Xie等[18]提出動態自適應殘差網絡(dynamic adaptive residual network,DAR-Net),此網絡去除不相關像素并采用條件隨機場對肝臟邊界和紋理進行優化,提升了對肝臟病灶的分割精度;Jiang等[19]提出注意力與混合連接網絡(Attention Hybrid Connection Network,AHCNet),該網絡結合了UNet++、注意力機制和跳躍連接,實現更快的網絡收斂和準確的語義分割,并進一步證明了所提出的方法對肝臟病灶分割具有良好的臨床價值。
乳腺癌是乳腺上皮細胞在多種致癌因子的作用下,發生增殖失控的病變。乳腺X線攝影是早期發現和診斷乳腺癌的標準篩查方式,但是在發現致密和極度致密乳房的癌癥病灶方面仍然無效。采用計算機視覺分割方法可以幫助放射科醫生進行輔助診斷,例如:Belh等[20]提出結合殘差塊和混合注意力損失函數的改進U-Net乳腺腫瘤分割方法,利用殘差卷積模塊和擴展殘差卷積模塊代替編碼路徑的卷積模塊,在不增加計算代價的情況下提取超聲乳腺腫瘤更詳細的特征;Zhang等[21]提出密集雙任務網絡(dense dual-task network,DDTNet),采用有效的特征融合策略引入癌細胞位置信息的多尺度特征,以實現精確的乳腺癌病灶分割。
2 改進機制
近年來,U-Net得到了長遠的發展,從U-Net與其他深度模型耦合的角度出發,本文詳細總結了基于U-Net的七大改進機制。如圖2所示,七大機制具體包括:密集連接機制、殘差連接機制、多尺度機制、集成機制、膨脹機制、注意力機制和Transformer機制。

2.1 密集連接機制
U-Net中的密集連接機制就是將卷積層或者編、解碼器部分使用密集連接[22]。圖3給出基于U-Net的密集連接機制典型代表DenseUNet[23],該網絡由三部分組成:用于特征提取的下采樣過程、用于增加網絡深度的密集塊和用于圖像重建的上采樣過程。DenseNet[24]通過增加網絡深度有效提取面部特征,而U-Net則通過跳躍連接保留重要的面部細節,引入密集塊來提高網絡擬合能力,從而較好地解決了醫學圖像細節的丟失。U-Net中密集連接機制的特點是:任何兩層之間都存在直接連接,這意味著每一層網絡的輸入是所有網絡輸出的并集之前的層,以及這一層學習到的特征圖是作為輸入直接傳遞給它后面的所有層,不僅可以減輕梯度消失問題,增強了特征傳播,鼓勵特征重用,并大大減少了參數量。

密集連接神經網絡(Densely Connected Convolutional Networks,DenseNet)主要包含卷積層、密集塊、過渡層和分類器,任一卷積層的輸入包含前面所有卷積層的輸出,使得特征充分復用,并且高低層次的特征融合使得網絡具有較強的抗過擬合性能。近年來許多學者在U-Net中引入密集連接機制:Li等[25]結合U-Net和密集跳躍連接的嵌套分割網絡(attention-based nested U-Net,ANU-Net)獲得不同語義層次的全分辨率特征圖;Tang等[26]提出基于雙重注意力的密集網絡(Dual Attention-based Dense SU-net,DA-DSUnet),用密集塊替換了U-Net中的卷積層使得分割精度和參數效率均為更優。本節將詳細歸納U-Net的密集連接機制,從卷積層的替換以及編、解碼器中加入密集連接兩個方面進行總結。
2.1.1 卷積層的替換
卷積層的替換是指U-Net將原卷積層替換為密集塊。在密集塊中,任意兩層之間存在直接連接,意味著網絡每一層的輸入都是所有前一層輸出的并集,該層學習到的特征圖信息作為輸入直接傳遞給其后面的所有層。本節從原卷積層替換成密集連接塊、3D密集塊與Dense-Inception模塊三部分進行介紹。如圖4所示,箭頭按照時間先后順序的方式從左到右依次呈現,每種背景顏色分別代表著一種密集塊。

第一,將傳統的密集塊引入到U-Net中,提高了傳輸效率,使網絡提取的特征信息更加清晰,從而較好地解決了精細圖像細節的丟失問題,提高了網絡分割的準確性。將卷積層替換為密集塊主要方法有DU-Net和AD-Unet兩種模型:Manal等[27]提出密集塊U-Net(Denseblock U-Net,DU-Net),此網絡將卷積層替換為密集塊,該模型優于其他相關的深度學習模型,并改善了梯度流動性;Luo等[28]提出注意力密集網絡(Attention-Dense-UNet,AD-Unet),該網絡在卷積層的基礎上加入密集連接,較好地解決了精細血管細節的丟失問題。
第二,3D密集塊可以提取圖像中多變和復雜的空間信息,有助于網絡提取時空特征信息,從而提高網絡參數的利用率。將卷積層替換為3D密集塊主要方法有SC-DenseNet和3D-DenseNet-569兩種模型:Ke等[29]提出自約束密集網絡(self-constrained DenseNet,SC-DenseNet),該模型保留原U-Net中首、尾卷積層,將其余卷積層替換為3D密集連接模塊,將3D密集塊下采樣與上采樣的圖像做加和,實現了輸入圖像的自動檢測和分割;Nasser等[30]提出3D-DenseNet-569,用卷積層與3D密集塊組合代替了原U-Net的兩次卷積,增強了在深層網絡中收斂到最優解的能力。
第三,Dense-Inception模塊是將密集連接與Inception結構組合起來用于U-Net中,使網絡更深更寬,減少梯度消失現象和冗余計算。將卷積層替換為Dense-Inception的主要方法有DIU-Net和LCU-Net兩種模型:Zhang等[31]提出密集Inception U-Net(Dense-Inception U-Net,DIU-Net),此網絡用Dense-Inception模塊替換瓶頸層的卷積層,模塊內部使用Res-Inception模塊,外部使用密集連接,將該模塊連接到U-Net結構體系中,避免了網絡訓練期間梯度消失或冗余計算;Zhang等[32]提出低消耗U-Net(low-cost U-Net,LCU-Net),此網絡用Inception模塊替換卷積層,解決了U-Net單一感受野設置的局限性和相對較高的存儲成本。
2.1.2 編、解碼器中加入密集連接
編、解碼器加入密集連接是在U-Net的編碼器或者解碼器中加入密集連接,具體拓撲結構如圖5所示,按照箭頭的時間年份從左到右呈現了編、解碼器中加入密集連接的簡略圖,可以更好地構建編、解碼器不同模塊之間的關系。

Jose等[33]提出椎間盤分割網絡(intervertebral disc network,IVD-Net),該模型使用密集機制將編碼器逐層連接,每個編碼器處理不同的圖像模式,使得模型可以自由地了解不同的模式應該在哪里以及如何進行處理和組合。Zhang等[34]提出多尺度密集連接U-Net(multi-scale densely connected U-Net,MDU-Net),該網絡的編、解碼之間使用密集連接,直接融合相鄰的高低層不同尺度的特征圖,改進了編碼器、解碼器與跳躍連接,減少了來自密集連接的過擬合。Wang等[35]提出自適應全密集連接網絡(adaptive fully dense UNet,AFD-UNet),此網絡在Unet++的基礎上,通過水平密集連接將Unet++每層的特征密集連接起來,自適應地有效利用淺層和深層特征。Shi等[36]提出雙密集上下文感知網絡(dual dense context-aware network,DDC-Net),在編碼器和解碼器中引入密集連接融合來自較高層和較低層的多分辨率特征圖,以加強當前層中的特征傳播,從而改善編碼器和解碼器之間的信息流。Mohammad等[37]提出Dense-Unet,此網絡將編碼器的每層逐層向下層連接與解碼器的每層逐層向上連接形成密集連接的效果,從而可以利用不同級別的圖像組合。
2.2 殘差連接機制
U-Net中的殘差連接機制(residual neural network,ResNet)[38]就是將U-Net的卷積層替換為殘差塊,跳躍連接使用殘差連接路徑與編、解碼器用殘差網絡來替換。圖6描述了ResUnet[39]架構的細節,在ResUnet架構中進行反卷積操作提高圖像分辨率,并從低分辨率特征中恢復高質量圖像。跳躍連接對于ResUnet來說是不可或缺的,它可以提高網絡的表示能力,加快梯度反向傳播,防止訓練的不穩定性。基于U-Net中殘差連接機制的兩個特點是:① 殘差結構會簡化網絡的訓練;② 殘差單元中的跳躍連接以及U-Net網絡的編碼和解碼之間的跳躍連接可以促進信息傳播,避免梯度消失現象。

殘差單元是殘差網絡的基本組成部分[40],殘差單元由卷積層(convolution,Conv),批量歸一化層(batch normalization,BN)、線性整流函數(rectified linear unit,ReLU)激活函數和跳躍連接構成。殘差連接的特點是保證反向傳播參數的更新,避免反向傳播導致的梯度消失問題,使得優化深層模型更為簡單。近年來許多學者將殘差連接機制引入U-Net中:Lu等[41]提出環狀殘差網絡(ringed residual U-Net,RRA-UNet),此網路添加環形殘差模塊提取網絡深層的附加特征,可有效地解決胰腺的邊界模糊問題;Gu等[42]提出上下文編碼器網絡(context encoder network,CE-Net),使用ResNet-34殘差塊替換原始U-Net編碼器塊作為固定特征提取器。本節對U-Net中加入殘差連接機制進行總結,具體分為:卷積層的改進,跳躍連接處的改進和編、解碼單元的改進。
2.2.1 卷積層的改進
通過將U-Net的卷積層改成殘差單元,可以對網絡進行有效的訓練,很好地解決退化問題,加深網絡層數并提高模型性能。本節從基本殘差單元、預激活殘差單元、雙路徑殘差單元、SE殘差單元、遞歸殘差單元和注意力殘差單元等方面進行總結,如圖7所示。

第一,殘差單元。殘差單元包括相鄰堆疊的卷積層進行殘差連接,由卷積層、批量歸一化層和ReLU函數組成,許多專家學者將殘差單元加入U-Net中,以提高網絡架構的性能。Hu等[43]提出基于補丁的可變形配準網絡(patch-based deformable registration network,PR-Net),該網絡是由殘差單元組成,用于縮短整個網絡,并減輕梯度消失問題;Feng等[44]提出基于U-Net的殘差網絡(U-Net based residual network,URNet),網絡在瓶頸結構中嵌入了殘差單元,顯著改善了圖像去霧效果。Liu等[45]提出Res-Unet結構,編、解碼部分包含兩個殘差單元,此網絡加深了網絡中的層數,對毛細血管分割具有良好的性能。Wang等[46]提出混合注意力殘差網絡(hybrid dilation and attention residual U-Net,HDA-ResUNet),將每層卷積中都加入了殘差連接來獲取高級特征,與U-Net相比,此模型具有更少的參數和更好的分割性能。
第二,預激活殘差單元。預激活殘差單元是通過調整BN和卷積層位置實現預激活方式使得網絡結構達到最優。研究數據表明,預激活殘差單元比基本殘差單元更容易訓練和泛化。Waldner等[47]提出ResUNet-a,此架構中編碼器和解碼器的構建模塊由預激活殘差單元組成,有助于緩解梯度消失和爆炸的問題,以準確檢測邊界并丟棄無關的邊界。
第三,雙通道殘差單元。雙通道殘差單元能共享公共特征,重復利用已有特征,同時該架構保留了殘差連接路徑使得神經網絡足夠靈活而能夠學習新的特征。Albert等[48]提出Asymmetrical Net,此架構在編碼器中使用雙通道殘差單元,允許編碼器在原始和對稱模式之間提取關鍵特征,這種策略可避免表征的瓶頸,同時保留所包含的參數數量。
第四,擠壓激勵(Squeeze-and-Excitation,SE)殘差單元。SE殘差單元是由殘差路徑和SE模塊組成,網絡在進行粗略定位之后,加入SE殘差單元,由粗到細的策略大幅提高了分割精度,可以獲得更好的特征表示。Cao等[49]提出SE-ResUNet,在編碼器部分使用SE殘差單元來得到清晰的圖像特征,在分割小體積器官方面,此架構比其他的網絡架構擁有更好的分割性能。
第五,遞歸殘差單元。主要將每次的卷積遞歸一次做感興趣點積累的方法,遞歸殘差卷積執行兩次之后再輸出給其他模塊,具有遞歸殘差卷積層的特征累積確保了分割任務中更好的特征表示。Alom等[50]提出R2Unet,在編、解碼單元中使用遞歸卷積層(recurrent convolutional layer,RCL)和帶有殘差單元的RCL代替常規卷積層,有助于開發更有效、更深入的模型。
第六,注意力殘差單元。注意力殘差單元是將通道注意力與空間注意力先后依次加入殘差單元當中,加入注意力模型能夠忽略無關信息而更多地關注重點信息,再與原特征層進行拼接。Aamer等[51]提出注意力殘差網(Attention Residual U-Net,AReN-UNet),該架構將殘差注意力模塊加入UNet++中的卷積塊,可以提高網絡的泛化和表示能力,有效地增加了分割結果。
2.2.2 跳躍連接的改進
跳躍連接的改進是將殘差機制應用在U-Net中的跳躍連接處,網絡左、右側分別表示U-Net中的編、解碼器,中間為殘差跳躍連接(residual path,Respath),可以提高U-Net網絡的分割效果,減少參數量,具體如圖8所示。Ibtehaz等[52]提出MultiResUNet,此架構殘差跳躍連接是由一系列卷積層組成,使得網絡學習更為容易,可以更好地勾畫模糊邊界。Zhuang等[53]提出LadderNet,在每一級中通過殘差跳躍連接將每對相鄰編碼器和解碼器分支進行連接,殘差跳躍連接由兩次卷積、BN、ReLU與殘差連接組成,可以捕獲更復雜的特征并產生更高的精度。Yuan等[54]提出ResD-Unet,此架構的殘差跳躍連接由BN、ReLU、卷積組成,解決了網絡加深時出現的梯度消失的問題,能夠準確分割肺部CT圖像的肺動脈。Shuvo等[55]提出分類和定位器網絡(Classifier and Localizer UNet,CNL-UNet),殘差跳躍連接是由兩次不同的卷積與兩次殘差連接組成,使用改進的跳躍連接來減少原跳躍連接之間的語義差距,有助于模型提高精度。Wang等[56]提出自適應接受域多尺度網絡(adaptive receptive field multi-scale network,ARMS Net),使用兩次卷積與殘差連接操作構成了殘差跳躍連接,來代替U-Net中的跳躍連接,可以在不縮放或裁剪圖像尺寸的情況下自適應地校正感受野,以保留更多的圖像細節。

2.2.3 編、解碼單元的改進
在殘差連接機制中,編、解碼單元的改進是指將U-Net中的編碼器替換為殘差網絡。
Yu等[57]開發了一種改進的U-Net架構,采用ResNet-34模型作為U-Net架構的編碼器部分,可以加快模型訓練速度,提高魯棒性。Hari等[58]提出UNetResNext50,將U-Net的編碼器替換為ResNet-50,從ResNet-50模型接收到的結果被送到U-Net的擴展路徑,將其向上采樣到原始尺寸,對于磁共振圖像中的腦腫瘤自動檢測和分割非常有效。
2.3 多尺度機制
所謂多尺度,實際上就是對圖像的不同粒度的采樣,在一種尺度下難以獲取圖像信息時在另外某種尺度下容易發現或者提取圖像信息,在不同尺度下可以觀察到不同的特征,從而完成不同的任務,所以多尺度技術常用于提取圖像。將多尺度方法加入U-Net中可以通過對不同層次的上下文信息進行編碼來生成區分性特征,即低層關注局部外觀特征,高層關注全局表示。多尺度特征圖捕捉目標圖像的每個空間位置的局部鄰域的豐富上下文信息,并且在U-Net中不同尺度的特征圖的空間位置之間存在對應關系。
如圖9所示,多尺度U-Net[59](multi-scale U-Net,MU-Net)由多個U-Net組成,其中單個U-Net去除不同尺度的噪聲,然后基于從粗到精的策略產生性能改進。此網絡是由圖像金字塔中具有不同空間尺度的K個U-Net組成,通過聯合卷積輸入圖像,在較低級別U-Net中重建輸出圖像,上采樣與當前級別U-Net的輸入圖像一起使用。這種多尺度學習方法能夠實現從粗到細的圖像重建,從低頻到高頻逐步構建目標輸出。因此,MU-Net在保留圖像細節的同時有效地去除了圖像噪聲。

在醫學圖像器官分割場景中,由于器官尺度差異較為嚴重,有的器官占據整個輸入圖像,有的器官只覆蓋了幾個像素點,不同尺度的器官需要不同尺寸的感受野才能完整地對其特征進行提取。在U-Net網絡中多尺度機制有兩個特點:一是基于U-Net使用多尺度輸入,提升網絡對不同尺度物體的識別能力;二是通過在U-Net嵌入金字塔池化模塊,提升網絡對多尺度特征的提取和學習能力。
2.3.1 多尺度輸入
在U-Net各階段的輸入特征圖中,不同階段得到的特征圖的尺寸不同,多尺度輸入就是使用多個尺度的圖像輸入,然后將其結果進行融合,使得最終的輸出融合了不同尺寸感受野的特征,從而提升U-Net對多尺度目標的識別能力,在U-Net中多尺度輸入的方法主要有:AID、MDFA-Net、SLSNet、MED-Net。
Cui等[60]提出注意力輸入深度監督網絡(attention input deep-supervised,AID),在編碼層使用了多尺度輸入結構,在跳躍連接處使用了多尺度注意力模塊,有效提高了心臟分割的準確性。Li等[61]提出多尺度雙路徑特征聚合網絡(multiscale dual-path feature aggregation network,MDFA-Net),網絡的輸入層中采用多尺度輸入來保持原始全局特征,該方法在心臟分割的問題中取得了良好的性能。Sarker等[62]提出皮損分割網絡(skin lesion segmentation network,SLSNet),圖像經過多尺度輸入,將其輸入在編碼器的每一層內,用于聚集輸入皮膚圖像的從粗到細的特征,并減少偽影的影響。Kose等[63]提出多尺度編碼器-解碼器網絡(multiscale encoder-decoder network,MED-Net),網絡將圖像以不同尺度的圖像大小輸入到編碼器之中,對其進行多尺度融合之后,提取中間層特征輸入到解碼器當中,MED-Net實現了更高的量化指標。
2.3.2 金字塔池化模塊
U-Net中使用金字塔池化模塊是一種充分利用全局信息的方式,捕獲多尺度全局上下文信息并生成具有豐富表示的特征,這對于解決遮擋問題和提高分割性能至關重要。金字塔池化模塊比起普通的單一池化更能保留全局上下文信息,在U-Net中金字塔池化模塊主要有CMM-Net、MCNet、GC-DCNN。
Almasni等[64]提出上下文多尺度多層次網絡(contextual multi-scale multi-level network,CMM-Net),其主要思想是在網絡編碼器卷積之后反復利用金字塔池化模塊融合多個空間尺度的全局上下文特征,有效地用作各種醫學圖像分割的工具。Wang等[65]提出多路徑連接網絡(multi-path connected network,MCNet),它將金字塔池化生成的多條路徑集成到編碼階段以保留語義信息和空間細節從而增強網絡編碼器的細節表示能力,具有更強的特征提取能力。Lan等[66]提出基于全局上下文的膨脹卷積神經網絡(global context based dilated convolutional neural network,GC-DCNN),該網絡在解碼器中使用空間金字塔池化模塊產生多級全局上下文特征,并將它們與原始提取的特征連接起來,形成具有更豐富表示信息的最終特征。
2.4 集成機制
U-Net中集成機制是由一組網絡集成而成,這些神經網絡可以并行處理相同的輸入數據后將它們的輸出組合起來完成分割。集成機制的特點是建立多個同質且存在差異的個體分類器來解決同一個問題,然后將所有個體分類器的預測結果通過策略組合得到集成機制的最終結果,目的是更好地提高模型的魯棒性和泛化能力。
為了改善池化過程造成的空間信息損失,利用多尺度[67]和多層級學習的方式[68],構建兩個差異化的同質型分割模型,并與U-Net集成在一起形成新的分割模型。構建的多模型集成算法的典型代表如圖10所示,中間虛線框為U-Net模型O,左上角虛線框為模型A的編碼器結構,右下角虛線框為模型B的多尺度高中層語義信息融合結構圖。

U-Net分割算法通常對某些目標類的分割效果好,但對其他部分類的分割效果較差,無法滿足所有類別的分割要求,導致模型泛化性能不佳,而其他分割模型可能會與該模型互補,因此可以將多個模型的分割結果集成起來,提升單模型分割算法效果。集成機制構建并結合多個分割網絡可有效地規避單個分割網絡的缺陷。U-Net中集成的方法可以使用許多并行的模型,然后結合它們產生更精確的分割結果,比較適合用于對分割圖像精度要求較高的場合特別是用在醫學圖像分割領域,具有較大的實用價值。在U-Net中使用集成機制的主要有:2.5D Net、AssemblyNet、Ensemble U-Net、UNet-SCDC。
Mei等[69]提出2.5D Net來處理不同的圖像信息,使用多個U-Net集成到一起來提高分割結果的魯棒性,獲得更穩健的結果。Coupe等[70]提出AssemblyNet,此模型引入兩個U-Net集成模型用于知識共享,每個U-Net都用不同的訓練和驗證集進行訓練,以利用所有可用的訓練數據,使訓練和執行速度更快。Li等[71]提出Ensemble U-Net,采用集成U-Net網絡作為基礎網絡架構,應用膨脹空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)結構來合并U-Net的邊緣特征和高級特征,對其結構和參數進行優化和改進,以更好地提取圖像特征。Lei等[72]提出跳躍連接和密集連接網絡(skip connection and dense convolution U-Net,UNet-SCDC),該網絡集成兩個模塊:基于跳躍連接和密集卷積的U-Net分割模塊和雙重區分模塊(dual discrimination,DD),當UNet-SCDC模塊使用密集的膨脹卷積塊來生成保留細粒度信息的深度表示時,DD模塊使用兩個CNN架構組合起來的鑒別器來共同決定鑒別器的輸入是真或否。
2.5 膨脹機制
膨脹機制就是在U-Net的編、解碼器中使用膨脹卷積,膨脹卷積[73]是在標準卷積核中注入空洞,擴大的幅度稱為擴張率,將小的卷積核尺寸變大同時保持卷積的參數量不變。膨脹機制的特點是在不使用大卷積核、不增加參數量、不增加卷積深度的基礎上擴大感受野,獲取更大范圍內獨立的特征信息,可以提高對大目標的分割準確率。
在U-Net卷積塊中,用膨脹卷積代替標準卷積,改進網絡提取的語義信息。膨脹卷積與普通卷積相比除了卷積核的大小以外,還有膨脹率參數,主要用來表示膨脹的大小,從而達到一次卷積看到的空間范圍變化大的目的,可以使模型獲得更大的感受野,減少特征信息的丟失,有助于提高模型的性能。本文從在編、解碼中使用膨脹機制,與瓶頸層使用膨脹機制兩個方面來詳細闡述U-Net改進中的膨脹機制。
2.5.1 編、解碼器中使用膨脹機制
在編、解碼器中加入膨脹機制是指在U-Net中,將編、解碼器的原始卷積替換為膨脹卷積,主要方法有:DiSegNet、DIN、DC-U-Net、URNet、EFSNet。Xu等[74]提出膨脹SegNet(Dilated SegNet,DiSegNet),在編碼器與解碼器體系結構中引入了膨脹空間金字塔池化,以不同的膨脹速率提取更多的局部上下文信息,有助于恢復解碼器部分的心臟器官邊界,提高心臟邊界的語義準確預測和詳細分割。Li等[75]提出膨脹初始網絡(dilated-inception net,DIN)來提取和聚焦多尺度特征用于右心室分割,該網絡在U-Net的基礎上將編、解碼器的每層卷積全部替換成膨脹卷積,在右心室分割挑戰的基準數據庫上表現優于許多最先進的模型。Chen等[76]提出膨脹卷積的U-Net(dilated convolution U-Net,DC-U-Net),此模型引入了膨脹卷積來替換卷積塊的結構,使腔體結構可以在不增加參數的情況下擴大模型的感受野,提高模型的非線性表達能力。Feng等[77]提出基于U-Net的殘差網絡(U-Net based residual network,URNet)用于圖像去噪,編碼器模塊旨在通過標準卷積和膨脹卷積的混合卷積來提取圖像的淺層特征圖,以提取更多細節的圖像特征。Hu等[78]提出高效快速語義分割網絡(efficient fast semantic network,EFSNet),使用膨脹卷積替換原卷積,可以在不增加額外參數的情況下擴大感受野,并且提高分割精度,降低分段的噪聲。
2.5.2 瓶頸層使用膨脹機制
瓶頸層使用膨脹卷積是將U-Net底層的卷積塊換成膨脹卷積。原始的卷積在很多情況都不能增大感受野,不能全面地捕獲上下文信息,因此需要將瓶頸層中的卷積替換成膨脹卷積。主要方法有:HDC-Net、SD U-Net、MD-Unet。Fang等[79]為了填充圖像中缺失或遮罩的區域提出了混合膨脹卷積網絡(Hybrid Dilated Convolution network,HDC-Net)。此架構在瓶頸層中集成3次不同擴張率的膨脹卷積,這樣可以有效地擴大網絡的感受野,進一步提高訓練的穩定性。Rad等[80]提出堆疊膨脹卷積(stacked dilated U-Net,SD U-Net)用于識別發育中人類胚胎。該模型在瓶頸層中添加一個由5個膨脹卷積層組成的堆棧,采用了五次不同膨脹率的膨脹卷積進一步增加了感受野,在準確性方面比現有技術高出2.5%。Ge等[81]提出多輸入膨脹U-Net(multi-input dilated U-Net,MD-Unet)用于分割膀胱癌。其架構在U-Net瓶頸層中將最大池化與膨脹卷積相結合,間歇性地使用膨脹卷積,以減少腫瘤信息丟失,提高網絡分割性能。
2.6 注意力機制
注意力機制[82]會對輸入的上下文表示進行一次基于權重的篩選,通過這種加權的方式讓U-Net能學到空間上或者時序上的結構關系。U-Net中的注意力機制是在編、解碼器中加入注意力模塊,以及在跳躍連接中加入注意力模塊,如圖11所示。在U-Net中將注意力模塊用在跳躍連接上,可以選擇聚焦位置,產生更具分辨性的特征表示,并且不同模塊的特征隨著網絡的加深會產生適應性改變。編、解碼器中加入注意力機制,可以更有針對性地對圖像進行分割。注意力機制的特點是幫助U-Net更好地學到多種內容模態之間的相互關系,從而更好地表示這些信息,克服其無法解釋從而難以設計的缺陷。

注意力機制的基本思想是忽略無關信息而關注重點信息,通過神經網絡計算出梯度并通過前向傳播和后向反饋來學習獲得注意力權重。注意力機制分為空間注意力和通道注意力,因此模型可以在空間和通道上學到“在哪里”和“是什么”。本文對編、解碼中加入注意力機制與跳躍連接處加入注意力機制進行了總結。
2.6.1 編碼器、解碼器中加入注意力機制
編、解碼器使用注意力機制是在每次卷積或者反卷積之后使用注意力機制,本文從編碼器、編解碼器之間以及解碼器加入注意力機制進行總結,如圖12所示。

第一,在編碼器中使用注意力機制是指將注意力機制加入U-Net的特征提取層,在編碼階段通過使用混合注意塊來有效地增強圖像特征并抑制斑點噪聲。Lan等[83]提出基于混合注意力的殘差U-Net(mixed-attention based residual U-Net,MARU),該網絡在編碼器中采用輕量級的混合注意塊,通過對通道和空間注意的分離和再融合策略,有效地增強了圖像特征,抑制了編碼階段的散斑噪聲。
第二,編解碼器之間使用注意力機制是指在下采樣與上采樣之間使用注意力機制和瓶頸層中使用注意力機制,這樣可以從編碼的特征中選擇更有用的特征,并將其發送到上層解碼器。Li等[25]提出基于注意力的嵌套U-Net(attention-based nested U-Net,ANU-Net),此網絡在上采樣與下采樣之間引入注意門,使得在不同層次提取的特征可以與相關特征圖進行選擇合并,同時抑制與分割任務無關的背景區域。Guo等[84]提出空間注意力U-Net (Spatial Attention U-Net,SA-UNet),此模型在瓶頸層中添加空間注意力模塊,可以幫助網絡聚焦于重要特征,抑制不必要的特征,提高網絡的表示能力。
第三,解碼器中使用注意力機制是指在U-Net解碼器中加入如圖12所示的注意力模塊,以自動突出相關的特征信息,同時抑制不必要的圖像特征。Gu等[85]提出綜合注意力網絡(comprehensive attention network,CA-Net),CA-Net中的大部分注意力塊都在解碼器中,使用解碼器中的注意力塊來突出所有候選特征中的相關特征。Pang等[86]提出腫瘤注意力網絡(Tumor Attention Networks,TA-Net),該架構的解碼器連續執行通道注意力和空間注意力,可以通過進一步利用不同特征圖之間的通道和空間關系更好地生成注意力圖。Ding等[87]提出類別注意力提升網絡(category attention boosting network,CAB U-Net),在解碼器中利用類別注意力提升模塊對特征圖上的不同區域給予不同的關注,生成不同的類別圖,再將類別圖拼接在一起。此模型在大量壓縮U-Net結構的情況下,增強了網絡中的梯度流。
2.6.2 跳躍連接中加入注意力機制
跳躍連接加入注意力機制是在U-Net的跳躍連接處加入注意力模塊。原始U-Net只是把同層下采樣層的特征值接拼接到上采樣層中,改進后使用注意力模塊可以對提取的特征進行重標定。如圖13所示,按照年份的先后順序將跳躍連接中加入注意力機制的方法進行總結。Jin等[88]提出殘差注意力U-Net(residual attention U-Net,RAUNet)用于肝腫瘤分割。該網絡中的注意力殘差機制包含一個主干分支和一個軟掩碼分支,主干分支學習原始特征,而軟掩模分支專注于減少噪聲和增強好的特征,該方法在肝臟腫瘤分割中取得了較好的效果,在腦腫瘤分割中具有很高的擴展性和泛化能力。Liu等[89]提出深度殘差注意力網絡(deep residual attention network,DRANet),此模型中的注意力機制是由殘差塊和膨脹卷積組成的,注意力機制改進了網絡的編碼器和解碼器之間的特征處理,使得模型可以更好地區分兩種病變類型。Wang等[15]提出跨層連接的CLCU-Net,在編碼路徑與跳躍連接路徑中加入由通道注意力模塊組成的分割的注意力機制,提取連通特征中的有用信息,剔除冗余信息。Wang等[46]提出HDA-ResUNet,此模型在跳躍連接中增加了通道注意力機制,使用混合膨脹注意力卷積層放在模型最后一層與反卷積相連,以準確有效地進行醫學圖像分割。

2.7 Transformer機制
Transformer[90]采用編碼器-解碼器(Encoder-Decoder)架構,如圖14所示堆疊了6層的編碼器和解碼器,是一種避免循環的模型結構。編碼器每個層結構包含兩個子層:多頭注意力層和前饋連接層。解碼器有三個子層結構:遮掩多頭注意力層、多頭注意力層,前饋連接層,每個子層后面都加上殘差連接和正則化層。Transformer 機制的特點為善于處理空間上下文關系的優勢,對醫學圖像上器官之間的關系進行挖掘,提高醫學圖像的分割精度。Transformer模型也采用了編碼器與解碼器結構,調整流通張量的結構與數據稠密程度,提高了網絡精度與效率。

U-Net中的Transformer機制是將編碼器、解碼器與跳躍連接的操作改變為Transformer。如圖15所示Chen等[91]提出了一種基于U-Net的Transformer,此模型具有跳躍連接的多級Transformer,每個級別的轉換器解碼器接收三部分輸入,跳躍連接的殘差嵌入、更高級別的轉換器解碼器的輸出和查詢嵌入,使得更多信息特征得以重建,實現了更穩定的訓練過程和更精確的異常檢測和定位結果。此外,隨著注意力層被分解為多級,模型計算成本和內存使用量逐漸減少。

在醫學圖像分割中,癌癥患者病灶邊緣對比度低且圖像分割在單個圖像塊級別通常是不明確的,還需要上下文信息來達成語義共識,很容易造成漏診。因此,如何構造更大的感受野進行上下文建模,達到既能抽取特征信息又盡量不損失空間分辨率,一直是圖像分割的難點。許多分割算法將Transformer與U-Net結合作為分割病灶的網絡。
Li等[92]提出三重注意力網絡(triple attention network,TA-Net),在編碼器與解碼器上分別運用了Transformer機制,專注于捕獲各種全局特征維度和特征圖的長期依賴關系。Wu等[93]提出一種特征自適應Transformers網絡(feature adaptive transformers network,FAT-Net),在編碼器部分集成了一個額外的Transformer分支,有效地捕獲了遠程全局上下文信息。Wang等[94]提出多尺度Transformer全局注意力網絡(multi-scale transformer global attention network,MSTGANet),將Transformer模塊插入編碼器路徑,旨在捕獲多尺度非局部來自不同領域的具有長期依賴關系的特征編碼器層,從而利用未標記數據進一步提高分割性能。
3 總結與展望
將上文介紹的基于U-Net改進機制的技術脈絡總結成表,按照U-Net結構總結成表2~4,分別從結構改進、網絡名稱、使用方法、時間、數據集、評價參數這6個方面進行總結。



(1)關于結構的改進:包括卷積操作的改進,編、解碼器的改進和跳躍連接的改進。
(2)關于使用方法:將本文綜述的基于U-Net結構改進機制(密集連接機制、殘差連接機制、多尺度機制、集成機制、膨脹機制、注意力機制和Transformer機制)進行詳細的總結,所列舉的方法為近五年一些專家學者所提出的。
(3)關于數據集,主要包括:腦部腫瘤分割(Brain Tumor Segmentation,BraTS)是MICCAI所有比賽中歷史最悠久的數據集,BraTS 2017中的訓練集有285個病例,每個病例有四個模態(t1、t2、flair、t1ce),需要分割三個部分:整個腫瘤 (whole tumor,WT)、增強腫瘤(enhance tumor,ET)與腫瘤核心(tumor core,TC);DDSM數據集里存放了Cancer、Normal、Benign與Benign_without_callback四類數據,是一個用于篩選乳腺攝影的數字數據庫,是乳腺攝影圖像分析研究社區使用的資源;LIDC-IDRI數據集共收錄了1 018個研究實例,該數據集由胸部醫學圖像文件(如CT、X線)和對應的診斷結果病變標注組成;DRIVE數據集是一個用于血管分割的數字視網膜圖像數據集,它由40張圖像組成,其中7張顯示出輕度早期糖尿病視網膜病變跡象;STARE數據集是用來進行視網膜血管分割的彩色眼底圖數據庫,包括20幅眼底圖像,其中10幅有病變,10幅沒有病變。由于各種方法采用的數據集不盡相同,本文列舉的數據集只提供一個數據集名稱索引。
(4)表中總結各個網絡采用的評價指標以及指標數值,評價指標主要包括Dice scores、IOU和Accuracy等,可以為研究學者在改進U-Net網絡模型時提供參考。
U-Net已在深度學習領域取得突破性的進展,本文對U-Net的研究背景和意義進行概述,闡述了U-Net在醫學圖像分割中的應用;歸納了U-Net的七大機制:密集連接機制、殘差連接機制、多尺度機制、集成機制、膨脹機制、注意力機制和Transformer機制;最后對U-Net網絡結構的改進進行總結,為臨床計算機輔助診斷提供參考。雖然U-Net在醫學圖像領域取得了顯著性進展,但該網絡在醫學圖像分割領域的應用中仍然存在一些挑戰和局限。
第一,醫學圖像的分割與自然圖像分割大相徑庭,即使同一張病灶圖像,不同經驗的醫學專家也可能會給出不同的診斷方案。資歷深厚的專家更能迅速找出器官與病變組織,這表明先驗知識在醫學診斷中占很大比重。針對這種現象,根據醫學圖像中不同對象灰度分布情況與不同成像設備的特點,融合先驗知識指導分割網絡模型結構的設計是未來的研究方向。
第二,在腫瘤患者的醫學圖像分割中,通常是PET、CT與PET-CT三種模態圖像,由于這三種模態圖像具備局部相關性,不同模態之間腫瘤病灶密切相關,將網絡設置成三種模態輸入便會造成輸入冗余度非常高。而Transformer在醫學圖像分割任務中激起了熱潮,因此如何利用Transfomer與U-Net二者架構的優勢,解決輸入的冗余性會成為未來一個非常值得研究的方向。
第三,U-Net不僅在醫學圖像上表現出了優異的成績,而且在其他應用領域也做出了巨大的貢獻,例如:基于U-Net的人體活動識別(Human Activity Recognition,HAR)架構[95];光學領域中的variant U-Net[96]架構解決了多光譜圖像問題;建筑行業中用于分割鋼筋圖像的Multi-Attention U-Net[97]方法;基于U-Net的方法[98]解決了地震數據偏移;在服裝行業Tan等[99]提出了非局部試衣網絡(non-local virtual try-on network,NL-VTON)等。將U-Net擴展到更多行業領域里,并進一步提升U-Net的準確性與計算效率是未來值得研究的方向。
綜上所述,從深度學習的發展可以預見,U-Net網絡將會邁向更加廣闊的應用,極大可能推動醫學圖像分割領域不斷突破和創新,為醫療水平的提升做出巨大貢獻。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:侯森寶為綜述主要撰寫人,完成文獻資料的整理收集與分析;趙雅楠、黨培參與文獻資料分析與論文修改;周濤與陸惠玲參與論文的修改與指導;董雅麗參與論文的指導與審校。