隨著網絡結構的迅速發展,卷積神經網絡(CNN)在圖像分析領域已成為一種領先的機器學習工具。因此,基于 CNN 的語義分割也已成為醫學圖像理解中的一項關鍵高級任務。本文綜述了基于 CNN 的語義分割在醫學圖像領域中的研究進展,回顧了多種經典的語義分割方法及其架構變化,并重點介紹了它們在該領域的貢獻和意義。在此基礎上,進一步總結和討論了它們在一些重要的生理與病理解剖結構分割中的應用。最后,本文討論了語義分割在醫學圖像領域應用將遭遇的挑戰和潛在發展方向。
引用本文: 吳玉超, 林嵐, 王婧璇, 吳水才. 基于卷積神經網絡的語義分割在醫學圖像中的應用. 生物醫學工程學雜志, 2020, 37(3): 533-540. doi: 10.7507/1001-5515.201906067 復制
引言
圖像分割是圖像處理和計算機視覺領域中的一項關鍵技術,是計算機認知圖像的關鍵一步。它通常依據圖像的特定性質,如灰度、顏色、紋理、幾何形狀和梯度等,把圖像劃分為若干具有相似性質且互不相交的子區域并提取出感興趣區域。傳統的圖像分割方法主要包括閾值分割、邊緣檢測、水平集方法等[1]。圖像分割所提取出的區域可用于后續的圖像識別等任務,如在醫學圖像領域,圖像分割可以輔助放射科醫生進行分析,減少診斷所需的時間。傳統圖像分割是非監督學習,不需要有關圖像像素的標簽信息,無法使分割出的區域具有可描述性的語義標注。隨著計算機計算能力的提高,人們也開始考慮獲取圖像的語義描述。語義分割技術可以從像素級將圖像分割成屬于不同語義類別的區域,做到對圖像場景的高級別分析和理解。在深度學習技術快速發展之前,語義分割一般根據圖像像素自身的低階視覺信息來進行圖像分割[2],如利用圖論的理論和方法,是將圖像映射為帶權無向圖,把像素視作節點,利用最小剪切準則得到圖像的最佳分割。但這類方法只能進行二類語義分割,多個目標就要多次運算,無法進行大規模、批量化的圖像處理。同時,由于計算復雜度低,在較復雜的任務上,分割效果并不能令人滿意。
近年來,隨著計算機硬件性能的提升和大規模圖像數據庫的出現,深度學習模型在圖像處理領域有了突飛猛進的發展。其中,一種主流深度學習技術是卷積神經網絡(convolutional neural networks,CNN)[3]。CNN 是一種多層的基于監督學習的神經網絡,它根據對輸入圖像的卷積運算來判斷圖像中物體的所屬類別。其中,卷積運算通過局部連接和權值共享的設計方式,顯著降低了模型的復雜度,減少了權值的數量;而網絡主要包括卷積層、池化層和全連接層,如圖 1 所示。卷積層和池化層是實現 CNN 特征提取功能的核心模塊,低層網絡主要由它們交替組成。高層網絡則是全連接層,對應邏輯回歸分類器,完成對數據的識別等任務[4]。

但是,傳統 CNN 的全連接層會將二維圖像特征壓扁成一維的特征向量,丟失了空間信息,直接用于分割任務的效果并不理想。2015 年,Long 等[5]提出了全卷積網絡(fully convolutional network,FCN)的概念,并且首次實現了輸入到輸出像素點的一一映射,實現了像素級的識別。雖然 FCN 改變了 CNN 的結構,實現了更加高效的語義分割,但是分割精度依然不夠。為了提高網絡分割的精度,研究者們提出了許多不同結構改進,改善了語義分割模型的精確度。醫學圖像分割作為圖像處理領域的一個研究熱點,長期受到廣大科研工作者的關注。與普通圖像相比較,醫學圖像具有低對比度、不均勻性等特點,另外,人體的解剖組織結構形狀復雜且具有較大差異性。這些都給醫學圖像語義分割帶來困難。本文聚焦于綜述基于 CNN 模型的語義分割在醫學圖像分析領域的研究現狀和挑戰。從語義分割網絡的基礎結構出發,論述了語義分割任務中網絡模型的基本架構及其改進。隨后,結合醫學影像領域的應用實例介紹語義模型在一些重要的生理與病理解剖結構圖像分割任務中的表現。最后,總結了該研究領域面臨的挑戰與應對策略,并對未來研究發展方向進行展望。
1 語義分割網絡
1.1 全卷積網絡
CNN 在卷積層之后會連接若干個全連接層,將卷積層、池化層提取的二維特征圖壓縮成一維向量,這種操作使得網絡的輸出丟失了圖像的空間信息,更適用于整體圖像分類。為了進一步理解圖像內容,研究者們希望了解這些類別在圖像中所處的空間位置及其它信息,并進行進一步的空間密集型的像素分類與預測任務。如果直接將 CNN 用于語義分割,是將一個小區域作為 CNN 的輸入來進行訓練和預測。這往往就存在存儲開銷大、計算效率低以及感知區域需要確定等缺陷。FCN 的設計思路就是以恢復丟失的空間信息為主線,使用了卷積化、上采樣和跳躍結構三大關鍵技術,如圖 2 所示。卷積化技術將 CNN 網絡后半部分的所有全連接層都改造成相應大小的卷積層,這樣卷積層對輸入圖像的大小不再限制,可以接受任意大小的輸入圖像。將卷積層提取出的特征進行整合,獲得所分類的目標物熱力圖。為了在輸出端得到對原圖像像素級的分類圖,還需要將熱力圖的像素數恢復到原圖的同樣大小,產生像素級別的語義分割結果。反卷積將輸出的熱力圖上采樣到與輸入圖像相同尺度,得到 32 倍放大(FCN-32s)的分割結果。而跳躍連接將不同分辨率的特征圖通過上采樣整合到同一分辨率尺度,進行特征融合,最后再進行一定倍數的上采樣還原,16 倍放大(FCN-16s)和 8 倍放大(FCN-8s)的分割結果均基于跳躍連接來融合放大獲取。FCN 是語義分割問題中的一個里程碑,它展示了如何訓練 CNN 來解決端到端的語義分割任務。

1.2 編碼-解碼器
語義分割網絡的基本結構是將兩個單獨的神經網絡結構結合在一起,它們是基于前端的 CNN 編碼器結構和基于后端的解碼器結構[6]。前端編碼器結構使用了預訓練的 CNN,如視覺幾何組(visual geometry group,VGG)和殘差網絡(residual network,ResNet)等結構進行圖像特征提取,以及特征的編碼壓縮,產生低分辨率特征圖。為了在分割網絡的輸出端得到對原輸入圖像的像素預測結果,后端解碼器結構將編碼器學習到的低分辨率判別特征圖映射到高分辨率像素空間上。FCN 就是最經典的編碼—解碼結構,但從設計角度它也有著一些缺陷,如其固有的空間不變性沒有考慮到有用的全局上下文信息,以及實時性差等。從分割結果來看,其分割精度也還有一定不足。從 FCN 開始,這種編碼—解碼結構已成為語義分割的基本結構,現有的語義分割網絡的創新主要來源于對編碼器、解碼器結構的不斷持續改造與優化以及其效率的提升。
1.3 結構優化
語義分割網絡的優化從網絡結構出發可以分為編碼器結構的優化、解碼器結構的優化和獨立后處理模塊的優化;從功能出發可以分為基于特征融合的優化、基于多尺度信息的優化等。本文以結構的優化為分類標準,分別介紹了幾種代表性的語義分割網絡,其網絡名稱及架構和關鍵特點如表 1 所示。

1.3.1 編碼器結構優化
前端編碼器一般使用預訓練的 CNN 進行圖像特征提取,產生低分辨率特征圖,該部分最常見的改進是采用更復雜的基礎 CNN 網絡來提取更優化的特征。但 CNN 網絡提取特征中存在的一個問題是特征圖分辨率相對較低,進行上采樣后得到的分割結果細節粗糙。為了改善分割精度,DeepLab 設計提出了一個系列的網絡,包括 DeepLab 初始版本和其三個改進版本,其中第一個改進版本(DeepLabv2)引入了膨脹系數的概念,使用膨脹卷積取代傳統卷積來進行下采樣。在感受野不變的情況下,避免了下采樣帶來的特征圖分辨率的減小。第二個改進版本(DeepLabv3)在 DeepLabv2 的基礎上,繼續對膨脹卷積層結構進行優化,采用串行和并行的膨脹卷積架構,可以提取更具有表征力的特征。
1.3.2 解碼器結構優化
解碼器將編碼器學習到的不同階段低分辨率判別特征進行上采樣與融合,并映射到高分辨率像素空間上,以獲得密集分類。它是語義分割網絡與傳統 CNN 最大區別所在,也是結構優化的重點。解碼過程的改進主要圍繞上采樣過程和全局與局部多尺度的特征圖融合展開。SegNet 網絡對上采樣過程做了改進,解碼器使用了來源于相應編碼器最大池化過程所保存的池化索引進行上采樣,消除了學習上采樣的需要。上采樣后取得的特征圖與一組可訓練的濾波器組進行卷積來生成密集的特征映射,使語義分割網絡結構更加清晰。U-Net 在生物醫學數據分割任務中被廣泛使用。它將編碼器中的高分辨率特征圖與上采樣過程相結合,通過跳躍連接架構實現編碼器與解碼器中的特征圖拼接,在每個階段都允許解碼器學習在編碼器池化中丟失的相關特征。為了進一步提高分割精度。語義分割網絡需要集成各個空間尺度的信息,精細化的局部信息對于實現良好的像素級別預測至關重要,同時全局上下文背景信息整合可以改善局部像素信息之間聯系模糊的情況。PSPNet 使用了一種金字塔池化模塊對不同分辨率的特征信息進行融合,提高像素分類的準確度。DeepLab 的第三個改進版本(DeepLabv3+)在 DeepLabv3 的結構上做了進一步改進,在解碼網絡中使用跳躍連接進行特征融合,分別結合了編碼、解碼結構的優勢算法,得到了一個更快、更強的編碼—解碼網絡。
1.3.3 基于獨立模塊的結構優化
CNN 架構固有的空間變換不變性限制了語義分割網絡分割的空間精度,一種可用的解決方案是在輸出端加上一個條件隨機場(conditional random field,CRF)的獨立模塊來獲得更精細的分割結果。DeepLab 系列中的初始版本(DeepLab v1)在原始的 FCN 的基礎上,加入了全連接條件隨機場,作為一個獨立的后處理模塊,對網絡的輸出進行邊界優化。
2 語義分割網絡的醫學應用
在 CNN 技術發展成熟并廣泛應用之前,基于閾值、形態學運算等傳統圖像分割算法在醫學圖像分割中已經取得了一定應用效果。但普遍存在需要一定的先驗知識、適用條件嚴格、泛化性能較差等缺點。基于 CNN 的語義分割算法的優化更聚焦于網絡結構的設計,對先驗知識的需求小,并且通過大數據的訓練可以使算法模型具有較好的泛化性能,能夠滿足醫學應用的需求。
2.1 醫學領域應用特點
語義分割網絡盡管已經在自然圖像處理任務中獲得了令人矚目的成績,但醫學領域對技術的應用有嚴格的要求,因為醫學圖像和醫療行為有一定的特殊性。
2.1.1 較高的維度
前文中提到的語義分割網絡及其優化結構都是在自然圖像數據上開發的,盡管它們很有效,但大多數方法只能處理二維圖像。而臨床應用的大多數醫療影像數據都是三維結構。相對于二維的自然圖像語義分割,對三維數據進行語義分割的模型更難創建,這也是當前醫學圖像領域的一大挑戰。針對三維數據,當前存在著兩種類型的解決方案:多視角 CNN 與三維 CNN。在多視角 CNN 中,從不同視角提取二維圖像,并將這些二維圖像送入傳統的二維 CNN,以并行多流的方式進行處理[12]。Chung 等[13]提出一種基于軸向、矢狀面和冠狀面三平面的肝臟腫瘤分割方法,系統集成了三個二維神經網絡,分別與三維圖像的 XY、YZ、ZX 平面存在一一對應關系,從不同視圖中學習深層特征用于分割。通過實驗驗證顯示此類多視角的方法明顯優于單視圖法。在三維 CNN 中,使用三維卷積核替代二維卷積核進行運算。如 V 型網絡(V-Net)[14]就是一種三維版本的 U-Net,其網絡結構主要特點是三維卷積核,并引入殘差模塊和 U-Net 的框架。
2.1.2 醫療數據使用規范
安全性是所有醫療行為必須遵守的行為準則,對醫療數據的使用也必須以不對患者造成傷害為第一原則。各種功能的輔助診斷系統要遵循嚴格的質量標準,保證其具有高度的穩定性和準確性,并且不會發生無法人為逆轉的嚴重錯誤。其次醫療數據的使用涉及到患者的隱私信息,在使用數據時必須嚴格保密,嚴格授權使用,并制定相應法律對患者隱私進行保護。相應的,人工智能技術應用于醫療領域最重要的法律責任是發生誤判的責任。凡是醫療行為就會存在一定風險,所以必須由法律做出明確規定,確定技術開發人員和技術應用醫生之間的權責關系,是技術最終得到應用的關鍵。
2.2 跨領域的遷移學習
從頭開始訓練一個語義分割網絡需要海量的有標注的影像數據,并且要達到收斂可能需要很長的時間。因此,語義分割網絡在醫學圖像領域的應用,首先面臨的問題是缺乏足夠的標注好的影像數據。這些圖像需要專家手動標記每個像素,在醫生已經承擔繁重醫療工作量的情況下,通常是不可行的。遷移學習本質上是使用預先訓練過的網絡,解決缺乏大數據集對深度網絡進行訓練的問題。盡管醫學圖像和自然圖像所表示的信息完全不同,遷移學習可以從自然圖像預先訓練好的網絡開始,通過微調預訓練網絡的權重來完成醫學圖像語義分割的任務。荷蘭內梅亨大學醫學中心和哈佛醫學院等科研機構的研究者們將遷移學習應用于磁共振成像(magnetic resonance imaging,MRI)的腦損傷分割任務中[15],通過實驗探索了在遷移學習中,需要多少來自當前任務的數據才能對原有網絡進行適當的調整,以及需要對原模型的哪一部分進行再訓練。從其實驗結果顯示,在僅有少量訓練數據的情況下,通過對最后幾層進行微調即可獲得較好效果。
2.3 醫學領域應用實例
醫學圖像分割領域的一項關鍵任務是識別感興趣的目標器官或組織。但由于醫學圖像本質的復雜性,對其進行自動分割是一項困難的任務。除了待分割的器官和組織外,醫學圖像中一般會包括周圍的其它器官或組織。與周圍器官或組織相比,待分割組織可能和它們具有相似的形態和特征。同時,待分割的區域本身可能還存在著特征的異質性。本節通過對語義分割網絡在重要的生理與病理解剖結構和其它生物醫學圖像的不同分割任務中具體應用實例,展現了基于 CNN 的語義分割算法的廣泛的適用性及較高的準確性。
2.3.1 常見大型解剖結構分割
(1)腦結構分割
腦影像分析被廣泛應用于研究阿爾茨海默病、癲癇、精神分裂癥、多發性硬化癥、癌癥以及神經退行性疾病等腦疾病[16-17]。在腦圖像中,語義分割技術被用于在空間和時間上對正常(如白質和灰質)或異常腦組織(如腦腫瘤)進行定量測量和定性分析。現已發布多個可公開獲取的腦影像數據集并用于腦圖像分割的研究。常見的數據集包括:腦腫瘤分割數據集(網址為:http://braintumorsegmentation.org/)、缺血性卒中病變分割數據集(網址為:http://www.isles-challenge.org/)、輕度創傷性腦損傷預后預測數據集(網址為:https://tbichallenge.wordpress.com/)和腦 MRI 圖像分割數據集(網址為:https://mrbrains18.isi.uu.nl/)等。王海鷗等[18]將超像素分割和 U-Net 基礎網絡結構相結合,對灰質、白質、腦脊液等 5 種腦結構進行分割,實驗結果表明該網絡在分割性能上優于 FCN-16s、CNN 以及一般結構 U-Net。Chen 等[19]在 U-Net 的下采樣中通過使用不同尺寸的卷積核提取圖像特征和進行特征融合,獲得了一種多尺度的改進型 U-Net 網絡。通過 2 000 余幅 MRI 圖像的訓練,所得模型灰質、白質和腦脊液的分割中取得了 87.19%、86.41% 和 39.65% 的精度,較 U-Net 具有更好的分割效果。多模態 MRI 技術不僅能探索腦形態學的改變,還能反映不同腦區間微結構改變及功能活動的異常。Nie 等[20]獲取了 11 名健康嬰兒的 T1、T2 和彌散加權三種模態神經影像,通過使用整合上下文語義信息、融合不同尺度特征等方法進行網絡優化,使用三維 FCN 對多模態的腦 MRI 圖像進行分割。結果顯示該方法在灰質、白質和腦脊液的分割任務中,與手工分割金標準的重合率優于三維 U-Net 等其它方法。然后,進一步對 50 例來自國家自閉癥研究數據庫的數據測試,驗證了該方法的泛化能力。海馬形態變化是一項研究阿爾茲海默癥患者腦萎縮變化的關鍵特征,但海馬區圖像邊緣一般比較模糊。為了提高海馬區的邊緣分割精度,Wang 等[21]提出了一種基于 CRF 的邊緣感知 FCN 網絡,通過將邊緣信息加入損失函數中,實現了更精確的邊緣分割,模型準確率高達 87.31%,遠高于 FCN-8s 等基礎語義分割網絡。除了腦結構的變化會反映腦部疾病的信息外,腦皮層溝的形狀也能夠對一些發育性疾病和神經退行性疾病病情提供診斷信息。Borne 等[22]從不同的異構數據庫中挑選出 62 例健康大腦圖像作為訓練集,利用三維 U-Net 對與大腦皮層褶皺對應的體素進行標記,然后對結果進行空間正則化,所得的模型對 63 個右腦溝和 64 個左腦溝進行了分割,10 折交叉驗證結果顯示錯誤率僅為 15.06%。
在腫瘤治療領域,對腦部腫瘤的分割也是一項極具挑戰性的任務。例如腦膠質瘤是最常見的腦腫瘤,通常具有很強的浸潤性,存在邊界模糊和對比度差的特點。Cui 等[23]使用多模態腦腫瘤分割數據集,設計了一種級聯的網絡結構來實現對腦膠質瘤的自動語義分割。該數據集包含 220 例高級別膠質瘤和 54 例低級別膠質瘤病例,每個病例包含 4 組多模態 MRI 數據,數據被標記為正常腦組織、壞死、水腫、非增強腫瘤、增強腫瘤五類,級聯腫瘤定位網絡和瘤內分類網絡兩個子網絡可從每例多模態 MRI 數據中檢測出完整的腫瘤并將其分類為不同的腫瘤亞區。
(2)肺結構分割
肺實質組織以及對應結節和血管的分割是后續定量肺部計算機斷層掃描(computed tomography,CT)圖像分析的先決條件和初始步驟。由于需要分割的肺部組織部分一般結構尺寸小,信噪比、對比度低,因此這也是一項具有挑戰性的任務。Anthimopoulos 等[24]收集了來自多家醫療機構的 172 例高分辨率 CT 圖像,使用具有膨脹卷積結構和多尺度特征融合的 FCN 對肺 CT 圖像中的肺實質、健康組織、微結節和蜂窩狀結構進行分割。網絡測試結果達到了接近 82% 的分割精度。在肺癌診斷中,Bouget 等[25]提出了一種結合 U-Net 優點的算法對縱膈解剖結構和惡性淋巴結進行自動檢測和分割,利用處理數據不平衡的損失函數和一種實例分割網絡,在邊界框內提供實例檢測和改進的像素分割。其研究經五折交叉檢驗結果顯示,在 15 個解剖結構中的相似度評價系數得分為 76%。而在淋巴結檢測中結果顯示,對每個患者 9 個假陽性的召回率達到 75%,平均每個維度的質心位置估計誤差僅為 3 mm。
(3)肝結構分割
肝臟作為人體中最大的實質性器官,由于其內部含有復雜的血管結構,如何在制定治療方案時精確定位肝臟內部的病灶及大血管等結構是肝臟圖像分割中的一個重要挑戰。Astono 等[26]使用一種形如 FCN 的自動提取特征的網絡,在上采樣過程中利用保留的空間信息實現像素的預測輸出,獲得了醫學圖像計算和計算機輔助干預(medical image computing and computer assisted intervention,MICCAI)會議主辦的挑戰賽中的冠軍。
2.3.2 其它生物醫學圖像分割
基于 CNN 的語義分割網絡在其它生物醫學圖像分割領域也有著重要應用。李智能等[27]提出一種基于 CNN 的醫學宮頸細胞圖像語義分割方法,通過標定顯微圖像中的細胞核和細胞質輪廓制作數據集進行分割模型訓練,模型在測試數據集上的核質分割準確率高達 94.7%,具有很好的輔助診斷意義。Tran 等[28]利用 SegNet 結構對顯微血液涂片圖像中的紅細胞和白細胞進行分割,全局精度也高達 89.45%。另外,語義分割網絡還在諸如肌肉骨骼結構分割、眼底病灶分割等方面有重要應用。Liu 等[29]采用 SegNet 結構作為核心網絡,對取自 MICCAI 挑戰賽數據集的 100 組帶標記的膝關節 MRI 圖像進行肌肉、軟骨、骨骼的分割,期望可為臨床骨關節炎研究提供快速、準確的軟骨等組織的分割。Edupuganti 等[30]利用 FCN 對眼底圖像中視盤和杯狀區域進行分割,用以輔助青光眼的診斷。
3 討論
語義分割網絡的基礎結構 CNN 來自于圖像分類任務。在過去幾年中,基礎的 CNN 網絡得到了高速的發展,在部分圖像識別領域已經可以超過人類。因此,在語義分割網絡開發中采用最新型的 CNN 構建模塊,如 ResNet 和改進的 ResNet 等,可以較容易地在二維醫學圖像分割任務中獲得較優的性能。
隨著計算機計算能力的增強,借助于醫學大數據,基于 CNN 的語義分割算法在許多醫學圖像分割挑戰賽中開始占據主導地位,成為該領域首選方法。但它們也具有一定的局限性。首先,基于語義的卷積網絡是一個黑箱模型,模型構建通常需要大量反復嘗試,缺乏從數學和理論上的解釋,這妨礙了理解和識別不準確分割背后的原因以及對模型性能好壞的評估能力。對該問題的一種解決途徑在于提升模型的可解釋性[31]以及尋找特征可視化的新方法[32]。其次,基于語義的深度網絡在性能改進上很大程度會依賴于大型的醫學影像數據集。與其他領域大型的公共可用數據集相比,目前醫學領域的公共可用數據集仍然非常有限。在文獻概述中可以發現,大部分應用都是采用 U-Net 架構在小數據集上實現,而有限的訓練數據會成為該領域進一步發展應用的瓶頸。此外,目前該領域常見的一種解決方法是遷移學習,但醫學圖像通常是單通道、低對比度和具有豐富紋理的,在自然圖像上訓練的特征模型可能不完全適合醫學圖像。因此,針對該領域的一種潛在解決方案是基于多影像采集中心、多設備的多數據源遷移學習。當前,也有越來越多的大型公共醫學影像數據庫,如阿爾茲海默癥神經影像學計劃[33]、肺部圖像數據庫聯盟[34]等開始創建。另外,醫學影像分割一項關鍵任務是獲取這些圖像的相關注釋/標簽,而這些注釋/標簽往往需要放射科醫生大量工作,獲取足夠多的標記數據在醫學領域并不容易。一種潛在的解決方案是采用無監督的生成對抗網絡進行學習,減少對數據標簽的需求。最后,由于基于語義的醫學圖像分割方法一般計算量大,而且醫學成像數據的數量也在不斷增加,需要更為有效的實施方式。現代圖形處理器(graphics processing unit,GPU)由多個核心組成,每個核心都有多個功能單元,具有高度的數據并行體系結構。這部分的改進一般來源于軟件和硬件層次。硬件設計上,往往通過增加線程處理器的數量、時鐘速度和板載內存的數量來提升通用計算性能。在軟件層次上,英偉達推出的統一計算設備架構(compute unified device architecture,CUDA),則為目前深度學習算法提供了最基礎的底層開發技術,可以在構建高性能深度學習應用程序時,充分發揮 GPU 的強大計算功能。CUDA 目前僅支持三維線程的創建,由于計算能力的強弱對模型構建和模型性能的影響很大,所以未來在運算能力更強的硬件上開發支持高維數據運算的底層庫,可以為處理更復雜的醫學圖像任務提供探索研究的可能。
基于語義的 CNN 憑借其設計和性能的優勢迅速成為醫學圖像分割的熱門技術,這些算法已經應用在前文所述的諸多解剖結構中,并且在實際應用中,對比傳統的相對閾值法等醫學影像分割算法,其具有更好的性能。未來,預計會有大量商業或開源的基于語義深度網絡的自動分割工具出現,必將在臨床實踐中得到醫護工作者更廣泛的接受并最終應用于臨床。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
圖像分割是圖像處理和計算機視覺領域中的一項關鍵技術,是計算機認知圖像的關鍵一步。它通常依據圖像的特定性質,如灰度、顏色、紋理、幾何形狀和梯度等,把圖像劃分為若干具有相似性質且互不相交的子區域并提取出感興趣區域。傳統的圖像分割方法主要包括閾值分割、邊緣檢測、水平集方法等[1]。圖像分割所提取出的區域可用于后續的圖像識別等任務,如在醫學圖像領域,圖像分割可以輔助放射科醫生進行分析,減少診斷所需的時間。傳統圖像分割是非監督學習,不需要有關圖像像素的標簽信息,無法使分割出的區域具有可描述性的語義標注。隨著計算機計算能力的提高,人們也開始考慮獲取圖像的語義描述。語義分割技術可以從像素級將圖像分割成屬于不同語義類別的區域,做到對圖像場景的高級別分析和理解。在深度學習技術快速發展之前,語義分割一般根據圖像像素自身的低階視覺信息來進行圖像分割[2],如利用圖論的理論和方法,是將圖像映射為帶權無向圖,把像素視作節點,利用最小剪切準則得到圖像的最佳分割。但這類方法只能進行二類語義分割,多個目標就要多次運算,無法進行大規模、批量化的圖像處理。同時,由于計算復雜度低,在較復雜的任務上,分割效果并不能令人滿意。
近年來,隨著計算機硬件性能的提升和大規模圖像數據庫的出現,深度學習模型在圖像處理領域有了突飛猛進的發展。其中,一種主流深度學習技術是卷積神經網絡(convolutional neural networks,CNN)[3]。CNN 是一種多層的基于監督學習的神經網絡,它根據對輸入圖像的卷積運算來判斷圖像中物體的所屬類別。其中,卷積運算通過局部連接和權值共享的設計方式,顯著降低了模型的復雜度,減少了權值的數量;而網絡主要包括卷積層、池化層和全連接層,如圖 1 所示。卷積層和池化層是實現 CNN 特征提取功能的核心模塊,低層網絡主要由它們交替組成。高層網絡則是全連接層,對應邏輯回歸分類器,完成對數據的識別等任務[4]。

但是,傳統 CNN 的全連接層會將二維圖像特征壓扁成一維的特征向量,丟失了空間信息,直接用于分割任務的效果并不理想。2015 年,Long 等[5]提出了全卷積網絡(fully convolutional network,FCN)的概念,并且首次實現了輸入到輸出像素點的一一映射,實現了像素級的識別。雖然 FCN 改變了 CNN 的結構,實現了更加高效的語義分割,但是分割精度依然不夠。為了提高網絡分割的精度,研究者們提出了許多不同結構改進,改善了語義分割模型的精確度。醫學圖像分割作為圖像處理領域的一個研究熱點,長期受到廣大科研工作者的關注。與普通圖像相比較,醫學圖像具有低對比度、不均勻性等特點,另外,人體的解剖組織結構形狀復雜且具有較大差異性。這些都給醫學圖像語義分割帶來困難。本文聚焦于綜述基于 CNN 模型的語義分割在醫學圖像分析領域的研究現狀和挑戰。從語義分割網絡的基礎結構出發,論述了語義分割任務中網絡模型的基本架構及其改進。隨后,結合醫學影像領域的應用實例介紹語義模型在一些重要的生理與病理解剖結構圖像分割任務中的表現。最后,總結了該研究領域面臨的挑戰與應對策略,并對未來研究發展方向進行展望。
1 語義分割網絡
1.1 全卷積網絡
CNN 在卷積層之后會連接若干個全連接層,將卷積層、池化層提取的二維特征圖壓縮成一維向量,這種操作使得網絡的輸出丟失了圖像的空間信息,更適用于整體圖像分類。為了進一步理解圖像內容,研究者們希望了解這些類別在圖像中所處的空間位置及其它信息,并進行進一步的空間密集型的像素分類與預測任務。如果直接將 CNN 用于語義分割,是將一個小區域作為 CNN 的輸入來進行訓練和預測。這往往就存在存儲開銷大、計算效率低以及感知區域需要確定等缺陷。FCN 的設計思路就是以恢復丟失的空間信息為主線,使用了卷積化、上采樣和跳躍結構三大關鍵技術,如圖 2 所示。卷積化技術將 CNN 網絡后半部分的所有全連接層都改造成相應大小的卷積層,這樣卷積層對輸入圖像的大小不再限制,可以接受任意大小的輸入圖像。將卷積層提取出的特征進行整合,獲得所分類的目標物熱力圖。為了在輸出端得到對原圖像像素級的分類圖,還需要將熱力圖的像素數恢復到原圖的同樣大小,產生像素級別的語義分割結果。反卷積將輸出的熱力圖上采樣到與輸入圖像相同尺度,得到 32 倍放大(FCN-32s)的分割結果。而跳躍連接將不同分辨率的特征圖通過上采樣整合到同一分辨率尺度,進行特征融合,最后再進行一定倍數的上采樣還原,16 倍放大(FCN-16s)和 8 倍放大(FCN-8s)的分割結果均基于跳躍連接來融合放大獲取。FCN 是語義分割問題中的一個里程碑,它展示了如何訓練 CNN 來解決端到端的語義分割任務。

1.2 編碼-解碼器
語義分割網絡的基本結構是將兩個單獨的神經網絡結構結合在一起,它們是基于前端的 CNN 編碼器結構和基于后端的解碼器結構[6]。前端編碼器結構使用了預訓練的 CNN,如視覺幾何組(visual geometry group,VGG)和殘差網絡(residual network,ResNet)等結構進行圖像特征提取,以及特征的編碼壓縮,產生低分辨率特征圖。為了在分割網絡的輸出端得到對原輸入圖像的像素預測結果,后端解碼器結構將編碼器學習到的低分辨率判別特征圖映射到高分辨率像素空間上。FCN 就是最經典的編碼—解碼結構,但從設計角度它也有著一些缺陷,如其固有的空間不變性沒有考慮到有用的全局上下文信息,以及實時性差等。從分割結果來看,其分割精度也還有一定不足。從 FCN 開始,這種編碼—解碼結構已成為語義分割的基本結構,現有的語義分割網絡的創新主要來源于對編碼器、解碼器結構的不斷持續改造與優化以及其效率的提升。
1.3 結構優化
語義分割網絡的優化從網絡結構出發可以分為編碼器結構的優化、解碼器結構的優化和獨立后處理模塊的優化;從功能出發可以分為基于特征融合的優化、基于多尺度信息的優化等。本文以結構的優化為分類標準,分別介紹了幾種代表性的語義分割網絡,其網絡名稱及架構和關鍵特點如表 1 所示。

1.3.1 編碼器結構優化
前端編碼器一般使用預訓練的 CNN 進行圖像特征提取,產生低分辨率特征圖,該部分最常見的改進是采用更復雜的基礎 CNN 網絡來提取更優化的特征。但 CNN 網絡提取特征中存在的一個問題是特征圖分辨率相對較低,進行上采樣后得到的分割結果細節粗糙。為了改善分割精度,DeepLab 設計提出了一個系列的網絡,包括 DeepLab 初始版本和其三個改進版本,其中第一個改進版本(DeepLabv2)引入了膨脹系數的概念,使用膨脹卷積取代傳統卷積來進行下采樣。在感受野不變的情況下,避免了下采樣帶來的特征圖分辨率的減小。第二個改進版本(DeepLabv3)在 DeepLabv2 的基礎上,繼續對膨脹卷積層結構進行優化,采用串行和并行的膨脹卷積架構,可以提取更具有表征力的特征。
1.3.2 解碼器結構優化
解碼器將編碼器學習到的不同階段低分辨率判別特征進行上采樣與融合,并映射到高分辨率像素空間上,以獲得密集分類。它是語義分割網絡與傳統 CNN 最大區別所在,也是結構優化的重點。解碼過程的改進主要圍繞上采樣過程和全局與局部多尺度的特征圖融合展開。SegNet 網絡對上采樣過程做了改進,解碼器使用了來源于相應編碼器最大池化過程所保存的池化索引進行上采樣,消除了學習上采樣的需要。上采樣后取得的特征圖與一組可訓練的濾波器組進行卷積來生成密集的特征映射,使語義分割網絡結構更加清晰。U-Net 在生物醫學數據分割任務中被廣泛使用。它將編碼器中的高分辨率特征圖與上采樣過程相結合,通過跳躍連接架構實現編碼器與解碼器中的特征圖拼接,在每個階段都允許解碼器學習在編碼器池化中丟失的相關特征。為了進一步提高分割精度。語義分割網絡需要集成各個空間尺度的信息,精細化的局部信息對于實現良好的像素級別預測至關重要,同時全局上下文背景信息整合可以改善局部像素信息之間聯系模糊的情況。PSPNet 使用了一種金字塔池化模塊對不同分辨率的特征信息進行融合,提高像素分類的準確度。DeepLab 的第三個改進版本(DeepLabv3+)在 DeepLabv3 的結構上做了進一步改進,在解碼網絡中使用跳躍連接進行特征融合,分別結合了編碼、解碼結構的優勢算法,得到了一個更快、更強的編碼—解碼網絡。
1.3.3 基于獨立模塊的結構優化
CNN 架構固有的空間變換不變性限制了語義分割網絡分割的空間精度,一種可用的解決方案是在輸出端加上一個條件隨機場(conditional random field,CRF)的獨立模塊來獲得更精細的分割結果。DeepLab 系列中的初始版本(DeepLab v1)在原始的 FCN 的基礎上,加入了全連接條件隨機場,作為一個獨立的后處理模塊,對網絡的輸出進行邊界優化。
2 語義分割網絡的醫學應用
在 CNN 技術發展成熟并廣泛應用之前,基于閾值、形態學運算等傳統圖像分割算法在醫學圖像分割中已經取得了一定應用效果。但普遍存在需要一定的先驗知識、適用條件嚴格、泛化性能較差等缺點。基于 CNN 的語義分割算法的優化更聚焦于網絡結構的設計,對先驗知識的需求小,并且通過大數據的訓練可以使算法模型具有較好的泛化性能,能夠滿足醫學應用的需求。
2.1 醫學領域應用特點
語義分割網絡盡管已經在自然圖像處理任務中獲得了令人矚目的成績,但醫學領域對技術的應用有嚴格的要求,因為醫學圖像和醫療行為有一定的特殊性。
2.1.1 較高的維度
前文中提到的語義分割網絡及其優化結構都是在自然圖像數據上開發的,盡管它們很有效,但大多數方法只能處理二維圖像。而臨床應用的大多數醫療影像數據都是三維結構。相對于二維的自然圖像語義分割,對三維數據進行語義分割的模型更難創建,這也是當前醫學圖像領域的一大挑戰。針對三維數據,當前存在著兩種類型的解決方案:多視角 CNN 與三維 CNN。在多視角 CNN 中,從不同視角提取二維圖像,并將這些二維圖像送入傳統的二維 CNN,以并行多流的方式進行處理[12]。Chung 等[13]提出一種基于軸向、矢狀面和冠狀面三平面的肝臟腫瘤分割方法,系統集成了三個二維神經網絡,分別與三維圖像的 XY、YZ、ZX 平面存在一一對應關系,從不同視圖中學習深層特征用于分割。通過實驗驗證顯示此類多視角的方法明顯優于單視圖法。在三維 CNN 中,使用三維卷積核替代二維卷積核進行運算。如 V 型網絡(V-Net)[14]就是一種三維版本的 U-Net,其網絡結構主要特點是三維卷積核,并引入殘差模塊和 U-Net 的框架。
2.1.2 醫療數據使用規范
安全性是所有醫療行為必須遵守的行為準則,對醫療數據的使用也必須以不對患者造成傷害為第一原則。各種功能的輔助診斷系統要遵循嚴格的質量標準,保證其具有高度的穩定性和準確性,并且不會發生無法人為逆轉的嚴重錯誤。其次醫療數據的使用涉及到患者的隱私信息,在使用數據時必須嚴格保密,嚴格授權使用,并制定相應法律對患者隱私進行保護。相應的,人工智能技術應用于醫療領域最重要的法律責任是發生誤判的責任。凡是醫療行為就會存在一定風險,所以必須由法律做出明確規定,確定技術開發人員和技術應用醫生之間的權責關系,是技術最終得到應用的關鍵。
2.2 跨領域的遷移學習
從頭開始訓練一個語義分割網絡需要海量的有標注的影像數據,并且要達到收斂可能需要很長的時間。因此,語義分割網絡在醫學圖像領域的應用,首先面臨的問題是缺乏足夠的標注好的影像數據。這些圖像需要專家手動標記每個像素,在醫生已經承擔繁重醫療工作量的情況下,通常是不可行的。遷移學習本質上是使用預先訓練過的網絡,解決缺乏大數據集對深度網絡進行訓練的問題。盡管醫學圖像和自然圖像所表示的信息完全不同,遷移學習可以從自然圖像預先訓練好的網絡開始,通過微調預訓練網絡的權重來完成醫學圖像語義分割的任務。荷蘭內梅亨大學醫學中心和哈佛醫學院等科研機構的研究者們將遷移學習應用于磁共振成像(magnetic resonance imaging,MRI)的腦損傷分割任務中[15],通過實驗探索了在遷移學習中,需要多少來自當前任務的數據才能對原有網絡進行適當的調整,以及需要對原模型的哪一部分進行再訓練。從其實驗結果顯示,在僅有少量訓練數據的情況下,通過對最后幾層進行微調即可獲得較好效果。
2.3 醫學領域應用實例
醫學圖像分割領域的一項關鍵任務是識別感興趣的目標器官或組織。但由于醫學圖像本質的復雜性,對其進行自動分割是一項困難的任務。除了待分割的器官和組織外,醫學圖像中一般會包括周圍的其它器官或組織。與周圍器官或組織相比,待分割組織可能和它們具有相似的形態和特征。同時,待分割的區域本身可能還存在著特征的異質性。本節通過對語義分割網絡在重要的生理與病理解剖結構和其它生物醫學圖像的不同分割任務中具體應用實例,展現了基于 CNN 的語義分割算法的廣泛的適用性及較高的準確性。
2.3.1 常見大型解剖結構分割
(1)腦結構分割
腦影像分析被廣泛應用于研究阿爾茨海默病、癲癇、精神分裂癥、多發性硬化癥、癌癥以及神經退行性疾病等腦疾病[16-17]。在腦圖像中,語義分割技術被用于在空間和時間上對正常(如白質和灰質)或異常腦組織(如腦腫瘤)進行定量測量和定性分析。現已發布多個可公開獲取的腦影像數據集并用于腦圖像分割的研究。常見的數據集包括:腦腫瘤分割數據集(網址為:http://braintumorsegmentation.org/)、缺血性卒中病變分割數據集(網址為:http://www.isles-challenge.org/)、輕度創傷性腦損傷預后預測數據集(網址為:https://tbichallenge.wordpress.com/)和腦 MRI 圖像分割數據集(網址為:https://mrbrains18.isi.uu.nl/)等。王海鷗等[18]將超像素分割和 U-Net 基礎網絡結構相結合,對灰質、白質、腦脊液等 5 種腦結構進行分割,實驗結果表明該網絡在分割性能上優于 FCN-16s、CNN 以及一般結構 U-Net。Chen 等[19]在 U-Net 的下采樣中通過使用不同尺寸的卷積核提取圖像特征和進行特征融合,獲得了一種多尺度的改進型 U-Net 網絡。通過 2 000 余幅 MRI 圖像的訓練,所得模型灰質、白質和腦脊液的分割中取得了 87.19%、86.41% 和 39.65% 的精度,較 U-Net 具有更好的分割效果。多模態 MRI 技術不僅能探索腦形態學的改變,還能反映不同腦區間微結構改變及功能活動的異常。Nie 等[20]獲取了 11 名健康嬰兒的 T1、T2 和彌散加權三種模態神經影像,通過使用整合上下文語義信息、融合不同尺度特征等方法進行網絡優化,使用三維 FCN 對多模態的腦 MRI 圖像進行分割。結果顯示該方法在灰質、白質和腦脊液的分割任務中,與手工分割金標準的重合率優于三維 U-Net 等其它方法。然后,進一步對 50 例來自國家自閉癥研究數據庫的數據測試,驗證了該方法的泛化能力。海馬形態變化是一項研究阿爾茲海默癥患者腦萎縮變化的關鍵特征,但海馬區圖像邊緣一般比較模糊。為了提高海馬區的邊緣分割精度,Wang 等[21]提出了一種基于 CRF 的邊緣感知 FCN 網絡,通過將邊緣信息加入損失函數中,實現了更精確的邊緣分割,模型準確率高達 87.31%,遠高于 FCN-8s 等基礎語義分割網絡。除了腦結構的變化會反映腦部疾病的信息外,腦皮層溝的形狀也能夠對一些發育性疾病和神經退行性疾病病情提供診斷信息。Borne 等[22]從不同的異構數據庫中挑選出 62 例健康大腦圖像作為訓練集,利用三維 U-Net 對與大腦皮層褶皺對應的體素進行標記,然后對結果進行空間正則化,所得的模型對 63 個右腦溝和 64 個左腦溝進行了分割,10 折交叉驗證結果顯示錯誤率僅為 15.06%。
在腫瘤治療領域,對腦部腫瘤的分割也是一項極具挑戰性的任務。例如腦膠質瘤是最常見的腦腫瘤,通常具有很強的浸潤性,存在邊界模糊和對比度差的特點。Cui 等[23]使用多模態腦腫瘤分割數據集,設計了一種級聯的網絡結構來實現對腦膠質瘤的自動語義分割。該數據集包含 220 例高級別膠質瘤和 54 例低級別膠質瘤病例,每個病例包含 4 組多模態 MRI 數據,數據被標記為正常腦組織、壞死、水腫、非增強腫瘤、增強腫瘤五類,級聯腫瘤定位網絡和瘤內分類網絡兩個子網絡可從每例多模態 MRI 數據中檢測出完整的腫瘤并將其分類為不同的腫瘤亞區。
(2)肺結構分割
肺實質組織以及對應結節和血管的分割是后續定量肺部計算機斷層掃描(computed tomography,CT)圖像分析的先決條件和初始步驟。由于需要分割的肺部組織部分一般結構尺寸小,信噪比、對比度低,因此這也是一項具有挑戰性的任務。Anthimopoulos 等[24]收集了來自多家醫療機構的 172 例高分辨率 CT 圖像,使用具有膨脹卷積結構和多尺度特征融合的 FCN 對肺 CT 圖像中的肺實質、健康組織、微結節和蜂窩狀結構進行分割。網絡測試結果達到了接近 82% 的分割精度。在肺癌診斷中,Bouget 等[25]提出了一種結合 U-Net 優點的算法對縱膈解剖結構和惡性淋巴結進行自動檢測和分割,利用處理數據不平衡的損失函數和一種實例分割網絡,在邊界框內提供實例檢測和改進的像素分割。其研究經五折交叉檢驗結果顯示,在 15 個解剖結構中的相似度評價系數得分為 76%。而在淋巴結檢測中結果顯示,對每個患者 9 個假陽性的召回率達到 75%,平均每個維度的質心位置估計誤差僅為 3 mm。
(3)肝結構分割
肝臟作為人體中最大的實質性器官,由于其內部含有復雜的血管結構,如何在制定治療方案時精確定位肝臟內部的病灶及大血管等結構是肝臟圖像分割中的一個重要挑戰。Astono 等[26]使用一種形如 FCN 的自動提取特征的網絡,在上采樣過程中利用保留的空間信息實現像素的預測輸出,獲得了醫學圖像計算和計算機輔助干預(medical image computing and computer assisted intervention,MICCAI)會議主辦的挑戰賽中的冠軍。
2.3.2 其它生物醫學圖像分割
基于 CNN 的語義分割網絡在其它生物醫學圖像分割領域也有著重要應用。李智能等[27]提出一種基于 CNN 的醫學宮頸細胞圖像語義分割方法,通過標定顯微圖像中的細胞核和細胞質輪廓制作數據集進行分割模型訓練,模型在測試數據集上的核質分割準確率高達 94.7%,具有很好的輔助診斷意義。Tran 等[28]利用 SegNet 結構對顯微血液涂片圖像中的紅細胞和白細胞進行分割,全局精度也高達 89.45%。另外,語義分割網絡還在諸如肌肉骨骼結構分割、眼底病灶分割等方面有重要應用。Liu 等[29]采用 SegNet 結構作為核心網絡,對取自 MICCAI 挑戰賽數據集的 100 組帶標記的膝關節 MRI 圖像進行肌肉、軟骨、骨骼的分割,期望可為臨床骨關節炎研究提供快速、準確的軟骨等組織的分割。Edupuganti 等[30]利用 FCN 對眼底圖像中視盤和杯狀區域進行分割,用以輔助青光眼的診斷。
3 討論
語義分割網絡的基礎結構 CNN 來自于圖像分類任務。在過去幾年中,基礎的 CNN 網絡得到了高速的發展,在部分圖像識別領域已經可以超過人類。因此,在語義分割網絡開發中采用最新型的 CNN 構建模塊,如 ResNet 和改進的 ResNet 等,可以較容易地在二維醫學圖像分割任務中獲得較優的性能。
隨著計算機計算能力的增強,借助于醫學大數據,基于 CNN 的語義分割算法在許多醫學圖像分割挑戰賽中開始占據主導地位,成為該領域首選方法。但它們也具有一定的局限性。首先,基于語義的卷積網絡是一個黑箱模型,模型構建通常需要大量反復嘗試,缺乏從數學和理論上的解釋,這妨礙了理解和識別不準確分割背后的原因以及對模型性能好壞的評估能力。對該問題的一種解決途徑在于提升模型的可解釋性[31]以及尋找特征可視化的新方法[32]。其次,基于語義的深度網絡在性能改進上很大程度會依賴于大型的醫學影像數據集。與其他領域大型的公共可用數據集相比,目前醫學領域的公共可用數據集仍然非常有限。在文獻概述中可以發現,大部分應用都是采用 U-Net 架構在小數據集上實現,而有限的訓練數據會成為該領域進一步發展應用的瓶頸。此外,目前該領域常見的一種解決方法是遷移學習,但醫學圖像通常是單通道、低對比度和具有豐富紋理的,在自然圖像上訓練的特征模型可能不完全適合醫學圖像。因此,針對該領域的一種潛在解決方案是基于多影像采集中心、多設備的多數據源遷移學習。當前,也有越來越多的大型公共醫學影像數據庫,如阿爾茲海默癥神經影像學計劃[33]、肺部圖像數據庫聯盟[34]等開始創建。另外,醫學影像分割一項關鍵任務是獲取這些圖像的相關注釋/標簽,而這些注釋/標簽往往需要放射科醫生大量工作,獲取足夠多的標記數據在醫學領域并不容易。一種潛在的解決方案是采用無監督的生成對抗網絡進行學習,減少對數據標簽的需求。最后,由于基于語義的醫學圖像分割方法一般計算量大,而且醫學成像數據的數量也在不斷增加,需要更為有效的實施方式。現代圖形處理器(graphics processing unit,GPU)由多個核心組成,每個核心都有多個功能單元,具有高度的數據并行體系結構。這部分的改進一般來源于軟件和硬件層次。硬件設計上,往往通過增加線程處理器的數量、時鐘速度和板載內存的數量來提升通用計算性能。在軟件層次上,英偉達推出的統一計算設備架構(compute unified device architecture,CUDA),則為目前深度學習算法提供了最基礎的底層開發技術,可以在構建高性能深度學習應用程序時,充分發揮 GPU 的強大計算功能。CUDA 目前僅支持三維線程的創建,由于計算能力的強弱對模型構建和模型性能的影響很大,所以未來在運算能力更強的硬件上開發支持高維數據運算的底層庫,可以為處理更復雜的醫學圖像任務提供探索研究的可能。
基于語義的 CNN 憑借其設計和性能的優勢迅速成為醫學圖像分割的熱門技術,這些算法已經應用在前文所述的諸多解剖結構中,并且在實際應用中,對比傳統的相對閾值法等醫學影像分割算法,其具有更好的性能。未來,預計會有大量商業或開源的基于語義深度網絡的自動分割工具出現,必將在臨床實踐中得到醫護工作者更廣泛的接受并最終應用于臨床。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。