基于深度學習的腦圖像分割算法是目前的一個研究熱點。本文首先對腦圖像分割的意義以及相關算法內容進行系統闡述,突出了基于深度學習的腦圖像分割算法的優勢。然后,本文從針對腦圖像存在的問題所提出的基于深度學習的腦圖像分割算法、先驗知識引導的基于深度學習的腦圖像分割算法和基于通用深度學習模型的腦圖像分割算法三個方面,介紹近年來流行的基于深度學習的腦圖像分割算法,以便相關領域的科研工作者更系統地了解目前的研究進展。最后,本文為基于深度學習的腦圖像分割算法的進一步研究提供了一些建議。
引用本文: 王玉麗, 趙子健. 基于深度學習的腦圖像分割算法研究綜述. 生物醫學工程學雜志, 2020, 37(4): 721-729, 735. doi: 10.7507/1001-5515.201912050 復制
引言
人類的大腦通常分為三個區域:腦白質、灰質、腦脊液[1]。腦圖像分割的目的往往是對腦中病變部位進行準確分割定位。最常進行分割的腦部病變是腦瘤,腦瘤可分為原發性和繼發性腦瘤,原發性腦瘤起源于腦細胞,而繼發性腦瘤則是從其他器官侵入大腦。最常見的原發性腦瘤是膠質瘤,它是由大腦膠質細胞產生的。世界衛生組織(World Health Organization,WHO)將膠質瘤分成從 I 級(the lowest malignancy and best prognosis)到 IV 級(the highest malignancy and worst prognosis)共 4 級。其中,惡性程度最高的膠質母細胞瘤中位生存時間只有 14.6 個月[2]。
腦圖像分割技術能夠對腦瘤的定量評估提供有價值的信息,因此是重要的輔助診斷程序,但是腦圖像的分割往往依賴于醫生的手動分割,而手動分割腦圖像又需要扎實的大腦解剖學知識基礎,整個手動分割過程不僅繁瑣、耗時且具有主觀性,容易由于操作人員的變化而出現主觀性差異[3]。在這種情況下,自動分割腦圖像就非常具有開發前景,因為它可以更快、更客觀,甚至更準確地描述相關腫瘤參數,包括其子區域的體積等細節。因此,及時、自動地對腦瘤進行分割,對于幫助醫生提高診斷水平、開展手術、制定治療計劃具有重要意義。
Menze 等[4]指出,在過去幾十年里,關于腦圖像自動分割的出版物數量呈指數級增長。這一觀察結果不僅強調了腦圖像自動分割工具的重要性,也表明有大量的研究人員積極地投入到此項研究中。近些年,人們開發了許多自動的腦圖像分割算法。一般來說,可以分為三類:① 基于地圖集方法。例如,多地圖集標簽融合(multi-atlas label fusion,MALF)方法利用多個參考地圖集進行腦圖像分割,在腦圖像分割任務中取得了良好的效果[5]。然而,目前的 MALF 方法往往采用單一的腦圖像模態進行分割,或者在使用多個腦圖像模態時對每個模態一視同仁,沒有充分利用不同模態的特異性,因此很可能限制了腦圖像分割算法的準確性。此外,這類方法通常內存需求大、速度慢,無法應用于實際的醫學輔助診斷,而且配準過程中產生的誤差會降低 MALF 的準確性。② 基于手工特征的機器學習方法。該方法采用依賴于不同手工特征的不同分類器進行腦圖像分割,具體包括:依賴空間和強度特征的支持向量機(support vector machine,SVM)模型、依賴強度特征的高斯混合模型(gaussian mixture model,GMM)、依賴外觀以及空間特征的隨機森林(random forest,RF)模型。然而由于腦部病變的多樣性和復雜性,手工特征的表現力有限,且它們通常需要計算大量的特征以保證準確性,這會使其計算速度變慢,內存占用率增加。③ 基于深度學習的方法。該方法能夠以數據驅動的方式自動學習特征,如全卷積神經網絡(fully convolutional networks,FCN)和長期短期記憶(long short-term memory,LSTM)網絡能夠以分層的方式直接從底層數據中學習特征,而無需手動設計輸入特征,這與基于手工特征的機器學習方法形成對比,從而可以實現更精確的分割結果。
通過對三類腦圖像分割方法的介紹與比較可以看出,基于深度學習的腦圖像分割算法具有計算速度快、自動學習特征、特征表達能力高效的特點,突破了傳統腦圖像分割算法的限制,成為近年來腦圖像分割領域研究的熱點。
目前,主要的腦部成像技術有計算機斷層掃描(computer?tomography,CT)成像技術、核磁共振成像(magnetic resonance imaging,MRI)技術和正電子發射型計算機斷層顯像(positron emission computed tomography,PET)技術。這些技術各自具有自己的優缺點:CT 腦圖像具有較高的信噪比和較好的空間分辨率,可以提供較準確的解剖結構信息,但是會受骨像干擾[6];不同的 MRI 模式可以形成不同的組織對比圖,從而可以提供更豐富、更有價值的結構信息[7],但組織對比度增強不是腦瘤的特異性造成的,因此 MRI 腦圖像敏感性高但特異性低[8];與 MRI 和 CT 相比,PET 腦圖像的敏感性和特異性都更高,另外,使用 PET-CT 融合技術可以更清楚地顯示腫瘤邊界[8]。但不論何種類型的腦圖像都存在一些會影響分割算法性能的問題,這些問題主要包括以下七個方面:① 標記數據的稀缺。深度學習模型往往需要大量的訓練數據,但是,在醫學圖像的環境中,昂貴的成像設備、復雜的圖像采集工具、專家注釋的必要性、隱私問題等,這些都導致難以構造大型高質量的醫學圖像數據集[9]。腦圖像數據集也不例外,目前廣泛使用的腦圖像數據集是腦瘤分割(brain tumor segmentation,BraTS)數據集,每年數據集的數據量略有變化,但是通常僅有 200 多名患者的腦部 MRI 圖像以及專家注釋好的分割圖。這與少則上萬張,多則幾百萬張的自然場景圖像相比,著實不足。② 高度類不均衡的問題。腦圖像的背景比例往往達到 98%,而真正所要分割的病變部位往往只是整張腦圖像中的很小的一部分。如果不預先對圖像背景加以處理,就會造成結果偏向背景,即造成假陰性。③ 三維(three-dimensional,3D)腦圖像高內存需求的問題。隨著醫學成像技術的發展,3D 醫學圖像不斷增多,將腦圖像分割算法應用到 3D 圖像上,是值得研究的方向。但是將基于深度學習的腦圖像分割算法應用到 3D 數據上會造成高內存需求的問題。④ 腦部病變的形狀、大小、位置因患者而異,呈現出復雜性。⑤ 腦部病變會入侵周圍的健康組織,這使腦圖像中的病變部位和健康組織的邊界模糊不清。⑥ 不同的腦部病變,如神經膠質增生和中風,在 MRI 圖像中具有相同的外觀,難以區分。⑦ 腦圖像中的因設備或人工造成的噪聲以及顱骨偽影也會對分割算法的性能造成影響。在以上七個方面的問題中,腦圖像的標記數據稀缺、高度類不均衡和 3D 腦圖像高內存需求的問題對基于深度學習的腦圖像分割算法來說,影響最大也最為重要,因此,針對這三方面問題成為了基于深度學習的腦圖像分割算法的研究熱點,本文將會對相關的算法內容進行綜述。
除此以外,將先驗知識與深度學習模型結合起來以提高模型的效率和腦圖像分割的準確性的分割算法,以及將各個領域的分割算法甚至分類算法應用到腦圖像分割上以探究通用深度學習模型在腦圖像分割上的效果的算法,也成為基于深度學習的腦圖像分割算法的研究熱點。因此,本文將從三個方面,即針對腦圖像存在的問題所提出的腦圖像分割算法、先驗知識引導的腦圖像分割算法和基于通用深度學習模型的腦圖像分割算法,綜述近年來基于深度學習的腦圖像分割算法。
1 針對腦圖像存在的問題所提出的腦圖像分割算法
1.1 腦圖像標記數據的稀缺
針對腦圖像標記數據的稀缺問題,研究人員主要是通過數據處理來解決的,數據處理方式有以下幾種:① 數據增強,包含隨機軸翻轉、隨機角度旋轉、隨機縮放、隨機彈性形變、伽瑪校正增強等,通過數據增強擴充腦圖像數據集。② 將一張腦圖像分成多個部分來擴充腦圖像數據集。③ MRI 是腦瘤分析、監測和手術計劃的重要診斷工具,不同的 MRI 圖像模式下能夠獲得不同的模態圖像,如 T1、T1c、T2 和 FLAIR 模態,不同的模態可以突出不同的組織,因此可以利用不同模態之間的互補功能來解決腦圖像標記數據的稀缺問題。
值得注意的是,Havaei 等[10]只使用了多種模態結合的方式來解決腦圖像標記數據的稀缺問題,并指出數據增強技術沒有提高其所提出的基于深度學習的腦圖像分割算法的性能。與此類似,Myronenko 等[11]指出更復雜的圖像增強技術,如隨機直方圖匹配、隨機圖像過濾等,不會對其所提出的基于深度學習腦圖像分割算法有任何的改進。可見,在設計基于深度學習的腦圖像分割算法的時候,如何解決腦圖像標記數據的稀缺問題并沒有一個統一的答案,需要研究人員根據自己所設計的深度學習算法來選擇具體解決腦圖像標記數據稀缺問題的方式。
深度學習算法可分為有監督深度學習算法和無監督深度學習算法,有監督深度學習算法需要標記數據,而無監督深度學習算法無需標記數據,顯然基于無監督的深度學習的腦圖像分割算法可以完全解決腦圖像標記數據的稀缺問題。但是由于基于無監督的深度學習的腦圖像分割算法往往比較復雜,且性能一般不如基于有監督的深度學習的腦圖像分割算法,因此對于應用于腦圖像分割的無監督深度學習算法的研究較少。毋庸置疑的是,對基于無監督的深度學習的腦圖像分割算法的研究是很有意義的。
Dalca 等[12]提出了一種基于無監督深度學習的腦圖像分割算法,該算法需要建立一個解剖先驗,組成這個解剖先驗的標簽圖可以從不同數據集和不同成像方式的成像數據中得到,而不是從當前任務中得到。該算法首先通過卷積神經網絡去學習這個解剖先驗,然后將目標數據輸入到卷積神經網絡中,卷積神經網絡會輸出腦圖像數據中的各個位置屬于不同標簽的概率分布參數,即概率分布的期望和方差,最后通過輸出的概率分布得到最終的分割圖,結構如圖 1 所示。該算法分割精度比經典的基于有監督深度學習的腦圖像分割算法差 5% 左右,但是分割速度很快,一張 MRI 腦圖像僅需要幾秒鐘就可以完成分割。該算法的提出推動了基于無監督深度學習的腦圖像分割算法的發展。

1.2 腦圖像的高度類不均衡
腦圖像被分成 5 個部分:背景、壞死區、水腫區、增強腫瘤區和非增強腫瘤區。腦圖像分割的目的是將壞死區、水腫區、增強腫瘤區和非增強腫瘤區從背景中分割出來[11]。但是,腦圖像具有高度的類不均衡的問題,背景所占比例達到 98%,這會使基于深度學習的腦圖像分割算法出現假陰性的錯誤。針對腦圖像的高度不均衡的問題,在基于深度學習的腦圖像分割算法中有一些常用的處理手段:① 從損失函數著手,可以使用加權損失函數,即背景的權重要遠大于病變區域的權重,還可以使用骰子(dice)損失函數,與加權損失函數相比,dice 損失函數沒有超參數,使用起來更簡單。這是兩種針對腦圖像的高度不均衡問題最常用的損失函數。另外還可以使用聚焦損失函數和杰卡德(Jaccard)相似系數損失函數等。損失函數的選擇并沒有統一標準,需要在具體的實驗中確定哪種損失函數效果更好。② 剪裁,即將大部分背景直接刪除,以增大腦部病變部位所占的比例,但是這樣會造成假陽性的問題,即將健康組織誤分割成病變組織。③ 將一張腦圖像裁剪成多張圖像塊,采樣時,使各類別的圖像塊數量相同,這種方式能同時解決腦圖像標記數據的稀缺問題,但是同樣也會造成假陽性的問題。
為了解決上述常用手段帶來的問題,Chen 等[13]提出了采樣所有標記為病變部位的像素的方法,對于每個像素,都提取一個圍繞它的圖像塊,該病變部位像素被隨機放置在圖像塊的任意位置,這樣可以有效解決假陰性和假陽性的問題。Havaei 等[10]提出了一種新穎的兩階段訓練方法:第一階段,與上一段常用手段③ 相同,即用每種類別的圖像塊數量相同的數據集去訓練網絡模型;第二階段,用原始類不均衡的數據集僅對網絡的輸出層進行訓練,而固定其他網絡層參數。實驗證明,兩階段訓練方法能有效解決腦圖像的高度類不均衡問題。Hussain 等[14]提出了類似的兩階段訓練方法,第一階段與上述的方法相同,第二階段也是用原始數據集只對輸出層進行訓練;不同的是,第二階段用了加權損失函數,其中背景的權重是 8,水腫的權重是 2,其他三類病變的權重為 1,實驗再次證明兩階段訓練方式的有效性。近年來,經過研究人員的努力,解決方案從簡單、效果有限變得更加巧妙、效果更好,有效地解決了腦圖像的高度類不均衡的問題,切實地提高了基于深度學習的腦圖像分割算法的性能。
1.3 3D 腦圖像高內存的需求
隨著醫學成像技術的發展,3D 腦圖像越來越多,3D 腦圖像所包含的信息遠遠豐富于二維(two-dimensional,2D)腦圖像,但將基于深度學習的腦圖像分割算法應用到 3D 腦圖像上時,會存在高內存需求的問題。如何解決 3D 腦圖像高內存的需求的問題,以充分利用 3D 腦圖像所蘊含的豐富信息,成為近年來基于深度學習的腦圖像分割算法的研究熱點。
針對 3D 腦圖像高內存的需求問題,常用的緩解方式有:① 在必要時就對圖像進行下采樣,即內存一旦不夠用,就進行下采樣,這是一種以提高模型性能為主要目標的方式。② 將 3D 腦圖像分成多個小塊,分別進行分割,最后將分割結果拼接起來。這是一種解決 3D 腦圖像高內存需求問題的一種簡單有效的方式,但是不能充分地利用 3D 腦圖像所蘊含的豐富的信息。③ 網絡輸出的前一層用完全連接的卷積實現,而不是傳統簡單的全連接。
Brügger 等[15]提出了一種新穎的可逆網絡來解決 3D 腦圖像高內存的需求問題。可逆網絡是將可逆序列整合到網絡結構中,可逆序列允許網絡結構由后一層中的輸出恢復前一層的輸出,從而節省了為反向傳播存儲激活結果的內存空間。實驗結果顯示,與不可逆結構相比較,使用相同的訓練數據,可逆結構在不降低性能的情況下內存占用率減少了三分之一。
2D 腦圖像的深度學習分割算法忽略了體積中互相關聯的信息,而 3D 腦圖像的深度學習分割算法具有較高的計算成本和內存占用率,因此,以同時解決基于 2D 腦圖像的深度學習分割算法和基于 3D 腦圖像的深度學習分割算法的局限性為目的,將 2D 模型和 3D 模型相結合的基于深度學習的腦圖像分割算法逐漸成為研究熱點。
Wang 等[16]提出一種多視角融合方法,即將三個正交的 2D 腦圖像輸入到深度學習模型中,通過投票策略決定正交點的標簽,從而達到 2D 模型分割 3D 腦圖像的目的,實驗證明,這種多視角融合方法,不僅能夠大大減少 3D 腦圖像內存的需求,還能提高基于深度學習的腦圖像分割模型的性能。Mlynarski 等[17]提出將 2D 深度學習分割模型學習到的特征與原始腦圖像信息一起輸入到 3D 深度學習分割模型中,這樣 3D 深度學習分割模型不僅輸入了原始腦圖像的信息,還輸入了 2D 深度學習分割模型提取的某一平面內大范圍的特征值,因此可以明顯加大 3D 深度學習模型的感受野。該方法在 2017 年 BraTS 挑戰賽中取得了不錯的成績,在增強腫瘤、整個腫瘤和腫瘤核心的平均 dice 分數分別為 0.854、0.918、0.883。
腦圖像標記數據的稀缺、高度類不均衡和 3D 腦圖像的高內存需求是限制基于深度學習的腦圖像分割算法性能的三個主要問題,因此很多研究人員針對這三個主要問題提出了有效的處理手段和算法以提高分割算法的性能。但是,解決這三個主要的腦圖像問題并不是提高基于深度學習的腦圖像分割算法性能的唯一方式,還有很多研究人員專注在深度學習模型上的創新以提高腦圖像分割算法的性能,因此下面兩節將介紹專注于深度學習算法上的創新的腦圖像分割算法。
2 先驗知識引導的腦圖像分割算法
人可以憑借以前所學的知識在遭遇類似事件時作出恰當的反應,那么將腦圖像分割的先驗知識應用到以神經網絡為基礎的深度學習模型中,是否能夠提高基于深度學習的腦圖像分割算法的效率和準確性呢?在此思想的指導下,先驗知識引導的基于深度學習的腦圖像分割算法成為又一研究熱點。
Wang 等[18]提出了一種交互式網絡模型,稱為基于邊界框和特定圖像的微調分割交互模型(bounding box and image-specific fine-tuning-based segmentation,BIFSeg)。該模型先預訓練一個 FCN,然后將預訓練網絡的輸出結果與原始圖像信息和用戶給與的交互信息重新輸入到預訓練模型中,結構如圖 2 所示。根據實驗,BIFSeg 與傳統的深度學習模型候選壓縮網絡(proposal compression network,PC-Net)相比,可以將整個腫瘤和腫瘤核心的分割 dice 系數指標分別從 83.52% 提高到 86.29%、從 82.66% 提高到 86.13%,與其他常用的交互式算法,如測地線圖像分割(geodesic image segmentation,GeoS)算法、基于迭代圖割的交互式前景提取(interactive foreground extraction using iterated graph cuts,GrowCut)算法相比,能獲得相似的 dice 分數,但是 BIFSeg 所用時間明顯縮短,分割一張 3D 腦圖像中的整個腫瘤和腫瘤核心平均用時為 68 s 和 82.3 s,可見該基于深度學習的腦圖像分割算法可以在用時較少的情況下獲得更高的分割精度和魯棒性。

另一種利用腦圖像先驗知識的角度是利用腦組織結構間的約束,以減少腦圖像的錯誤分割。Wang 等[16]提出了一種新穎的用于腦圖像分割的級聯結構,該級聯結構將多類別分割任務分解為 3 個二值分割任務:子網絡 1 分割整個腫瘤區域,得到腫瘤區域的邊界框;然后將此區域內的信息作為子網絡 2 的輸入,以分割腫瘤核心區;最后子網絡 3 根據子網絡 2 的輸出,來分割增強腫瘤,整個分割任務的結構如圖 3 所示。與使用復雜的網絡直接對多類腫瘤子區域分割相比,使用 3 個結構相似的二值分割子網絡不僅利用了先驗知識、減少了錯誤分割,而且更容易訓練,可以減少過擬合。在 BraTS 2017 測試集上,該算法在增強腫瘤、完整腫瘤和腫瘤核心的平均 dice 分數分別為 0.783 1、0.873 9、0.774 8,但是不能端到端訓練是該算法的一個缺點。Zhou 等[19]也提出了類似想法,不同之處在于,3 個子網絡依次通過粗分割定位整個腫瘤區域、精細分割整個腫瘤區域和精確分割增強腫瘤,因此 3 個子網絡的分類層通道數分別為 5、5、2,而不都是 2。另外,該算法的 3 個子網絡結構幾乎一樣,因此,采用了一遍多任務網絡(one-pass multi-task network,OM-Net),即將 3 個子網絡合并到一個可以端到端訓練的整體網絡中,這樣可以節省大量參數。在 BraTS 2018 測試集上,該方法在增強腫瘤、整個腫瘤和腫瘤核心的平均 dice 分數分別為 0.777 5、0.884 2、0.796 0,獲得 2018 年 BraTS 挑戰賽的第三名。

Kao 等[20]提出將腦部病變的先驗知識與經典的 3D “U”型網絡(u-shaped network,U-net)模型相結合的算法應用到腦圖像分割上,該算法需先構造出不同類別的腦部病變的熱圖,再根據熱圖創建興趣區域(volume-of-interest,VOI)圖,最后將 VOI 圖和 MRI 圖像一起輸入到 3D U-net 中。在實驗中訓練了兩個相同的 3D U-net,一個輸入包含 VOI 圖,另一個輸入不包含 VOI 圖。用 BraTS 2017 驗證集評估這兩個腦圖像分割網絡的性能。定量結果顯示,使用 VOI 圖的網絡在分割增強腫瘤時,dice 相似系數提高 3.5%。另外,性能較差的基線模型,在輸入 VOI 圖后,獲得了能與最先進的腦圖像分割算法相媲美的性能。可見先驗知識對基于深度學習的腦圖像分割算法的性能提高具有重要意義。
3 基于通用深度學習模型的腦圖像分割算法
不同領域的圖像具有不同的特點,但是不同領域的圖像分割的目的是相同的,就是將圖像中的像素進行分類,因此不同領域的圖像分割技術可互相借鑒。于是,很多研究人員會從其他領域的分割或者分類模型中尋找靈感,來改進腦圖像分割算法。本節將主要介紹深度學習模型中具有很好泛化能力的較為通用的模型在腦圖像分割上的應用。
3.1 編碼-解碼網絡結構
U-net 是最為經典的編碼-解碼網絡結構,如圖 4 所示[21],U-net 可以實現端到端的訓練,依靠數據增強,只需要較少的訓練樣本,就可獲得理想的效果。U-net 的產生極大促進了包括腦圖像在內的醫學圖像分割算法的發展。

Kayalibay 等[22]提出在 U-net 的編碼路徑上用殘差塊代替兩次普通的卷積,并在解碼路徑的不同層次上分別輸出腦圖像分割圖,低層次分割圖經過上采樣與高一級的分割圖元素相加,形成一種多尺度融合結構。這種多尺度融合結構具有深度監督的作用,能夠加快網絡收斂。Ibtehaz 等[9]參加 BraTS 2017 挑戰賽時,使用的腦圖像分割模型與 Kayalibay 等[22]提出的網絡結構類似,最終整個腫瘤、腫瘤核心和增強腫瘤的分割 dice 系數指標分別為 85.8%、77.5% 和 64.7%,這證實了殘差塊的使用和多尺度融合的結構能有效提高腦圖像分割算法的性能。McKinley 等[23]提出將密集連接卷積神經網絡與 U-net 相結合進行腦圖像分割,即用帶有擴張卷積(dilated convolution)的密集塊(dense block)代替 U-net 中普通的卷積。該腦圖像分割算法在 BraTS 2018 挑戰賽中獲得了第三名。Myronenko 等[11]提出的腦圖像分割算法是在編碼路徑端點添加一個額外的類似自動編碼器結構的分支來重構原始圖像,使用自動編碼器分支的目的是向編碼路徑添加額外的指導和正則化。該方法在 BraTS 2018 測試數據集中的增強腫瘤、整個腫瘤和腫瘤核心的 dice 系數指標分別為 76.64%、88.39% 和 81.54%,獲得了該挑戰賽的第一名。
有些研究人員沒有把關注點放在改進編碼-解碼網絡結構上,而是研究更加通用的提高腦圖像分割模型性能的方法。在 Kayalibay 等[22]提出的基于 U-net 的腦圖像分割算法的文章中,包含大量的消融實驗,如探究杰卡德(Jaccard)損失函數與交叉熵損失函數的優劣、跳躍連接的有無和不同方式的影響、多尺度輸出的影響和不同模態及其不同組合的影響的實驗,最后確定使用編碼-解碼網絡結構的腦圖像分割模型的最優結構及參數。Isensee 等[24]提出一種非新網絡(no new-net),該算法關注的是訓練過程,即如何對數據的初始化、數據增強和后處理進行優化,另外還探究了不同損失函數的優劣,并對額外的公共數據集進行了訓練。盡管該算法只使用了一個通用的 U-net 架構,但在 BraTS 2018 挑戰賽中獲得了第二名,這為研究人員提高基于深度學習的腦圖像分割算法的性能提供了新思路。
3.2 多個神經網絡結構的級聯或集成
編碼-解碼網絡結構是單個網絡結構,而加深網絡深度,使網絡變得更加復雜通常可以提高網絡性能。因此從提高腦圖像分割算法的精度的角度上,許多研究人員開展了多個神經網絡結構級聯或集成的模型在腦圖像分割上的應用研究。
Liu 等[25]提出的腦圖像分割模型中,包括 3 個子網絡:子網絡 1 和子網絡 2 輸入的是腦圖像的局部信息,2 個子網絡的區別在于卷積核的大小不同;子網絡 3 輸入的是經過下采樣的腦圖像的全部信息。3 個子網絡輸出大小相同的特征圖,最后將所有特征圖相接輸入最后的體素級分類層。實驗結果證明,從卷積核大小不同和多尺度的子網絡中獲得的混合特征可為腦圖像體素的精確分類提供有效信息。Havaei 等[10]提出類似的腦圖像分割算法,構建一個雙網絡結構,2 個網絡分別被稱為局部網絡和全局網絡。與 Liu 等[25]算法的不同之處在于,此腦圖像分割算法沒有將 2 個子網絡輸出的特征圖直接連接在一起而是將第一個網絡輸出的概率圖作為第二個網絡的額外輸入,實現了局部信息和全局信息的互相補充。該方法在 BraTS 2013 測試數據集中的增強腫瘤、整個腫瘤和腫瘤核心的 dice 系數指標分別為 73%、88% 和 79%。Hussain 等[14]也提出過類似的腦圖像分割算法,證明了這種多個子網絡級聯的深度學習模型在腦圖像分割領域的流行。有些研究人員還提出了一種迭代的想法,即將腦圖像分割模型的輸出與原始圖像信息一起重新輸入到新的相同的腦圖像分割模型中,以達到細化分割結果的目的,其迭代次數由實驗決定,如在 Chen 等[26]提出的體素殘差網絡(voxelwise residual network,VoxResNet)算法即迭代了一次,該算法在所使用的腦圖像數據集中的灰質、白質和腦脊液的 dice 系數指標分別為 86.15%、89.46% 和 84.25%。
Kamnitsas 等[27]提出網絡的結構和設置的參數會對深度學習模型的性能產生很大的影響,單一的網絡結構很可能對特定的數據集產生過擬合,因此他們采用多個神經網絡結構集成的算法進行腦圖像分割,即對來自不同網絡結構的預測結果采用投票策略決定最后的結果。該腦圖像分割集成算法中包括 2 個深度醫療(deepmedic)模型、3 個 3D FCN 和 2 個 3D U-net,這些網絡結構以不同的方式進行配置和訓練。實驗證明,多模型和結構集成模型(ensembles of multiple models and architectures,EMMA)是一種公正、通用的深度學習算法,在 BraTS 2017 比賽中,該算法獲得 50 多支參賽隊伍中的第一名。Iqbal 等[28]也提出了類似的算法,該算法對 FCN 和 LSTM 的輸出結果進行投票,以確定最后的結果。實驗證明,與單個網絡結構算法相比較,多個神經網絡結構集成的算法能將腦圖像各個區域的分割 dice 系數指標提高 2% 左右。
3.3 深度學習模型與其他經典算法的結合
自從用于語義分割的 FCN 被提出以來[29],在語義分割領域,以 FCN 為基礎的深度學習算法就蓬勃發展起來了。腦圖像分割領域也不例外,近三年國際醫學圖像計算和計算機輔助干預協會(Medical Image Computing and Computer Assisted Intervention Society,MICCAI)組織的腦瘤分割挑戰賽中的第一名都是深度學習模型[7],但是經典的算法也在不斷發展。因此將基于深度學習的分割算法與其他經典的算法相結合成為腦圖像分割算法的又一研究方向。
Kamnitsas 等[30]首次提出將 3D 全連接條件隨機場(conditional random field,CRF)應用到腦圖像分割中,該算法將 3D CRF 作為一種后處理方式,來改善卷積神經網絡的輸出,實驗證明 3D CRF 的應用能將深度學習模型的各項指標平均提高 1%。但 CRF 是不可訓練的,因此整個模型不可端到端訓練。Zhao 等[31]提出將 CRF 改造成可訓練的結構并與 FCN 相結合應用到腦圖像分割上,從而解決了不能端到端訓練的問題。該方法在 BraTS 2013 測試數據集中的增強腫瘤、整個腫瘤和腫瘤核心的 dice 系數指標分別為 73%、85% 和 80%。受對抗網絡(adversarial networks,AN)的啟發,Xue 等[32]提出將 FCN 和 AN 結合起來應用到腦圖像分割上。FCN 通過最小化最小絕對值偏差(least absolute deviations,LAD)進行訓練,而 AN 通過最大化 LAD 進行訓練,于是 FCN 和 AN 就在這種最小-最大博弈中以交替的方式進行訓練,該方法在 BraTS 2015 測試數據集中的增強腫瘤、整個腫瘤和腫瘤核心的 dice 系數指標分別為 66%、85% 和 70%,該方法的缺點是對尺寸較小的腦部病變不敏感,且當腦部病變類別較多時,模型內存需求很高。
Soltaninejad 等[33]提出將 RF 與 FCN 相結合應用到腦圖像分割上,該算法將 FCN 輸出的特征圖和手工特征圖一起輸入到最先進的 RF 模型中進行腦圖像分割,該方法在 BraTS 2013 測試數據集中的增強腫瘤、整個腫瘤和腫瘤核心的 dice 系數指標分別為 73%、88% 和 80%。該方法認為 RF 能彌補卷積神經網絡不能聯系大范圍上下文的缺點。Li 等[34]將 FCN 與地圖集相結合應用到腦圖像分割上,該算法是先用地圖集算法對腦圖像進行粗分割,再用 FCN 對腦圖像進行細分割,該方法在所使用的數據集中的白質、灰質和腦脊液的平均 dice 系數指標分別為 89.8%、91.4% 和 95.8%。Sharma 等[35]提出了將 k-means 算法和人工神經網絡相結合(k-means and artificial neural network,KMANN)應用到腦圖像分割上。結果證明該方法性能要遠好于傳統的 k-means 算法和單個神經網絡。另外研究人員還探究了人工神經網絡(artificial neural network,ANN)與 SVM 相結合[36]和 ANN 與主成分分析相結合[37]等在腦圖像分割上的應用,但性能普遍不及先進的只含有神經網絡的深度學習模型。
4 總結及展望
本綜述主要總結了近年來有代表性的基于深度學習的腦圖像分割算法,針對腦圖像存在的問題的基于深度學習的腦圖像分割算法、先驗知識引導的基于深度學習的腦圖像分割算法和基于通用深度學習模型的腦圖像分割算法三個方面進行綜述總結,如圖 5 所示。

針對腦圖像存在的問題的基于深度學習的腦圖像分割算法具有針對性,能夠為開發出可用于實際的腦圖像分割工具打下良好的基礎;由于腦圖像分割的專業性,如何將先驗知識引入到腦圖像分割算法中一直是腦圖像分割領域研究的熱點,實驗證明,先驗知識引導的腦圖像分割算法確實可以提高腦圖像分割模型的效率和性能;基于通用深度學習模型的腦圖像分割算法證明了各個領域分割技術的通用性,也鼓勵廣大的研究人員互相交流,彼此借鑒,在各自的領域上共同進步。
綜上可以看出,未來的基于深度學習的腦圖像分割算法或將有以下三個發展方向:
(1)由基于有監督學習的腦圖像分割算法向基于無監督學習或半監督學習的腦圖像分割算法發展。比如探究如何將經典的無監督深度學習算法,如生成式對抗網絡(generative adversarial networks,GAN)和自編碼器(auto encoder)神經網絡應用到腦圖像分割上,以及將有監督的深度學習模型與聚類算法、RF 或者 SVM 這種經典的分類算法相結合,以達到在保證分割算法準確性的前提下,減少甚至不使用腦圖像數據的目的。腦圖像標記數據的稀缺性限制了有監督模型的性能,而無監督模型可以突破這一限制,從理論上無監督學習更適合腦圖像的分割,因此基于無監督學習的腦圖像分割算法是很有潛力的。
(2)進一步發展先驗知識引導的基于深度學習的腦圖像分割算法。比如在后處理階段中,用先驗知識對深度學習模型的分割結果進行優化,例如腫瘤核心區域應該在整個腫瘤的內部,但是分割結果卻在整個腫瘤的外部,通過先驗知識可知,這個分割結果是有問題的,那么如何通過先驗知識處理這個問題,進而提升整個基于深度學習的腦圖像分割算法的性能是值得研究的方向。
(3)繼續研究適合腦圖像分割的通用深度學習模型。一方面積極探究其他領域中先進的分割甚至分類算法應用在腦圖像分割上的可能性和效果,另一方面可以對經典的泛化效果好的深度學習模型進行深入探究,如可視化深度學習模型中的某些網絡層,觀察這些網絡層提取了哪些特征、這些特征有什么作用,進而更好地改進這些深度學習模型以適應腦圖像的分割。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
人類的大腦通常分為三個區域:腦白質、灰質、腦脊液[1]。腦圖像分割的目的往往是對腦中病變部位進行準確分割定位。最常進行分割的腦部病變是腦瘤,腦瘤可分為原發性和繼發性腦瘤,原發性腦瘤起源于腦細胞,而繼發性腦瘤則是從其他器官侵入大腦。最常見的原發性腦瘤是膠質瘤,它是由大腦膠質細胞產生的。世界衛生組織(World Health Organization,WHO)將膠質瘤分成從 I 級(the lowest malignancy and best prognosis)到 IV 級(the highest malignancy and worst prognosis)共 4 級。其中,惡性程度最高的膠質母細胞瘤中位生存時間只有 14.6 個月[2]。
腦圖像分割技術能夠對腦瘤的定量評估提供有價值的信息,因此是重要的輔助診斷程序,但是腦圖像的分割往往依賴于醫生的手動分割,而手動分割腦圖像又需要扎實的大腦解剖學知識基礎,整個手動分割過程不僅繁瑣、耗時且具有主觀性,容易由于操作人員的變化而出現主觀性差異[3]。在這種情況下,自動分割腦圖像就非常具有開發前景,因為它可以更快、更客觀,甚至更準確地描述相關腫瘤參數,包括其子區域的體積等細節。因此,及時、自動地對腦瘤進行分割,對于幫助醫生提高診斷水平、開展手術、制定治療計劃具有重要意義。
Menze 等[4]指出,在過去幾十年里,關于腦圖像自動分割的出版物數量呈指數級增長。這一觀察結果不僅強調了腦圖像自動分割工具的重要性,也表明有大量的研究人員積極地投入到此項研究中。近些年,人們開發了許多自動的腦圖像分割算法。一般來說,可以分為三類:① 基于地圖集方法。例如,多地圖集標簽融合(multi-atlas label fusion,MALF)方法利用多個參考地圖集進行腦圖像分割,在腦圖像分割任務中取得了良好的效果[5]。然而,目前的 MALF 方法往往采用單一的腦圖像模態進行分割,或者在使用多個腦圖像模態時對每個模態一視同仁,沒有充分利用不同模態的特異性,因此很可能限制了腦圖像分割算法的準確性。此外,這類方法通常內存需求大、速度慢,無法應用于實際的醫學輔助診斷,而且配準過程中產生的誤差會降低 MALF 的準確性。② 基于手工特征的機器學習方法。該方法采用依賴于不同手工特征的不同分類器進行腦圖像分割,具體包括:依賴空間和強度特征的支持向量機(support vector machine,SVM)模型、依賴強度特征的高斯混合模型(gaussian mixture model,GMM)、依賴外觀以及空間特征的隨機森林(random forest,RF)模型。然而由于腦部病變的多樣性和復雜性,手工特征的表現力有限,且它們通常需要計算大量的特征以保證準確性,這會使其計算速度變慢,內存占用率增加。③ 基于深度學習的方法。該方法能夠以數據驅動的方式自動學習特征,如全卷積神經網絡(fully convolutional networks,FCN)和長期短期記憶(long short-term memory,LSTM)網絡能夠以分層的方式直接從底層數據中學習特征,而無需手動設計輸入特征,這與基于手工特征的機器學習方法形成對比,從而可以實現更精確的分割結果。
通過對三類腦圖像分割方法的介紹與比較可以看出,基于深度學習的腦圖像分割算法具有計算速度快、自動學習特征、特征表達能力高效的特點,突破了傳統腦圖像分割算法的限制,成為近年來腦圖像分割領域研究的熱點。
目前,主要的腦部成像技術有計算機斷層掃描(computer?tomography,CT)成像技術、核磁共振成像(magnetic resonance imaging,MRI)技術和正電子發射型計算機斷層顯像(positron emission computed tomography,PET)技術。這些技術各自具有自己的優缺點:CT 腦圖像具有較高的信噪比和較好的空間分辨率,可以提供較準確的解剖結構信息,但是會受骨像干擾[6];不同的 MRI 模式可以形成不同的組織對比圖,從而可以提供更豐富、更有價值的結構信息[7],但組織對比度增強不是腦瘤的特異性造成的,因此 MRI 腦圖像敏感性高但特異性低[8];與 MRI 和 CT 相比,PET 腦圖像的敏感性和特異性都更高,另外,使用 PET-CT 融合技術可以更清楚地顯示腫瘤邊界[8]。但不論何種類型的腦圖像都存在一些會影響分割算法性能的問題,這些問題主要包括以下七個方面:① 標記數據的稀缺。深度學習模型往往需要大量的訓練數據,但是,在醫學圖像的環境中,昂貴的成像設備、復雜的圖像采集工具、專家注釋的必要性、隱私問題等,這些都導致難以構造大型高質量的醫學圖像數據集[9]。腦圖像數據集也不例外,目前廣泛使用的腦圖像數據集是腦瘤分割(brain tumor segmentation,BraTS)數據集,每年數據集的數據量略有變化,但是通常僅有 200 多名患者的腦部 MRI 圖像以及專家注釋好的分割圖。這與少則上萬張,多則幾百萬張的自然場景圖像相比,著實不足。② 高度類不均衡的問題。腦圖像的背景比例往往達到 98%,而真正所要分割的病變部位往往只是整張腦圖像中的很小的一部分。如果不預先對圖像背景加以處理,就會造成結果偏向背景,即造成假陰性。③ 三維(three-dimensional,3D)腦圖像高內存需求的問題。隨著醫學成像技術的發展,3D 醫學圖像不斷增多,將腦圖像分割算法應用到 3D 圖像上,是值得研究的方向。但是將基于深度學習的腦圖像分割算法應用到 3D 數據上會造成高內存需求的問題。④ 腦部病變的形狀、大小、位置因患者而異,呈現出復雜性。⑤ 腦部病變會入侵周圍的健康組織,這使腦圖像中的病變部位和健康組織的邊界模糊不清。⑥ 不同的腦部病變,如神經膠質增生和中風,在 MRI 圖像中具有相同的外觀,難以區分。⑦ 腦圖像中的因設備或人工造成的噪聲以及顱骨偽影也會對分割算法的性能造成影響。在以上七個方面的問題中,腦圖像的標記數據稀缺、高度類不均衡和 3D 腦圖像高內存需求的問題對基于深度學習的腦圖像分割算法來說,影響最大也最為重要,因此,針對這三方面問題成為了基于深度學習的腦圖像分割算法的研究熱點,本文將會對相關的算法內容進行綜述。
除此以外,將先驗知識與深度學習模型結合起來以提高模型的效率和腦圖像分割的準確性的分割算法,以及將各個領域的分割算法甚至分類算法應用到腦圖像分割上以探究通用深度學習模型在腦圖像分割上的效果的算法,也成為基于深度學習的腦圖像分割算法的研究熱點。因此,本文將從三個方面,即針對腦圖像存在的問題所提出的腦圖像分割算法、先驗知識引導的腦圖像分割算法和基于通用深度學習模型的腦圖像分割算法,綜述近年來基于深度學習的腦圖像分割算法。
1 針對腦圖像存在的問題所提出的腦圖像分割算法
1.1 腦圖像標記數據的稀缺
針對腦圖像標記數據的稀缺問題,研究人員主要是通過數據處理來解決的,數據處理方式有以下幾種:① 數據增強,包含隨機軸翻轉、隨機角度旋轉、隨機縮放、隨機彈性形變、伽瑪校正增強等,通過數據增強擴充腦圖像數據集。② 將一張腦圖像分成多個部分來擴充腦圖像數據集。③ MRI 是腦瘤分析、監測和手術計劃的重要診斷工具,不同的 MRI 圖像模式下能夠獲得不同的模態圖像,如 T1、T1c、T2 和 FLAIR 模態,不同的模態可以突出不同的組織,因此可以利用不同模態之間的互補功能來解決腦圖像標記數據的稀缺問題。
值得注意的是,Havaei 等[10]只使用了多種模態結合的方式來解決腦圖像標記數據的稀缺問題,并指出數據增強技術沒有提高其所提出的基于深度學習的腦圖像分割算法的性能。與此類似,Myronenko 等[11]指出更復雜的圖像增強技術,如隨機直方圖匹配、隨機圖像過濾等,不會對其所提出的基于深度學習腦圖像分割算法有任何的改進。可見,在設計基于深度學習的腦圖像分割算法的時候,如何解決腦圖像標記數據的稀缺問題并沒有一個統一的答案,需要研究人員根據自己所設計的深度學習算法來選擇具體解決腦圖像標記數據稀缺問題的方式。
深度學習算法可分為有監督深度學習算法和無監督深度學習算法,有監督深度學習算法需要標記數據,而無監督深度學習算法無需標記數據,顯然基于無監督的深度學習的腦圖像分割算法可以完全解決腦圖像標記數據的稀缺問題。但是由于基于無監督的深度學習的腦圖像分割算法往往比較復雜,且性能一般不如基于有監督的深度學習的腦圖像分割算法,因此對于應用于腦圖像分割的無監督深度學習算法的研究較少。毋庸置疑的是,對基于無監督的深度學習的腦圖像分割算法的研究是很有意義的。
Dalca 等[12]提出了一種基于無監督深度學習的腦圖像分割算法,該算法需要建立一個解剖先驗,組成這個解剖先驗的標簽圖可以從不同數據集和不同成像方式的成像數據中得到,而不是從當前任務中得到。該算法首先通過卷積神經網絡去學習這個解剖先驗,然后將目標數據輸入到卷積神經網絡中,卷積神經網絡會輸出腦圖像數據中的各個位置屬于不同標簽的概率分布參數,即概率分布的期望和方差,最后通過輸出的概率分布得到最終的分割圖,結構如圖 1 所示。該算法分割精度比經典的基于有監督深度學習的腦圖像分割算法差 5% 左右,但是分割速度很快,一張 MRI 腦圖像僅需要幾秒鐘就可以完成分割。該算法的提出推動了基于無監督深度學習的腦圖像分割算法的發展。

1.2 腦圖像的高度類不均衡
腦圖像被分成 5 個部分:背景、壞死區、水腫區、增強腫瘤區和非增強腫瘤區。腦圖像分割的目的是將壞死區、水腫區、增強腫瘤區和非增強腫瘤區從背景中分割出來[11]。但是,腦圖像具有高度的類不均衡的問題,背景所占比例達到 98%,這會使基于深度學習的腦圖像分割算法出現假陰性的錯誤。針對腦圖像的高度不均衡的問題,在基于深度學習的腦圖像分割算法中有一些常用的處理手段:① 從損失函數著手,可以使用加權損失函數,即背景的權重要遠大于病變區域的權重,還可以使用骰子(dice)損失函數,與加權損失函數相比,dice 損失函數沒有超參數,使用起來更簡單。這是兩種針對腦圖像的高度不均衡問題最常用的損失函數。另外還可以使用聚焦損失函數和杰卡德(Jaccard)相似系數損失函數等。損失函數的選擇并沒有統一標準,需要在具體的實驗中確定哪種損失函數效果更好。② 剪裁,即將大部分背景直接刪除,以增大腦部病變部位所占的比例,但是這樣會造成假陽性的問題,即將健康組織誤分割成病變組織。③ 將一張腦圖像裁剪成多張圖像塊,采樣時,使各類別的圖像塊數量相同,這種方式能同時解決腦圖像標記數據的稀缺問題,但是同樣也會造成假陽性的問題。
為了解決上述常用手段帶來的問題,Chen 等[13]提出了采樣所有標記為病變部位的像素的方法,對于每個像素,都提取一個圍繞它的圖像塊,該病變部位像素被隨機放置在圖像塊的任意位置,這樣可以有效解決假陰性和假陽性的問題。Havaei 等[10]提出了一種新穎的兩階段訓練方法:第一階段,與上一段常用手段③ 相同,即用每種類別的圖像塊數量相同的數據集去訓練網絡模型;第二階段,用原始類不均衡的數據集僅對網絡的輸出層進行訓練,而固定其他網絡層參數。實驗證明,兩階段訓練方法能有效解決腦圖像的高度類不均衡問題。Hussain 等[14]提出了類似的兩階段訓練方法,第一階段與上述的方法相同,第二階段也是用原始數據集只對輸出層進行訓練;不同的是,第二階段用了加權損失函數,其中背景的權重是 8,水腫的權重是 2,其他三類病變的權重為 1,實驗再次證明兩階段訓練方式的有效性。近年來,經過研究人員的努力,解決方案從簡單、效果有限變得更加巧妙、效果更好,有效地解決了腦圖像的高度類不均衡的問題,切實地提高了基于深度學習的腦圖像分割算法的性能。
1.3 3D 腦圖像高內存的需求
隨著醫學成像技術的發展,3D 腦圖像越來越多,3D 腦圖像所包含的信息遠遠豐富于二維(two-dimensional,2D)腦圖像,但將基于深度學習的腦圖像分割算法應用到 3D 腦圖像上時,會存在高內存需求的問題。如何解決 3D 腦圖像高內存的需求的問題,以充分利用 3D 腦圖像所蘊含的豐富信息,成為近年來基于深度學習的腦圖像分割算法的研究熱點。
針對 3D 腦圖像高內存的需求問題,常用的緩解方式有:① 在必要時就對圖像進行下采樣,即內存一旦不夠用,就進行下采樣,這是一種以提高模型性能為主要目標的方式。② 將 3D 腦圖像分成多個小塊,分別進行分割,最后將分割結果拼接起來。這是一種解決 3D 腦圖像高內存需求問題的一種簡單有效的方式,但是不能充分地利用 3D 腦圖像所蘊含的豐富的信息。③ 網絡輸出的前一層用完全連接的卷積實現,而不是傳統簡單的全連接。
Brügger 等[15]提出了一種新穎的可逆網絡來解決 3D 腦圖像高內存的需求問題。可逆網絡是將可逆序列整合到網絡結構中,可逆序列允許網絡結構由后一層中的輸出恢復前一層的輸出,從而節省了為反向傳播存儲激活結果的內存空間。實驗結果顯示,與不可逆結構相比較,使用相同的訓練數據,可逆結構在不降低性能的情況下內存占用率減少了三分之一。
2D 腦圖像的深度學習分割算法忽略了體積中互相關聯的信息,而 3D 腦圖像的深度學習分割算法具有較高的計算成本和內存占用率,因此,以同時解決基于 2D 腦圖像的深度學習分割算法和基于 3D 腦圖像的深度學習分割算法的局限性為目的,將 2D 模型和 3D 模型相結合的基于深度學習的腦圖像分割算法逐漸成為研究熱點。
Wang 等[16]提出一種多視角融合方法,即將三個正交的 2D 腦圖像輸入到深度學習模型中,通過投票策略決定正交點的標簽,從而達到 2D 模型分割 3D 腦圖像的目的,實驗證明,這種多視角融合方法,不僅能夠大大減少 3D 腦圖像內存的需求,還能提高基于深度學習的腦圖像分割模型的性能。Mlynarski 等[17]提出將 2D 深度學習分割模型學習到的特征與原始腦圖像信息一起輸入到 3D 深度學習分割模型中,這樣 3D 深度學習分割模型不僅輸入了原始腦圖像的信息,還輸入了 2D 深度學習分割模型提取的某一平面內大范圍的特征值,因此可以明顯加大 3D 深度學習模型的感受野。該方法在 2017 年 BraTS 挑戰賽中取得了不錯的成績,在增強腫瘤、整個腫瘤和腫瘤核心的平均 dice 分數分別為 0.854、0.918、0.883。
腦圖像標記數據的稀缺、高度類不均衡和 3D 腦圖像的高內存需求是限制基于深度學習的腦圖像分割算法性能的三個主要問題,因此很多研究人員針對這三個主要問題提出了有效的處理手段和算法以提高分割算法的性能。但是,解決這三個主要的腦圖像問題并不是提高基于深度學習的腦圖像分割算法性能的唯一方式,還有很多研究人員專注在深度學習模型上的創新以提高腦圖像分割算法的性能,因此下面兩節將介紹專注于深度學習算法上的創新的腦圖像分割算法。
2 先驗知識引導的腦圖像分割算法
人可以憑借以前所學的知識在遭遇類似事件時作出恰當的反應,那么將腦圖像分割的先驗知識應用到以神經網絡為基礎的深度學習模型中,是否能夠提高基于深度學習的腦圖像分割算法的效率和準確性呢?在此思想的指導下,先驗知識引導的基于深度學習的腦圖像分割算法成為又一研究熱點。
Wang 等[18]提出了一種交互式網絡模型,稱為基于邊界框和特定圖像的微調分割交互模型(bounding box and image-specific fine-tuning-based segmentation,BIFSeg)。該模型先預訓練一個 FCN,然后將預訓練網絡的輸出結果與原始圖像信息和用戶給與的交互信息重新輸入到預訓練模型中,結構如圖 2 所示。根據實驗,BIFSeg 與傳統的深度學習模型候選壓縮網絡(proposal compression network,PC-Net)相比,可以將整個腫瘤和腫瘤核心的分割 dice 系數指標分別從 83.52% 提高到 86.29%、從 82.66% 提高到 86.13%,與其他常用的交互式算法,如測地線圖像分割(geodesic image segmentation,GeoS)算法、基于迭代圖割的交互式前景提取(interactive foreground extraction using iterated graph cuts,GrowCut)算法相比,能獲得相似的 dice 分數,但是 BIFSeg 所用時間明顯縮短,分割一張 3D 腦圖像中的整個腫瘤和腫瘤核心平均用時為 68 s 和 82.3 s,可見該基于深度學習的腦圖像分割算法可以在用時較少的情況下獲得更高的分割精度和魯棒性。

另一種利用腦圖像先驗知識的角度是利用腦組織結構間的約束,以減少腦圖像的錯誤分割。Wang 等[16]提出了一種新穎的用于腦圖像分割的級聯結構,該級聯結構將多類別分割任務分解為 3 個二值分割任務:子網絡 1 分割整個腫瘤區域,得到腫瘤區域的邊界框;然后將此區域內的信息作為子網絡 2 的輸入,以分割腫瘤核心區;最后子網絡 3 根據子網絡 2 的輸出,來分割增強腫瘤,整個分割任務的結構如圖 3 所示。與使用復雜的網絡直接對多類腫瘤子區域分割相比,使用 3 個結構相似的二值分割子網絡不僅利用了先驗知識、減少了錯誤分割,而且更容易訓練,可以減少過擬合。在 BraTS 2017 測試集上,該算法在增強腫瘤、完整腫瘤和腫瘤核心的平均 dice 分數分別為 0.783 1、0.873 9、0.774 8,但是不能端到端訓練是該算法的一個缺點。Zhou 等[19]也提出了類似想法,不同之處在于,3 個子網絡依次通過粗分割定位整個腫瘤區域、精細分割整個腫瘤區域和精確分割增強腫瘤,因此 3 個子網絡的分類層通道數分別為 5、5、2,而不都是 2。另外,該算法的 3 個子網絡結構幾乎一樣,因此,采用了一遍多任務網絡(one-pass multi-task network,OM-Net),即將 3 個子網絡合并到一個可以端到端訓練的整體網絡中,這樣可以節省大量參數。在 BraTS 2018 測試集上,該方法在增強腫瘤、整個腫瘤和腫瘤核心的平均 dice 分數分別為 0.777 5、0.884 2、0.796 0,獲得 2018 年 BraTS 挑戰賽的第三名。

Kao 等[20]提出將腦部病變的先驗知識與經典的 3D “U”型網絡(u-shaped network,U-net)模型相結合的算法應用到腦圖像分割上,該算法需先構造出不同類別的腦部病變的熱圖,再根據熱圖創建興趣區域(volume-of-interest,VOI)圖,最后將 VOI 圖和 MRI 圖像一起輸入到 3D U-net 中。在實驗中訓練了兩個相同的 3D U-net,一個輸入包含 VOI 圖,另一個輸入不包含 VOI 圖。用 BraTS 2017 驗證集評估這兩個腦圖像分割網絡的性能。定量結果顯示,使用 VOI 圖的網絡在分割增強腫瘤時,dice 相似系數提高 3.5%。另外,性能較差的基線模型,在輸入 VOI 圖后,獲得了能與最先進的腦圖像分割算法相媲美的性能。可見先驗知識對基于深度學習的腦圖像分割算法的性能提高具有重要意義。
3 基于通用深度學習模型的腦圖像分割算法
不同領域的圖像具有不同的特點,但是不同領域的圖像分割的目的是相同的,就是將圖像中的像素進行分類,因此不同領域的圖像分割技術可互相借鑒。于是,很多研究人員會從其他領域的分割或者分類模型中尋找靈感,來改進腦圖像分割算法。本節將主要介紹深度學習模型中具有很好泛化能力的較為通用的模型在腦圖像分割上的應用。
3.1 編碼-解碼網絡結構
U-net 是最為經典的編碼-解碼網絡結構,如圖 4 所示[21],U-net 可以實現端到端的訓練,依靠數據增強,只需要較少的訓練樣本,就可獲得理想的效果。U-net 的產生極大促進了包括腦圖像在內的醫學圖像分割算法的發展。

Kayalibay 等[22]提出在 U-net 的編碼路徑上用殘差塊代替兩次普通的卷積,并在解碼路徑的不同層次上分別輸出腦圖像分割圖,低層次分割圖經過上采樣與高一級的分割圖元素相加,形成一種多尺度融合結構。這種多尺度融合結構具有深度監督的作用,能夠加快網絡收斂。Ibtehaz 等[9]參加 BraTS 2017 挑戰賽時,使用的腦圖像分割模型與 Kayalibay 等[22]提出的網絡結構類似,最終整個腫瘤、腫瘤核心和增強腫瘤的分割 dice 系數指標分別為 85.8%、77.5% 和 64.7%,這證實了殘差塊的使用和多尺度融合的結構能有效提高腦圖像分割算法的性能。McKinley 等[23]提出將密集連接卷積神經網絡與 U-net 相結合進行腦圖像分割,即用帶有擴張卷積(dilated convolution)的密集塊(dense block)代替 U-net 中普通的卷積。該腦圖像分割算法在 BraTS 2018 挑戰賽中獲得了第三名。Myronenko 等[11]提出的腦圖像分割算法是在編碼路徑端點添加一個額外的類似自動編碼器結構的分支來重構原始圖像,使用自動編碼器分支的目的是向編碼路徑添加額外的指導和正則化。該方法在 BraTS 2018 測試數據集中的增強腫瘤、整個腫瘤和腫瘤核心的 dice 系數指標分別為 76.64%、88.39% 和 81.54%,獲得了該挑戰賽的第一名。
有些研究人員沒有把關注點放在改進編碼-解碼網絡結構上,而是研究更加通用的提高腦圖像分割模型性能的方法。在 Kayalibay 等[22]提出的基于 U-net 的腦圖像分割算法的文章中,包含大量的消融實驗,如探究杰卡德(Jaccard)損失函數與交叉熵損失函數的優劣、跳躍連接的有無和不同方式的影響、多尺度輸出的影響和不同模態及其不同組合的影響的實驗,最后確定使用編碼-解碼網絡結構的腦圖像分割模型的最優結構及參數。Isensee 等[24]提出一種非新網絡(no new-net),該算法關注的是訓練過程,即如何對數據的初始化、數據增強和后處理進行優化,另外還探究了不同損失函數的優劣,并對額外的公共數據集進行了訓練。盡管該算法只使用了一個通用的 U-net 架構,但在 BraTS 2018 挑戰賽中獲得了第二名,這為研究人員提高基于深度學習的腦圖像分割算法的性能提供了新思路。
3.2 多個神經網絡結構的級聯或集成
編碼-解碼網絡結構是單個網絡結構,而加深網絡深度,使網絡變得更加復雜通常可以提高網絡性能。因此從提高腦圖像分割算法的精度的角度上,許多研究人員開展了多個神經網絡結構級聯或集成的模型在腦圖像分割上的應用研究。
Liu 等[25]提出的腦圖像分割模型中,包括 3 個子網絡:子網絡 1 和子網絡 2 輸入的是腦圖像的局部信息,2 個子網絡的區別在于卷積核的大小不同;子網絡 3 輸入的是經過下采樣的腦圖像的全部信息。3 個子網絡輸出大小相同的特征圖,最后將所有特征圖相接輸入最后的體素級分類層。實驗結果證明,從卷積核大小不同和多尺度的子網絡中獲得的混合特征可為腦圖像體素的精確分類提供有效信息。Havaei 等[10]提出類似的腦圖像分割算法,構建一個雙網絡結構,2 個網絡分別被稱為局部網絡和全局網絡。與 Liu 等[25]算法的不同之處在于,此腦圖像分割算法沒有將 2 個子網絡輸出的特征圖直接連接在一起而是將第一個網絡輸出的概率圖作為第二個網絡的額外輸入,實現了局部信息和全局信息的互相補充。該方法在 BraTS 2013 測試數據集中的增強腫瘤、整個腫瘤和腫瘤核心的 dice 系數指標分別為 73%、88% 和 79%。Hussain 等[14]也提出過類似的腦圖像分割算法,證明了這種多個子網絡級聯的深度學習模型在腦圖像分割領域的流行。有些研究人員還提出了一種迭代的想法,即將腦圖像分割模型的輸出與原始圖像信息一起重新輸入到新的相同的腦圖像分割模型中,以達到細化分割結果的目的,其迭代次數由實驗決定,如在 Chen 等[26]提出的體素殘差網絡(voxelwise residual network,VoxResNet)算法即迭代了一次,該算法在所使用的腦圖像數據集中的灰質、白質和腦脊液的 dice 系數指標分別為 86.15%、89.46% 和 84.25%。
Kamnitsas 等[27]提出網絡的結構和設置的參數會對深度學習模型的性能產生很大的影響,單一的網絡結構很可能對特定的數據集產生過擬合,因此他們采用多個神經網絡結構集成的算法進行腦圖像分割,即對來自不同網絡結構的預測結果采用投票策略決定最后的結果。該腦圖像分割集成算法中包括 2 個深度醫療(deepmedic)模型、3 個 3D FCN 和 2 個 3D U-net,這些網絡結構以不同的方式進行配置和訓練。實驗證明,多模型和結構集成模型(ensembles of multiple models and architectures,EMMA)是一種公正、通用的深度學習算法,在 BraTS 2017 比賽中,該算法獲得 50 多支參賽隊伍中的第一名。Iqbal 等[28]也提出了類似的算法,該算法對 FCN 和 LSTM 的輸出結果進行投票,以確定最后的結果。實驗證明,與單個網絡結構算法相比較,多個神經網絡結構集成的算法能將腦圖像各個區域的分割 dice 系數指標提高 2% 左右。
3.3 深度學習模型與其他經典算法的結合
自從用于語義分割的 FCN 被提出以來[29],在語義分割領域,以 FCN 為基礎的深度學習算法就蓬勃發展起來了。腦圖像分割領域也不例外,近三年國際醫學圖像計算和計算機輔助干預協會(Medical Image Computing and Computer Assisted Intervention Society,MICCAI)組織的腦瘤分割挑戰賽中的第一名都是深度學習模型[7],但是經典的算法也在不斷發展。因此將基于深度學習的分割算法與其他經典的算法相結合成為腦圖像分割算法的又一研究方向。
Kamnitsas 等[30]首次提出將 3D 全連接條件隨機場(conditional random field,CRF)應用到腦圖像分割中,該算法將 3D CRF 作為一種后處理方式,來改善卷積神經網絡的輸出,實驗證明 3D CRF 的應用能將深度學習模型的各項指標平均提高 1%。但 CRF 是不可訓練的,因此整個模型不可端到端訓練。Zhao 等[31]提出將 CRF 改造成可訓練的結構并與 FCN 相結合應用到腦圖像分割上,從而解決了不能端到端訓練的問題。該方法在 BraTS 2013 測試數據集中的增強腫瘤、整個腫瘤和腫瘤核心的 dice 系數指標分別為 73%、85% 和 80%。受對抗網絡(adversarial networks,AN)的啟發,Xue 等[32]提出將 FCN 和 AN 結合起來應用到腦圖像分割上。FCN 通過最小化最小絕對值偏差(least absolute deviations,LAD)進行訓練,而 AN 通過最大化 LAD 進行訓練,于是 FCN 和 AN 就在這種最小-最大博弈中以交替的方式進行訓練,該方法在 BraTS 2015 測試數據集中的增強腫瘤、整個腫瘤和腫瘤核心的 dice 系數指標分別為 66%、85% 和 70%,該方法的缺點是對尺寸較小的腦部病變不敏感,且當腦部病變類別較多時,模型內存需求很高。
Soltaninejad 等[33]提出將 RF 與 FCN 相結合應用到腦圖像分割上,該算法將 FCN 輸出的特征圖和手工特征圖一起輸入到最先進的 RF 模型中進行腦圖像分割,該方法在 BraTS 2013 測試數據集中的增強腫瘤、整個腫瘤和腫瘤核心的 dice 系數指標分別為 73%、88% 和 80%。該方法認為 RF 能彌補卷積神經網絡不能聯系大范圍上下文的缺點。Li 等[34]將 FCN 與地圖集相結合應用到腦圖像分割上,該算法是先用地圖集算法對腦圖像進行粗分割,再用 FCN 對腦圖像進行細分割,該方法在所使用的數據集中的白質、灰質和腦脊液的平均 dice 系數指標分別為 89.8%、91.4% 和 95.8%。Sharma 等[35]提出了將 k-means 算法和人工神經網絡相結合(k-means and artificial neural network,KMANN)應用到腦圖像分割上。結果證明該方法性能要遠好于傳統的 k-means 算法和單個神經網絡。另外研究人員還探究了人工神經網絡(artificial neural network,ANN)與 SVM 相結合[36]和 ANN 與主成分分析相結合[37]等在腦圖像分割上的應用,但性能普遍不及先進的只含有神經網絡的深度學習模型。
4 總結及展望
本綜述主要總結了近年來有代表性的基于深度學習的腦圖像分割算法,針對腦圖像存在的問題的基于深度學習的腦圖像分割算法、先驗知識引導的基于深度學習的腦圖像分割算法和基于通用深度學習模型的腦圖像分割算法三個方面進行綜述總結,如圖 5 所示。

針對腦圖像存在的問題的基于深度學習的腦圖像分割算法具有針對性,能夠為開發出可用于實際的腦圖像分割工具打下良好的基礎;由于腦圖像分割的專業性,如何將先驗知識引入到腦圖像分割算法中一直是腦圖像分割領域研究的熱點,實驗證明,先驗知識引導的腦圖像分割算法確實可以提高腦圖像分割模型的效率和性能;基于通用深度學習模型的腦圖像分割算法證明了各個領域分割技術的通用性,也鼓勵廣大的研究人員互相交流,彼此借鑒,在各自的領域上共同進步。
綜上可以看出,未來的基于深度學習的腦圖像分割算法或將有以下三個發展方向:
(1)由基于有監督學習的腦圖像分割算法向基于無監督學習或半監督學習的腦圖像分割算法發展。比如探究如何將經典的無監督深度學習算法,如生成式對抗網絡(generative adversarial networks,GAN)和自編碼器(auto encoder)神經網絡應用到腦圖像分割上,以及將有監督的深度學習模型與聚類算法、RF 或者 SVM 這種經典的分類算法相結合,以達到在保證分割算法準確性的前提下,減少甚至不使用腦圖像數據的目的。腦圖像標記數據的稀缺性限制了有監督模型的性能,而無監督模型可以突破這一限制,從理論上無監督學習更適合腦圖像的分割,因此基于無監督學習的腦圖像分割算法是很有潛力的。
(2)進一步發展先驗知識引導的基于深度學習的腦圖像分割算法。比如在后處理階段中,用先驗知識對深度學習模型的分割結果進行優化,例如腫瘤核心區域應該在整個腫瘤的內部,但是分割結果卻在整個腫瘤的外部,通過先驗知識可知,這個分割結果是有問題的,那么如何通過先驗知識處理這個問題,進而提升整個基于深度學習的腦圖像分割算法的性能是值得研究的方向。
(3)繼續研究適合腦圖像分割的通用深度學習模型。一方面積極探究其他領域中先進的分割甚至分類算法應用在腦圖像分割上的可能性和效果,另一方面可以對經典的泛化效果好的深度學習模型進行深入探究,如可視化深度學習模型中的某些網絡層,觀察這些網絡層提取了哪些特征、這些特征有什么作用,進而更好地改進這些深度學習模型以適應腦圖像的分割。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。