腦膠質瘤是一種發病率較高的原發性腦部腫瘤,其中高等級膠質瘤惡性程度高,患者生存率低。臨床常采用手術切除和術后輔助放化療的方式進行治療,因此準確分割腫瘤相關區域對患者的治療具有重要意義。為改善高等級膠質瘤的分割精度,本文提出一種基于多尺度特征提取、多路注意力融合機制的多模態腦膠質瘤分割方法,主要貢獻在于:① 使用多尺度殘差結構對多模態腦膠質瘤磁共振圖像進行特征提取;② 使用兩類注意力模塊結構對通道維度和空間維度下的特征信息進行注意力匯聚;③ 使用集成學習策略構建支路分類器對主干分類器的分類結果進行調整修正,提升整體網絡的分割性能。實驗結果表明本文提出的二維網絡分割方法分割全腫瘤區、腫瘤核心區和增強腫瘤區三類目標物的Dice系數值分別為0.909 7、0.877 3和0.839 6,并且分割結果在三維方向上具有良好的邊界連續性。因此,本文提出的語義分割網絡對高等級腦膠質瘤病灶區具有良好的分割性能。
引用本文: 吳玉超, 林嵐, 吳水才. 基于多尺度、多路注意力融合機制的多模態高等級腦膠質瘤語義分割網絡. 生物醫學工程學雜志, 2022, 39(3): 433-440. doi: 10.7507/1001-5515.202103021 復制
引言
根據世界衛生組織2016年對腦膠質瘤的劃分,腦膠質瘤被分為Ⅰ至Ⅳ,共四級。級別越高,預后相對越差。其中Ⅰ級和Ⅱ級為低級別膠質瘤(low-grade gliomas,LGG)。Ⅰ級通常是良性的,主要是毛細胞星形細胞瘤,早期及時治療可以治愈。Ⅱ級為一般性星形細胞瘤或星形細胞瘤少突膠質瘤,預后相對較好。Ⅲ級和Ⅳ級膠質瘤屬于高等級膠質瘤(high-grade gliomas,HGG)。Ⅲ級為間質星形細胞瘤,一般由二級演變而來。平均存活時間2 ~ 3年。Ⅳ級為膠質母細胞瘤,預后差[1-2]。目前臨床常采用手術切除和術后輔助放化療的方式治療腦膠質瘤[3]。因此,在放化療中準確定位HGG病灶區域,對制定治療方案具有重要意義。
近年來,基于卷積神經網絡(convolutional neural network,CNN)的深度學習方法在腦膠質瘤分割中得到了廣泛的研究和應用,尤其是基于編碼-解碼結構的語義分割網絡[4],其分割效果較傳統算法具有更出色的性能[5]。Feng等[6]提出了一種基于U型網絡集成的腦膠質瘤分割方法。通過單獨訓練每個模型并對結果進行集成來減少每個模型的隨機誤差,結果表明與單個模型相比,集成模型在分割性能上有一定的改進,但對簡單網絡的集成所帶來的分割性能提升比較有限,而且訓練多個模型并集成也繁瑣耗時。Wang等[7]提出了一種級聯式的腦膠質瘤分割方法,將前級網絡的分割結果送入下級網絡,下級網絡負責將對應的次級腦膠質瘤區域進行分割,這種級聯網絡方法對腫瘤子結構分層式的目標物分割表現出較好的性能,但在級聯結構中,上級模型對上級目標物的分割錯誤將會導致下級模型對次級目標物的分割產生更多的錯誤。因此,需要一種更好的解決方案對多級子區的腦膠質瘤進行分割。
本文使用醫學圖像計算和計算機輔助干預協會舉辦的腦膠質瘤分割挑戰賽(Brain Tumor Segmentation,BraTS,https://www.med.upenn.edu/sbia/brats2018.html)提供的210例多模態HGG掃描數據,設計更高效的特征提取模塊構成并訓練語義分割網絡,以提高HGG的自動化分割精度。
1 方法
1.1 數據預處理
研究中,首先對腦膠質瘤分割挑戰賽公開數據集進行獲取和預處理。數據集共包含210例HGG和75例LGG磁共振掃描數據。每例掃描數據都包含四種神經影像模態,分別為Flair、T1ce、T1和T2,以神經影像信息學技術倡議(Neuroimaging Informatics Technology Initiative,NifTI)文件格式保存。所有影像數據都由經驗豐富的神經科專家手工分割并給出標注。標注共包含3類感興趣區,“1”表示壞死和非增強的腫瘤核,“2”表示癌周水腫,“4”表示增強腫瘤,其余區域標注為“0”。其中全腫瘤區域為所有腫瘤子區的結合(壞死和非增強的腫瘤核、癌周水腫和增強腫瘤),腫瘤核心區為壞死和非增強的腫瘤核與增強腫瘤的結合。另外,數據集中數據還進行了配準后插值到相同分辨率,并剝去頭骨[8]。
由于LGG和HGG在特征分布上存在一定差異,所以用LGG數據和HGG數據一起訓練往往會限制分割模型的學習能力[9],因此本研究僅使用數據集中210例HGG數據,設計針對HGG的分割算法。
為了緩解背景像素類與腫瘤像素類之間的不平衡性,在數據預處理過程中,首先對每例掃描病例進行拋片處理,即在橫斷面切片方向上,從每例155張圖像切片中保留切片序列55 ~ 130的切片,舍棄部分不包含腫瘤的圖像切片。然后對三類目標物的標簽圖像也進行拋片處理。最后將四種模態圖像作為四個通道信息寫入圖像數據文件并進行標準化處理。輸入網絡數據為“切片 × 通道 × 圖像寬 × 圖像高”的四維結構,圖像數據的通道維度存放多模態數據,標簽數據的通道維度存放不同目標物的標注,圖像寬和高都為240。從預處理后的210例數據中隨機選擇155例作為訓練集,剩余55例作為驗證集。多模態數據能夠給網絡提供豐富的圖像特征,因此沒有對數據進行數據增強操作。
1.2 網絡結構
針對HGG結構復雜的特點,本研究在編碼-解碼結構的基礎上,采用多尺度特征提取和多路注意力結構融合機制,并應用集成學習策略提出一種全新的編碼、解碼語義分割網絡結構,用于腫瘤及其子區分割。
1.2.1 多尺度特征提取
通常CNN通過固定的卷積核大小提取圖像特征,固定的核使得網絡在固定的感受野下提取圖像特征,當遇到目標物尺寸較大時,往往會由于卷積視野太小而將大目標錯分為多個小目標;當遇到尺寸較小的目標物時,又會由于視野太大而造成目標物丟失并被錯判為背景[10]。為此,本文采用多尺度特征提取結構對腫瘤區域進行特征提取并融合,利用多個感受野下的像素信息,提升網絡像素分類能力[11]。此外,對于每一個多尺度特征提取結構采用殘差連接[12],不僅可以緩解網絡加深帶來的梯度消失問題,而且不會帶來額外的參數和計算復雜度開銷。具體網絡結構如圖1所示。多尺度殘差模塊包括1 × 1卷積層、3 × 3卷積層、5 × 5卷積層、3 × 3最大池化層、批歸一化層、線性整流函數(linear rectification function,ReLU)激活層、特征拼接融合層、特征相加融合層。本模塊可以將輸入分為多個不同尺度的卷積支路進行特征提取,然后將四路特征圖進行通道維度的拼接融合,進一步對多尺度輸出進行殘差連接,從而提升網絡中卷積核的感受野對膠質瘤不同大小子區的適應度。

1.2.2 多路注意力融合
在對輸入圖像進行特征提取時,CNN將提取的特征以激活值特征圖的形式體現在輸出中,最終應用于目標物識別[13]。有研究者提出將“注意力”機制[14-15]應用于CNN中,通過對特征圖和特征圖內的值進行激活值加權,從而提升輸出特征圖中重要特征與一般特征的區分程度,提高網絡對目標物的定位識別能力。本研究結合使用多路注意力模塊[16],對不同維度中的多模態信息進行匯聚、加權,從而突出表達腫瘤相關特征并抑制無關特征。
通道注意力模塊用于在通道維度對特征圖信息進行匯聚,其結構如圖2所示。其中包括全局平均池化層、全局最大池化層、批歸一化層、全連接層、ReLU激活層、相加融合層、Sigmoid激活層、重構層、元素相乘層,具體實現功能包括對輸入特征圖使用兩路全局池化進行像素特征值壓縮,全局平均池化突出特征值中的低頻信息,全局最大池化突出特征值中的高頻信息。為了減少網絡參數和計算量,對全局池化后的特征圖進行一次維度壓縮、激活、維度擴展操作,然后將兩路特征圖進行融合后激活,得到通道維度下的注意力特征圖,最后通過恒等映射將注意力特征圖與輸入特征圖進行點乘,完成通道維度特征的注意力加權匯聚,突出顯著的通道維度特征,同時抑制相關性較差的特征表達。

C、H、W分別表示特征圖通道、高度和寬度,
C, H and W denote channel, height and width of feature map, respectively, and
除了對通道維度特征進行注意力匯聚以外,本研究進一步將通道注意力模塊的輸出特征通過跳躍連接結構與解碼器對應層的特征進行空間注意力匯聚。空間注意力模塊結構如圖3所示,包括2 × 2卷積層、1 × 1卷積層、3 × 3反卷積層、相加融合層、ReLU激活層、Sigmoid激活層、上采樣層、元素相乘層、批歸一化層。空間注意力模塊的具體操作是先將通道注意力模塊的輸出特征與解碼器相應層的特征進行融合,再將通道注意力匯聚信息引入解碼路徑中,之后對融合后的特征圖進行激活,得到空間維度下的注意力特征圖,最后同樣通過恒等映射將空間注意力特征圖與模塊的輸入特征,即通道注意力模塊的輸出進行點乘,完成多路不同維度下特征的注意力融合,使網絡提升特征利用效率,提高腦膠質瘤相關像素的識別預測能力。

1.2.3 集成學習策略
使用集成學習策略[17],在網絡中的每層解碼器輸出端使用1 × 1卷積構建一路分支分類器,將主干分類器和分支分類器的輸出結果進行融合,達到改進網絡預測結果的目的。網絡整體結構如圖4所示。其中的維度調整模塊使用1 × 1卷積對特征輸出維度進行調整,使各個功能模塊的特征圖能夠進行拼接、融合等操作。

1.3 模型訓練
實驗所用的硬件配置為英偉達RTX2070顯卡,顯存大小為8 GB。在python3.5環境下使用Tensorflow2.0作為主要算法開發工具。
將訓練集與驗證集送入網絡進行離線訓練,根據經驗設置初始學習率為0.000 1,并設置最大epoch輪次為100,使用回調函數設置訓練早停,當模型經過20個epoch后沒有獲得驗證集上的損失值下降時就停止訓練,保存已獲得的性能最佳模型,在本文實驗過程中,模型都在訓練到最大epoch之前收斂并早停。使用二分類Dice系數作為模型性能評價指標,Dice系數是一種用于衡量兩個集合元素相似度的函數,常被用于醫學圖像分割性能評價,通過計算真值與預測值圖像中目標物像素的重疊率反映模型的分割性能,取值范圍為0到1的閉區間,1為完全重疊,0為完全不重疊。其計算公式如式(1)所示,其中G代表標簽像素值,P代表預測像素值。使用Dice損失函數(Loss)作為模型損失函數,其計算公式如式(2)所示。為了獲取更好的模型文件,在模型訓練中設置回調函數,用于對基礎學習率進行衰減并根據驗證集損失函數值變化情況判斷訓練結束條件,保存性能最佳的模型。
![]() |
![]() |
2 結果
為了更全面地評價模型的性能,對驗證集55例HGG數據不做拋片處理,保留其全部155張切片作為測試集測試模型的分割性能。同時,我們在同樣的數據條件下,訓練了一個UNet作為基線網絡與文中的改進網絡進行性能比較。首先,使用模型對測試集中全體素進行分割,將分割結果與測試集標簽全像素進行一次計算,得到模型關于測試集全體素在全腫瘤區、腫瘤核心區和增強腫瘤區的Dice指標,本文結果與其他研究方法的比較如表1[6,18-20]所示。

在臨床診斷中,通常以病例為單位對病情進行判斷和評價。因此,我們進一步對測試集中所有個例數據進行了單獨評價,得到測試集中每個單獨病例在三類腫瘤目標物上的Dice指標,然后計算由個例評價指標組成的總體的平均值和標準差,與同樣測試了個例結果的方法進行了對比,如表2[7]所示。

我們對三類目標物分割結果進行了融合,并從橫斷面、矢狀面、冠狀面三個方向進行展示。圖5為測試集中一例數據的分割結果。

全腫瘤類包括綠色、紅色和藍色標注的結合,腫瘤核心類為紅色和藍色標注的結合,增強腫瘤類為藍色標注
Figure5. Comparison of segmentation results and golden standardsthe whole tumor category is the combination of green, red and blue labels, the core tumor category is the combination of red and blue labels, and the enhanced tumor category is the blue label
與基線UNet之間的分割結果展示如圖6所示。UNet的參數量達到355 MB,本文網絡的參數量僅為39 MB,本文模型更為高效。

全腫瘤類包括綠色、紅色和藍色標注的結合,腫瘤核心類為紅色和藍色標注的結合,增強腫瘤類為藍色標注
Figure6. Comparison of segmentation results for baselinethe whole tumor category is the combination of green, red and blue labels, the core tumor category is the combination of red and blue labels, and the enhanced tumor category is the blue label
3 討論
本文提出的基于多尺度特征提取、多路注意力融合的級聯網絡結構,適合于多模態下多通道的圖像特征提取,能夠提升網絡對不同維度中特征的信息利用率。其主要優點是:① 使用多尺度殘差模塊對多模態圖像中不同形狀大小的腫瘤區域在感受野范圍更廣的條件下進行特征提取并融合,提升腫瘤核心區和增強腫瘤區等小目標物的分割精度。② 對不同維度中的特征都進行注意力加權匯聚,使具有更強表現力的特征能更多地影響輸出預測值,提升網絡對腫瘤的識別能力,進而提高分割精度。③ 使用集成學習策略構建支路分類器對主干分類器的分類結果進行調整修正,提升整體網絡的分割性能。④ 在網絡結構中使用1×1卷積對該層輸出進行降維,減少參數量和計算量。本文所得網絡模型參數量小于40 MB,體量輕,便于部署使用,并且本文分割結果在三維空間具有平滑的邊界,二維模型可以達到和三維模型基本相當的分割效果。除了對測試集個例進行平均值和標準差的評價外,我們在實驗中也統計了Dice值中位數,發現模型對全腫瘤區、腫瘤核心區和增強腫瘤區這三類目標物的測試Dice值中位數分別為0.929 8、0.894 4和0.860 3,均高于個例評價中三類目標物的Dice平均值(見表2)。
當然,通過模型測試也發現一些分割失敗的實例。其中分割效果最差的個例,Dice值僅為0.59、0.08和0.32(全腫瘤區、腫瘤核心區和增強腫瘤區)。仔細檢查這一例,發現該病例圖像在Flair模態下腫瘤核心區對比度減弱,而在T2模態下腫瘤核心區像素值與一般病例在此區域的像素值差別較大,從而導致模型難以識別。另外,存在部分個例在全腫瘤區分割中表現較好,但在腫瘤核心區和增強腫瘤區的分割中表現遠低于平均水平。進一步研究發現,此類病例其腫瘤核心區和增強腫瘤區體積較小,在深度CNN提取圖像特征的過程中,網絡會對特征圖進行層層降維,提取深層次、抽象的特征,而深層特征對小目標物表達并不顯著,隨著網絡結構的加深,在淺層網絡中有更好表達的小目標物特征必然會受到影響,這是深度CNN的固有缺陷[21]。本文網絡通過多尺度的特征提取結合多路注意力機制以及集成學習策略的使用在一定程度上緩解了這一問題。但為了保持整體精度的穩定,會有部分體積過小的目標物存在欠分割現象。
雖然本文提出的自動分割方法在HGG的分割中展現出了優秀的性能,但研究中還存在一些值得我們關注的問題。首先,構建深度語義網絡模型是一種“黑盒”[22],缺乏可解釋性。深度學習模型在結構上是幾十個層中數以千萬計的神經元輸出的組合,具體的分割過程沒有通用明確的函數表示,同時參數化的模型并不能給出函數實際蘊涵的意義。鑒于此特點,在講究循證的醫學研究和應用領域,臨床醫生會對自動分割方法給出的結果存在疑慮[23-24]。對深度模型進行可視化有助于我們理解深度學習模型的黑箱是根據哪些原則來進行分割的。未來研究中,可以通過加權梯度類激活映射,將語義信息反向傳播,對最后一層卷積層求梯度,產生大致的加權梯度類激活圖,凸顯出圖像中對目標分割重要的區域,對網絡分割結果進行可視化解釋[25]。其次,研究中使用的多模態數據來源于腦膠質瘤分割挑戰賽,實際臨床的圖像采集參數可能和挑戰賽中數據存在不同,在臨床使用中往往需要基于遷移學習來訓練新模型。但語義網絡需要放射科醫師對新訓練集的每個像素都進行人工標注,是非常耗時耗力的。這里可以采用標注框弱監督的方式進行網絡訓練,從而降低標注成本。最后,我們將全腫瘤區、腫瘤核心區和增強腫瘤區作為三個獨立任務進行訓練,然后再合并結果。然而,獨立的模型訓練忽略了不同腫瘤類別之間所包含的豐富關聯信息。如果把多個相關的、具有共享表示的不同腫瘤類別分割任務放在一起進行多任務學習,多個任務之間可以共享互補的數據特征,則能取得更好的泛化效果。
4 結論
本文基于多尺度特征提取、多路注意力融合機制和集成學習策略結合,構建全新的多模態高等級腦膠質瘤語義分割網絡,通過功能模塊的添加,提升網絡對多模態圖像多個維度中相關信息的利用率,網絡模型在55例測試數據集上對全腫瘤區、腫瘤核心區和增強腫瘤區三類目標物的Dice值分別為0.909 7、0.877 3和0.839 6。進一步對測試集數據在橫斷面、矢狀面、冠狀面三維方向進行分割展示,模型分割結果在三維空間具有平滑的邊界,且模型參數量小易于部署使用。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:吳玉超負責實驗設計、數據收集、數據分析、論文寫作;林嵐負責實驗設計、數據分析、論文寫作;吳水才負責論文審核。
引言
根據世界衛生組織2016年對腦膠質瘤的劃分,腦膠質瘤被分為Ⅰ至Ⅳ,共四級。級別越高,預后相對越差。其中Ⅰ級和Ⅱ級為低級別膠質瘤(low-grade gliomas,LGG)。Ⅰ級通常是良性的,主要是毛細胞星形細胞瘤,早期及時治療可以治愈。Ⅱ級為一般性星形細胞瘤或星形細胞瘤少突膠質瘤,預后相對較好。Ⅲ級和Ⅳ級膠質瘤屬于高等級膠質瘤(high-grade gliomas,HGG)。Ⅲ級為間質星形細胞瘤,一般由二級演變而來。平均存活時間2 ~ 3年。Ⅳ級為膠質母細胞瘤,預后差[1-2]。目前臨床常采用手術切除和術后輔助放化療的方式治療腦膠質瘤[3]。因此,在放化療中準確定位HGG病灶區域,對制定治療方案具有重要意義。
近年來,基于卷積神經網絡(convolutional neural network,CNN)的深度學習方法在腦膠質瘤分割中得到了廣泛的研究和應用,尤其是基于編碼-解碼結構的語義分割網絡[4],其分割效果較傳統算法具有更出色的性能[5]。Feng等[6]提出了一種基于U型網絡集成的腦膠質瘤分割方法。通過單獨訓練每個模型并對結果進行集成來減少每個模型的隨機誤差,結果表明與單個模型相比,集成模型在分割性能上有一定的改進,但對簡單網絡的集成所帶來的分割性能提升比較有限,而且訓練多個模型并集成也繁瑣耗時。Wang等[7]提出了一種級聯式的腦膠質瘤分割方法,將前級網絡的分割結果送入下級網絡,下級網絡負責將對應的次級腦膠質瘤區域進行分割,這種級聯網絡方法對腫瘤子結構分層式的目標物分割表現出較好的性能,但在級聯結構中,上級模型對上級目標物的分割錯誤將會導致下級模型對次級目標物的分割產生更多的錯誤。因此,需要一種更好的解決方案對多級子區的腦膠質瘤進行分割。
本文使用醫學圖像計算和計算機輔助干預協會舉辦的腦膠質瘤分割挑戰賽(Brain Tumor Segmentation,BraTS,https://www.med.upenn.edu/sbia/brats2018.html)提供的210例多模態HGG掃描數據,設計更高效的特征提取模塊構成并訓練語義分割網絡,以提高HGG的自動化分割精度。
1 方法
1.1 數據預處理
研究中,首先對腦膠質瘤分割挑戰賽公開數據集進行獲取和預處理。數據集共包含210例HGG和75例LGG磁共振掃描數據。每例掃描數據都包含四種神經影像模態,分別為Flair、T1ce、T1和T2,以神經影像信息學技術倡議(Neuroimaging Informatics Technology Initiative,NifTI)文件格式保存。所有影像數據都由經驗豐富的神經科專家手工分割并給出標注。標注共包含3類感興趣區,“1”表示壞死和非增強的腫瘤核,“2”表示癌周水腫,“4”表示增強腫瘤,其余區域標注為“0”。其中全腫瘤區域為所有腫瘤子區的結合(壞死和非增強的腫瘤核、癌周水腫和增強腫瘤),腫瘤核心區為壞死和非增強的腫瘤核與增強腫瘤的結合。另外,數據集中數據還進行了配準后插值到相同分辨率,并剝去頭骨[8]。
由于LGG和HGG在特征分布上存在一定差異,所以用LGG數據和HGG數據一起訓練往往會限制分割模型的學習能力[9],因此本研究僅使用數據集中210例HGG數據,設計針對HGG的分割算法。
為了緩解背景像素類與腫瘤像素類之間的不平衡性,在數據預處理過程中,首先對每例掃描病例進行拋片處理,即在橫斷面切片方向上,從每例155張圖像切片中保留切片序列55 ~ 130的切片,舍棄部分不包含腫瘤的圖像切片。然后對三類目標物的標簽圖像也進行拋片處理。最后將四種模態圖像作為四個通道信息寫入圖像數據文件并進行標準化處理。輸入網絡數據為“切片 × 通道 × 圖像寬 × 圖像高”的四維結構,圖像數據的通道維度存放多模態數據,標簽數據的通道維度存放不同目標物的標注,圖像寬和高都為240。從預處理后的210例數據中隨機選擇155例作為訓練集,剩余55例作為驗證集。多模態數據能夠給網絡提供豐富的圖像特征,因此沒有對數據進行數據增強操作。
1.2 網絡結構
針對HGG結構復雜的特點,本研究在編碼-解碼結構的基礎上,采用多尺度特征提取和多路注意力結構融合機制,并應用集成學習策略提出一種全新的編碼、解碼語義分割網絡結構,用于腫瘤及其子區分割。
1.2.1 多尺度特征提取
通常CNN通過固定的卷積核大小提取圖像特征,固定的核使得網絡在固定的感受野下提取圖像特征,當遇到目標物尺寸較大時,往往會由于卷積視野太小而將大目標錯分為多個小目標;當遇到尺寸較小的目標物時,又會由于視野太大而造成目標物丟失并被錯判為背景[10]。為此,本文采用多尺度特征提取結構對腫瘤區域進行特征提取并融合,利用多個感受野下的像素信息,提升網絡像素分類能力[11]。此外,對于每一個多尺度特征提取結構采用殘差連接[12],不僅可以緩解網絡加深帶來的梯度消失問題,而且不會帶來額外的參數和計算復雜度開銷。具體網絡結構如圖1所示。多尺度殘差模塊包括1 × 1卷積層、3 × 3卷積層、5 × 5卷積層、3 × 3最大池化層、批歸一化層、線性整流函數(linear rectification function,ReLU)激活層、特征拼接融合層、特征相加融合層。本模塊可以將輸入分為多個不同尺度的卷積支路進行特征提取,然后將四路特征圖進行通道維度的拼接融合,進一步對多尺度輸出進行殘差連接,從而提升網絡中卷積核的感受野對膠質瘤不同大小子區的適應度。

1.2.2 多路注意力融合
在對輸入圖像進行特征提取時,CNN將提取的特征以激活值特征圖的形式體現在輸出中,最終應用于目標物識別[13]。有研究者提出將“注意力”機制[14-15]應用于CNN中,通過對特征圖和特征圖內的值進行激活值加權,從而提升輸出特征圖中重要特征與一般特征的區分程度,提高網絡對目標物的定位識別能力。本研究結合使用多路注意力模塊[16],對不同維度中的多模態信息進行匯聚、加權,從而突出表達腫瘤相關特征并抑制無關特征。
通道注意力模塊用于在通道維度對特征圖信息進行匯聚,其結構如圖2所示。其中包括全局平均池化層、全局最大池化層、批歸一化層、全連接層、ReLU激活層、相加融合層、Sigmoid激活層、重構層、元素相乘層,具體實現功能包括對輸入特征圖使用兩路全局池化進行像素特征值壓縮,全局平均池化突出特征值中的低頻信息,全局最大池化突出特征值中的高頻信息。為了減少網絡參數和計算量,對全局池化后的特征圖進行一次維度壓縮、激活、維度擴展操作,然后將兩路特征圖進行融合后激活,得到通道維度下的注意力特征圖,最后通過恒等映射將注意力特征圖與輸入特征圖進行點乘,完成通道維度特征的注意力加權匯聚,突出顯著的通道維度特征,同時抑制相關性較差的特征表達。

C、H、W分別表示特征圖通道、高度和寬度,
C, H and W denote channel, height and width of feature map, respectively, and
除了對通道維度特征進行注意力匯聚以外,本研究進一步將通道注意力模塊的輸出特征通過跳躍連接結構與解碼器對應層的特征進行空間注意力匯聚。空間注意力模塊結構如圖3所示,包括2 × 2卷積層、1 × 1卷積層、3 × 3反卷積層、相加融合層、ReLU激活層、Sigmoid激活層、上采樣層、元素相乘層、批歸一化層。空間注意力模塊的具體操作是先將通道注意力模塊的輸出特征與解碼器相應層的特征進行融合,再將通道注意力匯聚信息引入解碼路徑中,之后對融合后的特征圖進行激活,得到空間維度下的注意力特征圖,最后同樣通過恒等映射將空間注意力特征圖與模塊的輸入特征,即通道注意力模塊的輸出進行點乘,完成多路不同維度下特征的注意力融合,使網絡提升特征利用效率,提高腦膠質瘤相關像素的識別預測能力。

1.2.3 集成學習策略
使用集成學習策略[17],在網絡中的每層解碼器輸出端使用1 × 1卷積構建一路分支分類器,將主干分類器和分支分類器的輸出結果進行融合,達到改進網絡預測結果的目的。網絡整體結構如圖4所示。其中的維度調整模塊使用1 × 1卷積對特征輸出維度進行調整,使各個功能模塊的特征圖能夠進行拼接、融合等操作。

1.3 模型訓練
實驗所用的硬件配置為英偉達RTX2070顯卡,顯存大小為8 GB。在python3.5環境下使用Tensorflow2.0作為主要算法開發工具。
將訓練集與驗證集送入網絡進行離線訓練,根據經驗設置初始學習率為0.000 1,并設置最大epoch輪次為100,使用回調函數設置訓練早停,當模型經過20個epoch后沒有獲得驗證集上的損失值下降時就停止訓練,保存已獲得的性能最佳模型,在本文實驗過程中,模型都在訓練到最大epoch之前收斂并早停。使用二分類Dice系數作為模型性能評價指標,Dice系數是一種用于衡量兩個集合元素相似度的函數,常被用于醫學圖像分割性能評價,通過計算真值與預測值圖像中目標物像素的重疊率反映模型的分割性能,取值范圍為0到1的閉區間,1為完全重疊,0為完全不重疊。其計算公式如式(1)所示,其中G代表標簽像素值,P代表預測像素值。使用Dice損失函數(Loss)作為模型損失函數,其計算公式如式(2)所示。為了獲取更好的模型文件,在模型訓練中設置回調函數,用于對基礎學習率進行衰減并根據驗證集損失函數值變化情況判斷訓練結束條件,保存性能最佳的模型。
![]() |
![]() |
2 結果
為了更全面地評價模型的性能,對驗證集55例HGG數據不做拋片處理,保留其全部155張切片作為測試集測試模型的分割性能。同時,我們在同樣的數據條件下,訓練了一個UNet作為基線網絡與文中的改進網絡進行性能比較。首先,使用模型對測試集中全體素進行分割,將分割結果與測試集標簽全像素進行一次計算,得到模型關于測試集全體素在全腫瘤區、腫瘤核心區和增強腫瘤區的Dice指標,本文結果與其他研究方法的比較如表1[6,18-20]所示。

在臨床診斷中,通常以病例為單位對病情進行判斷和評價。因此,我們進一步對測試集中所有個例數據進行了單獨評價,得到測試集中每個單獨病例在三類腫瘤目標物上的Dice指標,然后計算由個例評價指標組成的總體的平均值和標準差,與同樣測試了個例結果的方法進行了對比,如表2[7]所示。

我們對三類目標物分割結果進行了融合,并從橫斷面、矢狀面、冠狀面三個方向進行展示。圖5為測試集中一例數據的分割結果。

全腫瘤類包括綠色、紅色和藍色標注的結合,腫瘤核心類為紅色和藍色標注的結合,增強腫瘤類為藍色標注
Figure5. Comparison of segmentation results and golden standardsthe whole tumor category is the combination of green, red and blue labels, the core tumor category is the combination of red and blue labels, and the enhanced tumor category is the blue label
與基線UNet之間的分割結果展示如圖6所示。UNet的參數量達到355 MB,本文網絡的參數量僅為39 MB,本文模型更為高效。

全腫瘤類包括綠色、紅色和藍色標注的結合,腫瘤核心類為紅色和藍色標注的結合,增強腫瘤類為藍色標注
Figure6. Comparison of segmentation results for baselinethe whole tumor category is the combination of green, red and blue labels, the core tumor category is the combination of red and blue labels, and the enhanced tumor category is the blue label
3 討論
本文提出的基于多尺度特征提取、多路注意力融合的級聯網絡結構,適合于多模態下多通道的圖像特征提取,能夠提升網絡對不同維度中特征的信息利用率。其主要優點是:① 使用多尺度殘差模塊對多模態圖像中不同形狀大小的腫瘤區域在感受野范圍更廣的條件下進行特征提取并融合,提升腫瘤核心區和增強腫瘤區等小目標物的分割精度。② 對不同維度中的特征都進行注意力加權匯聚,使具有更強表現力的特征能更多地影響輸出預測值,提升網絡對腫瘤的識別能力,進而提高分割精度。③ 使用集成學習策略構建支路分類器對主干分類器的分類結果進行調整修正,提升整體網絡的分割性能。④ 在網絡結構中使用1×1卷積對該層輸出進行降維,減少參數量和計算量。本文所得網絡模型參數量小于40 MB,體量輕,便于部署使用,并且本文分割結果在三維空間具有平滑的邊界,二維模型可以達到和三維模型基本相當的分割效果。除了對測試集個例進行平均值和標準差的評價外,我們在實驗中也統計了Dice值中位數,發現模型對全腫瘤區、腫瘤核心區和增強腫瘤區這三類目標物的測試Dice值中位數分別為0.929 8、0.894 4和0.860 3,均高于個例評價中三類目標物的Dice平均值(見表2)。
當然,通過模型測試也發現一些分割失敗的實例。其中分割效果最差的個例,Dice值僅為0.59、0.08和0.32(全腫瘤區、腫瘤核心區和增強腫瘤區)。仔細檢查這一例,發現該病例圖像在Flair模態下腫瘤核心區對比度減弱,而在T2模態下腫瘤核心區像素值與一般病例在此區域的像素值差別較大,從而導致模型難以識別。另外,存在部分個例在全腫瘤區分割中表現較好,但在腫瘤核心區和增強腫瘤區的分割中表現遠低于平均水平。進一步研究發現,此類病例其腫瘤核心區和增強腫瘤區體積較小,在深度CNN提取圖像特征的過程中,網絡會對特征圖進行層層降維,提取深層次、抽象的特征,而深層特征對小目標物表達并不顯著,隨著網絡結構的加深,在淺層網絡中有更好表達的小目標物特征必然會受到影響,這是深度CNN的固有缺陷[21]。本文網絡通過多尺度的特征提取結合多路注意力機制以及集成學習策略的使用在一定程度上緩解了這一問題。但為了保持整體精度的穩定,會有部分體積過小的目標物存在欠分割現象。
雖然本文提出的自動分割方法在HGG的分割中展現出了優秀的性能,但研究中還存在一些值得我們關注的問題。首先,構建深度語義網絡模型是一種“黑盒”[22],缺乏可解釋性。深度學習模型在結構上是幾十個層中數以千萬計的神經元輸出的組合,具體的分割過程沒有通用明確的函數表示,同時參數化的模型并不能給出函數實際蘊涵的意義。鑒于此特點,在講究循證的醫學研究和應用領域,臨床醫生會對自動分割方法給出的結果存在疑慮[23-24]。對深度模型進行可視化有助于我們理解深度學習模型的黑箱是根據哪些原則來進行分割的。未來研究中,可以通過加權梯度類激活映射,將語義信息反向傳播,對最后一層卷積層求梯度,產生大致的加權梯度類激活圖,凸顯出圖像中對目標分割重要的區域,對網絡分割結果進行可視化解釋[25]。其次,研究中使用的多模態數據來源于腦膠質瘤分割挑戰賽,實際臨床的圖像采集參數可能和挑戰賽中數據存在不同,在臨床使用中往往需要基于遷移學習來訓練新模型。但語義網絡需要放射科醫師對新訓練集的每個像素都進行人工標注,是非常耗時耗力的。這里可以采用標注框弱監督的方式進行網絡訓練,從而降低標注成本。最后,我們將全腫瘤區、腫瘤核心區和增強腫瘤區作為三個獨立任務進行訓練,然后再合并結果。然而,獨立的模型訓練忽略了不同腫瘤類別之間所包含的豐富關聯信息。如果把多個相關的、具有共享表示的不同腫瘤類別分割任務放在一起進行多任務學習,多個任務之間可以共享互補的數據特征,則能取得更好的泛化效果。
4 結論
本文基于多尺度特征提取、多路注意力融合機制和集成學習策略結合,構建全新的多模態高等級腦膠質瘤語義分割網絡,通過功能模塊的添加,提升網絡對多模態圖像多個維度中相關信息的利用率,網絡模型在55例測試數據集上對全腫瘤區、腫瘤核心區和增強腫瘤區三類目標物的Dice值分別為0.909 7、0.877 3和0.839 6。進一步對測試集數據在橫斷面、矢狀面、冠狀面三維方向進行分割展示,模型分割結果在三維空間具有平滑的邊界,且模型參數量小易于部署使用。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:吳玉超負責實驗設計、數據收集、數據分析、論文寫作;林嵐負責實驗設計、數據分析、論文寫作;吳水才負責論文審核。