作為確定病灶與診斷的重要基礎,醫學圖像分割已成為生物醫學領域中極其重要的熱門研究領域之一,其中基于全卷積神經網絡和U型網絡(U-net)等神經網絡的醫學圖像分割算法得到越來越多研究人員的重視。目前,醫學圖像分割算法應用于直腸癌診斷的研究報道較少,且已有的研究對直腸癌的分割結果精度不高。本文提出了一種結合圖像裁剪和預處理方法的編碼—解碼卷積網絡模型。該模型在U型網絡的基礎上,借鑒殘差網絡思想,用殘差塊代替傳統的卷積塊,有效避免了梯度消失的問題。此外,本文還采用了圖像增廣的方法提高了所提模型的泛化能力,并在“泰迪杯”數據挖掘挑戰賽所提供的數據集進行測試。測試結果表明,本文提出的基于殘差塊的改進U型網絡模型結合圖像裁剪預處理,可以大大提高直腸癌的分割精度,得到的戴斯系數在驗證集上達到0.97。
引用本文: 汪豪, 吉邦寧, 何剛, 俞文心. 一種提高直腸癌診斷精度的基于U型網絡和殘差塊的電子計算機斷層掃描圖像分割算法. 生物醫學工程學雜志, 2022, 39(1): 166-174. doi: 10.7507/1001-5515.201910027 復制
引言
直腸癌是消化道最常見的惡性腫瘤之一,2018年中國癌癥統計報告顯示:我國直腸癌發病率、死亡率在全部惡性腫瘤中位居第5位,新發病例37.6萬,死亡病例19.1萬[1],發病年齡中位數在45歲左右[1-2],但近年來青年人發病率有升高的趨勢[3]。我國多數直腸癌患者在確診時已屬于中晚期,因此直腸癌的早期診斷及治療對提高患者預后十分重要[1]。電子計算機斷層掃描(computed tomography,CT)技術是直腸癌定位及診斷的主要檢查手段之一,而CT圖像分割技術的敏感性、準確率對CT圖像在直腸癌診斷中的應用具有重要意義[4-6]。
圖像分割主要是將目標對象從背景中識別、定位并提取出來,在自動醫學圖像分割中,可以通過感興趣區域得到一張掩模圖像,然后進行圖像分割,但是這種方法的結果并不理想[7]。醫學圖像的手工分割也是一種經典的方法,但需要操作醫生具有豐富的專業知識和經驗,此外,即使相同的人使用相同的方法,也很難獲得完全相同的結果。因此,針對醫學圖像能實現自動精確分割的算法研究得到了廣泛的關注,如朱柏輝等[8]使用基于小波特性與邊緣模糊檢測的方法對醫學圖像進行處理;陳詩慧等[9]使用深度學習的方法實現了癌癥計算機輔助診斷。有研究以全手工分割結果的精度評價戴斯相似性系數(Dice similarity coefficient,DSC)[10],DSC平均為0.68,因此在日常臨床實踐中應用價值不高[11-13]。Nougaret 等[12]研究探索了一種利用軟件區域算法自動分割的方法,這種方法特別適用于彌散加權圖像,它可以突出腫瘤并抑制背景組織,從而提供更高的腫瘤背景比,達到自動分割的目的。但是,人體盆腔的其他解剖結構,如周圍的淋巴結、直腸、前列腺等也可能表現出類似的高強度,導致算法分割不準確[12-14]。
近年來,隨著深度學習技術的發展,尤其是卷積神經網絡的提出和相關研究的深入,促使生物醫學圖像分割算法的研究取得了許多新的進展。深度學習技術具有在高維數據中發現復雜結構的能力,尤其是可用于增廣復雜圖像表示能力的卷積神經網絡,其中的卷積層可以檢測上一層的局部圖案,池化層可以減小表示的維數同時提升模型的魯棒性,從而在增加接收感受野的同時抵抗噪聲。上文提到的卷積神經網絡是卷積層和池化層的結合,它可以學習圖像的層次表示,并從低維信息中抽取高維特征,但是這種分割只考慮局部內容,易造成分割效果不精確。在實際的應用中,相對于其他領域而言,醫學圖像的數據量通常比較少,因此卷積神經網絡的圖像分割性能會受到限制[15-20],如Trebeschi等[21]使用基于卷積神經網絡進行網絡分割,得到的DSC僅為0.85,仍有進一步提升的空間和深入研究的價值。
在醫學圖像分割任務中,期望得到對于定位的端到端輸出以及每個像素都有相應的標簽,同時得到每個標簽依賴于此圖像的全局信息。全卷積網絡是第一個端到端的像素級語義分割的神經網絡模型[22],Kim等[23]研究設計了一個完整的全卷積網絡用于直腸癌的磁共振圖像分割,能有效地從整個圖像中分割直腸癌,分割結果的DSC為0.75。目前在醫學圖像處理分割領域中最先進和流行的網絡模型是U型網絡,它是一種編碼器—解碼器分割網絡,前者用于捕獲語義,后者用于精確定位。該網絡成功的關鍵是跳越連接,它結合了淺層和深層語義特征映射,同時可以捕獲上下文和本地信息以分割器官和器官邊界的細節[24]。一方面,U型網絡在醫學影像方面非常高效,在小數據集上表現良好;另一方面,它使用重疊—切片(overlap-tile)策略,能預測一批標簽。此外,U型網絡必須輸入較大方框的圖像,如果存在缺失的信息,則需要通過鏡像輸入圖像來推斷缺少的上下文信息。在2015年生物醫學成像國際研討會(the international symposium on biomedical imaging,ISBI)的細胞追蹤(cell tracking)挑戰賽中,U型網絡取得了非常好的分割結果[20]。
本研究基于U型網絡的網絡模型,在模型中應用了不同的激活函數以提高U型網絡的性能。眾所周知,不同的激活函數適用于不同的應用場景。早期的S型生長曲線(sigmoid)函數以其非線性和導數計算廣泛應用于神經網絡的正向傳播[25],sigmoid函數表達式如式(1)所示:
![]() |
其中,X代表輸入的參數。
然而,在反向傳播過程中,sigmoid函數很容易飽和[26],人們又提出了線性整流函數(rectified linear unit,RELU)這一激活函數來緩解其飽和問題。然而RELU傾向于在負軸上飽和[27],因此進一步提出一種不容易在負軸上飽和的指數線性函數(exponential linear unit, ELU)。ELU加速了深層神經網絡的學習,提高了分類的準確性,有效地緩解了梯度消失或梯度爆炸的問題;另外,它有一定的批量歸一化效果,加強了模型泛化能力,計算量更小。然而,當網絡越來越深時,ELU將變得飽和。Klambauer等[28]提出了縮放指數線性函數(scaled exponential linear units,SELU)激活函數,SELU更適用于深度神經網絡,并且證明了方差有上下界,因此不會出現梯度消失或梯度爆炸的問題[29]。本文將SELU、ELU、RELU三種激活函數應用于模型并對比,最后選取綜合性能最優的SELU作為激活函數。
本文提出了一種基于殘差塊的端到端的改進U型網絡的神經網絡模型。如圖3所示,使用殘差塊代替卷積塊來防止梯度消失,避免一些神經元死亡,并應用批量歸一化來防止梯度爆炸,使網絡快速收斂,避免神經元飽和。為了更好地提升學習效率,本文提出了對CT圖像設置感興趣區域并進行圖像裁剪,對于分割后的圖像進行后處理,使之還原到分割之前同等大小的圖片。同時,根據直腸癌圖像的CT范圍,即亨氏單位(hounsfield unit,HU),來調整圖像的窗位(window level,WL)和窗寬(window width,WW),從而提升直腸組織對比度。另外,對CT圖像進行形態學開運算操作來避免噪聲、圖像缺陷等干擾,并提升不同組織間的灰度差異以有利于U型網絡的學習。此外,本文使用直方圖均衡來調整圖像的動態范圍,增廣了圖像的整體對比度;對圖像進行了標準歸一化處理以提高模型的收斂速度,使每個特征對結果的貢獻都大致相同;利用圖像增廣技術獲得更多的訓練樣本,顯著提高了網絡的泛化能力。最后,本文使用DSC數來評估模型分割的結果。

1 相關工作
Trebeschi等[21]訓練卷積神經網絡,在磁共振圖像上自動定位和分割直腸癌,該研究使用的是磁共振彌散加權圖像(diffusion-weighted imaging,DWI),圖像斑塊的分類比全卷積網絡更簡單。然而,該研究的數據僅僅只有135幅圖像,對于深度神經網絡來說,圖像數據量太小,無法支撐網絡的訓練。Kim等[23]提出了一種自動全卷積神經網絡以用于軸向T2加權磁共振圖像的分割,然后利用圖像增廣以提高分割性能。該研究實現了直腸組織和直腸癌的分割,同時提出了方差偏差分解任務來檢驗模型的魯棒性。目前直腸癌分割研究的最好結果的DSC可以達到0.85,尚有進一步提升的空間。基于U型網絡對直腸癌進行CT圖像分割的研究報道有限,因此本文基于U型網絡模型和殘差塊以提高直腸癌分割精度。
2 方法
本研究的數據集來源為人體骨盆區域動脈期的CT圖像,在U型網絡的基礎上,用殘差塊代替卷積塊,在圖像預處理過程中,使用了圖像裁剪算法。同時,本文還通過采用不同深度的殘差塊進行分割實驗,研究網絡深度對分割精度的影響,本文采用SELU激活函數,主要是因為該激活函數在X負軸不容易飽和。為了提升模型的泛化能力,對圖片進行了包括水平移動、垂直偏移、旋轉和縮放圖像等數據增廣處理以得到更多的訓練圖片。此外,還采用了一系列數據預處理方法,如CT圖像的WL和WW調整、形態學開運算、直方圖均衡化、標準歸一化等方法。
2.1 數據來源
本文CT圖像數據來自于2019年第七屆“泰迪杯”數據挖掘挑戰賽(網址為:http://www.tipdm.org/bdrace/tzjingsai/20181226/1544.html#sHref),本課題組已獲得授權使用該數據。
2.2 數據準備
本文使用CT動脈期的人骨盆組織的圖像和直腸癌的二維掩模圖像,掩膜圖對應CT的圖像,由醫生標記。掩模圖像是具有與CT圖像相同分辨率的二值圖像。像素值為1表示像素屬于目標(腫瘤區域),像素值為0表示像素屬于背景(非腫瘤區域),如圖1所示。使用的數據樣本是一種用于醫學的數字成像和通信(digital imaging and communications in medicine,DICOM)格式,總共有3 010張CT圖像,訓練集有2 709張,測試集有301張。

2.3 模型建立
本文設計的U型網絡的神經網絡模型示意圖如圖2所示,網絡具有用于直腸癌分割的收縮路徑和擴展路徑,包括卷積層和殘差塊的每個單元稱為貝塔(beta)卷積塊。該網絡共包含9個beta卷積塊,在每個beta卷積塊中,殘差塊由兩個卷積層組成,在第一個卷積層之前使用批量歸一化,第二個卷積層之后同樣使用批量歸一化,在每個beta卷積塊之后有2 × 2池化層,隨機失活(dropout)概率設置為0.5。beta卷積塊最初由16個3 × 3濾波器組成,并且編碼部分中的濾波器數量在每個beta卷積塊之后加倍。解碼部分和編碼部分彼此鏡像對稱,因此在每個卷積塊之后濾波器的數量將減半。使用連接(concatenate)的方式作為跳躍連接,如圖2中的黃色箭頭所示。最后一層使用1 × 1卷積核,然后由sigmoid函數激活。使用相似(same)算法進行填充,這與原始U型網絡的有效(valid)填充沒有太大差別[15]。另外,卷積塊和殘差塊使用正態分布初始化權重,而反卷積使用均勻分布初始化權重[30-31]。

2.4 殘差塊
本文比較了兩種不同的殘差塊對結果的影響,并將標準卷積塊作為未使用殘差塊的對照組,如圖3所示,兩種殘差塊使用了不同的跳躍連接方式,標準卷積塊沒有使用殘差連接,標準殘差塊和自定義殘差塊使用不同殘差連接。當網絡層數過深時,精度會變低,更易導致飽和,梯度也會更易消失或爆炸,此時若添加更多網絡層會導致更多錯誤,分割效果會變差。研究表明,并非所有系統都易于優化,而使用跳躍連接,即使此卷積層的輸出為0,跳轉連接仍然可以使用原始卷積之后的結果傳輸到下一層,從而防止梯度消失或梯度爆炸[32]。
2.4.1 跳躍連接
一個好的跳躍連接可以改善U型網絡的分割性能,而“連接”這一方式可廣泛地應用于實現跳躍連接,因此本文也使用“連接”來實現跳躍連接。不使用“添加”的方式,是因為“添加”會改變權重的分布。在初始化模型權重時,“連接”這一方法非常有效。
2.4.2 批量歸一化
在神經網絡中,隨著前一層的參數變化,當前層的輸入分布也會發生變化。批量歸一化在神經網絡中具有非常重要的作用。批量歸一化具有一定的正則化效果,在某些情況下它還可以替換隨機失活操作,并且可以節省網絡訓練的時間。因此,在神經網絡中,批量歸一化是非常普遍和必要的[33]。
2.5 激活函數
激活函數在U型網絡和其他神經網絡任務中起著重要作用。一般的網絡選用RELU用于緩解梯度飽和問題,但RELU很容易在負軸上飽和。本文采用SELU激活函數,SELU在X負軸采用了指數的形式,如式(4)所示,并且Klambauer等[28]證明方差存在上界和下界,所以在X負軸不會出現梯度消失的情況。在此之前,本文嘗試了SELU、ELU、RELU等激活函數并做了對比,使用這些激活函數來觀察對分割效果的影響。
RELU激活功能如式(2)所示:
![]() |
ELU激活功能如式(3)所示:
![]() |
SELU激活功能如式(4)所示:
![]() |
其中X為輸入值,α是一個可調整的參數,它控制著ELU負值部分在何時飽和。
從式(2)~式(4)可以看出,RELU激活函數容易在負軸上飽和,ELU激活函數在負軸上做了一些改進,用指數函數代替零,從而在一定程度上緩解了飽和問題。但是當網絡變得更深時,飽和問題仍然存在。SELU激活函數的方差存在于上界和下界,因此SELU激活函數不會發生飽和。
2.6 圖像增廣
圖像增廣技術可以基于已有圖像生成更多訓練樣本,使得圖像之間有更多差異性。通過水平移動、垂直偏移、旋轉和縮放圖像得到更多訓練圖像,增廣模型的泛化能力,并有效地防止模型過擬合。雖然本文設計的U型網絡可以適應不同的圖像尺寸,但為了獲得更好的模型性能,本文將圖像形狀統一更改為192 × 128。
2.7 評測函數
為了評估模型的效果,將圖像數據集分為90%的訓練集和10%的測試集,并使用DSC評估函數來計算真實圖像和預測圖像之間的相似度。
DSC和戴斯損失(Dice loss)函數定義如式(5)~(6)所示:
![]() |
![]() |
其中X和Y為需要比較的兩個樣本。
2.8 圖像預處理和后處理
2.8.1 窗口調整技術
根據CT圖像拍攝器官的CT值的范圍,來調整WW和WL,從而聚焦直腸癌組織,灰度范圍上限以上的閾值處理為白色,灰度范圍下限以下的閾值處理為黑色,如圖4所示。WW是指CT圖像顯示的CT值范圍(單位HU,以符號WW表示),WL是指當前關注區域的CT值的中心(單位HU,以符號WL表示),如式(7)所示:

![]() |
其中,CTmax代表當前器官CT值范圍的上限,CTmin代表當前器官CT值范圍的下限。
2.8.2 圖像裁剪
由于直腸區域大致固定在人骨盆的CT圖像中,本文根據掩模圖像搜索上邊界和下邊界,然后適當地擴大比例來保證腫瘤區域完全包含在圖像內。最后,確定的圖像形狀是192 × 128。圖像裁剪不僅可以聚焦于腫瘤區域,而且還能加快U型網絡的訓練速度。首先,將直腸癌視為質點,并找到其在水平軸和垂直軸上的比例。然后,遍歷包含腫瘤的所有圖像以確定它們的上邊界和下邊界,然后根據上邊界和下邊界確定圖像開始和結束位置,并且最終裁剪圖像。實驗證明,裁剪后的圖像對于U型網絡學習更有效,因為腫瘤與非腫瘤數據分布比例越接近,更有利于網絡學習腫瘤和非腫瘤區域之間的差異。
2.8.3 形態學操作
CT圖像的開運算操作,即首先對圖像進行腐蝕然后膨脹。開運算操作可以消除圖像中的毛刺和細小連接而不會改變圖像大小,通過形態學運算消除了干擾和圖像缺陷從而能提升網絡學習性能。
2.8.4 直方圖均衡化
將原始圖像的灰度圖變換為均勻分布,這增加了像素的灰度值的動態范圍,從而增廣了圖像的整體對比度。直方圖均衡化能更好區分腫瘤和非腫瘤。
2.8.5 標準歸一化
標準歸一化可以減少圖像數據中某些異常值的影響,這是數據表處理中的一個重要步驟。由于神經網絡使用梯度下降法進行反向傳播更新誤差,因此標準歸一化非常重要,特別是數據差異值非常大的情況。
2.8.6 圖像后處理
本文處理的CT圖像和掩模圖像的尺寸為192 × 128。最后,本文需要將其恢復為與之前相同的尺寸(512 × 512)。將模型預測的掩模圖像與一張512 × 512數值為0的圖像執行對應位置相加的操作。通過圖像裁剪獲得的上邊界和下邊界確定分割點,然后獲得添加的位置。如果該位置有腫瘤,則結果為1,否則為0。
3 實驗
本文模型訓練的計算機語言為python 3.6(Python Software Foundation,荷蘭)。所有的計算均在臺式計算機上進行,配備圖像處理器為GPU GTX1080TI (NVIDIA,美國)和Windows 10(Microsoft,美國)操作系統。
本文對圖像預處理的步驟包括:圖像WW和WT調整、圖像裁剪、形態處理(開運算)、直方圖均衡化、標準歸一化等;本文探討了標準歸一化對U型網絡分割結果的影響;比較分析了直方圖均衡化和開運算的處理順序對結果的影響。為了研究網絡深度對直腸癌分割性能的影響,本文對比分析了不同殘差塊層數的影響,即比較具有一層殘差塊和兩層殘差塊的beta卷積塊對結果的影響;還對比分析了不同殘差塊結構(標準卷積塊、標準殘差塊、自定義殘差塊)對分割結果的影響,如圖3所示;也對比分析了RELU、ELU、SELU等三種不同激活函數對結果的影響;本文使用了圖像增廣以有效提升模型的泛化能力,并進行實驗對比分析了使用和不使用圖像增廣情況下的分割結果。
4 結果和討論
4.1 不同殘差塊層數的影響
本文比較了一層殘差塊和兩層殘差塊模型的分割效果,如圖5所示,一層殘差塊的分割效果比兩層殘差分塊的分割效果更好,隨著訓練回合增加,DSC變得更穩定。一層殘差塊有18個卷積層,二層殘差塊有36個卷積層。隨著網絡層數增加時,當數據量不足,圖像數據很難支持模型的訓練,因此分割效果變差。當網絡適中的時候,選擇圖3中的標準殘差塊可以獲得較好的性能,當網絡層數較少的時候,選擇圖3中標準卷積塊連接可以獲得較好的性能。根據具體任務和數據規模,選擇網絡層數訓練極其重要,在本文的直腸癌分割任務中,網絡共有18個卷積層。

4.2 不同殘差連接方式的影響
不同的殘差連接有不同的效果,所以本文使用3種連接方法,如前文所述,此處不再冗述。如圖6所示,通過對比實驗,標準殘差塊分割效果最好。當卷積梯度消失時,可以利用原始信息,防止梯度消失,使模型工作得更好。殘差連接的選擇需要根據網絡層數來選擇,當網絡層數較深時,選擇自定義殘差塊可以獲得較好的性能,當網絡適中的時候,選擇標準殘差塊可以獲得較好的性能,當網絡層數較少的時候,選擇標準卷積塊可以獲得較好的性能。

4.3 不同激活函數
實驗比較了不同激活函數對模型分割效果的影響,分別采用RELU、ELU、SELU以及RELU和ELU的結合,ELU作為模型中最底層的激活函數,其他層使用SELU作為激活函數。不同激活函數的Dice loss結果如表1所示,其中SELU效果最好,Dice loss最小。同時利用SELU作為激活函數,實現更快的收斂。

4.4 圖像增廣
圖像增廣對U型網絡有很大的提升。如圖7所示,添加圖像增廣后,DSC從0.79增加到0.97,有明顯的提升,故本文將使用圖像增廣。另外,圖像增廣能提供更多的圖像,提升了模型的泛化能力。

4.5 圖像預處理
在圖像預處理中,本文討論和比較了圖像是否標準歸一化對模型分割效果的影響。如圖8所示,使用標準化是很有意義的,模型變得更收斂,DSC更高。標準化消除了異常數據和噪聲的影響,使模型更穩定。

開運算和直方圖均衡化的順序將產生不同的結果。如圖9所示,先進行開運算,然后進行直方圖均衡化可以獲得更高的DSC結果。對比先進行開運算再進行直方圖均衡化和先進行直方圖均衡化然后進行開運算這兩組實驗很有意義。通過腐蝕和膨脹等操作,可以消除一些噪聲,直方圖均衡化將原始圖像的直方圖轉換為均勻分布,增加了像素灰度值的動態變化,從而增廣了圖像的整體對比度。因此,如果先進行直方圖均衡化,開運算的效果很差。在圖像預處理方面,研究表明調整WW和WT是消除直腸區外組織干擾所必需的,開運算和直方圖均衡化的順序應為:先執行開運算以便消除噪聲,再根據直方圖信息使灰度值均衡。上述步驟完成后,最后進行標準歸一化處理,消除噪聲干擾以及圖像缺陷的影響。

經過上述實驗,當分割效果最好時,本文使用的殘差層為1層,使用標準卷積塊作為如圖6所示的殘差連接,選擇SELU作為殘差塊的激活函數,選擇1 × 1卷積核進行卷積操作。該層使用sigmoid函數作為激活函數,并使用圖像增廣來獲得更多的數據。在圖像預處理中,本文使用WW和WT調整,將圖像裁剪為192 × 128,然后進行開運算、直方圖均衡化,最后進行標準歸一化。分割效果如圖10所示,預測的腫瘤位置略低,但仍與真實標簽十分相似。訓練和驗證集的比例約為9∶1,本文在驗證集中得到DSC,其最佳結果為0.97,如圖11所示,訓練集和驗證集的Dice loss曲線走勢相差不大,所以并沒有過擬合。


5 結論
本文提出了一種基于殘差塊的端到端的改進U型網絡神經網絡模型,通過使用殘差塊代替卷積塊從而有效地防止了梯度消失,并應用批量歸一化來防止梯度爆炸,使得模型能快速收斂。本文提出了對CT圖像自動檢測邊界、設置感興趣區域并進行圖像裁剪等方法,對于分割后的圖像進行后處理使之還原到分割之前同等大小圖片,提出的圖像裁剪方法可以更準確地聚焦于腫瘤區域同時節省訓練時間,使得模型分辨直腸癌的能力更強,大大提高了分割準確度。另外,得益于SELU在X負軸不會出現梯度消失的特性,本文采用SELU激活函數從而有效避免梯度消失或者梯度爆炸。本文應用了調整CT圖像WW和WT、形態處理(開運算)、直方圖均衡化、標準歸一化等預處理算法進一步提升模型的分割精度。相比于已有的研究,本文設計的帶有殘差塊的U型網絡,極大地提高了DSC,獲得了良好的分割效果,最終獲得的DSC值達到0.97,具有極好的應用前景,本文的研究工作為進一步提升直腸癌CT圖像分割性能提供了思路。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:汪豪主要負責數據集整理、算法的代碼編寫及調試;吉邦寧主要負責論文撰寫、代碼調試與測試;何剛主要負責算法設計指導、論文撰寫指導;俞文心主要負責算法理論咨詢與建議。
引言
直腸癌是消化道最常見的惡性腫瘤之一,2018年中國癌癥統計報告顯示:我國直腸癌發病率、死亡率在全部惡性腫瘤中位居第5位,新發病例37.6萬,死亡病例19.1萬[1],發病年齡中位數在45歲左右[1-2],但近年來青年人發病率有升高的趨勢[3]。我國多數直腸癌患者在確診時已屬于中晚期,因此直腸癌的早期診斷及治療對提高患者預后十分重要[1]。電子計算機斷層掃描(computed tomography,CT)技術是直腸癌定位及診斷的主要檢查手段之一,而CT圖像分割技術的敏感性、準確率對CT圖像在直腸癌診斷中的應用具有重要意義[4-6]。
圖像分割主要是將目標對象從背景中識別、定位并提取出來,在自動醫學圖像分割中,可以通過感興趣區域得到一張掩模圖像,然后進行圖像分割,但是這種方法的結果并不理想[7]。醫學圖像的手工分割也是一種經典的方法,但需要操作醫生具有豐富的專業知識和經驗,此外,即使相同的人使用相同的方法,也很難獲得完全相同的結果。因此,針對醫學圖像能實現自動精確分割的算法研究得到了廣泛的關注,如朱柏輝等[8]使用基于小波特性與邊緣模糊檢測的方法對醫學圖像進行處理;陳詩慧等[9]使用深度學習的方法實現了癌癥計算機輔助診斷。有研究以全手工分割結果的精度評價戴斯相似性系數(Dice similarity coefficient,DSC)[10],DSC平均為0.68,因此在日常臨床實踐中應用價值不高[11-13]。Nougaret 等[12]研究探索了一種利用軟件區域算法自動分割的方法,這種方法特別適用于彌散加權圖像,它可以突出腫瘤并抑制背景組織,從而提供更高的腫瘤背景比,達到自動分割的目的。但是,人體盆腔的其他解剖結構,如周圍的淋巴結、直腸、前列腺等也可能表現出類似的高強度,導致算法分割不準確[12-14]。
近年來,隨著深度學習技術的發展,尤其是卷積神經網絡的提出和相關研究的深入,促使生物醫學圖像分割算法的研究取得了許多新的進展。深度學習技術具有在高維數據中發現復雜結構的能力,尤其是可用于增廣復雜圖像表示能力的卷積神經網絡,其中的卷積層可以檢測上一層的局部圖案,池化層可以減小表示的維數同時提升模型的魯棒性,從而在增加接收感受野的同時抵抗噪聲。上文提到的卷積神經網絡是卷積層和池化層的結合,它可以學習圖像的層次表示,并從低維信息中抽取高維特征,但是這種分割只考慮局部內容,易造成分割效果不精確。在實際的應用中,相對于其他領域而言,醫學圖像的數據量通常比較少,因此卷積神經網絡的圖像分割性能會受到限制[15-20],如Trebeschi等[21]使用基于卷積神經網絡進行網絡分割,得到的DSC僅為0.85,仍有進一步提升的空間和深入研究的價值。
在醫學圖像分割任務中,期望得到對于定位的端到端輸出以及每個像素都有相應的標簽,同時得到每個標簽依賴于此圖像的全局信息。全卷積網絡是第一個端到端的像素級語義分割的神經網絡模型[22],Kim等[23]研究設計了一個完整的全卷積網絡用于直腸癌的磁共振圖像分割,能有效地從整個圖像中分割直腸癌,分割結果的DSC為0.75。目前在醫學圖像處理分割領域中最先進和流行的網絡模型是U型網絡,它是一種編碼器—解碼器分割網絡,前者用于捕獲語義,后者用于精確定位。該網絡成功的關鍵是跳越連接,它結合了淺層和深層語義特征映射,同時可以捕獲上下文和本地信息以分割器官和器官邊界的細節[24]。一方面,U型網絡在醫學影像方面非常高效,在小數據集上表現良好;另一方面,它使用重疊—切片(overlap-tile)策略,能預測一批標簽。此外,U型網絡必須輸入較大方框的圖像,如果存在缺失的信息,則需要通過鏡像輸入圖像來推斷缺少的上下文信息。在2015年生物醫學成像國際研討會(the international symposium on biomedical imaging,ISBI)的細胞追蹤(cell tracking)挑戰賽中,U型網絡取得了非常好的分割結果[20]。
本研究基于U型網絡的網絡模型,在模型中應用了不同的激活函數以提高U型網絡的性能。眾所周知,不同的激活函數適用于不同的應用場景。早期的S型生長曲線(sigmoid)函數以其非線性和導數計算廣泛應用于神經網絡的正向傳播[25],sigmoid函數表達式如式(1)所示:
![]() |
其中,X代表輸入的參數。
然而,在反向傳播過程中,sigmoid函數很容易飽和[26],人們又提出了線性整流函數(rectified linear unit,RELU)這一激活函數來緩解其飽和問題。然而RELU傾向于在負軸上飽和[27],因此進一步提出一種不容易在負軸上飽和的指數線性函數(exponential linear unit, ELU)。ELU加速了深層神經網絡的學習,提高了分類的準確性,有效地緩解了梯度消失或梯度爆炸的問題;另外,它有一定的批量歸一化效果,加強了模型泛化能力,計算量更小。然而,當網絡越來越深時,ELU將變得飽和。Klambauer等[28]提出了縮放指數線性函數(scaled exponential linear units,SELU)激活函數,SELU更適用于深度神經網絡,并且證明了方差有上下界,因此不會出現梯度消失或梯度爆炸的問題[29]。本文將SELU、ELU、RELU三種激活函數應用于模型并對比,最后選取綜合性能最優的SELU作為激活函數。
本文提出了一種基于殘差塊的端到端的改進U型網絡的神經網絡模型。如圖3所示,使用殘差塊代替卷積塊來防止梯度消失,避免一些神經元死亡,并應用批量歸一化來防止梯度爆炸,使網絡快速收斂,避免神經元飽和。為了更好地提升學習效率,本文提出了對CT圖像設置感興趣區域并進行圖像裁剪,對于分割后的圖像進行后處理,使之還原到分割之前同等大小的圖片。同時,根據直腸癌圖像的CT范圍,即亨氏單位(hounsfield unit,HU),來調整圖像的窗位(window level,WL)和窗寬(window width,WW),從而提升直腸組織對比度。另外,對CT圖像進行形態學開運算操作來避免噪聲、圖像缺陷等干擾,并提升不同組織間的灰度差異以有利于U型網絡的學習。此外,本文使用直方圖均衡來調整圖像的動態范圍,增廣了圖像的整體對比度;對圖像進行了標準歸一化處理以提高模型的收斂速度,使每個特征對結果的貢獻都大致相同;利用圖像增廣技術獲得更多的訓練樣本,顯著提高了網絡的泛化能力。最后,本文使用DSC數來評估模型分割的結果。

1 相關工作
Trebeschi等[21]訓練卷積神經網絡,在磁共振圖像上自動定位和分割直腸癌,該研究使用的是磁共振彌散加權圖像(diffusion-weighted imaging,DWI),圖像斑塊的分類比全卷積網絡更簡單。然而,該研究的數據僅僅只有135幅圖像,對于深度神經網絡來說,圖像數據量太小,無法支撐網絡的訓練。Kim等[23]提出了一種自動全卷積神經網絡以用于軸向T2加權磁共振圖像的分割,然后利用圖像增廣以提高分割性能。該研究實現了直腸組織和直腸癌的分割,同時提出了方差偏差分解任務來檢驗模型的魯棒性。目前直腸癌分割研究的最好結果的DSC可以達到0.85,尚有進一步提升的空間。基于U型網絡對直腸癌進行CT圖像分割的研究報道有限,因此本文基于U型網絡模型和殘差塊以提高直腸癌分割精度。
2 方法
本研究的數據集來源為人體骨盆區域動脈期的CT圖像,在U型網絡的基礎上,用殘差塊代替卷積塊,在圖像預處理過程中,使用了圖像裁剪算法。同時,本文還通過采用不同深度的殘差塊進行分割實驗,研究網絡深度對分割精度的影響,本文采用SELU激活函數,主要是因為該激活函數在X負軸不容易飽和。為了提升模型的泛化能力,對圖片進行了包括水平移動、垂直偏移、旋轉和縮放圖像等數據增廣處理以得到更多的訓練圖片。此外,還采用了一系列數據預處理方法,如CT圖像的WL和WW調整、形態學開運算、直方圖均衡化、標準歸一化等方法。
2.1 數據來源
本文CT圖像數據來自于2019年第七屆“泰迪杯”數據挖掘挑戰賽(網址為:http://www.tipdm.org/bdrace/tzjingsai/20181226/1544.html#sHref),本課題組已獲得授權使用該數據。
2.2 數據準備
本文使用CT動脈期的人骨盆組織的圖像和直腸癌的二維掩模圖像,掩膜圖對應CT的圖像,由醫生標記。掩模圖像是具有與CT圖像相同分辨率的二值圖像。像素值為1表示像素屬于目標(腫瘤區域),像素值為0表示像素屬于背景(非腫瘤區域),如圖1所示。使用的數據樣本是一種用于醫學的數字成像和通信(digital imaging and communications in medicine,DICOM)格式,總共有3 010張CT圖像,訓練集有2 709張,測試集有301張。

2.3 模型建立
本文設計的U型網絡的神經網絡模型示意圖如圖2所示,網絡具有用于直腸癌分割的收縮路徑和擴展路徑,包括卷積層和殘差塊的每個單元稱為貝塔(beta)卷積塊。該網絡共包含9個beta卷積塊,在每個beta卷積塊中,殘差塊由兩個卷積層組成,在第一個卷積層之前使用批量歸一化,第二個卷積層之后同樣使用批量歸一化,在每個beta卷積塊之后有2 × 2池化層,隨機失活(dropout)概率設置為0.5。beta卷積塊最初由16個3 × 3濾波器組成,并且編碼部分中的濾波器數量在每個beta卷積塊之后加倍。解碼部分和編碼部分彼此鏡像對稱,因此在每個卷積塊之后濾波器的數量將減半。使用連接(concatenate)的方式作為跳躍連接,如圖2中的黃色箭頭所示。最后一層使用1 × 1卷積核,然后由sigmoid函數激活。使用相似(same)算法進行填充,這與原始U型網絡的有效(valid)填充沒有太大差別[15]。另外,卷積塊和殘差塊使用正態分布初始化權重,而反卷積使用均勻分布初始化權重[30-31]。

2.4 殘差塊
本文比較了兩種不同的殘差塊對結果的影響,并將標準卷積塊作為未使用殘差塊的對照組,如圖3所示,兩種殘差塊使用了不同的跳躍連接方式,標準卷積塊沒有使用殘差連接,標準殘差塊和自定義殘差塊使用不同殘差連接。當網絡層數過深時,精度會變低,更易導致飽和,梯度也會更易消失或爆炸,此時若添加更多網絡層會導致更多錯誤,分割效果會變差。研究表明,并非所有系統都易于優化,而使用跳躍連接,即使此卷積層的輸出為0,跳轉連接仍然可以使用原始卷積之后的結果傳輸到下一層,從而防止梯度消失或梯度爆炸[32]。
2.4.1 跳躍連接
一個好的跳躍連接可以改善U型網絡的分割性能,而“連接”這一方式可廣泛地應用于實現跳躍連接,因此本文也使用“連接”來實現跳躍連接。不使用“添加”的方式,是因為“添加”會改變權重的分布。在初始化模型權重時,“連接”這一方法非常有效。
2.4.2 批量歸一化
在神經網絡中,隨著前一層的參數變化,當前層的輸入分布也會發生變化。批量歸一化在神經網絡中具有非常重要的作用。批量歸一化具有一定的正則化效果,在某些情況下它還可以替換隨機失活操作,并且可以節省網絡訓練的時間。因此,在神經網絡中,批量歸一化是非常普遍和必要的[33]。
2.5 激活函數
激活函數在U型網絡和其他神經網絡任務中起著重要作用。一般的網絡選用RELU用于緩解梯度飽和問題,但RELU很容易在負軸上飽和。本文采用SELU激活函數,SELU在X負軸采用了指數的形式,如式(4)所示,并且Klambauer等[28]證明方差存在上界和下界,所以在X負軸不會出現梯度消失的情況。在此之前,本文嘗試了SELU、ELU、RELU等激活函數并做了對比,使用這些激活函數來觀察對分割效果的影響。
RELU激活功能如式(2)所示:
![]() |
ELU激活功能如式(3)所示:
![]() |
SELU激活功能如式(4)所示:
![]() |
其中X為輸入值,α是一個可調整的參數,它控制著ELU負值部分在何時飽和。
從式(2)~式(4)可以看出,RELU激活函數容易在負軸上飽和,ELU激活函數在負軸上做了一些改進,用指數函數代替零,從而在一定程度上緩解了飽和問題。但是當網絡變得更深時,飽和問題仍然存在。SELU激活函數的方差存在于上界和下界,因此SELU激活函數不會發生飽和。
2.6 圖像增廣
圖像增廣技術可以基于已有圖像生成更多訓練樣本,使得圖像之間有更多差異性。通過水平移動、垂直偏移、旋轉和縮放圖像得到更多訓練圖像,增廣模型的泛化能力,并有效地防止模型過擬合。雖然本文設計的U型網絡可以適應不同的圖像尺寸,但為了獲得更好的模型性能,本文將圖像形狀統一更改為192 × 128。
2.7 評測函數
為了評估模型的效果,將圖像數據集分為90%的訓練集和10%的測試集,并使用DSC評估函數來計算真實圖像和預測圖像之間的相似度。
DSC和戴斯損失(Dice loss)函數定義如式(5)~(6)所示:
![]() |
![]() |
其中X和Y為需要比較的兩個樣本。
2.8 圖像預處理和后處理
2.8.1 窗口調整技術
根據CT圖像拍攝器官的CT值的范圍,來調整WW和WL,從而聚焦直腸癌組織,灰度范圍上限以上的閾值處理為白色,灰度范圍下限以下的閾值處理為黑色,如圖4所示。WW是指CT圖像顯示的CT值范圍(單位HU,以符號WW表示),WL是指當前關注區域的CT值的中心(單位HU,以符號WL表示),如式(7)所示:

![]() |
其中,CTmax代表當前器官CT值范圍的上限,CTmin代表當前器官CT值范圍的下限。
2.8.2 圖像裁剪
由于直腸區域大致固定在人骨盆的CT圖像中,本文根據掩模圖像搜索上邊界和下邊界,然后適當地擴大比例來保證腫瘤區域完全包含在圖像內。最后,確定的圖像形狀是192 × 128。圖像裁剪不僅可以聚焦于腫瘤區域,而且還能加快U型網絡的訓練速度。首先,將直腸癌視為質點,并找到其在水平軸和垂直軸上的比例。然后,遍歷包含腫瘤的所有圖像以確定它們的上邊界和下邊界,然后根據上邊界和下邊界確定圖像開始和結束位置,并且最終裁剪圖像。實驗證明,裁剪后的圖像對于U型網絡學習更有效,因為腫瘤與非腫瘤數據分布比例越接近,更有利于網絡學習腫瘤和非腫瘤區域之間的差異。
2.8.3 形態學操作
CT圖像的開運算操作,即首先對圖像進行腐蝕然后膨脹。開運算操作可以消除圖像中的毛刺和細小連接而不會改變圖像大小,通過形態學運算消除了干擾和圖像缺陷從而能提升網絡學習性能。
2.8.4 直方圖均衡化
將原始圖像的灰度圖變換為均勻分布,這增加了像素的灰度值的動態范圍,從而增廣了圖像的整體對比度。直方圖均衡化能更好區分腫瘤和非腫瘤。
2.8.5 標準歸一化
標準歸一化可以減少圖像數據中某些異常值的影響,這是數據表處理中的一個重要步驟。由于神經網絡使用梯度下降法進行反向傳播更新誤差,因此標準歸一化非常重要,特別是數據差異值非常大的情況。
2.8.6 圖像后處理
本文處理的CT圖像和掩模圖像的尺寸為192 × 128。最后,本文需要將其恢復為與之前相同的尺寸(512 × 512)。將模型預測的掩模圖像與一張512 × 512數值為0的圖像執行對應位置相加的操作。通過圖像裁剪獲得的上邊界和下邊界確定分割點,然后獲得添加的位置。如果該位置有腫瘤,則結果為1,否則為0。
3 實驗
本文模型訓練的計算機語言為python 3.6(Python Software Foundation,荷蘭)。所有的計算均在臺式計算機上進行,配備圖像處理器為GPU GTX1080TI (NVIDIA,美國)和Windows 10(Microsoft,美國)操作系統。
本文對圖像預處理的步驟包括:圖像WW和WT調整、圖像裁剪、形態處理(開運算)、直方圖均衡化、標準歸一化等;本文探討了標準歸一化對U型網絡分割結果的影響;比較分析了直方圖均衡化和開運算的處理順序對結果的影響。為了研究網絡深度對直腸癌分割性能的影響,本文對比分析了不同殘差塊層數的影響,即比較具有一層殘差塊和兩層殘差塊的beta卷積塊對結果的影響;還對比分析了不同殘差塊結構(標準卷積塊、標準殘差塊、自定義殘差塊)對分割結果的影響,如圖3所示;也對比分析了RELU、ELU、SELU等三種不同激活函數對結果的影響;本文使用了圖像增廣以有效提升模型的泛化能力,并進行實驗對比分析了使用和不使用圖像增廣情況下的分割結果。
4 結果和討論
4.1 不同殘差塊層數的影響
本文比較了一層殘差塊和兩層殘差塊模型的分割效果,如圖5所示,一層殘差塊的分割效果比兩層殘差分塊的分割效果更好,隨著訓練回合增加,DSC變得更穩定。一層殘差塊有18個卷積層,二層殘差塊有36個卷積層。隨著網絡層數增加時,當數據量不足,圖像數據很難支持模型的訓練,因此分割效果變差。當網絡適中的時候,選擇圖3中的標準殘差塊可以獲得較好的性能,當網絡層數較少的時候,選擇圖3中標準卷積塊連接可以獲得較好的性能。根據具體任務和數據規模,選擇網絡層數訓練極其重要,在本文的直腸癌分割任務中,網絡共有18個卷積層。

4.2 不同殘差連接方式的影響
不同的殘差連接有不同的效果,所以本文使用3種連接方法,如前文所述,此處不再冗述。如圖6所示,通過對比實驗,標準殘差塊分割效果最好。當卷積梯度消失時,可以利用原始信息,防止梯度消失,使模型工作得更好。殘差連接的選擇需要根據網絡層數來選擇,當網絡層數較深時,選擇自定義殘差塊可以獲得較好的性能,當網絡適中的時候,選擇標準殘差塊可以獲得較好的性能,當網絡層數較少的時候,選擇標準卷積塊可以獲得較好的性能。

4.3 不同激活函數
實驗比較了不同激活函數對模型分割效果的影響,分別采用RELU、ELU、SELU以及RELU和ELU的結合,ELU作為模型中最底層的激活函數,其他層使用SELU作為激活函數。不同激活函數的Dice loss結果如表1所示,其中SELU效果最好,Dice loss最小。同時利用SELU作為激活函數,實現更快的收斂。

4.4 圖像增廣
圖像增廣對U型網絡有很大的提升。如圖7所示,添加圖像增廣后,DSC從0.79增加到0.97,有明顯的提升,故本文將使用圖像增廣。另外,圖像增廣能提供更多的圖像,提升了模型的泛化能力。

4.5 圖像預處理
在圖像預處理中,本文討論和比較了圖像是否標準歸一化對模型分割效果的影響。如圖8所示,使用標準化是很有意義的,模型變得更收斂,DSC更高。標準化消除了異常數據和噪聲的影響,使模型更穩定。

開運算和直方圖均衡化的順序將產生不同的結果。如圖9所示,先進行開運算,然后進行直方圖均衡化可以獲得更高的DSC結果。對比先進行開運算再進行直方圖均衡化和先進行直方圖均衡化然后進行開運算這兩組實驗很有意義。通過腐蝕和膨脹等操作,可以消除一些噪聲,直方圖均衡化將原始圖像的直方圖轉換為均勻分布,增加了像素灰度值的動態變化,從而增廣了圖像的整體對比度。因此,如果先進行直方圖均衡化,開運算的效果很差。在圖像預處理方面,研究表明調整WW和WT是消除直腸區外組織干擾所必需的,開運算和直方圖均衡化的順序應為:先執行開運算以便消除噪聲,再根據直方圖信息使灰度值均衡。上述步驟完成后,最后進行標準歸一化處理,消除噪聲干擾以及圖像缺陷的影響。

經過上述實驗,當分割效果最好時,本文使用的殘差層為1層,使用標準卷積塊作為如圖6所示的殘差連接,選擇SELU作為殘差塊的激活函數,選擇1 × 1卷積核進行卷積操作。該層使用sigmoid函數作為激活函數,并使用圖像增廣來獲得更多的數據。在圖像預處理中,本文使用WW和WT調整,將圖像裁剪為192 × 128,然后進行開運算、直方圖均衡化,最后進行標準歸一化。分割效果如圖10所示,預測的腫瘤位置略低,但仍與真實標簽十分相似。訓練和驗證集的比例約為9∶1,本文在驗證集中得到DSC,其最佳結果為0.97,如圖11所示,訓練集和驗證集的Dice loss曲線走勢相差不大,所以并沒有過擬合。


5 結論
本文提出了一種基于殘差塊的端到端的改進U型網絡神經網絡模型,通過使用殘差塊代替卷積塊從而有效地防止了梯度消失,并應用批量歸一化來防止梯度爆炸,使得模型能快速收斂。本文提出了對CT圖像自動檢測邊界、設置感興趣區域并進行圖像裁剪等方法,對于分割后的圖像進行后處理使之還原到分割之前同等大小圖片,提出的圖像裁剪方法可以更準確地聚焦于腫瘤區域同時節省訓練時間,使得模型分辨直腸癌的能力更強,大大提高了分割準確度。另外,得益于SELU在X負軸不會出現梯度消失的特性,本文采用SELU激活函數從而有效避免梯度消失或者梯度爆炸。本文應用了調整CT圖像WW和WT、形態處理(開運算)、直方圖均衡化、標準歸一化等預處理算法進一步提升模型的分割精度。相比于已有的研究,本文設計的帶有殘差塊的U型網絡,極大地提高了DSC,獲得了良好的分割效果,最終獲得的DSC值達到0.97,具有極好的應用前景,本文的研究工作為進一步提升直腸癌CT圖像分割性能提供了思路。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:汪豪主要負責數據集整理、算法的代碼編寫及調試;吉邦寧主要負責論文撰寫、代碼調試與測試;何剛主要負責算法設計指導、論文撰寫指導;俞文心主要負責算法理論咨詢與建議。