基于深度學習的醫學圖像分割方法已經成為了醫學圖像處理領域的強大工具。由于醫學圖像的特殊性質,基于深度學習的圖像分割算法面臨樣本不平衡、邊緣模糊、假陽性、假陰性等問題,針對這些問題,研究人員大多對網絡結構進行改進,而很少從非結構化方面做出改進。損失函數是基于深度學習的分割方法中重要的組成部分,對損失函數的改進可以從根源上提高網絡的分割效果,并且損失函數與網絡結構無關,可以即插即用地運用在各種網絡模型和分割任務中。本文從醫學圖像分割任務中的困難出發,首先介紹了解決樣本不平衡、邊緣模糊、假陽性、假陰性問題的損失函數及改進策略;然后對目前損失函數改進過程中所遇到的困難進行分析;最后對未來的研究方向進行了展望。本文將為損失函數的合理選擇、改進或創新提供參考,并為損失函數的后續研究指引方向。
引用本文: 陳英, 張偉, 林洪平, 鄭鋮, 周滔輝, 馮龍鋒, 易珍, 劉嵐. 醫學圖像分割算法的損失函數綜述. 生物醫學工程學雜志, 2023, 40(2): 392-400. doi: 10.7507/1001-5515.202206038 復制
0 引言
醫學圖像分割是醫學圖像處理領域的一個重要分支,它旨在輔助臨床醫生將器官和病變部位與圖像背景分割開來,使醫生能夠直觀地了解病患內部信息,以協助醫生進行客觀決策[1]。隨著社會醫療水平的發展及全民健康意識的提高,醫療數據指數增長,海量的醫學圖像增加了醫生閱片診斷的負擔,同時也推動了智能醫療技術的發展[2]。
21世紀以來,隨著信息技術理論的進步和硬件設備性能的提升,人工智能技術得以迅猛發展,并在圖像處理任務中展現出強大的性能[3]。在醫學圖像分割領域,研究人員提出了各種基于人工智能技術的醫學圖像自動分割方法并取得了很好的效果[4]。然而,傳統的機器學習方法,例如區域生長、模糊均值聚類、邊緣檢測過濾器等,需要較多的人工參與,特征提取、種子點標注等環節繁瑣且難以實現自動化[5]。自2012年以來,基于卷積神經網絡的深度學習方法開始嶄露頭角,各種網絡模型層出不窮,其中以U型網絡(U-Net)為代表的卷積神經網絡模型在醫學圖像分割任務中表現最好[6],并且支持端到端的特征提取和像素分類。雖然深度學習方法在醫療影像分割任務中大顯身手,但由于醫學圖像與普通圖像相比較,具有低對比度、不均勻性等特點,另外人體的解剖組織結構復雜且具有較大差異性,因此還有很多問題有待解決[7]。為了解決這些問題,研究人員對網絡模型進行了各種改進,但其中大多數的改進方法都是基于結構方面的改進,例如:編解碼器的改進、跳躍連接的改進、網絡級聯或并聯的改進等,而對于數據預處理、數據集擴充、激活函數、損失函數、梯度下降等非結構方面的改進卻很少[8]。
神經網絡模型中這些非結構性的部分是網絡模型學習性能的基礎,其中損失函數又是神經網絡模型中的重要組成部分[9],它用來衡量網絡模型的預測值和真實值之間的差異,指導網絡模型做出更準確的預測,同時決定了網絡模型如何權衡錯誤。在基于深度學習的圖像分割任務中,損失函數的合理選擇、改進或創新,可以強化神經網絡模型學習的過程,從而取得更好的分割效果。此外,損失函數是神經網絡模型中低耦合的模塊,可以在不同網絡模型中實現即插即用,因此對損失函數的研究尤為重要。
近年來,越來越多的研究者開始注意到損失函數的重要性,并對其做出了各種改進,這些改進可以解決醫學圖像分割任務中樣本不平衡[10]、邊緣模糊、假陽性、假陰性等問題,并取得更好的分割結果[11]。然而很少有文獻對各類損失函數做具體的分析和總結,對于醫學圖像分割任務中遇到的各種困難沒有統一的結論來指導如何選擇或改進損失函數。本文將從目前醫學圖像分割任務中常見的問題出發,對解決這些問題的損失函數進行具體的分析和總結,并對未來的發展方向進行了展望。本文將為損失函數的合理選擇、改進或創新提供參考,并為損失函數的后續研究指引方向。
1 解決樣本不平衡問題的損失函數
在醫學圖像分割任務中,器官或病變部位往往只占據圖像的很小一部分,例如,在美國的前列腺、肺、結直腸、卵巢癌篩查試驗(prostate, lung, colorectal,and ovarian cancer screening trial,PLCO)數據集和美國國家肺癌篩選試驗(national lung cancer screening trial,NLST)的數據集中,其不平衡比率(少數類樣本占總體樣本的比率)分別為24.7%和25.0%[12]。這種樣本不平衡問題是天然存在的,也是醫學圖像分割任務最主要的挑戰之一[13]。醫學圖像中的樣本不平衡大致可以分為兩類,即前景和背景像素(病變區域和無病變區域的像素)之間的不平衡,簡單和困難像素(像素被正確分類的難易程度)之間的不平衡[14]。研究表明,機器學習方法在處理樣本不平衡的數據集時存在缺陷,數據集的高度不平衡可能會扭曲機器學習算法的性能,并使模型預測結果偏向多數(背景)類[15]。解決類不平衡的問題,有數據級和算法級兩種方法[16]。前者主要通過對多數類進行欠采樣和對少數類進行過采樣來緩解類不平衡,然而欠采樣限制了可用于訓練的數據的信息,過采樣可能導致過擬合;后者則是通過改進訓練算法來解決類不平衡問題,最常見的方法是改進損失函數,主要的改進思路有兩種:① 對原有的損失函數進行重新加權從而提高少數類在訓練過程中的重要性;② 基于更加合理的評估指標來構建新的損失函數。目前已有多種針對數據集不平衡而改進的損失函數,本節將從數據集不平衡的兩類問題出發,對相應的損失函數改進方法進行論述。
1.1 前景和背景像素的不平衡
在醫學圖像分割模型中,最常見的是基于分布的損失函數,如交叉熵(cross entropy,CE)損失函數(CE loss function,CE Loss),在國際醫學圖像計算和計算機輔助干預協會(medical image computing and computer assisted intervention society,MICCAI)于2018年舉辦的競賽(MICCAI 2018)進程中,77篇基于卷積神經網絡的分割論文中有47篇選擇了CE Loss運用在分割模型中[17]。CE Loss是對所有像素的預測進行評估,但是當數據集極度不平衡時,容易使模型陷入局部最優解,從而使預測值極易偏向背景。例如,當90%的像素屬于背景時,模型只需簡單地將每個像素預測為背景即可實現90%的整體分類準確率,但這顯然是不符合實際情況的。
為了改善這個問題,常見的做法是對不同類別的像素分配不同的權重。例如,Ben Naceur等[18]在分割膠質母細胞瘤腦腫瘤任務中,在模型中使用加權CE Loss(weighted CE Loss,WCE Loss),該函數在CE Loss中加入權重Wc(采用的是逆頻率加權策略)。當前景像素數量少時,權重項變大,從而迫使網絡訓練時關注少數類別。在2018年腦腫瘤分割挑戰賽(brain tumor segmentation,BRATS)的數據集(BRATS 2018)(網址為:https://grand-challenge.org/challenges/)上的實驗結果表明,使用基于WCE Loss和重疊補丁的網絡模型在對全腫瘤、腫瘤核心預測的骰子相似性系數(dice similarity coefficient,DSC)中位數分別為90%和83%,高于放射科醫師分割結果(74%~85%)。雖然WCE Loss能緩解類別不平衡問題,但是針對不同的數據集,為WCE Loss選擇合適的權重并非易事,不恰當的權重選擇有可能會降低模型的性能[19]。即使通過引入適當的權重參數,WCE Loss解決數據集不平衡的能力也很有限,因為基于分布的CE Loss是對全部像素點的累加計算,而前景和背景的不平衡也恰恰體現在像素點數量的不平衡,所以基于CE的損失函數對這一問題有著天生的劣勢。
基于區域的損失函數,如骰子損失函數(dice loss function,Dice Loss)在處理類別不平衡問題時效果更好。DSC是醫學圖像分割任務中最常用的評估指標,用來衡量預測值與真實值之間的重疊區域。DSC反映了分割結果與實際情況大小和定位一致性,與像素級評價指標相比,更符合感知質量。Milletari等[20]在分割前列腺的磁共振成像(magnetic resonance imaging,MRI)任務中,基于DSC提出了Dice Loss,該函數直接利用DSC作為損失函數來監督網絡。相比WCE Loss,Dice Loss不需要加入權重項來平衡前景和背景,而是在計算交集和比值時忽略大量的背景像素,從而解決前景和背景不平衡的問題,同時提高了收斂速度。在2012年前列腺MRI分割大賽(prostate MRI segmentation 2012,PROMISE 2012)的數據集(網址為:https://promise12.grand-challenge.org/)上的實驗結果表明,在相同的網絡結構下,使用Dice Loss的模型比使用WCE Loss的模型分割結果要好得多。
為了進一步加強模型對極度不平衡數據集的訓練效果,Sudre等[21]基于Dice Loss,提出了廣義Dice Loss(generalized Dice Loss,GD Loss),該函數在Dice Loss的基礎上對每個類別加入權重項,其中權重值和類別頻率成反比,實驗表明在二維(two dimension,2D)和三維(three dimension,3D)分割任務中標簽不平衡的情況下,GD Loss比Dice Loss、CE Loss更穩健和準確。然而,Dice Loss本質上是不穩定的,在梯度計算涉及小分母的高度不平衡數據中最為明顯[22]。
杰卡德(Jaccard)相似系數與DSC類似,可滿足度量的所有屬性,例如非負性、不可辨認的同一性、對稱性和三角形不等式。值得注意的是Jaccard相似系數對尺度是不變的,這意味著兩個任意形狀之間的相似性與它們的空間尺度無關[23]。基于上述這些特性,Jaccard相似系數已被廣泛用作計算機視覺中許多任務的評估指標,例如像素級或實例級圖像分割、2D/3D對象檢測等。Cai等[24]在計算機斷層掃描成像(computed tomography,CT)和MRI圖像的胰腺深部分割任務中,基于Jaccard相似系數,提出了Jaccard損失函數(Jaccard loss function,Jaccard Loss),該函數在形式上與Dice Loss類似;不同的是,Jaccard Loss在計算交并比時省略了一個交集區域,使其形式上更加簡潔、計算的效率更高。此外,Jaccard Loss不僅可以解決前景和背景不平衡問題,且無需校準最佳概率閾值即可從網絡模型的概率輸出中獲得最佳的分割結果。在對美國國立衛生研究院的CT-82(national institutes of health-CT-82,NIH-CT-82)(網址為:https://wiki.cancerimagingarchive.net/display/Public/Pancreas-CT)數據集的分割實驗中,分別使用CE Loss、二元CE損失函數(binary CE Loss,BCE Loss)和Jaccard Loss進行對照實驗,并使用四折交叉驗證。實驗結果表明,無論分割閾值如何設置,Jaccard Loss的平均DSC都最高。CE Loss對前景像素和背景像素分配相同的權重,因此概率閾值應該在0.5左右。而BCE Loss(WCE Loss的二分類版本)在前景像素上分配了更高權重,使得產生的最佳閾值處于相對較高的值。相比之下,Jaccard Loss可以將前景像素推到1的概率,同時仍然對背景像素具有很強的辨別力。
總而言之,對于前景和背景像素的不平衡問題,基于DSC的損失函數要比基于CE的損失函數效果要好。究其原因,一方面是因為CE Loss是對全部像素的預測值進行累加,函數中對前景和背景的預測分為獨立的兩項,當前景和背景像素數量不平衡時,模型容易陷入局部最優解,從而使預測值極易偏向背景。另一方面,Dice Loss是直接利用分割效果評價指標作為損失函數來監督網絡,在計算交集和比值時忽略大量的背景像素,從而解決前景和背景不平衡的問題。雖然Dice Loss能緩解前景和背景的不平衡問題,而且收斂速度較快,但是由于它粗暴地忽略背景像素的計算,這在一定程度上或造成對圖像資源的浪費。當正負樣本數量接近時,負樣本可以增強正樣本的特征強度。總之,圖像的背景信息可以促進特征學習,類似于人類的感知,計算中涉及的一些背景信息可以使網絡學習到的特征更加全面。因此,為了緩解Dice Loss的極端問題,Su等[25]將BCE Loss作為正則項引入,提出了Dice Loss和BCE Loss的組合損失函數(Dice-BCE loss function,D-BCE Loss),函數定義如式(1)所示:
![]() |
其中,LDB代表D-BCE Loss,LD代表Dice Loss,LB代表BCE Loss,γ為正則項系數,用于調整樣本類別比例的平衡。Dice Loss和BCE Loss的結合使得網絡在專注于前景像素學習的過程中不會完全忽略與背景像素的關聯。因此,網絡的訓練不會以背景像素為主,學習較小物體的特征也很簡單。
黃泳嘉等[26]在肝部醫學影像分割任務中,結合多種損失函數的優點,提出了一種加權混合損失函數,函數定義如式(2)所示:
![]() |
其中,LH代表加權混合損失函數,LB代表BCE Loss,LI代表交并比損失函數,LS代表結構相似性損失函數,W1、W2和W3是各個損失函數的權重項。通過這三個損失函數的加權求和,可以綜合利用它們的優點,不僅可以使所有像素保持平滑的梯度、更加關注相似度同時可以優化分割細節。基于2017年MICCAI競賽(MICCAI 2017)的肝臟腫瘤分割基準(liver tumor segmentation benchmark,LiTS)數據集(網址為:https://competitions.codalab.org/competitions/17094)的實驗結果表明,肝臟圖像和肝臟腫瘤圖像的DSC分別為96.26%和83.32%,相比傳統的U-Net,進一步了提高對肝臟和肝腫瘤圖像的分割精度。
1.2 簡單和困難像素的不平衡
醫學圖像樣本不平衡的另一類型是簡單像素和困難像素之間的不平衡,這也嚴重影響了深度學習模型的訓練過程。從經驗上講,一個簡單的像素通常比一個困難的像素對整體損失的貢獻要小。在實踐中,醫學圖像中的簡單像素(如器官內部對比度高的像素,器官中形狀相對規則的結構等)占比較大時,將會主導訓練模型,導致訓練次優或更差。為了解決簡單像素和困難像素之間的不平衡問題,研究人員在CE Loss的基礎上提出了前百分之K損失函數(top K% loss function,TopK Loss),通過設定閾值保留分類困難的像素點,迫使網絡在訓練期間專注于分類困難像素點。該函數有兩種實現,一種是Wu等[27]提出的保留預測值低于閾值的像素,當像素點的實際類別為前景(或背景)且模型預測該類別的概率值小于設定閾值時,則保留該像素點。另一種TopK Loss的實現是,只保留分類準確率最差的K%的像素點,并對其進行訓練,這兩種TopK Loss的核心思想都是一樣,即將容易分類的像素點忽略,使模型訓練時專注于困難像素,TopK Loss雖然在一定程度上可以緩解簡單像素和困難像素之間的不平衡問題,但是由于部分樣本被刪除,容易導致模型泛化能力不足。
相比TopK Loss的一刀切的做法,Lin等[28]提出了更加柔和的焦點損失函數(focal loss function,Focal Loss),該函數也是基于CE Loss的改進,函數定義如式(3)所示:
![]() |
其中,LF代表Focal Loss,N為像素點的總數量,C為像素點的類別,Wc為類別c的權重,pic為像素點i屬于類別c的概率值,gic為像素點i屬于類別c的真實值,(1 ? pic)γ為調節因子。Focal Loss通過引入調節因子(1 ? pic)γ來減少簡單像素的損失貢獻,從而迫使網絡關注于困難像素的訓練,并通過改變聚焦參數γ來調整簡單像素權重被降低的程度。而且調節因子(1 ? pic)γ是動態變化的,如果分類困難的像素逐漸變得好分,則調節因子也會逐漸的下降。實驗表明,當γ = 2、Wc = 0 = 0.25、Wc = 1 = 0.75時,模型能獲得最佳性能。
Abraham等[29]受到Focal Loss的啟發,在特沃斯基損失函數(Tversky loss function,Tversky Loss)[30]的基礎上加入了一個聚焦參數γ,提出了焦點Tversky Loss(focal Tversky loss function,Focal Tversky Loss),該函數定義如式(4)所示:
![]() |
其中,LFT代表Focal Tversky Loss,LT代表Tversky Loss,γ∈[1, 3]代表焦點參數。Focal Tversky Loss非線性地將訓練過程集中在困難像素上(Tversky指數 < 0.5)并抑制簡單像素對損失函數的貢獻。當像素點被錯誤地分類為高Tversky指數時,Focal Tversky Loss影響不大;如果Tversky指數較小且像素分類錯誤時,Focal Tversky Loss會降低。當聚焦參數γ逐漸增大時,損失函數對簡單像素的抑制程度也逐漸增大,而過大的γ值會使得函數對簡單像素過度抑制。論文中的焦點參數最佳值是γ = 4/3。在病變占圖像區域的4.84%和21.4%的乳腺超聲數據集B(breast ultrasound dataset B,BUS)(網址為:http://www2.docm.mmu.ac.uk/STAFF/m.yap/dataset.php)和2018年國際皮膚影像協會(international skin imaging collaboration 2018,ISIC 2018)的數據集(網址為:https://challenge.isic-archive.com/data/)上進行實驗,與標準U-Net相比,使用Focal Tversky Loss并通過合并圖像金字塔來改進注意力U-Net的模型可以使分割精度分別提高25.7%和3.6%。
在對腦部MRI圖像中的腫瘤進行分割時,極端的類別不平衡不僅存在于前景和背景之間,而且存在于腫瘤的不同子區域之間。Wang等[31]受到Focal Loss的啟發,在Dice Loss的基礎上運用Focal Loss的思想,提出了焦點Dice Loss(focal Dice Loss,Focal Dice Loss),用來解決病變區域中結構之間的不平衡問題,函數定義如公式(5)所示:
![]() |
其中,LFD為Focal Dice Loss,Dc為類別c的Dice Loss值,據此來優化網絡,可以緩解前景和背景之間的不平衡。Wc是類別c的權重項,當類別c數量較大時,權重Wc則減小,1/β為調節因子,使網絡在關注少數類別的同時,增加對困難像素的關注度。在2018年BRATS 挑戰賽數據集(BRATS 2015)(網址為:https://grand-challenge.org/challenges/)中驗證了Focal Dice Loss。實驗表明,其分割效果明顯比使用Dice Loss的模型更好,且當β = 2時,效果最好。Focal Dice Loss在解決類別分類難易程度不平衡的同時,通過Dice Loss部分解決前景和背景的不平衡。
單一的損失函數在處理類別不平衡問題時,很難同時處理前景與背景的不平衡和簡單像素與困難像素的不平衡,在不考慮運算復雜度的情況下,組合損失函數對類別不平衡的處理更加全面。Zhu等[32]將由Dice Loss和Focal Loss組成的混合損失函數運用在頭頸部解剖結構的分割任務中,該函數可以緩解不平衡的器官分割問題并迫使模型更好地從分割不良的像素中學習,實驗結果表明,與之前2015年MICCAI競賽(MICCAI 2015)的最先進結果相比,使用混合損失函數的網絡模型將DSC平均提高了3.3%,并且分割尺寸為178 × 302 × 225的頭頸部CT圖像大約需要0.12 s,明顯快于以前的方法。
2 損失函數在其他方面的運用
損失函數的改進不僅能夠緩解醫學圖像分割任務中的樣本不平衡問題,還能用于改進其他一些常見問題,例如,分割結果中存在假陰性和假陽性,醫學圖像邊界模糊難以準確分割等。通過對損失函數的改進,可以使神經網絡分割模型更好地處理這些問題。
2.1 權衡分割結果的精確率和召回率
在醫學圖像分割任務中,神經網絡模型不可避免地會出現分割誤差,這些誤差包括錯誤地將前景識別為背景(即假陰性),或者錯誤地將背景識別為前景(即假陽性)。兩種誤差在醫學圖像分析及臨床診斷時都影響重大,假陽性可能導致更大的放射野或過度的手術切割,假陰性可能導致放射區域不足或手術切除不完全。然而兩種誤差在不同的病情中所造成的影響不同,例如,在前列腺肥大的老年男性患者的大量隨機樣本中,由于樣本中僅有少數人患前列腺癌,使用不平衡樣本訓練的模型偏向于將結果預測為少數類(即不會患前列腺癌),在這種情況下,假陰性是一個可能危及生命的錯誤[33]。因此,如何權衡模型預測的精確率和召回率尤為重要。
基于分布的損失函數(如CE Loss)可以通過引入權重項應對樣本不平衡的問題,但它不能針對假陽性或者假陰性進行校準,并且對高度不平衡的數據表現不佳。基于區域的損失函數(如Dice Loss)可以通過給DSC中的假陽性和假陰性分配不同的權重系數進而調節網絡模型對假陽性和假陰性的關注度,例如Tversky Loss,該函數通過調整超參數α和β控制假陽性和假陰性之間的權衡,其定義如式(6)所示:
![]() |
其中,LT為Tversky Loss,N為像素點的總數量,C為像素點的類別,pic為像素點i屬于類別c的概率值,gic為像素點i屬于類別c的真實值,α和β分別為假陽性和假陰性的權重參數。較大的β可以讓網絡更加關注假陽性,從而提高召回率。在多發性硬化癥病變分割挑戰賽(multiple sclerosis segmentation challenge,MSSEG)的數據集(網址為:https://portal.fli-iam.irisa.fr/msseg-challenge/english-msseg-data/)上進行實驗,結果表明,當β=0.7時,所訓練的全卷積神經網絡(fully convolutional networks,FCN)能獲得最佳結果。
為了進一步權衡精確度和召回率,Hashemi等[34]提出了非對稱性損失函數(asymmetric similarity loss function,Asym Loss),其定義如式(7)所示:
![]() |
其中,LA為Asym Loss,N為像素點的總數量,C為像素點的類別,pic為像素點i屬于類別c的概率值,gic為像素點i屬于類別c的真實值,β為調節假陽性和假陰性的權重參數。調整β取值可以讓Asym Loss轉變為Dice Loss或Jaccard Loss,超參數β的取值可以根據類別不平衡比例來定義,較大β使模型更加關注假陰性,從而使召回率的權重高于精準率。上述兩種損失函數都是基于DSC的改進,雖然在一定程度上可以權衡精準率和召回率,但是不能很好地應對類別不平衡問題。加入基于類頻率權重項的GD Loss相對于DSC在處理類別不平衡時有更好的效果,Yang等[35]提出一種懲罰GD Loss(penalty GD Loss,pGD Loss),該函數在GD Loss中增加一個懲罰假陰性和假陽性的系數,函數定義如式(8)所示:
![]() |
其中,Lp代表pGD Loss,LG代表GD Loss,k為懲罰系數。當k = 0,pGD Loss等價于GD Loss;當k > 0,pGD Loss為假陰性和假陽性賦予額外的權重。實驗表明,k = 2.5對應最佳性能,基于pGD Loss的密集連接的卷積網絡(dense convolutional network,DenseNet)121模型分別實現了最高平均DSC為(91.9 ± 8.7)%、精確度為(91.3 ± 8.8)%、召回率為(92.6 ± 9.6)%,并且比GD Loss模型顯示出更好的分割性能。
Zhu等[36]在葡萄胎水腫病變分割任務中,提出了一種新穎的混合損失函數,其定義如式(9)所示:
![]() |
其中,LC代表混合損失函數,LF代表Focal Loss,LP代表像素級損失函數,LI代表病灶級損失函數,α是權重因子。該混合損失函數結合了像素級和病灶級損失值,可以同時提高兩個層面的分割效果。病變級別損失值的計算基于單個病變的連通域,其中大小病變區域具有相同的權重。通過添加α和β,復合損失函數可以根據不同的情況定制模型。當α < 0.5時,訓練的模型具有更好的召回率,模型將會側重于找出圖像中所有病變部位以減少漏檢,但也可能將正常部位誤檢。當α = 0.5時,模型兼顧了召回率和精確率,性能更全面。在實際應用中,兩個模型的交集代表水腫病變概率較大的區域,它們的差值代表有一定概率水腫病變的區域。
2.2 解決邊緣模糊問題的損失函數
由于醫學圖像成像技術固有的物理特性,如CT成像中的衰減系數和MRI成像中的弛豫時間等,醫學影像相較于自然圖像往往有對比度低、噪聲較大的特點[37],此外,由于人體器官形狀特殊,醫療影像通常會出現組織特征變化頻繁、區域和邊界特征模糊等現象[38]。傳統的基于圖像處理的邊界檢測方法,例如坎尼(Canny)算子[39]和索伯(Sobel)算子[40],對于具有大量噪聲的圖像表現出較差的邊界檢測性能。深度學習算法對圖像分割有較好的性能但對器官邊緣模糊的問題仍然存在缺陷。
Caliva等[41]提出了距離圖懲罰CE Loss(distance map penalized CE Loss,DPCE Loss),該函數與WCE Loss類似,其中權重項由真實標簽掩碼派生的距離圖構建。函數定義如式(10)所示:
![]() |
其中,LD代表DPCE Loss,N為像素點總數,C為像素點的類別,pic為像素點i屬于類別c的概率值,gic為像素點i屬于類別c的真實值,Dc是類別c的距離懲罰項,符號“°”是哈達瑪積[42]。DPCE Loss為邊界上的像素分配更大的權重,從而引導網絡將注意力集中在難以分割的邊界區域。實驗表明,運用該損失函數的模型分割質量顯著提高,更好地保留骨骼邊界的形狀以及受部分像素影響的區域。
Kim等[43]提出一種通用的邊界感知損失函數,以促進有效識別醫學圖像中器官和病變區域的邊界,該損失函數的定義如式(11)所示:
![]() |
其中,LBN代表邊界感知損失函數,LB代表邊界區域的損失值,LN代表非邊界區域的損失值,p1和p2表示每個區域的權重。一般將位于邊界區域的像素的損失值分配比非邊界區域的損失值更高的權重,以迫使深度學習模型關注邊界區域中分割不佳的像素。使用結腸息肉數據集(網址為:https://paperswithcode.com/dataset/cvc-clinicdb)、皮膚病變數據集(網址為:https://challenge.isic-archive.com/data/)和胸部X射線數據集(網址為:http://db.jsrt.or.jp/eng-01.php)進行的實驗結果表明,標準損失函數(例如CE Loss和Dice Loss)與提出的邊界感知損失函數相結合,可使模型分割效果比沒有使用邊界感知損失函數的模型分割效果更好。但是該損失函數也存在局限性,如果邊界不是確定的,如皮膚損傷導致邊界不清的情況,則該模型對分割性能的改進可能微不足道。另一方面,使用該損失函數的深度學習模型的性能根據權重和邊界區域的范圍而變化,所以權重項的最佳值是不確定的,需要憑經驗確定。
3 總結與展望
本文從醫學圖像分割領域所面臨的主要困難出發,介紹了解決樣本不平衡、邊緣模糊、假陽性、假陰性問題的損失函數及改進方法。這些損失函數從廣義上可以分為基于分布、基于區域、基于邊界的損失函數和混合損失函數,其中大部分是CE Loss和Dice Loss的變體,它們在解決不同問題時各有優點。解決樣本不平衡問題的一般思路是對損失函數重新加權或使用基于DSC的損失函數:如WCE Loss是基于CE Loss的改進,對不同類別的像素進行重新加權,使模型訓練時關注類別較少的前景像素;Dice Loss則是對DSC的直接優化,在計算交集和比值時忽略大量的背景像素,從而解決前景和背景不平衡的問題。一般來講,在解決前景和背景不平衡的問題時,基于DSC的損失函數要優于基于CE的損失函數。但在實際中常用的做法是將兩種思路結合,在Dice Loss的基礎上中引入權重項或者將基于DSC和CE的損失函數加權,形成混合損失函數。對于像素點分類難易程度的不平衡問題常用的改進方法是:忽略分類簡單的樣本或者減少簡單樣本的權重,例如,TopK Loss和Focal Loss,前者是粗暴地將分類簡單的像素點丟棄,后者則是通過引入調節因子,間接地減小分類簡單像素點的權重。受Focal Loss的啟發,研究人員提出了多種加入聚焦因子的損失函數,其本質都是通過降低簡單樣本的權重,從而迫使網絡模型在訓練中關注于困難樣本。為了權衡分割結果的精確率和召回率,常用的解決方法是:對基于DSC的損失函數中的假陽性和假陰性分配不同的權重,如Asym Loss和Tversky Loss。然而這些基于DSC的損失函數本質上是不穩定的,在梯度計算涉及小分母的高度不平衡數據中最為明顯,使用這類損失函數的模型在訓練過程中容易發生震蕩。對于邊界模糊問題,常用基于邊界的損失函數,該函數是通過最小化兩個邊界之間的距離來計算的,在公式上與Dice Loss有相似之處,因為它們都是以基于區域的方式計算的,關鍵區別在于不匹配區域的方式是加權的。綜合考慮,這些損失函數都各有特點,單一損失函數能解決的問題有限,在不考慮計算成本的情況下,由多種損失函數組成的混合損失函數訓練效果會更好,能解決的問題也更加全面。
損失函數是神經網絡模型中重要模塊,對損失函數的改進可以解決醫學圖像分割任務中的多種問題,基于目前學者們提出的改進損失函數的實驗結果表明,分割效果確實有所提升,但是分割性能的提升有可能是神經網絡中其他模塊的引入、數據集的擴充或者是模型網絡結構的改進造成的,對于損失函數的改進效果還不能定量分析。此外,由于各種損失函數的改進是基于不同的模型和分類任務的,沒有控制變量,所以沒有統一的標準來評判對于特定的分類任務不同損失函數的表現差異,且對現有的損失函數改進效果的評估研究也不夠全面,也很難通過理論分析找到每個函數的超參數的最佳值。
總體而言,針對損失函數進行改進,在醫學圖像分割模型性能的提升上有廣闊的前景,可以從以下幾個方面尋求突破:① 在控制變量的基礎上,對目前所有的損失函數的分割效果做定量的評估,為不同數據集找到最適合的損失函數類型。② 建立統一的數據集、網絡模型和模型評估標準,為后續的損失函數研究和改進提供統一的平臺,使改進后的損失函數的效果有更加直觀的定量結果。③ 混合損失函數結合了多種損失函數的優點,但是如何選擇最佳的損失函數的組合以及不同損失函數的權重并非易事,此外,如何權衡好混合損失函數帶來的效果提升和計算成本的增加也是值得探討的問題。④ 目前對于損失函數的改進方法中,主要是根據不同類別和難易程度進行簡單的逆頻率加權。此外還可以對加權策略做改進,例如逆中值頻率加權、焦點加權、距離變換映射加權和距離懲罰項等。⑤ 目前的損失函數的改進大多數是針對分類任務結果的不平衡的改進,如基于DSC的損失函數,然而這種函數在求導時容易出現分母極小的情況,如何在改進分割效果的情況下同時改進損失函數求導的特性是值得探討的方向。⑥ 現有的損失函數大部分都是基于醫學圖像分割評價指標DSC來構建的,而醫學圖像分割評價指標還有豪斯多夫距離、體素重疊誤差、最大表面距離等,這些指標對醫學圖像分割結果的評估側重點不同且各有優勢,基于這些評價指標構建新的損失函數能獲得不同側重點的分割結果。⑦ 目前大多數研究和應用都集中在解決分割的唯一性問題(每個輸入圖像只有一個標準分割結果)。然而在實際場景中可能有非唯一的分割標注,因為不同的外科醫生可能以不同的方式為同一患者進行手術。現有的損失函數大多數情況下不能增強同一輸入的非唯一分割輸出的共同特征,對損失函數的改進可能使模型更好地學習分割的非唯一問題。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:陳英、張偉負責方法設計和文章撰寫、文章修改;林洪平、鄭鋮、馮龍鋒、周滔輝、易珍負責數據收集、整理;劉嵐參與論文的指導與審校。
0 引言
醫學圖像分割是醫學圖像處理領域的一個重要分支,它旨在輔助臨床醫生將器官和病變部位與圖像背景分割開來,使醫生能夠直觀地了解病患內部信息,以協助醫生進行客觀決策[1]。隨著社會醫療水平的發展及全民健康意識的提高,醫療數據指數增長,海量的醫學圖像增加了醫生閱片診斷的負擔,同時也推動了智能醫療技術的發展[2]。
21世紀以來,隨著信息技術理論的進步和硬件設備性能的提升,人工智能技術得以迅猛發展,并在圖像處理任務中展現出強大的性能[3]。在醫學圖像分割領域,研究人員提出了各種基于人工智能技術的醫學圖像自動分割方法并取得了很好的效果[4]。然而,傳統的機器學習方法,例如區域生長、模糊均值聚類、邊緣檢測過濾器等,需要較多的人工參與,特征提取、種子點標注等環節繁瑣且難以實現自動化[5]。自2012年以來,基于卷積神經網絡的深度學習方法開始嶄露頭角,各種網絡模型層出不窮,其中以U型網絡(U-Net)為代表的卷積神經網絡模型在醫學圖像分割任務中表現最好[6],并且支持端到端的特征提取和像素分類。雖然深度學習方法在醫療影像分割任務中大顯身手,但由于醫學圖像與普通圖像相比較,具有低對比度、不均勻性等特點,另外人體的解剖組織結構復雜且具有較大差異性,因此還有很多問題有待解決[7]。為了解決這些問題,研究人員對網絡模型進行了各種改進,但其中大多數的改進方法都是基于結構方面的改進,例如:編解碼器的改進、跳躍連接的改進、網絡級聯或并聯的改進等,而對于數據預處理、數據集擴充、激活函數、損失函數、梯度下降等非結構方面的改進卻很少[8]。
神經網絡模型中這些非結構性的部分是網絡模型學習性能的基礎,其中損失函數又是神經網絡模型中的重要組成部分[9],它用來衡量網絡模型的預測值和真實值之間的差異,指導網絡模型做出更準確的預測,同時決定了網絡模型如何權衡錯誤。在基于深度學習的圖像分割任務中,損失函數的合理選擇、改進或創新,可以強化神經網絡模型學習的過程,從而取得更好的分割效果。此外,損失函數是神經網絡模型中低耦合的模塊,可以在不同網絡模型中實現即插即用,因此對損失函數的研究尤為重要。
近年來,越來越多的研究者開始注意到損失函數的重要性,并對其做出了各種改進,這些改進可以解決醫學圖像分割任務中樣本不平衡[10]、邊緣模糊、假陽性、假陰性等問題,并取得更好的分割結果[11]。然而很少有文獻對各類損失函數做具體的分析和總結,對于醫學圖像分割任務中遇到的各種困難沒有統一的結論來指導如何選擇或改進損失函數。本文將從目前醫學圖像分割任務中常見的問題出發,對解決這些問題的損失函數進行具體的分析和總結,并對未來的發展方向進行了展望。本文將為損失函數的合理選擇、改進或創新提供參考,并為損失函數的后續研究指引方向。
1 解決樣本不平衡問題的損失函數
在醫學圖像分割任務中,器官或病變部位往往只占據圖像的很小一部分,例如,在美國的前列腺、肺、結直腸、卵巢癌篩查試驗(prostate, lung, colorectal,and ovarian cancer screening trial,PLCO)數據集和美國國家肺癌篩選試驗(national lung cancer screening trial,NLST)的數據集中,其不平衡比率(少數類樣本占總體樣本的比率)分別為24.7%和25.0%[12]。這種樣本不平衡問題是天然存在的,也是醫學圖像分割任務最主要的挑戰之一[13]。醫學圖像中的樣本不平衡大致可以分為兩類,即前景和背景像素(病變區域和無病變區域的像素)之間的不平衡,簡單和困難像素(像素被正確分類的難易程度)之間的不平衡[14]。研究表明,機器學習方法在處理樣本不平衡的數據集時存在缺陷,數據集的高度不平衡可能會扭曲機器學習算法的性能,并使模型預測結果偏向多數(背景)類[15]。解決類不平衡的問題,有數據級和算法級兩種方法[16]。前者主要通過對多數類進行欠采樣和對少數類進行過采樣來緩解類不平衡,然而欠采樣限制了可用于訓練的數據的信息,過采樣可能導致過擬合;后者則是通過改進訓練算法來解決類不平衡問題,最常見的方法是改進損失函數,主要的改進思路有兩種:① 對原有的損失函數進行重新加權從而提高少數類在訓練過程中的重要性;② 基于更加合理的評估指標來構建新的損失函數。目前已有多種針對數據集不平衡而改進的損失函數,本節將從數據集不平衡的兩類問題出發,對相應的損失函數改進方法進行論述。
1.1 前景和背景像素的不平衡
在醫學圖像分割模型中,最常見的是基于分布的損失函數,如交叉熵(cross entropy,CE)損失函數(CE loss function,CE Loss),在國際醫學圖像計算和計算機輔助干預協會(medical image computing and computer assisted intervention society,MICCAI)于2018年舉辦的競賽(MICCAI 2018)進程中,77篇基于卷積神經網絡的分割論文中有47篇選擇了CE Loss運用在分割模型中[17]。CE Loss是對所有像素的預測進行評估,但是當數據集極度不平衡時,容易使模型陷入局部最優解,從而使預測值極易偏向背景。例如,當90%的像素屬于背景時,模型只需簡單地將每個像素預測為背景即可實現90%的整體分類準確率,但這顯然是不符合實際情況的。
為了改善這個問題,常見的做法是對不同類別的像素分配不同的權重。例如,Ben Naceur等[18]在分割膠質母細胞瘤腦腫瘤任務中,在模型中使用加權CE Loss(weighted CE Loss,WCE Loss),該函數在CE Loss中加入權重Wc(采用的是逆頻率加權策略)。當前景像素數量少時,權重項變大,從而迫使網絡訓練時關注少數類別。在2018年腦腫瘤分割挑戰賽(brain tumor segmentation,BRATS)的數據集(BRATS 2018)(網址為:https://grand-challenge.org/challenges/)上的實驗結果表明,使用基于WCE Loss和重疊補丁的網絡模型在對全腫瘤、腫瘤核心預測的骰子相似性系數(dice similarity coefficient,DSC)中位數分別為90%和83%,高于放射科醫師分割結果(74%~85%)。雖然WCE Loss能緩解類別不平衡問題,但是針對不同的數據集,為WCE Loss選擇合適的權重并非易事,不恰當的權重選擇有可能會降低模型的性能[19]。即使通過引入適當的權重參數,WCE Loss解決數據集不平衡的能力也很有限,因為基于分布的CE Loss是對全部像素點的累加計算,而前景和背景的不平衡也恰恰體現在像素點數量的不平衡,所以基于CE的損失函數對這一問題有著天生的劣勢。
基于區域的損失函數,如骰子損失函數(dice loss function,Dice Loss)在處理類別不平衡問題時效果更好。DSC是醫學圖像分割任務中最常用的評估指標,用來衡量預測值與真實值之間的重疊區域。DSC反映了分割結果與實際情況大小和定位一致性,與像素級評價指標相比,更符合感知質量。Milletari等[20]在分割前列腺的磁共振成像(magnetic resonance imaging,MRI)任務中,基于DSC提出了Dice Loss,該函數直接利用DSC作為損失函數來監督網絡。相比WCE Loss,Dice Loss不需要加入權重項來平衡前景和背景,而是在計算交集和比值時忽略大量的背景像素,從而解決前景和背景不平衡的問題,同時提高了收斂速度。在2012年前列腺MRI分割大賽(prostate MRI segmentation 2012,PROMISE 2012)的數據集(網址為:https://promise12.grand-challenge.org/)上的實驗結果表明,在相同的網絡結構下,使用Dice Loss的模型比使用WCE Loss的模型分割結果要好得多。
為了進一步加強模型對極度不平衡數據集的訓練效果,Sudre等[21]基于Dice Loss,提出了廣義Dice Loss(generalized Dice Loss,GD Loss),該函數在Dice Loss的基礎上對每個類別加入權重項,其中權重值和類別頻率成反比,實驗表明在二維(two dimension,2D)和三維(three dimension,3D)分割任務中標簽不平衡的情況下,GD Loss比Dice Loss、CE Loss更穩健和準確。然而,Dice Loss本質上是不穩定的,在梯度計算涉及小分母的高度不平衡數據中最為明顯[22]。
杰卡德(Jaccard)相似系數與DSC類似,可滿足度量的所有屬性,例如非負性、不可辨認的同一性、對稱性和三角形不等式。值得注意的是Jaccard相似系數對尺度是不變的,這意味著兩個任意形狀之間的相似性與它們的空間尺度無關[23]。基于上述這些特性,Jaccard相似系數已被廣泛用作計算機視覺中許多任務的評估指標,例如像素級或實例級圖像分割、2D/3D對象檢測等。Cai等[24]在計算機斷層掃描成像(computed tomography,CT)和MRI圖像的胰腺深部分割任務中,基于Jaccard相似系數,提出了Jaccard損失函數(Jaccard loss function,Jaccard Loss),該函數在形式上與Dice Loss類似;不同的是,Jaccard Loss在計算交并比時省略了一個交集區域,使其形式上更加簡潔、計算的效率更高。此外,Jaccard Loss不僅可以解決前景和背景不平衡問題,且無需校準最佳概率閾值即可從網絡模型的概率輸出中獲得最佳的分割結果。在對美國國立衛生研究院的CT-82(national institutes of health-CT-82,NIH-CT-82)(網址為:https://wiki.cancerimagingarchive.net/display/Public/Pancreas-CT)數據集的分割實驗中,分別使用CE Loss、二元CE損失函數(binary CE Loss,BCE Loss)和Jaccard Loss進行對照實驗,并使用四折交叉驗證。實驗結果表明,無論分割閾值如何設置,Jaccard Loss的平均DSC都最高。CE Loss對前景像素和背景像素分配相同的權重,因此概率閾值應該在0.5左右。而BCE Loss(WCE Loss的二分類版本)在前景像素上分配了更高權重,使得產生的最佳閾值處于相對較高的值。相比之下,Jaccard Loss可以將前景像素推到1的概率,同時仍然對背景像素具有很強的辨別力。
總而言之,對于前景和背景像素的不平衡問題,基于DSC的損失函數要比基于CE的損失函數效果要好。究其原因,一方面是因為CE Loss是對全部像素的預測值進行累加,函數中對前景和背景的預測分為獨立的兩項,當前景和背景像素數量不平衡時,模型容易陷入局部最優解,從而使預測值極易偏向背景。另一方面,Dice Loss是直接利用分割效果評價指標作為損失函數來監督網絡,在計算交集和比值時忽略大量的背景像素,從而解決前景和背景不平衡的問題。雖然Dice Loss能緩解前景和背景的不平衡問題,而且收斂速度較快,但是由于它粗暴地忽略背景像素的計算,這在一定程度上或造成對圖像資源的浪費。當正負樣本數量接近時,負樣本可以增強正樣本的特征強度。總之,圖像的背景信息可以促進特征學習,類似于人類的感知,計算中涉及的一些背景信息可以使網絡學習到的特征更加全面。因此,為了緩解Dice Loss的極端問題,Su等[25]將BCE Loss作為正則項引入,提出了Dice Loss和BCE Loss的組合損失函數(Dice-BCE loss function,D-BCE Loss),函數定義如式(1)所示:
![]() |
其中,LDB代表D-BCE Loss,LD代表Dice Loss,LB代表BCE Loss,γ為正則項系數,用于調整樣本類別比例的平衡。Dice Loss和BCE Loss的結合使得網絡在專注于前景像素學習的過程中不會完全忽略與背景像素的關聯。因此,網絡的訓練不會以背景像素為主,學習較小物體的特征也很簡單。
黃泳嘉等[26]在肝部醫學影像分割任務中,結合多種損失函數的優點,提出了一種加權混合損失函數,函數定義如式(2)所示:
![]() |
其中,LH代表加權混合損失函數,LB代表BCE Loss,LI代表交并比損失函數,LS代表結構相似性損失函數,W1、W2和W3是各個損失函數的權重項。通過這三個損失函數的加權求和,可以綜合利用它們的優點,不僅可以使所有像素保持平滑的梯度、更加關注相似度同時可以優化分割細節。基于2017年MICCAI競賽(MICCAI 2017)的肝臟腫瘤分割基準(liver tumor segmentation benchmark,LiTS)數據集(網址為:https://competitions.codalab.org/competitions/17094)的實驗結果表明,肝臟圖像和肝臟腫瘤圖像的DSC分別為96.26%和83.32%,相比傳統的U-Net,進一步了提高對肝臟和肝腫瘤圖像的分割精度。
1.2 簡單和困難像素的不平衡
醫學圖像樣本不平衡的另一類型是簡單像素和困難像素之間的不平衡,這也嚴重影響了深度學習模型的訓練過程。從經驗上講,一個簡單的像素通常比一個困難的像素對整體損失的貢獻要小。在實踐中,醫學圖像中的簡單像素(如器官內部對比度高的像素,器官中形狀相對規則的結構等)占比較大時,將會主導訓練模型,導致訓練次優或更差。為了解決簡單像素和困難像素之間的不平衡問題,研究人員在CE Loss的基礎上提出了前百分之K損失函數(top K% loss function,TopK Loss),通過設定閾值保留分類困難的像素點,迫使網絡在訓練期間專注于分類困難像素點。該函數有兩種實現,一種是Wu等[27]提出的保留預測值低于閾值的像素,當像素點的實際類別為前景(或背景)且模型預測該類別的概率值小于設定閾值時,則保留該像素點。另一種TopK Loss的實現是,只保留分類準確率最差的K%的像素點,并對其進行訓練,這兩種TopK Loss的核心思想都是一樣,即將容易分類的像素點忽略,使模型訓練時專注于困難像素,TopK Loss雖然在一定程度上可以緩解簡單像素和困難像素之間的不平衡問題,但是由于部分樣本被刪除,容易導致模型泛化能力不足。
相比TopK Loss的一刀切的做法,Lin等[28]提出了更加柔和的焦點損失函數(focal loss function,Focal Loss),該函數也是基于CE Loss的改進,函數定義如式(3)所示:
![]() |
其中,LF代表Focal Loss,N為像素點的總數量,C為像素點的類別,Wc為類別c的權重,pic為像素點i屬于類別c的概率值,gic為像素點i屬于類別c的真實值,(1 ? pic)γ為調節因子。Focal Loss通過引入調節因子(1 ? pic)γ來減少簡單像素的損失貢獻,從而迫使網絡關注于困難像素的訓練,并通過改變聚焦參數γ來調整簡單像素權重被降低的程度。而且調節因子(1 ? pic)γ是動態變化的,如果分類困難的像素逐漸變得好分,則調節因子也會逐漸的下降。實驗表明,當γ = 2、Wc = 0 = 0.25、Wc = 1 = 0.75時,模型能獲得最佳性能。
Abraham等[29]受到Focal Loss的啟發,在特沃斯基損失函數(Tversky loss function,Tversky Loss)[30]的基礎上加入了一個聚焦參數γ,提出了焦點Tversky Loss(focal Tversky loss function,Focal Tversky Loss),該函數定義如式(4)所示:
![]() |
其中,LFT代表Focal Tversky Loss,LT代表Tversky Loss,γ∈[1, 3]代表焦點參數。Focal Tversky Loss非線性地將訓練過程集中在困難像素上(Tversky指數 < 0.5)并抑制簡單像素對損失函數的貢獻。當像素點被錯誤地分類為高Tversky指數時,Focal Tversky Loss影響不大;如果Tversky指數較小且像素分類錯誤時,Focal Tversky Loss會降低。當聚焦參數γ逐漸增大時,損失函數對簡單像素的抑制程度也逐漸增大,而過大的γ值會使得函數對簡單像素過度抑制。論文中的焦點參數最佳值是γ = 4/3。在病變占圖像區域的4.84%和21.4%的乳腺超聲數據集B(breast ultrasound dataset B,BUS)(網址為:http://www2.docm.mmu.ac.uk/STAFF/m.yap/dataset.php)和2018年國際皮膚影像協會(international skin imaging collaboration 2018,ISIC 2018)的數據集(網址為:https://challenge.isic-archive.com/data/)上進行實驗,與標準U-Net相比,使用Focal Tversky Loss并通過合并圖像金字塔來改進注意力U-Net的模型可以使分割精度分別提高25.7%和3.6%。
在對腦部MRI圖像中的腫瘤進行分割時,極端的類別不平衡不僅存在于前景和背景之間,而且存在于腫瘤的不同子區域之間。Wang等[31]受到Focal Loss的啟發,在Dice Loss的基礎上運用Focal Loss的思想,提出了焦點Dice Loss(focal Dice Loss,Focal Dice Loss),用來解決病變區域中結構之間的不平衡問題,函數定義如公式(5)所示:
![]() |
其中,LFD為Focal Dice Loss,Dc為類別c的Dice Loss值,據此來優化網絡,可以緩解前景和背景之間的不平衡。Wc是類別c的權重項,當類別c數量較大時,權重Wc則減小,1/β為調節因子,使網絡在關注少數類別的同時,增加對困難像素的關注度。在2018年BRATS 挑戰賽數據集(BRATS 2015)(網址為:https://grand-challenge.org/challenges/)中驗證了Focal Dice Loss。實驗表明,其分割效果明顯比使用Dice Loss的模型更好,且當β = 2時,效果最好。Focal Dice Loss在解決類別分類難易程度不平衡的同時,通過Dice Loss部分解決前景和背景的不平衡。
單一的損失函數在處理類別不平衡問題時,很難同時處理前景與背景的不平衡和簡單像素與困難像素的不平衡,在不考慮運算復雜度的情況下,組合損失函數對類別不平衡的處理更加全面。Zhu等[32]將由Dice Loss和Focal Loss組成的混合損失函數運用在頭頸部解剖結構的分割任務中,該函數可以緩解不平衡的器官分割問題并迫使模型更好地從分割不良的像素中學習,實驗結果表明,與之前2015年MICCAI競賽(MICCAI 2015)的最先進結果相比,使用混合損失函數的網絡模型將DSC平均提高了3.3%,并且分割尺寸為178 × 302 × 225的頭頸部CT圖像大約需要0.12 s,明顯快于以前的方法。
2 損失函數在其他方面的運用
損失函數的改進不僅能夠緩解醫學圖像分割任務中的樣本不平衡問題,還能用于改進其他一些常見問題,例如,分割結果中存在假陰性和假陽性,醫學圖像邊界模糊難以準確分割等。通過對損失函數的改進,可以使神經網絡分割模型更好地處理這些問題。
2.1 權衡分割結果的精確率和召回率
在醫學圖像分割任務中,神經網絡模型不可避免地會出現分割誤差,這些誤差包括錯誤地將前景識別為背景(即假陰性),或者錯誤地將背景識別為前景(即假陽性)。兩種誤差在醫學圖像分析及臨床診斷時都影響重大,假陽性可能導致更大的放射野或過度的手術切割,假陰性可能導致放射區域不足或手術切除不完全。然而兩種誤差在不同的病情中所造成的影響不同,例如,在前列腺肥大的老年男性患者的大量隨機樣本中,由于樣本中僅有少數人患前列腺癌,使用不平衡樣本訓練的模型偏向于將結果預測為少數類(即不會患前列腺癌),在這種情況下,假陰性是一個可能危及生命的錯誤[33]。因此,如何權衡模型預測的精確率和召回率尤為重要。
基于分布的損失函數(如CE Loss)可以通過引入權重項應對樣本不平衡的問題,但它不能針對假陽性或者假陰性進行校準,并且對高度不平衡的數據表現不佳。基于區域的損失函數(如Dice Loss)可以通過給DSC中的假陽性和假陰性分配不同的權重系數進而調節網絡模型對假陽性和假陰性的關注度,例如Tversky Loss,該函數通過調整超參數α和β控制假陽性和假陰性之間的權衡,其定義如式(6)所示:
![]() |
其中,LT為Tversky Loss,N為像素點的總數量,C為像素點的類別,pic為像素點i屬于類別c的概率值,gic為像素點i屬于類別c的真實值,α和β分別為假陽性和假陰性的權重參數。較大的β可以讓網絡更加關注假陽性,從而提高召回率。在多發性硬化癥病變分割挑戰賽(multiple sclerosis segmentation challenge,MSSEG)的數據集(網址為:https://portal.fli-iam.irisa.fr/msseg-challenge/english-msseg-data/)上進行實驗,結果表明,當β=0.7時,所訓練的全卷積神經網絡(fully convolutional networks,FCN)能獲得最佳結果。
為了進一步權衡精確度和召回率,Hashemi等[34]提出了非對稱性損失函數(asymmetric similarity loss function,Asym Loss),其定義如式(7)所示:
![]() |
其中,LA為Asym Loss,N為像素點的總數量,C為像素點的類別,pic為像素點i屬于類別c的概率值,gic為像素點i屬于類別c的真實值,β為調節假陽性和假陰性的權重參數。調整β取值可以讓Asym Loss轉變為Dice Loss或Jaccard Loss,超參數β的取值可以根據類別不平衡比例來定義,較大β使模型更加關注假陰性,從而使召回率的權重高于精準率。上述兩種損失函數都是基于DSC的改進,雖然在一定程度上可以權衡精準率和召回率,但是不能很好地應對類別不平衡問題。加入基于類頻率權重項的GD Loss相對于DSC在處理類別不平衡時有更好的效果,Yang等[35]提出一種懲罰GD Loss(penalty GD Loss,pGD Loss),該函數在GD Loss中增加一個懲罰假陰性和假陽性的系數,函數定義如式(8)所示:
![]() |
其中,Lp代表pGD Loss,LG代表GD Loss,k為懲罰系數。當k = 0,pGD Loss等價于GD Loss;當k > 0,pGD Loss為假陰性和假陽性賦予額外的權重。實驗表明,k = 2.5對應最佳性能,基于pGD Loss的密集連接的卷積網絡(dense convolutional network,DenseNet)121模型分別實現了最高平均DSC為(91.9 ± 8.7)%、精確度為(91.3 ± 8.8)%、召回率為(92.6 ± 9.6)%,并且比GD Loss模型顯示出更好的分割性能。
Zhu等[36]在葡萄胎水腫病變分割任務中,提出了一種新穎的混合損失函數,其定義如式(9)所示:
![]() |
其中,LC代表混合損失函數,LF代表Focal Loss,LP代表像素級損失函數,LI代表病灶級損失函數,α是權重因子。該混合損失函數結合了像素級和病灶級損失值,可以同時提高兩個層面的分割效果。病變級別損失值的計算基于單個病變的連通域,其中大小病變區域具有相同的權重。通過添加α和β,復合損失函數可以根據不同的情況定制模型。當α < 0.5時,訓練的模型具有更好的召回率,模型將會側重于找出圖像中所有病變部位以減少漏檢,但也可能將正常部位誤檢。當α = 0.5時,模型兼顧了召回率和精確率,性能更全面。在實際應用中,兩個模型的交集代表水腫病變概率較大的區域,它們的差值代表有一定概率水腫病變的區域。
2.2 解決邊緣模糊問題的損失函數
由于醫學圖像成像技術固有的物理特性,如CT成像中的衰減系數和MRI成像中的弛豫時間等,醫學影像相較于自然圖像往往有對比度低、噪聲較大的特點[37],此外,由于人體器官形狀特殊,醫療影像通常會出現組織特征變化頻繁、區域和邊界特征模糊等現象[38]。傳統的基于圖像處理的邊界檢測方法,例如坎尼(Canny)算子[39]和索伯(Sobel)算子[40],對于具有大量噪聲的圖像表現出較差的邊界檢測性能。深度學習算法對圖像分割有較好的性能但對器官邊緣模糊的問題仍然存在缺陷。
Caliva等[41]提出了距離圖懲罰CE Loss(distance map penalized CE Loss,DPCE Loss),該函數與WCE Loss類似,其中權重項由真實標簽掩碼派生的距離圖構建。函數定義如式(10)所示:
![]() |
其中,LD代表DPCE Loss,N為像素點總數,C為像素點的類別,pic為像素點i屬于類別c的概率值,gic為像素點i屬于類別c的真實值,Dc是類別c的距離懲罰項,符號“°”是哈達瑪積[42]。DPCE Loss為邊界上的像素分配更大的權重,從而引導網絡將注意力集中在難以分割的邊界區域。實驗表明,運用該損失函數的模型分割質量顯著提高,更好地保留骨骼邊界的形狀以及受部分像素影響的區域。
Kim等[43]提出一種通用的邊界感知損失函數,以促進有效識別醫學圖像中器官和病變區域的邊界,該損失函數的定義如式(11)所示:
![]() |
其中,LBN代表邊界感知損失函數,LB代表邊界區域的損失值,LN代表非邊界區域的損失值,p1和p2表示每個區域的權重。一般將位于邊界區域的像素的損失值分配比非邊界區域的損失值更高的權重,以迫使深度學習模型關注邊界區域中分割不佳的像素。使用結腸息肉數據集(網址為:https://paperswithcode.com/dataset/cvc-clinicdb)、皮膚病變數據集(網址為:https://challenge.isic-archive.com/data/)和胸部X射線數據集(網址為:http://db.jsrt.or.jp/eng-01.php)進行的實驗結果表明,標準損失函數(例如CE Loss和Dice Loss)與提出的邊界感知損失函數相結合,可使模型分割效果比沒有使用邊界感知損失函數的模型分割效果更好。但是該損失函數也存在局限性,如果邊界不是確定的,如皮膚損傷導致邊界不清的情況,則該模型對分割性能的改進可能微不足道。另一方面,使用該損失函數的深度學習模型的性能根據權重和邊界區域的范圍而變化,所以權重項的最佳值是不確定的,需要憑經驗確定。
3 總結與展望
本文從醫學圖像分割領域所面臨的主要困難出發,介紹了解決樣本不平衡、邊緣模糊、假陽性、假陰性問題的損失函數及改進方法。這些損失函數從廣義上可以分為基于分布、基于區域、基于邊界的損失函數和混合損失函數,其中大部分是CE Loss和Dice Loss的變體,它們在解決不同問題時各有優點。解決樣本不平衡問題的一般思路是對損失函數重新加權或使用基于DSC的損失函數:如WCE Loss是基于CE Loss的改進,對不同類別的像素進行重新加權,使模型訓練時關注類別較少的前景像素;Dice Loss則是對DSC的直接優化,在計算交集和比值時忽略大量的背景像素,從而解決前景和背景不平衡的問題。一般來講,在解決前景和背景不平衡的問題時,基于DSC的損失函數要優于基于CE的損失函數。但在實際中常用的做法是將兩種思路結合,在Dice Loss的基礎上中引入權重項或者將基于DSC和CE的損失函數加權,形成混合損失函數。對于像素點分類難易程度的不平衡問題常用的改進方法是:忽略分類簡單的樣本或者減少簡單樣本的權重,例如,TopK Loss和Focal Loss,前者是粗暴地將分類簡單的像素點丟棄,后者則是通過引入調節因子,間接地減小分類簡單像素點的權重。受Focal Loss的啟發,研究人員提出了多種加入聚焦因子的損失函數,其本質都是通過降低簡單樣本的權重,從而迫使網絡模型在訓練中關注于困難樣本。為了權衡分割結果的精確率和召回率,常用的解決方法是:對基于DSC的損失函數中的假陽性和假陰性分配不同的權重,如Asym Loss和Tversky Loss。然而這些基于DSC的損失函數本質上是不穩定的,在梯度計算涉及小分母的高度不平衡數據中最為明顯,使用這類損失函數的模型在訓練過程中容易發生震蕩。對于邊界模糊問題,常用基于邊界的損失函數,該函數是通過最小化兩個邊界之間的距離來計算的,在公式上與Dice Loss有相似之處,因為它們都是以基于區域的方式計算的,關鍵區別在于不匹配區域的方式是加權的。綜合考慮,這些損失函數都各有特點,單一損失函數能解決的問題有限,在不考慮計算成本的情況下,由多種損失函數組成的混合損失函數訓練效果會更好,能解決的問題也更加全面。
損失函數是神經網絡模型中重要模塊,對損失函數的改進可以解決醫學圖像分割任務中的多種問題,基于目前學者們提出的改進損失函數的實驗結果表明,分割效果確實有所提升,但是分割性能的提升有可能是神經網絡中其他模塊的引入、數據集的擴充或者是模型網絡結構的改進造成的,對于損失函數的改進效果還不能定量分析。此外,由于各種損失函數的改進是基于不同的模型和分類任務的,沒有控制變量,所以沒有統一的標準來評判對于特定的分類任務不同損失函數的表現差異,且對現有的損失函數改進效果的評估研究也不夠全面,也很難通過理論分析找到每個函數的超參數的最佳值。
總體而言,針對損失函數進行改進,在醫學圖像分割模型性能的提升上有廣闊的前景,可以從以下幾個方面尋求突破:① 在控制變量的基礎上,對目前所有的損失函數的分割效果做定量的評估,為不同數據集找到最適合的損失函數類型。② 建立統一的數據集、網絡模型和模型評估標準,為后續的損失函數研究和改進提供統一的平臺,使改進后的損失函數的效果有更加直觀的定量結果。③ 混合損失函數結合了多種損失函數的優點,但是如何選擇最佳的損失函數的組合以及不同損失函數的權重并非易事,此外,如何權衡好混合損失函數帶來的效果提升和計算成本的增加也是值得探討的問題。④ 目前對于損失函數的改進方法中,主要是根據不同類別和難易程度進行簡單的逆頻率加權。此外還可以對加權策略做改進,例如逆中值頻率加權、焦點加權、距離變換映射加權和距離懲罰項等。⑤ 目前的損失函數的改進大多數是針對分類任務結果的不平衡的改進,如基于DSC的損失函數,然而這種函數在求導時容易出現分母極小的情況,如何在改進分割效果的情況下同時改進損失函數求導的特性是值得探討的方向。⑥ 現有的損失函數大部分都是基于醫學圖像分割評價指標DSC來構建的,而醫學圖像分割評價指標還有豪斯多夫距離、體素重疊誤差、最大表面距離等,這些指標對醫學圖像分割結果的評估側重點不同且各有優勢,基于這些評價指標構建新的損失函數能獲得不同側重點的分割結果。⑦ 目前大多數研究和應用都集中在解決分割的唯一性問題(每個輸入圖像只有一個標準分割結果)。然而在實際場景中可能有非唯一的分割標注,因為不同的外科醫生可能以不同的方式為同一患者進行手術。現有的損失函數大多數情況下不能增強同一輸入的非唯一分割輸出的共同特征,對損失函數的改進可能使模型更好地學習分割的非唯一問題。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:陳英、張偉負責方法設計和文章撰寫、文章修改;林洪平、鄭鋮、馮龍鋒、周滔輝、易珍負責數據收集、整理;劉嵐參與論文的指導與審校。