肝細胞癌(HCC)是最常見的肝臟惡性腫瘤,其中HCC分割和病理分化程度預測是手術治療和預后評估過程中的兩個重要任務。現有方法通常獨立地解決這兩個問題,沒有考慮兩個任務的相關性。本文提出了一種多任務學習模型,旨在同時完成分割任務和病理分化程度分類任務。本文所提模型由分割子網和分類子網構成:在分類子網中提出了一種多尺度特征融合方法來提高分類精度;在分割子網中設計了一種邊界感知注意力,用于解決腫瘤過分割問題。本文采用動態權重平均多任務損失,使模型在兩個任務中同時獲得最優的性能。研究結果顯示,本文方法在295例HCC患者上的實驗結果均優于其它多任務學習方法,在分割任務上戴斯相似系數(Dice)為(83.9 ± 0.88)%,同時在分類任務上的平均召回率為(86.08 ± 0.83)%,F1分數為(80.05 ± 1.7)%。該結果表明,本文提出的多任務學習方法能夠同時較好地完成分類任務和分割任務,可為HCC患者的臨床診斷和治療提供理論參考。
引用本文: 文含, 趙瑩, 楊涌, 王洪凱, 劉愛連, 姚宇, 付忠良. 基于多任務學習的肝細胞癌分割與病理分化程度預測方法. 生物醫學工程學雜志, 2023, 40(1): 60-69. doi: 10.7507/1001-5515.202208045 復制
0 引言
肝細胞癌(hepatocellular carcinoma,HCC)是最常見的原發性肝臟惡性腫瘤,它是全球范圍內第六大常見腫瘤和第三大癌癥相關死亡原因[1]。目前,HCC的主要治療方式有切除術、消融術、肝移植術和肝動脈栓塞術。雖然目前臨床實施的HCC治療讓患者病情有所改善,但是由于復發率高,患者預后仍然較差。一般HCC患者5年生存率低于10%,晚期患者甚至低于5%[2]。HCC病理分化程度是評估患者早期復發的最重要因素之一。與高分化和中分化HCC相比,低分化HCC患者具有更差的預后和更高的腫瘤復發率,低分化HCC患者的生存率更低[3]。因此,在術前預測HCC患者的病理分化程度對后續治療方案的選擇和治療效果的評估具有重要的臨床意義。
在HCC患者的治療過程中,腫瘤的分割是手術治療和療效預測過程中非常重要的一環。然而,腫瘤的人工標注需要專業知識和大量時間,因此臨床實踐中迫切需要一種基于深度學習的腫瘤自動分割方法。目前,已有許多基于深度學習的腫瘤分割工作相繼開展。例如,Valanarasu等[4]提出了一種過完備U型網絡(Kite U-net,KiU-net)來解決小體積組織或腫瘤的分割。Oktay等[5]在U型網絡(U-net)跳躍連接中添加門控注意力模塊,在保證計算效率的同時顯著改善模型在不同數據集上的預測結果。Hatamizadeh等[6]使用轉換器(transformer)作為編碼器來捕獲遠程依賴關系,并通過基于卷積神經網絡(convolutional neural network,CNN)的解碼器來恢復圖像細節信息,并預測分割輸出。Cao等[7]將U-net中的卷積塊替換為帶移動窗口的transformer(shifted windows transformer,swin-transformer)模塊,以進行局部全局語義特征學習。
在術前對HCC患者的病理分化程度進行預測,能夠改善HCC治療效果和延長患者生存時間。通常而言,低分化HCC患者預后較差,并伴有較高的復發率。而中分化和高分化HCC患者的預后相對較好,復發率也相對較低。近年來三維CNN(three-dimensional CNN,3DCNN)在HCC病理分化程度預測方面取得了較好的研究成果。比如,Yang等[3]提出了一種多通道融合3DCNN(multi-channel fusion 3DCNN,MCF-3DCNN)來預測HCC病理分化程度。Qiu等[8]提出了一種基于對比增強磁共振成像(contrast enhanced magnetic resonance imaging,CE-MRI)自動預測病理分化程度的兩階段方法。Zhou等[9]將三維密集連接網絡(DenseNet)和擠壓激勵網絡(squeeze and excitation network,SENet)相結合,提出SENet-DenseNet(SE-DenseNet),并將其用于兩個不同臨床中心HCC患者的病理分化程度預測。
在臨床診斷中,腫瘤的邊緣特征有助于識別腫瘤的良惡性,腫瘤的形態特征有助于腫瘤的分類和分割[10]。因此,將腫瘤的分割任務和分類任務聯合訓練是一個有前景的研究方向。比如,對于超聲圖像,Zhou等[10]提出了一種基于V型網絡(V-net)的多尺度特征融合的多任務學習模型,用于乳腺腫瘤的分割和分類。Wang等[11]提出了一種多特征引導CNN,用于同時從超聲圖像中對骨骼表面進行增強、分割和分類。對于磁共振成像(magnetic resonance imaging,MRI),Chen等[12]通過U-net完成對左心房的分割,并在U-net的第四個卷積塊后添加一個空間金字塔池化模塊以實現對消融前和消融后圖像的分類。對于電子計算機斷層掃描(computed tomography, CT),Li等[13]提出了一個用于新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)分類和病灶分割的多任務學習模型,該模型由一個多尺度特征融合的分割子網和一個用于疾病診斷的分類子網構成。對于眼底圖像,Chakravarty等[14]提出了一個多任務學習模型,該模型聯合分割視盤、視杯,并可進一步預測彩色眼底圖像中是否存在青光眼。雖然多任務學習已經應用于其它疾病的分割和診斷,但是在HCC輔助治療上的應用卻還很少。
目前有許多HCC分割和病理分化程度預測的工作相繼開展,但是現有方法沒有考慮兩個任務的相關性,而是獨立解決HCC分割和病理分化程度預測兩個任務。因此,本文基于HCC分割和病理分化程度預測兩個任務同時關注腫瘤區域特征這一共性,提出了一種多任務學習方法用于解決這兩個任務。首先,本文設計了一個邊界感知注意力模塊,用于抑制腫瘤不相關區域的圖像特征。同時,為了解決腫瘤尺寸變化大的問題,采用多尺度特征融合和深度監督的方法來提高HCC病理分化程度預測的準確性和腫瘤的分割精度。然后,采用動態權重平均多任務損失,平衡不同任務的收斂速度。為了研究所提方法的可行性,進一步采用梯度加權的類激活圖(gradient-weighted class activation mapping,Grad-CAM)[15]對分類結果進行可視化。最后,期望本文提出的多任務學習方法能夠在HCC分割和病理分化程度預測兩個任務上同時獲得良好的性能,從而為HCC患者的臨床診斷和治療提供參考借鑒。
1 多任務學習算法
本文提出的多任務學習模型如圖1所示,包含分割子網和分類子網。分割子網是一個具有邊界感知注意力的U-net變體結構;分類子網的基干網絡和分割子網的編碼器權重共享。下面分節詳細介紹模型的網絡框架、邊界感知注意力模塊和動態權重平均多任務損失函數。

1.1 網絡框架
由于U-net及其變體結構在醫學圖像分割任務中的出色表現,因此本文使用U-net作為分割子網的主干網絡。分割子網由編碼器、解碼器和兩者中間的跳躍連接組成。編碼器共包含4個階段(stage)和下采樣,每個stage包含兩個卷積層,4個stage(stage1~stage4)的特征圖通道數分別為16、32、64和128。同樣,解碼器包含4個stage(stage6~stage9)和上采樣,每個stage包含兩個卷積層,從stage6~stage9的特征圖通道數分別為128、64、32和16。U-net中間的瓶頸層stage5也包含兩個卷積層,其特征圖的通道數為256。在跳躍連接中引入邊界感知注意力可以抑制腫瘤不相關區域的特征和增加腫瘤區域特征的權重。同時,對瓶頸層和解碼器中每個stage的特征圖按比例上采樣,stage5~stage8的特征圖上采樣倍數分別為16,8,4和2,然后將stage5~stage9的特征圖疊加到一起通過金標準(ground truth,GT)進行深度監督,以提高不同尺寸腫瘤的分割精度。分割子網中編碼器和解碼器的每個stage均由2個3 × 3 × 3的卷積層堆疊組成,每一個卷積層后都接有批量歸一化層(batch normalization,BN)和帶泄漏修正線性單元(leaky rectified linear unit,Leaky ReLU)激活函數。
CNN中的淺層特征主要捕獲腫瘤的邊界和形狀信息,而深層特征則表示腫瘤的整體特性,通常用于分類任務。然而,隨著網絡層數的增加,卷積和下采樣的次數也逐漸增多,導致網絡很難學習到小腫瘤的高級特征,從而影響模型的分類性能。為了有效地緩解這個問題,在分類子網中設計了一種多尺度特征融合方法,如圖1所示。具體而言,將分割子網中stage1、stage5和stage9的特征圖進行拼接和融合,用于輸出HCC病理分級的預測結果。由于分割子網中不同stage的特征圖大小可能不一樣,所以不能直接將stage1、stage5和stage9的特征圖進行融合。實驗中,首先,將stage1的特征圖和stage9的特征圖分別進行16倍下采樣。然后,將下采樣的stage1和stage9的特征圖與stage5的特征圖進行拼接得到融合特征圖。最后,將融合特征圖進行全局平均池化(global average pooling,GAP)操作得到一個288維的特征向量,再通過兩個全連接層(fully connected,FC)進行分類預測。為了防止過擬合,在兩個FC中間添加了BN和Leaky ReLU激活函數。
1.2 邊界感知注意力
在浸潤性HCC患者的CE-MRI上腫瘤邊界模糊且對比度較低,導致難以準確分割肝腫瘤。因此,提出了一種邊界感知注意力,用于抑制特征圖中背景區域,同時突出肝腫瘤區域的邊界。如圖2所示為邊界感知注意力模塊的結構,解碼器中上一層的特征圖Dl+1經過一個1×1×1的卷積和一個S型生長曲線(Sigmoid)激活函數得到注意力Al+1,然后用一個和注意力Al+1大小一樣元素全為1的矩陣減去Al+1,最后得到邊界感知注意力Bl+1。邊界感知注意力的計算如式(1)所示:

![]() |
式中,σ表示Sigmoid激活函數,F表示1×1×1的卷積。將邊界感知注意力Bl+1和跳躍連接中來自編碼器的特征圖El逐元素相乘得到特征圖Dl,這樣可以抑制特征圖中腫瘤不相關區域特征,從而增加模型對腫瘤邊界的關注。
1.3 動態權重平均多任務損失
在多任務學習中,應給予每個子任務相同的權重,但不同子任務的收斂速度可能不一樣。如圖3所示,可以看到分割損失的收斂速度比分類損失的收斂速度更快,因此分割任務主導了整個模型的訓練過程,從而影響分類任務的性能。一般的解決方案是手動調整每個子任務的權重,但這樣不利于模型在兩個任務中獲得最優性能。因此,本文采用了一種動態權重平均的方法[16],通過計算每個子任務損失的變化率來自動調整任務權重,從而使得每個子任務的損失收斂速度一致。

本文提出的多任務學習模型的損失函數 由分類損失
和分割損失
組成。對于分類任務采用二分類交叉熵損失,對于分割任務采用戴斯相似系數(Dice)損失。在模型訓練過程中,采用動態權重平均來自適應調整
和
的權重
和
。權重的具體計算過程如下:首先,計算一個迭代次數(epoch)后
和
的相對下降率
和
;然后,將
和
分別除以一個溫度常數T;其次,用指數函數exp(?)對其映射;最后,分別計算映射后
和
占兩者和的比值。
和
的計算如式(2)所示:
![]() |
式中,i表示當前epoch。和
的計算如式(3)所示:
![]() |
參照文獻[16],本文在實驗過程中將T設置為2,T用于調節分類任務和分割任務之間的松散程度。因此,的定義如式(4)所示:
![]() |
2 數據處理和評價指標
2.1 數據和預處理
本文實驗數據來源于大連醫科大學附屬第一醫院放射科提供的資料數據集。該數據集中所有HCC患者的病理分化程度均通過組織病理學證實,其腫瘤的標注由兩名具有3年經驗的放射科醫師完成,并由另一名具有7年經驗的高年資醫師審查。該數據集中每個HCC患者的CE-MRI包含三個期相,分別是動脈期(arterial phase,AP)、靜脈期(portal venous phase,PVP)和延遲期(delayed phase,DP),為從靜脈向血管內注射造影劑,發現平掃未發現的腫瘤,以鑒別腫瘤為血管性或非血管性的全程。AP是指動脈血管內充盈造影劑的時期,這個時期動脈血管成像比較清晰;PVP就是靜脈血管內出現造影劑,引起充盈顯影的時期,這個時期靜脈血管成像比較清晰;而DP是指血管內的造影劑隨時間逐漸減少,這個時期腫瘤等含血管比較豐富的組織仍會較清楚的顯影[17]。
該數據集共包含295例HCC患者的885個CE-MRI。其中,低分化的CE-MRI有336個,中分化的CE-MRI有414個,高分化的CE-MRI有135個。整個數據集中CE-MRI的橫斷面內體素大小從0.66×0.66~0.93×0.93 mm2,而橫斷面間的體素間距從1.5~6.0 mm。最后,在臨床醫師的指導下將整個數據集劃分為訓練集和測試集,其中訓練集有735個,測試集有150個。在實驗過程中,采用五折交叉驗證的方法對訓練集進行二次劃分,劃分為包含588個CE-MRI的訓練集和包含147個CE-MRI的驗證集。最終,保存驗證集上實驗結果最好的模型用于測試。實驗獲得大連醫科大學附屬第一醫院倫理委員會審查批準,并授權可以使用數據集所有影像資料數據。
通過對實驗數據的觀察,發現不同HCC患者的CE-MRI中腫瘤體素大小不同,存在各向異性的問題。為了解決該問題,在訓練過程中將每個CE-MRI的體素重采樣到1×1×1 mm3,這樣模型在訓練過程中可以更好地擬合數據。同時,以腫瘤中心為基準,將每個CE-MRI裁剪為160×160×16 mm3的體積塊。實驗過程中還采用面向醫療研究領域的開源人工智能框架MONAI 0.7.0(NVIDIA Inc.,美國)對訓練集中的CE-MRI進行數據增強,包括隨機翻轉(水平和垂直)、旋轉90°和仿射變換。此外,還對訓練集、驗證集和測試集中的CE-MRI進行了最大、最小歸一化處理。
2.2 評價標準
對于HCC的分割結果,采用Dice系數、杰卡德(Jaccard)指數、平均表面距離(average surface distance,ASD)和95%豪斯多夫距離(95% Hausdorff distance,95HD)四個指標進行評估。Dice系數和Jaccard指數用于衡量分割結果和金標準區域的重疊程度,而ASD和95HD則是對邊界的距離偏差進行評價。
對于HCC病理分化程度的預測結果,采用受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under ROC curve,AUC)、準確率(accuracy,ACC)、召回率(recall,REC)、陽性預測值(positive predict value,PPV)、陰性預測值(negative predict value,NPV)和F1分數共6個指標來進行評估。這些評價指標的計算如式(5)~式(9)所示:
![]() |
![]() |
![]() |
![]() |
![]() |
式中,真陽性(true positive,TP)表示正類樣本中分類正確的樣本數量;假陽性(false positive,FP)表示正類樣本中分類錯誤的樣本數量;真陰性(true negative,TN)表示負類樣本中分類正確的樣本數量;假陰性(false negative,FN)表示負類樣本中分類錯誤的樣本數量;精準率(precision, PRE)表示所有被預測為正類樣本中實際為正類樣本的概率。
3 實驗結果與分析
3.1 實驗環境及參數設置
在實驗過程中,所有的模型都是使用開源機器學習庫PyTorch 1.8.1(Facebook Inc.,美國)實現,并在一塊顯存為24 G的英偉達顯卡(RTX 3090 Ti,NVIDIA Inc.,美國)上面使用自適應矩估計(adaptive moment estimation,Adam)優化器進行訓練和測試。訓練時初始學習率為1×10-4,批大小設置為8,epoch為200。在訓練過程中,采用了學習率動態調整策略:當驗證集上的ACC或AUC有20個epoch不增加時,學習率就減小為原來的0.1倍,以繼續訓練優化模型。
3.2 結果與分析
為了驗證本文多任務學習方法在HCC分割和病理分化程度預測上的有效性,在本文實驗數據集上使用最新不同的多任務學習模型進行對比實驗,實驗結果如表1所示。與其它多任務學習模型相比,在分類任務方面,本文方法在5個分類評價指標上面均取得了最好的結果。具體而言,本文方法在ACC和F1上相比其它最好的多任務學習方法有顯著提升,PPV和NPV也分別有一定程度的提升。此外,本文方法預測結果的標準差相比其它方法要小,從而說明本文方法比其它方法預測的結果更加準確和穩定。

為了研究本文提出的多任務學習模型的合理性,使用Grad-CAM方法輸出模型中stage5的類激活圖。如圖4所示,原圖中紅色區域為肝腫瘤,熱力圖中高亮區域為對模型分類決策貢獻比較大的圖像區域。從圖4中可以看出原圖中紅色區域與熱力圖中高亮區域高度一致,表明本文提出的多任務學習方法是通過聚焦關注腫瘤區域的特征來完成分類任務和分割任務。

在分割任務方面,從表1的分割結果可以看出,除了Chakravarty等[14]的分割結果相對較差以外,其它方法的分割結果和本文方法相近,但都沒能超過本文方法。具體而言,Dice系數和Jaccard指數相比其它最好的方法有所提升,ASD和95HD相比其它最好的方法均有所減少。本文方法與其它方法的可視化分割結果如圖5所示,隨機選取兩位具有代表性的患者(25號和105號),紅色區域為肝腫瘤。前三行表示第25號患者的AP(25-AP)、PVP(25-PVP)和DP(25-DP)的分割結果,后三行表示第105號患者的AP(105-AP)、PVP(105-PVP)和DP(105-DP)的分割結果。其中第25號患者的腫瘤直徑<3 cm,而第105號患者的腫瘤直徑>3 cm。從圖5中可以看出,其它方法在25-AP上出現過分割現象,而本文方法卻能夠較好地分割腫瘤;同時Wang等[11]和Chakravarty等[14]的方法,在105-AP、105-PVP和105-DP三個期相上均出現過分割現象,而Zhou等[10]、Li等[13]的方法和本文方法在三個期相上分割結果都比較好,并且和高年資醫師勾畫的金標準相一致,從而說明本文方法能夠適應實驗數據集中不同大小腫瘤的分割。

為了驗證多任務學習的性能優于單任務學習,本文將單任務分割模型、單任務分類模型與本文方法在實驗數據集上分別進行了比較。如表2所示,本文方法雖然在NPV上的預測結果相比其它方法較差,但是在REC、PPV和F1三個指標上顯著優于其它方法。從而說明本文方法整體上比主流的單任務分類方法(He等[18]、Huang等[19] 和Carreira等[20])要好,而且相比專門用于HCC病理分化程度預測方法(Zhou等[9] 和Yang等[3])也有一定的優勢。

本文提出的多任務學習方法和單任務分割方法的定量結果如表3所示,可以看出本文方法的分割結果不僅比CNN結構的分割網絡(?i?ek等[21]、Milletari等[22]、Oktay等[5] 和Valanarasu等[4])要好,還明顯比transformer結構的分割網絡(Hatamizadeh等[6] 和Cao等[7])要好。從表3的實驗結果,還可以發現CNN結構的分割結果要明顯好于transformer結構。當然,該現象可能是由于訓練數據量小的原因造成,但也一定程度表明CNN在分割任務上還是有一定的優勢。

3.3 消融實驗
實驗采用多尺度特征融合、邊界感知注意力和動態權重平均多任務損失來提升分割任務和分類任務的性能,通過在本文實驗數據集上進行消融實驗來驗證其合理性和有效性。
為了評估多任務學習方法的有效性,實驗中將本文提出的多任務學習模型[本文算法_(1)]、單獨完成分類任務[本文算法_(2)]和單獨完成分割任務[本文算法_(3)]作為基準模型。如表4所示,本文算法_(1)相比本文算法_(2)在REC和F1上有顯著提升;同時,相比本文算法_(3)在ASD和95HD上有所減少。實驗對比結果表明將分割任務和分類任務進行聯合學習是能起到相互提升的效果。

為了驗證不同尺度的特征對分類結果的影響,本文將模型中每一個stage的特征都進行了消融實驗,以探索最優的特征融合方法。如圖6所示,1-5-9表示將模型的第1、5、9個stage的特征進行融合,同理,2-5-8、3-5-7、4-5-6表示將數字對應的三個stage的特征進行融合。通過實驗結果的對比,發現采用第1、5、9個stage的特征進行融合實驗結果最好,從而說明CNN中淺層的圖像細節特征對分類任務有幫助。

驗證邊界感知注意力是否能夠起到提升分割精度進行的消融實驗結果如表4所示,本文算法_(4)表示將本文算法_(1)中去除邊界感知注意力模塊。從本文算法_(1)和本文算法_(4)的對比結果,可以看出采用邊界感知注意力在Dice系數和Jaccard指數上有所提升,并且在ASD和HD95上有所減少。實驗對比結果表明,本文提出的邊界注意力模塊能夠抑制特征圖中腫瘤不相關區域特征從而改善分割結果。
為驗證動態權重平均多任務損失的合理性,進一步消融實驗結果如表4所示,本文算法_(5)表示本文算法_(1)不采用動態權重平均多任務損失。從本文算法_(1)和本文算法_(5)的對比結果,可以看出采用動態權重平均多任務損失在分割任務方面的表現保持不變,但是在HCC病理分化程度預測任務方面取得了明顯的提升,從而說明采用動態權重平均多任務損失來平衡分割任務和分類任務的收斂速度是合理的,并且在兩個任務上都能夠取得較好的實驗結果。
4 結論
本文利用HCC分割和病理分化程度預測兩個任務都關注腫瘤區域特征的共性,提出了一個端到端的多任務學習模型,該模型由分割子網和分類子網兩部分組成。在分割子網中,采用了一種深度監督的策略來提升模型對不同大小腫瘤的分割精度,同時在跳躍連接中引入邊界感知注意力來增強模型對腫瘤邊界區域的關注和改善分割性能。在分類子網中,提出了一種多尺度特征融合策略來提升模型對不同大小HCC的病理分化程度預測精度。此外,為了解決分割損失和分類損失收斂速度不一致的問題,采用了動態權重平均多任務損失來平衡兩個損失的收斂速度,以使模型在兩個任務上都達到最佳的性能。最后,在295例HCC患者的885個CE-MRI上進行了大量的實驗,實驗結果表明本文提出的多任務學習模型在HCC分割和病理分化程度預測兩個任務上均取得了最優的結果。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻說明:文含主要負責數據處理、算法設計與實現以及撰寫論文,趙瑩主要負責數據的收集和整理工作,楊涌主要負責實驗程序編寫和調試工作,王洪凱和付忠良參與了算法設計和指導論文寫作,劉愛連和姚宇提供了基金支持和提出修改意見。
倫理聲明:本研究通過了大連醫科大學附屬第一醫院倫理委員會的審批(批文編號:PJ-KS-KY-2019-167)
0 引言
肝細胞癌(hepatocellular carcinoma,HCC)是最常見的原發性肝臟惡性腫瘤,它是全球范圍內第六大常見腫瘤和第三大癌癥相關死亡原因[1]。目前,HCC的主要治療方式有切除術、消融術、肝移植術和肝動脈栓塞術。雖然目前臨床實施的HCC治療讓患者病情有所改善,但是由于復發率高,患者預后仍然較差。一般HCC患者5年生存率低于10%,晚期患者甚至低于5%[2]。HCC病理分化程度是評估患者早期復發的最重要因素之一。與高分化和中分化HCC相比,低分化HCC患者具有更差的預后和更高的腫瘤復發率,低分化HCC患者的生存率更低[3]。因此,在術前預測HCC患者的病理分化程度對后續治療方案的選擇和治療效果的評估具有重要的臨床意義。
在HCC患者的治療過程中,腫瘤的分割是手術治療和療效預測過程中非常重要的一環。然而,腫瘤的人工標注需要專業知識和大量時間,因此臨床實踐中迫切需要一種基于深度學習的腫瘤自動分割方法。目前,已有許多基于深度學習的腫瘤分割工作相繼開展。例如,Valanarasu等[4]提出了一種過完備U型網絡(Kite U-net,KiU-net)來解決小體積組織或腫瘤的分割。Oktay等[5]在U型網絡(U-net)跳躍連接中添加門控注意力模塊,在保證計算效率的同時顯著改善模型在不同數據集上的預測結果。Hatamizadeh等[6]使用轉換器(transformer)作為編碼器來捕獲遠程依賴關系,并通過基于卷積神經網絡(convolutional neural network,CNN)的解碼器來恢復圖像細節信息,并預測分割輸出。Cao等[7]將U-net中的卷積塊替換為帶移動窗口的transformer(shifted windows transformer,swin-transformer)模塊,以進行局部全局語義特征學習。
在術前對HCC患者的病理分化程度進行預測,能夠改善HCC治療效果和延長患者生存時間。通常而言,低分化HCC患者預后較差,并伴有較高的復發率。而中分化和高分化HCC患者的預后相對較好,復發率也相對較低。近年來三維CNN(three-dimensional CNN,3DCNN)在HCC病理分化程度預測方面取得了較好的研究成果。比如,Yang等[3]提出了一種多通道融合3DCNN(multi-channel fusion 3DCNN,MCF-3DCNN)來預測HCC病理分化程度。Qiu等[8]提出了一種基于對比增強磁共振成像(contrast enhanced magnetic resonance imaging,CE-MRI)自動預測病理分化程度的兩階段方法。Zhou等[9]將三維密集連接網絡(DenseNet)和擠壓激勵網絡(squeeze and excitation network,SENet)相結合,提出SENet-DenseNet(SE-DenseNet),并將其用于兩個不同臨床中心HCC患者的病理分化程度預測。
在臨床診斷中,腫瘤的邊緣特征有助于識別腫瘤的良惡性,腫瘤的形態特征有助于腫瘤的分類和分割[10]。因此,將腫瘤的分割任務和分類任務聯合訓練是一個有前景的研究方向。比如,對于超聲圖像,Zhou等[10]提出了一種基于V型網絡(V-net)的多尺度特征融合的多任務學習模型,用于乳腺腫瘤的分割和分類。Wang等[11]提出了一種多特征引導CNN,用于同時從超聲圖像中對骨骼表面進行增強、分割和分類。對于磁共振成像(magnetic resonance imaging,MRI),Chen等[12]通過U-net完成對左心房的分割,并在U-net的第四個卷積塊后添加一個空間金字塔池化模塊以實現對消融前和消融后圖像的分類。對于電子計算機斷層掃描(computed tomography, CT),Li等[13]提出了一個用于新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)分類和病灶分割的多任務學習模型,該模型由一個多尺度特征融合的分割子網和一個用于疾病診斷的分類子網構成。對于眼底圖像,Chakravarty等[14]提出了一個多任務學習模型,該模型聯合分割視盤、視杯,并可進一步預測彩色眼底圖像中是否存在青光眼。雖然多任務學習已經應用于其它疾病的分割和診斷,但是在HCC輔助治療上的應用卻還很少。
目前有許多HCC分割和病理分化程度預測的工作相繼開展,但是現有方法沒有考慮兩個任務的相關性,而是獨立解決HCC分割和病理分化程度預測兩個任務。因此,本文基于HCC分割和病理分化程度預測兩個任務同時關注腫瘤區域特征這一共性,提出了一種多任務學習方法用于解決這兩個任務。首先,本文設計了一個邊界感知注意力模塊,用于抑制腫瘤不相關區域的圖像特征。同時,為了解決腫瘤尺寸變化大的問題,采用多尺度特征融合和深度監督的方法來提高HCC病理分化程度預測的準確性和腫瘤的分割精度。然后,采用動態權重平均多任務損失,平衡不同任務的收斂速度。為了研究所提方法的可行性,進一步采用梯度加權的類激活圖(gradient-weighted class activation mapping,Grad-CAM)[15]對分類結果進行可視化。最后,期望本文提出的多任務學習方法能夠在HCC分割和病理分化程度預測兩個任務上同時獲得良好的性能,從而為HCC患者的臨床診斷和治療提供參考借鑒。
1 多任務學習算法
本文提出的多任務學習模型如圖1所示,包含分割子網和分類子網。分割子網是一個具有邊界感知注意力的U-net變體結構;分類子網的基干網絡和分割子網的編碼器權重共享。下面分節詳細介紹模型的網絡框架、邊界感知注意力模塊和動態權重平均多任務損失函數。

1.1 網絡框架
由于U-net及其變體結構在醫學圖像分割任務中的出色表現,因此本文使用U-net作為分割子網的主干網絡。分割子網由編碼器、解碼器和兩者中間的跳躍連接組成。編碼器共包含4個階段(stage)和下采樣,每個stage包含兩個卷積層,4個stage(stage1~stage4)的特征圖通道數分別為16、32、64和128。同樣,解碼器包含4個stage(stage6~stage9)和上采樣,每個stage包含兩個卷積層,從stage6~stage9的特征圖通道數分別為128、64、32和16。U-net中間的瓶頸層stage5也包含兩個卷積層,其特征圖的通道數為256。在跳躍連接中引入邊界感知注意力可以抑制腫瘤不相關區域的特征和增加腫瘤區域特征的權重。同時,對瓶頸層和解碼器中每個stage的特征圖按比例上采樣,stage5~stage8的特征圖上采樣倍數分別為16,8,4和2,然后將stage5~stage9的特征圖疊加到一起通過金標準(ground truth,GT)進行深度監督,以提高不同尺寸腫瘤的分割精度。分割子網中編碼器和解碼器的每個stage均由2個3 × 3 × 3的卷積層堆疊組成,每一個卷積層后都接有批量歸一化層(batch normalization,BN)和帶泄漏修正線性單元(leaky rectified linear unit,Leaky ReLU)激活函數。
CNN中的淺層特征主要捕獲腫瘤的邊界和形狀信息,而深層特征則表示腫瘤的整體特性,通常用于分類任務。然而,隨著網絡層數的增加,卷積和下采樣的次數也逐漸增多,導致網絡很難學習到小腫瘤的高級特征,從而影響模型的分類性能。為了有效地緩解這個問題,在分類子網中設計了一種多尺度特征融合方法,如圖1所示。具體而言,將分割子網中stage1、stage5和stage9的特征圖進行拼接和融合,用于輸出HCC病理分級的預測結果。由于分割子網中不同stage的特征圖大小可能不一樣,所以不能直接將stage1、stage5和stage9的特征圖進行融合。實驗中,首先,將stage1的特征圖和stage9的特征圖分別進行16倍下采樣。然后,將下采樣的stage1和stage9的特征圖與stage5的特征圖進行拼接得到融合特征圖。最后,將融合特征圖進行全局平均池化(global average pooling,GAP)操作得到一個288維的特征向量,再通過兩個全連接層(fully connected,FC)進行分類預測。為了防止過擬合,在兩個FC中間添加了BN和Leaky ReLU激活函數。
1.2 邊界感知注意力
在浸潤性HCC患者的CE-MRI上腫瘤邊界模糊且對比度較低,導致難以準確分割肝腫瘤。因此,提出了一種邊界感知注意力,用于抑制特征圖中背景區域,同時突出肝腫瘤區域的邊界。如圖2所示為邊界感知注意力模塊的結構,解碼器中上一層的特征圖Dl+1經過一個1×1×1的卷積和一個S型生長曲線(Sigmoid)激活函數得到注意力Al+1,然后用一個和注意力Al+1大小一樣元素全為1的矩陣減去Al+1,最后得到邊界感知注意力Bl+1。邊界感知注意力的計算如式(1)所示:

![]() |
式中,σ表示Sigmoid激活函數,F表示1×1×1的卷積。將邊界感知注意力Bl+1和跳躍連接中來自編碼器的特征圖El逐元素相乘得到特征圖Dl,這樣可以抑制特征圖中腫瘤不相關區域特征,從而增加模型對腫瘤邊界的關注。
1.3 動態權重平均多任務損失
在多任務學習中,應給予每個子任務相同的權重,但不同子任務的收斂速度可能不一樣。如圖3所示,可以看到分割損失的收斂速度比分類損失的收斂速度更快,因此分割任務主導了整個模型的訓練過程,從而影響分類任務的性能。一般的解決方案是手動調整每個子任務的權重,但這樣不利于模型在兩個任務中獲得最優性能。因此,本文采用了一種動態權重平均的方法[16],通過計算每個子任務損失的變化率來自動調整任務權重,從而使得每個子任務的損失收斂速度一致。

本文提出的多任務學習模型的損失函數 由分類損失
和分割損失
組成。對于分類任務采用二分類交叉熵損失,對于分割任務采用戴斯相似系數(Dice)損失。在模型訓練過程中,采用動態權重平均來自適應調整
和
的權重
和
。權重的具體計算過程如下:首先,計算一個迭代次數(epoch)后
和
的相對下降率
和
;然后,將
和
分別除以一個溫度常數T;其次,用指數函數exp(?)對其映射;最后,分別計算映射后
和
占兩者和的比值。
和
的計算如式(2)所示:
![]() |
式中,i表示當前epoch。和
的計算如式(3)所示:
![]() |
參照文獻[16],本文在實驗過程中將T設置為2,T用于調節分類任務和分割任務之間的松散程度。因此,的定義如式(4)所示:
![]() |
2 數據處理和評價指標
2.1 數據和預處理
本文實驗數據來源于大連醫科大學附屬第一醫院放射科提供的資料數據集。該數據集中所有HCC患者的病理分化程度均通過組織病理學證實,其腫瘤的標注由兩名具有3年經驗的放射科醫師完成,并由另一名具有7年經驗的高年資醫師審查。該數據集中每個HCC患者的CE-MRI包含三個期相,分別是動脈期(arterial phase,AP)、靜脈期(portal venous phase,PVP)和延遲期(delayed phase,DP),為從靜脈向血管內注射造影劑,發現平掃未發現的腫瘤,以鑒別腫瘤為血管性或非血管性的全程。AP是指動脈血管內充盈造影劑的時期,這個時期動脈血管成像比較清晰;PVP就是靜脈血管內出現造影劑,引起充盈顯影的時期,這個時期靜脈血管成像比較清晰;而DP是指血管內的造影劑隨時間逐漸減少,這個時期腫瘤等含血管比較豐富的組織仍會較清楚的顯影[17]。
該數據集共包含295例HCC患者的885個CE-MRI。其中,低分化的CE-MRI有336個,中分化的CE-MRI有414個,高分化的CE-MRI有135個。整個數據集中CE-MRI的橫斷面內體素大小從0.66×0.66~0.93×0.93 mm2,而橫斷面間的體素間距從1.5~6.0 mm。最后,在臨床醫師的指導下將整個數據集劃分為訓練集和測試集,其中訓練集有735個,測試集有150個。在實驗過程中,采用五折交叉驗證的方法對訓練集進行二次劃分,劃分為包含588個CE-MRI的訓練集和包含147個CE-MRI的驗證集。最終,保存驗證集上實驗結果最好的模型用于測試。實驗獲得大連醫科大學附屬第一醫院倫理委員會審查批準,并授權可以使用數據集所有影像資料數據。
通過對實驗數據的觀察,發現不同HCC患者的CE-MRI中腫瘤體素大小不同,存在各向異性的問題。為了解決該問題,在訓練過程中將每個CE-MRI的體素重采樣到1×1×1 mm3,這樣模型在訓練過程中可以更好地擬合數據。同時,以腫瘤中心為基準,將每個CE-MRI裁剪為160×160×16 mm3的體積塊。實驗過程中還采用面向醫療研究領域的開源人工智能框架MONAI 0.7.0(NVIDIA Inc.,美國)對訓練集中的CE-MRI進行數據增強,包括隨機翻轉(水平和垂直)、旋轉90°和仿射變換。此外,還對訓練集、驗證集和測試集中的CE-MRI進行了最大、最小歸一化處理。
2.2 評價標準
對于HCC的分割結果,采用Dice系數、杰卡德(Jaccard)指數、平均表面距離(average surface distance,ASD)和95%豪斯多夫距離(95% Hausdorff distance,95HD)四個指標進行評估。Dice系數和Jaccard指數用于衡量分割結果和金標準區域的重疊程度,而ASD和95HD則是對邊界的距離偏差進行評價。
對于HCC病理分化程度的預測結果,采用受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under ROC curve,AUC)、準確率(accuracy,ACC)、召回率(recall,REC)、陽性預測值(positive predict value,PPV)、陰性預測值(negative predict value,NPV)和F1分數共6個指標來進行評估。這些評價指標的計算如式(5)~式(9)所示:
![]() |
![]() |
![]() |
![]() |
![]() |
式中,真陽性(true positive,TP)表示正類樣本中分類正確的樣本數量;假陽性(false positive,FP)表示正類樣本中分類錯誤的樣本數量;真陰性(true negative,TN)表示負類樣本中分類正確的樣本數量;假陰性(false negative,FN)表示負類樣本中分類錯誤的樣本數量;精準率(precision, PRE)表示所有被預測為正類樣本中實際為正類樣本的概率。
3 實驗結果與分析
3.1 實驗環境及參數設置
在實驗過程中,所有的模型都是使用開源機器學習庫PyTorch 1.8.1(Facebook Inc.,美國)實現,并在一塊顯存為24 G的英偉達顯卡(RTX 3090 Ti,NVIDIA Inc.,美國)上面使用自適應矩估計(adaptive moment estimation,Adam)優化器進行訓練和測試。訓練時初始學習率為1×10-4,批大小設置為8,epoch為200。在訓練過程中,采用了學習率動態調整策略:當驗證集上的ACC或AUC有20個epoch不增加時,學習率就減小為原來的0.1倍,以繼續訓練優化模型。
3.2 結果與分析
為了驗證本文多任務學習方法在HCC分割和病理分化程度預測上的有效性,在本文實驗數據集上使用最新不同的多任務學習模型進行對比實驗,實驗結果如表1所示。與其它多任務學習模型相比,在分類任務方面,本文方法在5個分類評價指標上面均取得了最好的結果。具體而言,本文方法在ACC和F1上相比其它最好的多任務學習方法有顯著提升,PPV和NPV也分別有一定程度的提升。此外,本文方法預測結果的標準差相比其它方法要小,從而說明本文方法比其它方法預測的結果更加準確和穩定。

為了研究本文提出的多任務學習模型的合理性,使用Grad-CAM方法輸出模型中stage5的類激活圖。如圖4所示,原圖中紅色區域為肝腫瘤,熱力圖中高亮區域為對模型分類決策貢獻比較大的圖像區域。從圖4中可以看出原圖中紅色區域與熱力圖中高亮區域高度一致,表明本文提出的多任務學習方法是通過聚焦關注腫瘤區域的特征來完成分類任務和分割任務。

在分割任務方面,從表1的分割結果可以看出,除了Chakravarty等[14]的分割結果相對較差以外,其它方法的分割結果和本文方法相近,但都沒能超過本文方法。具體而言,Dice系數和Jaccard指數相比其它最好的方法有所提升,ASD和95HD相比其它最好的方法均有所減少。本文方法與其它方法的可視化分割結果如圖5所示,隨機選取兩位具有代表性的患者(25號和105號),紅色區域為肝腫瘤。前三行表示第25號患者的AP(25-AP)、PVP(25-PVP)和DP(25-DP)的分割結果,后三行表示第105號患者的AP(105-AP)、PVP(105-PVP)和DP(105-DP)的分割結果。其中第25號患者的腫瘤直徑<3 cm,而第105號患者的腫瘤直徑>3 cm。從圖5中可以看出,其它方法在25-AP上出現過分割現象,而本文方法卻能夠較好地分割腫瘤;同時Wang等[11]和Chakravarty等[14]的方法,在105-AP、105-PVP和105-DP三個期相上均出現過分割現象,而Zhou等[10]、Li等[13]的方法和本文方法在三個期相上分割結果都比較好,并且和高年資醫師勾畫的金標準相一致,從而說明本文方法能夠適應實驗數據集中不同大小腫瘤的分割。

為了驗證多任務學習的性能優于單任務學習,本文將單任務分割模型、單任務分類模型與本文方法在實驗數據集上分別進行了比較。如表2所示,本文方法雖然在NPV上的預測結果相比其它方法較差,但是在REC、PPV和F1三個指標上顯著優于其它方法。從而說明本文方法整體上比主流的單任務分類方法(He等[18]、Huang等[19] 和Carreira等[20])要好,而且相比專門用于HCC病理分化程度預測方法(Zhou等[9] 和Yang等[3])也有一定的優勢。

本文提出的多任務學習方法和單任務分割方法的定量結果如表3所示,可以看出本文方法的分割結果不僅比CNN結構的分割網絡(?i?ek等[21]、Milletari等[22]、Oktay等[5] 和Valanarasu等[4])要好,還明顯比transformer結構的分割網絡(Hatamizadeh等[6] 和Cao等[7])要好。從表3的實驗結果,還可以發現CNN結構的分割結果要明顯好于transformer結構。當然,該現象可能是由于訓練數據量小的原因造成,但也一定程度表明CNN在分割任務上還是有一定的優勢。

3.3 消融實驗
實驗采用多尺度特征融合、邊界感知注意力和動態權重平均多任務損失來提升分割任務和分類任務的性能,通過在本文實驗數據集上進行消融實驗來驗證其合理性和有效性。
為了評估多任務學習方法的有效性,實驗中將本文提出的多任務學習模型[本文算法_(1)]、單獨完成分類任務[本文算法_(2)]和單獨完成分割任務[本文算法_(3)]作為基準模型。如表4所示,本文算法_(1)相比本文算法_(2)在REC和F1上有顯著提升;同時,相比本文算法_(3)在ASD和95HD上有所減少。實驗對比結果表明將分割任務和分類任務進行聯合學習是能起到相互提升的效果。

為了驗證不同尺度的特征對分類結果的影響,本文將模型中每一個stage的特征都進行了消融實驗,以探索最優的特征融合方法。如圖6所示,1-5-9表示將模型的第1、5、9個stage的特征進行融合,同理,2-5-8、3-5-7、4-5-6表示將數字對應的三個stage的特征進行融合。通過實驗結果的對比,發現采用第1、5、9個stage的特征進行融合實驗結果最好,從而說明CNN中淺層的圖像細節特征對分類任務有幫助。

驗證邊界感知注意力是否能夠起到提升分割精度進行的消融實驗結果如表4所示,本文算法_(4)表示將本文算法_(1)中去除邊界感知注意力模塊。從本文算法_(1)和本文算法_(4)的對比結果,可以看出采用邊界感知注意力在Dice系數和Jaccard指數上有所提升,并且在ASD和HD95上有所減少。實驗對比結果表明,本文提出的邊界注意力模塊能夠抑制特征圖中腫瘤不相關區域特征從而改善分割結果。
為驗證動態權重平均多任務損失的合理性,進一步消融實驗結果如表4所示,本文算法_(5)表示本文算法_(1)不采用動態權重平均多任務損失。從本文算法_(1)和本文算法_(5)的對比結果,可以看出采用動態權重平均多任務損失在分割任務方面的表現保持不變,但是在HCC病理分化程度預測任務方面取得了明顯的提升,從而說明采用動態權重平均多任務損失來平衡分割任務和分類任務的收斂速度是合理的,并且在兩個任務上都能夠取得較好的實驗結果。
4 結論
本文利用HCC分割和病理分化程度預測兩個任務都關注腫瘤區域特征的共性,提出了一個端到端的多任務學習模型,該模型由分割子網和分類子網兩部分組成。在分割子網中,采用了一種深度監督的策略來提升模型對不同大小腫瘤的分割精度,同時在跳躍連接中引入邊界感知注意力來增強模型對腫瘤邊界區域的關注和改善分割性能。在分類子網中,提出了一種多尺度特征融合策略來提升模型對不同大小HCC的病理分化程度預測精度。此外,為了解決分割損失和分類損失收斂速度不一致的問題,采用了動態權重平均多任務損失來平衡兩個損失的收斂速度,以使模型在兩個任務上都達到最佳的性能。最后,在295例HCC患者的885個CE-MRI上進行了大量的實驗,實驗結果表明本文提出的多任務學習模型在HCC分割和病理分化程度預測兩個任務上均取得了最優的結果。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻說明:文含主要負責數據處理、算法設計與實現以及撰寫論文,趙瑩主要負責數據的收集和整理工作,楊涌主要負責實驗程序編寫和調試工作,王洪凱和付忠良參與了算法設計和指導論文寫作,劉愛連和姚宇提供了基金支持和提出修改意見。
倫理聲明:本研究通過了大連醫科大學附屬第一醫院倫理委員會的審批(批文編號:PJ-KS-KY-2019-167)