在全切片中分割不同組織對胰腺癌的診療十分重要,但目前面臨內容復雜、樣本偏少、樣本異質性高等挑戰。本文研究了胰腺癌病理切片八種類別的組織分割,通過引入注意力機制并設計分層共享的多任務結構,利用相關輔助任務顯著提升模型性能。本文模型在上海長海醫院的數據集上進行訓練與測試,并在TCGA公開數據集上進行外部驗證,在內部測試集上F1分數均高于0.97,在外部驗證集上F1分數均高于0.92,且泛化性能顯著優于基線方法。實驗表明,本文模型可準確分割胰腺癌全切片圖像中的不同組織,為臨床診斷提供可靠依據。
引用本文: 高威, 蔣慧, 焦一平, 王向學, 徐軍. 基于多任務和注意力的胰腺癌全切片圖像多組織分割模型. 生物醫學工程學雜志, 2023, 40(1): 70-78. doi: 10.7507/1001-5515.202211003 復制
0 引言
胰腺癌是消化道常見的惡性腫瘤之一,確診后的五年生存率不超過10%[1]。提高患者生存率的一個關鍵環節是準確預測患者的預后風險,以便設計針對性的治療方案。組織病理是腫瘤科的常規檢查,可在微觀層面解析腫瘤特性,是評估腫瘤進展風險的重要方法[2]。盡管如此,由于切片尺寸極大、組織成分復雜,評估結果容易受主觀因素影響[3-4]。隨著人工智能技術的發展,病理切片經過掃描設備數字化后,可借助人工智能算法進行快速的自動分割工作[5-8],幫助病理專家提高閱片效率,為后續定量定性分析提供支持。
在胰腺癌方面,Fu等[9]使用Inception V3網絡對胰腺癌全切片圖像(whole slide image,WSI)的腫瘤和間質進行分割并分別取得0.952 5和0.954 2的F1分數;Janssen等[10]使用以DenseNet161為編碼器的U-nets網絡對新輔助化療后的胰腺癌WSI的殘余腫瘤區域進行分割并取得0.86的F1平均得分。然而,目前研究多關注癌灶、間質等簡單成分,未能充分考慮到胰腺癌的嗜神經性、冷免疫等特性,限制了對腫瘤微環境的充分解析[11]。因此,構建一種準確的胰腺癌WSI多組織分割模型,對胰腺癌的研究、診斷和治療具有重要意義。
目前對胰腺癌WSI的多種組織分割存在以下難點:① 胰腺癌病理圖像數據較少,并且標注工作費時費力,對醫生的經驗要求高,具備可用標記的樣本數據則更為稀少[12-13],在樣本較為有限的情況下,如何在跨中心數據集上確保模型的準確率和魯棒性仍有待解決;② 由于切片制備過程中人工染色的誤差和掃描設備的不同,來自不同醫療機構甚至來自同一醫療機構的不同批次數據都存在差異,對模型的泛用性提出挑戰[14-16];③ 胰腺癌病理圖像因其組織結構特性,背景較為復雜,組織間含較多空洞,易對分割模型的學習造成干擾。針對這些難點,已有研究多采用數據增廣、數據標準化以及多分辨率方法[17-19],盡管有所改善,但在訓練數據較為有限時仍無法取得良好效果。多任務學習是解決上述問題的另一個有效途徑[20],它可以利用其他任務的數據輔助目標任務的訓練,增大模型可學習樣本空間,從而獲得更好的性能。Zhang等[21]構建的3D多注意力引導的多任務學習網絡便是通過同時進行胃癌分割和淋巴結分類來提高模型在各自任務上的表現,但目前這一方法在胰腺癌組織病理圖像分割任務中的應用非常少見。
針對上述胰腺癌WSI多組織分割的難點,本文提出基于多任務和注意力的胰腺癌WSI多組織分割模型,通過設計分層共享的網絡結構以引入WSI的另一分辨率數據和結直腸癌數據作為輔助任務,提高模型在原始任務上的準確率和泛化能力,并緩解數據樣本較少帶來的過擬合問題。同時受Woo等[22]提出的注意力機制的啟發,在多任務共享的主干網絡中引入空間注意力機制,使模型更加關注重要的位置信息,緩解病理圖像的復雜背景和胰腺組織間空洞對模型學習帶來的影響。
1 本文方法
1.1 整體流程
本文的目標是建立可識別胰腺癌中多種組織成分的深度模型,并利用其獲取完整全切片的識別結果,為此需要兼顧精度與速度。本文通過預實驗對比10倍、20倍和40倍分辨率下基準模型的分割性能,得到類別平均F1分數分別為0.906、0.927和0.924,并綜合考慮運行速度,最終選取20倍作為基準分辨率。胰腺癌WSI的組織分割流程如圖1藍色虛線框所示。為了處理百億像素的全掃描切片,本文在20倍分辨率下,以滑窗的方式裁取小圖像塊依次進行預測。為了減少冗余計算,在推理階段使用2 560 × 2 560像素的輸入圖像塊與2 386像素的有交疊滑窗,每次可獲得74 × 74像素的組織標簽圖,將滑窗結果依次拼接,即可獲取全切片的分割結果。

1.2 網絡結構
本文模型結構如圖1紅色虛線框所示,包含共用的主干網絡部分和多任務的輸出部分。主干網絡采用Tan等[23]提出的EfficientNet-b0的編碼結構,其核心組件為引入擠壓和激勵(squeeze-and-excitation,SE)模塊的移動翻轉瓶頸卷積(mobile inverted bottleneck convolution,MBConv)[24],通過堆疊MBConv實現對輸入圖像特征的提取,該模型的設計兼顧了性能與推理速度。
網絡的輸出部分使用分層共享的設計理念,針對主任務和兩個輔助任務分別設計了三條輸出通路,任務間的相關性越高,它們共享的網絡參數便越多。每條輸出通路的計算流程相同,均由兩組“1 × 1卷積-BatchNorm-激活”及中間的平均池化,以及最后額外的1 × 1卷積構成。為了兼容不同輸入圖像尺寸,本文設計平均池化部分的結構如圖1綠色框所示。在訓練階段使用全局平均池化,針對輸入尺寸非224 × 224像素的圖像塊,通過全局平均池化將輸入特征圖的尺寸統一降為1 × 1維,使模型可適配不同的輸入尺寸;在測試階段使用核尺寸為7 × 7的平均池化,通過前述的大尺寸策略減少冗余運算,提升推理速度。
1.3 改進的MBConv
MBConv是EfficientNet的核心組成部分,其結構如圖2所示,計算流程如下:首先通過一個1 × 1卷積對輸入特征進行升維,然后進行深度可分離卷積并送入SE模塊,最后通過一個1 × 1卷積進行降維。

SE模塊的結構如圖2中藍色虛線框所示,首先對H × W × C維的輸入特征進行自適應平均池化,得到1 × 1 × C維特征,然后通過1 × 1卷積進行降維并激活,再通過1 × 1卷積使其恢復到 1 × 1 × C 維并激活,模塊最終輸出為該向量與輸入特征的乘積。SE模塊作為通道注意力機制,可使網絡自適應學習各通道信息的重要性,并通過加權調整它們對結果的作用。但MBConv也存在缺陷,即忽視了空間位置信息與任務目標的聯系,這對胰腺病理圖像這類背景復雜且組織間多空洞的圖像分類是不利的。因此本文對MBConv進行改進,使網絡同時反映通道信息和空間位置信息之間重要性的差異。
改進后的MBConv如圖2所示,本文在SE模塊支路的左側并聯空間注意力機制(spatical attention,SA)模塊,其結構如圖2中紅色虛線框所示。SA模塊學習輸入特征的空間位置與任務目標的相關性,并通過加權調整它們對結果的作用,計算流程如下:首先通過兩個1 × 1的卷積對 H × W × C維的輸入特征進行壓縮,得到集成全局信息的 H × W × 1維矩陣,然后通過Sigmoid函數激活得到位置權重矩陣,最后通過相乘的方式,根據位置權重矩陣對輸入特征進行重標定得到加權特征圖。SA模塊使網絡以較低的計算成本,自動關注對任務更重要的空間位置信息,抑制背景信息的干擾。兩個模塊的輸出結果最終進行相加融合,獲得輸入特征與任務目標的全局依賴關系。改進后的MBConv可使網絡自動識別圖像中需要關注的位置和通道信息,提高網絡對重要信息的提取能力,改善最終的分類結果。
1.4 輔助任務的設計
本文的目標任務是在胰腺癌WSI的20倍分辨率下對腫瘤、腫瘤間質、血管、神經、淋巴細胞、正常腺泡、脂肪、背景共八種組織進行分類。針對訓練數據較為有限的問題,本文設計了兩類輔助任務以提升模型的分類性能。其中輔助任務1設置為10倍分辨率下對同樣八種組織進行分類,該任務的數據與主任務提取自相同的切片,任務目標與主任務一致,與主任務共享更多的網絡參數。輔助任務1可使網絡學習不同組織在其他尺度下的特征,來自不同尺度的信息可以有效提高模型的性能[13]。輔助任務2設置為在結直腸癌WSI的20倍分辨率下對血管、上皮、間質、免疫細胞、肌肉、脂肪、壞死、背景共八種組織進行分類。由于人體不同器官的同種組織在圖像領域擁有相似的特征,輔助任務2允許模型學習到有利于目標任務的表示,同時該任務的輸出通路與主任務相對獨立,可進一步降低對主任務的學習過程產生有害影響的可能性[20]。此外,該任務與主任務的數據來源不同,任務目標也存在一定差異,所以它們的局部最優解處于不同位置,通過兩個任務之間的相互作用可以幫助模型逃離局部最優解,獲得更好的性能。
1.5 損失函數
本文損失函數L包含3部分,分別為主任務的損失Lmain、輔助任務1的損失Laux1、輔助任務2的損失Laux2。通過對每個任務進行單獨驗證,可發現Lmain、Laux1、Laux2的量級一致,因此本文損失函數L定義為各任務損失的加權求和,其中主任務損失的權重最高,設為1,輔助任務損失的權重依據其與主任務的相關性高低決定,通過少量迭代輪次的實驗,當訓練損失趨于穩定后,記錄其在測試集上的表現,通過對比最終決定采用0.7和0.4的參數,計算公式為
![]() |
針對數據集存在的各組織樣本不均衡的情況,本文使用類平衡Focal損失作為各任務的損失函數,有效緩解因每個類別樣本數量不匹配造成的過擬合問題[25],并通過減少易分類樣本的權重,使模型在訓練時更專注于難分類的樣本[26],計算公式如下
![]() |
式中, 為平衡類之間相對損失的超參數,ny表示類別為
的訓練樣本數量,C為類的總數,z為模型對所有類的預測輸出,
表示真實標記的預測概率,
是調節簡單樣本權重降低速率的參數,本文默認設為2。
2 實驗及結果分析
2.1 實驗數據
本文主任務和輔助任務1的數據來自上海長海醫院采集的25例胰腺癌患者的WSI,每個病例由病理醫生選取一張具有代表性的切片,共計25張,其中20張作為模型的訓練集,余下5張作為模型的測試集。本文所有WSI均通過倫理審查委員會同意,并獲得授權可以使用。每例患者的WSI都包含腫瘤、腫瘤間質、血管、神經、淋巴細胞、正常腺泡、脂肪、背景共8種組織區域的標記,由經驗豐富的病理科醫生手動勾畫。每張WSI均包含六種不同分辨率的掃描圖像,主任務的數據集在20倍分辨率下提取,提取流程如圖3所示。在標記所處的矩形區域內,以112的步長通過滑窗的方式取出224 × 224像素的圖像塊,并計算其與標記區域的重疊面積,若重疊面積小于或等于85%(圖3中藍色圖像塊)則舍棄,若重疊面積大于85%(圖3中紅色圖像塊)則保留,最后總計提取各類組織的圖像塊555 119張,其中訓練集489 322張,測試集70 992張。輔助任務1的數據集在相同切片的10倍分辨率下提取,流程與主任務相同,總計提取圖像塊99 169張,均用于訓練。輔助任務2的數據來自結直腸癌的WSI,包含血管、上皮、間質、免疫細胞、肌肉、脂肪、壞死、背景共8種組織區域的標記,由病理科醫生手動勾畫,提取流程與主任務相同,最后總計提取圖像塊600 593張,均用于輔助任務2的訓練。各任務數據集的具體情況如表1所示。


2.2 實驗環境及設置
實驗環境為Ubuntu 16.04操作系統,內存為128 GB,顯卡為GeForce RTX 2 080Ti,CPU為E5-2 630。本文網絡基于PyTorch實現,最大迭代輪數設為200,由于不同任務的樣本數不一致,每輪訓練中以主任務的樣本數為基準,輔助任務1和輔助任務2分別通過循環采樣和隨機采樣的方式使其樣本數與主任務保持一致。使用Adam優化器進行權重更新,每個任務的批大小設為40,初始學習率設為0.01,學習率調整策略使用ReduceLROnPlateau,當迭代兩輪模型損失仍未下降時,學習率調整為原來的一半。
2.3 評估指標
本文的分割問題本質上是基于圖像塊的分類問題,因此使用F1分數進行性能評估,計算方法如下:
① 每類的精確率P、查全率R和F1分數
![]() |
![]() |
![]() |
式中,、
、
分別表示第i類的精確率、查全率、F1分數,
、
、
分別表示第i類的真陽性樣本數(true positive,TP)、假陽性樣本數(false positive,FP)、假陰性樣本數(false negative,FN)。
② micro-F1分數。先計算整體的TP、FP和FN,再計算F1分數
![]() |
![]() |
![]() |
式中,N為類別數,micro-P、micro-R、micro-F1分別為micro規則下的精確率、查全率和F1分數。
③ macro-F1分數。分別計算每個類別的F1分數,然后取平均值
![]() |
![]() |
![]() |
式中,N為類別數,macro-P、macro-R、macro-F1分別為macro規則下的精確率、查全率和F1分數。
2.4 實驗結果與分析
2.4.1 主干網絡
將本文模型的主干網絡EfficientNet-b0與主流的圖像分類網絡進行對比,具體對比網絡如下:He等[27]提出的深度殘差神經網絡ResNet、Xie等[28]提出的應用聚合殘差變換的ResNext、Huang等[29]提出的密集卷積神經網絡DenseNet以及Radosavovic等[30]提出的著眼于新的網絡設計范式的RegNet。對比試驗結果如表2所示。可以看出,EfficientNet-b0取得了最優的macro-F1分數和次優的micro-F1分數,并且單張WSI的平均預測時間最少,這得益于EfficientNet很好地平衡了網絡深度、網絡寬度和分辨率,兼顧性能與推理速度,并通過深度可分離卷積等操作最優地提升模型的整體性能。與EfficientNet-b0相比,RegNetY-3.2GF僅在單一指標上具備微弱優勢,余下指標均排在末尾,且平均預測時間與EfficientNet-b0相差兩分鐘以上,差距較大。綜合來看,EfficientNet-b0是模型主干網絡的最優選。

2.4.2 空間注意力機制
為驗證SA模塊對模型性能的影響,本節將引入SA模塊的EfficientNet-b0網絡(EfficientNet+SA)與未引入SA模塊的網絡(EfficientNet)進行對比試驗,實驗結果如表3所示。在加入SA模塊后,EfficientNet+SA的micro-F1分數和macro-F1分數相比原始網絡分別提高了1.9%和2.5%,模型整體性能獲得提升。

圖4展示了SA模塊對各類組織的分類性能的影響,相比原始網絡,EfficientNet+SA對神經、血管、淋巴細胞等區域的分割結果更為準確,這些區域通常面積較小,分布零散,容易被鄰近的其他組織影響。SA模塊讓模型更加關注重要的空間位置信息,減少背景、組織間空洞等無關信息的干擾,從而增強了模型對組織的識別能力。綜合來看,EfficientNet + SA的性能要高于不加SA模塊的EfficientNet。

2.4.3 輔助任務的選擇
輔助任務的選擇是一個開放性問題,不恰當的輔助任務甚至可能降低模型的性能,因此本節探討了兩種輔助任務對模型性能的影響,實驗結果如表4所示。其中,基線模型EfficientNet_SA表示引入SA模塊的EfficientNet-b0,EfficientNet_SA + AT1表示在基線模型的基礎上引入輔助任務1(auxiliary task1,AT1),EfficientNet_SA + AT2表示在基線模型的基礎上引入輔助任務2(auxiliary task2,AT2),EfficientNet_SA + ALL表示在基線模型的基礎上同時引入兩個輔助任務。由表4可知,引入AT1、AT2,以及同時引入AT1和AT2,micro-F1分數與marco-F1分數都有所提升(分別為1.9%、1.6%、3.0%與1.8%、1.4%、2.8%),且同時引入AT1與AT2時效果最好。

圖5展示了輔助任務對組織分類性能的影響。當引入AT1時,模型對腫瘤、神經和正常腺泡的識別能力提升較為明顯,這得益于AT1允許模型學習組織在不同尺度下的特征,更大范圍的圖像包含更加豐富的組織形態、結構和上下文信息,這些信息可提高網絡對組織的區分能力。當引入AT2時,模型在血管、腫瘤間質和神經的識別方面要優于AT1,這是由于AT2讓模型學到不同器官中的同種組織所共有的表征以及更一般性的特征,例如胰腺和結直腸中都包含的血管、間質等組織。當兩個輔助任務同時被引入時,模型對各類組織的識別能力達到最優,均高于使用單一輔助任務的模型。

2.4.4 TCGA數據集外部驗證
為進一步驗證本文方法的有效性,分別在本文構建的測試集和癌癥基因組圖譜(the cancer genome atlas,TCGA)的胰腺癌病理圖像公開數據集(網址:https://portal.gdc.cancer.gov/)上將本文模型與EfficientNet-b0和EfficientNet_SA進行內部比較。TCGA收錄了包括胰腺癌病理圖像數據在內的各種人類癌癥的臨床數據,本文從中選取10張切片并由長海醫院經驗豐富的病理科醫生手動勾畫標記,得到各組織的圖像塊共計59 464張。TCGA作為外部獨立的驗證隊列,可有效驗證各網絡在外部數據集上的泛化能力和準確率。同時,本文也進一步對比了目前常用于醫學圖像分割任務的外部網絡,包括:ResNet、ResNext、DenseNet和RegNet,實驗結果如表5所示。本文模型幾乎在所有評估指標中都取得了最好的成績。與取得次優值的EfficientNet_SA相比,本文模型在測試集的micro-F1、macro-F1以及TCGA數據集的micro-F1、macro-F1分別提升了3.0%、2.8%、10.9%和10.6%,與EfficientNet-b0及其他外部網絡相比,提升則更為明顯,多任務網絡相比單任務網絡的優越性得到體現。雖然本文模型在單張WSI上的平均預測時間與最優值相差2.898 s,但相比性能上的巨大提升,這一微小差距可以接受。此外,為了評估模型的泛化性能,本文定義了平均性能損失,即在外部測試集(TCGA)上,相比于內部測試集上兩類F1指標下降的平均幅度。通過對比各網絡的表現,可以發現本文網絡在獨立驗證隊列上的性能指標下降幅度最小,micro-F1分數和macro-F1分數分別下降5.7%和5.6%,平均性能損失僅為5.7%,其他網絡的平均性能損失均超過10%。由此可以看出,本文網絡對不同掃描設備和染色程度的WSI的容忍度更高,魯棒性更強。

圖6展示了本文模型、EfficientNet_SA和EfficientNet-b0對獨立的胰腺癌WSI中八種組織的定性分割結果,進一步驗證了前文的結論。從圖中可以看出,EfficientNet_SA的分割效果要顯著優于EfficientNet-b0,但相比本文模型,其在腫瘤、腫瘤間質、血管、神經等組織上的表現較差。本文模型在八種組織的分割精度方面均取得了最優的結果,這得益于空間注意力機制的引入以及輔助任務對模型學習的約束和補充。總體而言,本文模型在八種組織的分割精度方面取得了較好的成績,并在外部數據上展現了更好的泛用性。

3 結論
本文提出的用于胰腺癌WSI多種組織分割的模型,以EfficientNet-b0為主干網絡,引入空間注意力機制改進其核心組件MBConv,提高模型對復雜背景和組織間空洞的抗干擾能力,同時構建分層共享的多任務結構,通過精心設計的輔助任務將WSI的另一分辨率數據和結直腸癌數據納入模型的學習樣本空間,促使模型在訓練過程中獲取更豐富和更一般性的特征。實驗結果表明,本文模型在有限的目標任務數據的基礎上,利用相關輔助任務的大量監督數據,實現準確的胰腺癌WSI多種組織分割,相比目前常用于組織病理圖像分割的網絡,本文模型在準確率和泛化性上有明顯優勢,在外部數據上依然保持了良好的性能,具有非常高的實際應用價值。
然而,這項研究也存在局限性:① 使模型工作在20倍分辨率下,仍需要付出昂貴的計算成本,未來的一種可行策略是采用一種多分辨率預測的方法,只有在更低的放大倍數下被識別為可疑的位置才會在20倍下進行驗證。② 輔助任務2使用的結直腸癌WSI數據仍然是一種較難獲取的數據,另一種可行思路是利用易獲取的自然圖像數據輔助醫學圖像分割任務,但目前尚沒有統一的方法和標準來判斷哪些自然圖像數據能夠提高醫學圖像分割和分類任務的性能,后續工作將針對上述局限性開展進一步的研究。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:高威:設計實驗,編寫代碼,分析數據,撰寫文章;蔣慧:收集數據,給予醫學專業相關的幫助;焦一平:指導實驗,對文章的知識性內容作批評型審閱;王向學:指導實驗,對文章的知識性內容作批評型審閱;徐軍:指導實驗,對文章的知識性內容作批評型審閱,獲取研究經費。
倫理聲明:本研究通過了中國人民解放軍海軍軍醫大學醫學研究倫理委員會的審批(批文編號:82003107)。
0 引言
胰腺癌是消化道常見的惡性腫瘤之一,確診后的五年生存率不超過10%[1]。提高患者生存率的一個關鍵環節是準確預測患者的預后風險,以便設計針對性的治療方案。組織病理是腫瘤科的常規檢查,可在微觀層面解析腫瘤特性,是評估腫瘤進展風險的重要方法[2]。盡管如此,由于切片尺寸極大、組織成分復雜,評估結果容易受主觀因素影響[3-4]。隨著人工智能技術的發展,病理切片經過掃描設備數字化后,可借助人工智能算法進行快速的自動分割工作[5-8],幫助病理專家提高閱片效率,為后續定量定性分析提供支持。
在胰腺癌方面,Fu等[9]使用Inception V3網絡對胰腺癌全切片圖像(whole slide image,WSI)的腫瘤和間質進行分割并分別取得0.952 5和0.954 2的F1分數;Janssen等[10]使用以DenseNet161為編碼器的U-nets網絡對新輔助化療后的胰腺癌WSI的殘余腫瘤區域進行分割并取得0.86的F1平均得分。然而,目前研究多關注癌灶、間質等簡單成分,未能充分考慮到胰腺癌的嗜神經性、冷免疫等特性,限制了對腫瘤微環境的充分解析[11]。因此,構建一種準確的胰腺癌WSI多組織分割模型,對胰腺癌的研究、診斷和治療具有重要意義。
目前對胰腺癌WSI的多種組織分割存在以下難點:① 胰腺癌病理圖像數據較少,并且標注工作費時費力,對醫生的經驗要求高,具備可用標記的樣本數據則更為稀少[12-13],在樣本較為有限的情況下,如何在跨中心數據集上確保模型的準確率和魯棒性仍有待解決;② 由于切片制備過程中人工染色的誤差和掃描設備的不同,來自不同醫療機構甚至來自同一醫療機構的不同批次數據都存在差異,對模型的泛用性提出挑戰[14-16];③ 胰腺癌病理圖像因其組織結構特性,背景較為復雜,組織間含較多空洞,易對分割模型的學習造成干擾。針對這些難點,已有研究多采用數據增廣、數據標準化以及多分辨率方法[17-19],盡管有所改善,但在訓練數據較為有限時仍無法取得良好效果。多任務學習是解決上述問題的另一個有效途徑[20],它可以利用其他任務的數據輔助目標任務的訓練,增大模型可學習樣本空間,從而獲得更好的性能。Zhang等[21]構建的3D多注意力引導的多任務學習網絡便是通過同時進行胃癌分割和淋巴結分類來提高模型在各自任務上的表現,但目前這一方法在胰腺癌組織病理圖像分割任務中的應用非常少見。
針對上述胰腺癌WSI多組織分割的難點,本文提出基于多任務和注意力的胰腺癌WSI多組織分割模型,通過設計分層共享的網絡結構以引入WSI的另一分辨率數據和結直腸癌數據作為輔助任務,提高模型在原始任務上的準確率和泛化能力,并緩解數據樣本較少帶來的過擬合問題。同時受Woo等[22]提出的注意力機制的啟發,在多任務共享的主干網絡中引入空間注意力機制,使模型更加關注重要的位置信息,緩解病理圖像的復雜背景和胰腺組織間空洞對模型學習帶來的影響。
1 本文方法
1.1 整體流程
本文的目標是建立可識別胰腺癌中多種組織成分的深度模型,并利用其獲取完整全切片的識別結果,為此需要兼顧精度與速度。本文通過預實驗對比10倍、20倍和40倍分辨率下基準模型的分割性能,得到類別平均F1分數分別為0.906、0.927和0.924,并綜合考慮運行速度,最終選取20倍作為基準分辨率。胰腺癌WSI的組織分割流程如圖1藍色虛線框所示。為了處理百億像素的全掃描切片,本文在20倍分辨率下,以滑窗的方式裁取小圖像塊依次進行預測。為了減少冗余計算,在推理階段使用2 560 × 2 560像素的輸入圖像塊與2 386像素的有交疊滑窗,每次可獲得74 × 74像素的組織標簽圖,將滑窗結果依次拼接,即可獲取全切片的分割結果。

1.2 網絡結構
本文模型結構如圖1紅色虛線框所示,包含共用的主干網絡部分和多任務的輸出部分。主干網絡采用Tan等[23]提出的EfficientNet-b0的編碼結構,其核心組件為引入擠壓和激勵(squeeze-and-excitation,SE)模塊的移動翻轉瓶頸卷積(mobile inverted bottleneck convolution,MBConv)[24],通過堆疊MBConv實現對輸入圖像特征的提取,該模型的設計兼顧了性能與推理速度。
網絡的輸出部分使用分層共享的設計理念,針對主任務和兩個輔助任務分別設計了三條輸出通路,任務間的相關性越高,它們共享的網絡參數便越多。每條輸出通路的計算流程相同,均由兩組“1 × 1卷積-BatchNorm-激活”及中間的平均池化,以及最后額外的1 × 1卷積構成。為了兼容不同輸入圖像尺寸,本文設計平均池化部分的結構如圖1綠色框所示。在訓練階段使用全局平均池化,針對輸入尺寸非224 × 224像素的圖像塊,通過全局平均池化將輸入特征圖的尺寸統一降為1 × 1維,使模型可適配不同的輸入尺寸;在測試階段使用核尺寸為7 × 7的平均池化,通過前述的大尺寸策略減少冗余運算,提升推理速度。
1.3 改進的MBConv
MBConv是EfficientNet的核心組成部分,其結構如圖2所示,計算流程如下:首先通過一個1 × 1卷積對輸入特征進行升維,然后進行深度可分離卷積并送入SE模塊,最后通過一個1 × 1卷積進行降維。

SE模塊的結構如圖2中藍色虛線框所示,首先對H × W × C維的輸入特征進行自適應平均池化,得到1 × 1 × C維特征,然后通過1 × 1卷積進行降維并激活,再通過1 × 1卷積使其恢復到 1 × 1 × C 維并激活,模塊最終輸出為該向量與輸入特征的乘積。SE模塊作為通道注意力機制,可使網絡自適應學習各通道信息的重要性,并通過加權調整它們對結果的作用。但MBConv也存在缺陷,即忽視了空間位置信息與任務目標的聯系,這對胰腺病理圖像這類背景復雜且組織間多空洞的圖像分類是不利的。因此本文對MBConv進行改進,使網絡同時反映通道信息和空間位置信息之間重要性的差異。
改進后的MBConv如圖2所示,本文在SE模塊支路的左側并聯空間注意力機制(spatical attention,SA)模塊,其結構如圖2中紅色虛線框所示。SA模塊學習輸入特征的空間位置與任務目標的相關性,并通過加權調整它們對結果的作用,計算流程如下:首先通過兩個1 × 1的卷積對 H × W × C維的輸入特征進行壓縮,得到集成全局信息的 H × W × 1維矩陣,然后通過Sigmoid函數激活得到位置權重矩陣,最后通過相乘的方式,根據位置權重矩陣對輸入特征進行重標定得到加權特征圖。SA模塊使網絡以較低的計算成本,自動關注對任務更重要的空間位置信息,抑制背景信息的干擾。兩個模塊的輸出結果最終進行相加融合,獲得輸入特征與任務目標的全局依賴關系。改進后的MBConv可使網絡自動識別圖像中需要關注的位置和通道信息,提高網絡對重要信息的提取能力,改善最終的分類結果。
1.4 輔助任務的設計
本文的目標任務是在胰腺癌WSI的20倍分辨率下對腫瘤、腫瘤間質、血管、神經、淋巴細胞、正常腺泡、脂肪、背景共八種組織進行分類。針對訓練數據較為有限的問題,本文設計了兩類輔助任務以提升模型的分類性能。其中輔助任務1設置為10倍分辨率下對同樣八種組織進行分類,該任務的數據與主任務提取自相同的切片,任務目標與主任務一致,與主任務共享更多的網絡參數。輔助任務1可使網絡學習不同組織在其他尺度下的特征,來自不同尺度的信息可以有效提高模型的性能[13]。輔助任務2設置為在結直腸癌WSI的20倍分辨率下對血管、上皮、間質、免疫細胞、肌肉、脂肪、壞死、背景共八種組織進行分類。由于人體不同器官的同種組織在圖像領域擁有相似的特征,輔助任務2允許模型學習到有利于目標任務的表示,同時該任務的輸出通路與主任務相對獨立,可進一步降低對主任務的學習過程產生有害影響的可能性[20]。此外,該任務與主任務的數據來源不同,任務目標也存在一定差異,所以它們的局部最優解處于不同位置,通過兩個任務之間的相互作用可以幫助模型逃離局部最優解,獲得更好的性能。
1.5 損失函數
本文損失函數L包含3部分,分別為主任務的損失Lmain、輔助任務1的損失Laux1、輔助任務2的損失Laux2。通過對每個任務進行單獨驗證,可發現Lmain、Laux1、Laux2的量級一致,因此本文損失函數L定義為各任務損失的加權求和,其中主任務損失的權重最高,設為1,輔助任務損失的權重依據其與主任務的相關性高低決定,通過少量迭代輪次的實驗,當訓練損失趨于穩定后,記錄其在測試集上的表現,通過對比最終決定采用0.7和0.4的參數,計算公式為
![]() |
針對數據集存在的各組織樣本不均衡的情況,本文使用類平衡Focal損失作為各任務的損失函數,有效緩解因每個類別樣本數量不匹配造成的過擬合問題[25],并通過減少易分類樣本的權重,使模型在訓練時更專注于難分類的樣本[26],計算公式如下
![]() |
式中, 為平衡類之間相對損失的超參數,ny表示類別為
的訓練樣本數量,C為類的總數,z為模型對所有類的預測輸出,
表示真實標記的預測概率,
是調節簡單樣本權重降低速率的參數,本文默認設為2。
2 實驗及結果分析
2.1 實驗數據
本文主任務和輔助任務1的數據來自上海長海醫院采集的25例胰腺癌患者的WSI,每個病例由病理醫生選取一張具有代表性的切片,共計25張,其中20張作為模型的訓練集,余下5張作為模型的測試集。本文所有WSI均通過倫理審查委員會同意,并獲得授權可以使用。每例患者的WSI都包含腫瘤、腫瘤間質、血管、神經、淋巴細胞、正常腺泡、脂肪、背景共8種組織區域的標記,由經驗豐富的病理科醫生手動勾畫。每張WSI均包含六種不同分辨率的掃描圖像,主任務的數據集在20倍分辨率下提取,提取流程如圖3所示。在標記所處的矩形區域內,以112的步長通過滑窗的方式取出224 × 224像素的圖像塊,并計算其與標記區域的重疊面積,若重疊面積小于或等于85%(圖3中藍色圖像塊)則舍棄,若重疊面積大于85%(圖3中紅色圖像塊)則保留,最后總計提取各類組織的圖像塊555 119張,其中訓練集489 322張,測試集70 992張。輔助任務1的數據集在相同切片的10倍分辨率下提取,流程與主任務相同,總計提取圖像塊99 169張,均用于訓練。輔助任務2的數據來自結直腸癌的WSI,包含血管、上皮、間質、免疫細胞、肌肉、脂肪、壞死、背景共8種組織區域的標記,由病理科醫生手動勾畫,提取流程與主任務相同,最后總計提取圖像塊600 593張,均用于輔助任務2的訓練。各任務數據集的具體情況如表1所示。


2.2 實驗環境及設置
實驗環境為Ubuntu 16.04操作系統,內存為128 GB,顯卡為GeForce RTX 2 080Ti,CPU為E5-2 630。本文網絡基于PyTorch實現,最大迭代輪數設為200,由于不同任務的樣本數不一致,每輪訓練中以主任務的樣本數為基準,輔助任務1和輔助任務2分別通過循環采樣和隨機采樣的方式使其樣本數與主任務保持一致。使用Adam優化器進行權重更新,每個任務的批大小設為40,初始學習率設為0.01,學習率調整策略使用ReduceLROnPlateau,當迭代兩輪模型損失仍未下降時,學習率調整為原來的一半。
2.3 評估指標
本文的分割問題本質上是基于圖像塊的分類問題,因此使用F1分數進行性能評估,計算方法如下:
① 每類的精確率P、查全率R和F1分數
![]() |
![]() |
![]() |
式中,、
、
分別表示第i類的精確率、查全率、F1分數,
、
、
分別表示第i類的真陽性樣本數(true positive,TP)、假陽性樣本數(false positive,FP)、假陰性樣本數(false negative,FN)。
② micro-F1分數。先計算整體的TP、FP和FN,再計算F1分數
![]() |
![]() |
![]() |
式中,N為類別數,micro-P、micro-R、micro-F1分別為micro規則下的精確率、查全率和F1分數。
③ macro-F1分數。分別計算每個類別的F1分數,然后取平均值
![]() |
![]() |
![]() |
式中,N為類別數,macro-P、macro-R、macro-F1分別為macro規則下的精確率、查全率和F1分數。
2.4 實驗結果與分析
2.4.1 主干網絡
將本文模型的主干網絡EfficientNet-b0與主流的圖像分類網絡進行對比,具體對比網絡如下:He等[27]提出的深度殘差神經網絡ResNet、Xie等[28]提出的應用聚合殘差變換的ResNext、Huang等[29]提出的密集卷積神經網絡DenseNet以及Radosavovic等[30]提出的著眼于新的網絡設計范式的RegNet。對比試驗結果如表2所示。可以看出,EfficientNet-b0取得了最優的macro-F1分數和次優的micro-F1分數,并且單張WSI的平均預測時間最少,這得益于EfficientNet很好地平衡了網絡深度、網絡寬度和分辨率,兼顧性能與推理速度,并通過深度可分離卷積等操作最優地提升模型的整體性能。與EfficientNet-b0相比,RegNetY-3.2GF僅在單一指標上具備微弱優勢,余下指標均排在末尾,且平均預測時間與EfficientNet-b0相差兩分鐘以上,差距較大。綜合來看,EfficientNet-b0是模型主干網絡的最優選。

2.4.2 空間注意力機制
為驗證SA模塊對模型性能的影響,本節將引入SA模塊的EfficientNet-b0網絡(EfficientNet+SA)與未引入SA模塊的網絡(EfficientNet)進行對比試驗,實驗結果如表3所示。在加入SA模塊后,EfficientNet+SA的micro-F1分數和macro-F1分數相比原始網絡分別提高了1.9%和2.5%,模型整體性能獲得提升。

圖4展示了SA模塊對各類組織的分類性能的影響,相比原始網絡,EfficientNet+SA對神經、血管、淋巴細胞等區域的分割結果更為準確,這些區域通常面積較小,分布零散,容易被鄰近的其他組織影響。SA模塊讓模型更加關注重要的空間位置信息,減少背景、組織間空洞等無關信息的干擾,從而增強了模型對組織的識別能力。綜合來看,EfficientNet + SA的性能要高于不加SA模塊的EfficientNet。

2.4.3 輔助任務的選擇
輔助任務的選擇是一個開放性問題,不恰當的輔助任務甚至可能降低模型的性能,因此本節探討了兩種輔助任務對模型性能的影響,實驗結果如表4所示。其中,基線模型EfficientNet_SA表示引入SA模塊的EfficientNet-b0,EfficientNet_SA + AT1表示在基線模型的基礎上引入輔助任務1(auxiliary task1,AT1),EfficientNet_SA + AT2表示在基線模型的基礎上引入輔助任務2(auxiliary task2,AT2),EfficientNet_SA + ALL表示在基線模型的基礎上同時引入兩個輔助任務。由表4可知,引入AT1、AT2,以及同時引入AT1和AT2,micro-F1分數與marco-F1分數都有所提升(分別為1.9%、1.6%、3.0%與1.8%、1.4%、2.8%),且同時引入AT1與AT2時效果最好。

圖5展示了輔助任務對組織分類性能的影響。當引入AT1時,模型對腫瘤、神經和正常腺泡的識別能力提升較為明顯,這得益于AT1允許模型學習組織在不同尺度下的特征,更大范圍的圖像包含更加豐富的組織形態、結構和上下文信息,這些信息可提高網絡對組織的區分能力。當引入AT2時,模型在血管、腫瘤間質和神經的識別方面要優于AT1,這是由于AT2讓模型學到不同器官中的同種組織所共有的表征以及更一般性的特征,例如胰腺和結直腸中都包含的血管、間質等組織。當兩個輔助任務同時被引入時,模型對各類組織的識別能力達到最優,均高于使用單一輔助任務的模型。

2.4.4 TCGA數據集外部驗證
為進一步驗證本文方法的有效性,分別在本文構建的測試集和癌癥基因組圖譜(the cancer genome atlas,TCGA)的胰腺癌病理圖像公開數據集(網址:https://portal.gdc.cancer.gov/)上將本文模型與EfficientNet-b0和EfficientNet_SA進行內部比較。TCGA收錄了包括胰腺癌病理圖像數據在內的各種人類癌癥的臨床數據,本文從中選取10張切片并由長海醫院經驗豐富的病理科醫生手動勾畫標記,得到各組織的圖像塊共計59 464張。TCGA作為外部獨立的驗證隊列,可有效驗證各網絡在外部數據集上的泛化能力和準確率。同時,本文也進一步對比了目前常用于醫學圖像分割任務的外部網絡,包括:ResNet、ResNext、DenseNet和RegNet,實驗結果如表5所示。本文模型幾乎在所有評估指標中都取得了最好的成績。與取得次優值的EfficientNet_SA相比,本文模型在測試集的micro-F1、macro-F1以及TCGA數據集的micro-F1、macro-F1分別提升了3.0%、2.8%、10.9%和10.6%,與EfficientNet-b0及其他外部網絡相比,提升則更為明顯,多任務網絡相比單任務網絡的優越性得到體現。雖然本文模型在單張WSI上的平均預測時間與最優值相差2.898 s,但相比性能上的巨大提升,這一微小差距可以接受。此外,為了評估模型的泛化性能,本文定義了平均性能損失,即在外部測試集(TCGA)上,相比于內部測試集上兩類F1指標下降的平均幅度。通過對比各網絡的表現,可以發現本文網絡在獨立驗證隊列上的性能指標下降幅度最小,micro-F1分數和macro-F1分數分別下降5.7%和5.6%,平均性能損失僅為5.7%,其他網絡的平均性能損失均超過10%。由此可以看出,本文網絡對不同掃描設備和染色程度的WSI的容忍度更高,魯棒性更強。

圖6展示了本文模型、EfficientNet_SA和EfficientNet-b0對獨立的胰腺癌WSI中八種組織的定性分割結果,進一步驗證了前文的結論。從圖中可以看出,EfficientNet_SA的分割效果要顯著優于EfficientNet-b0,但相比本文模型,其在腫瘤、腫瘤間質、血管、神經等組織上的表現較差。本文模型在八種組織的分割精度方面均取得了最優的結果,這得益于空間注意力機制的引入以及輔助任務對模型學習的約束和補充。總體而言,本文模型在八種組織的分割精度方面取得了較好的成績,并在外部數據上展現了更好的泛用性。

3 結論
本文提出的用于胰腺癌WSI多種組織分割的模型,以EfficientNet-b0為主干網絡,引入空間注意力機制改進其核心組件MBConv,提高模型對復雜背景和組織間空洞的抗干擾能力,同時構建分層共享的多任務結構,通過精心設計的輔助任務將WSI的另一分辨率數據和結直腸癌數據納入模型的學習樣本空間,促使模型在訓練過程中獲取更豐富和更一般性的特征。實驗結果表明,本文模型在有限的目標任務數據的基礎上,利用相關輔助任務的大量監督數據,實現準確的胰腺癌WSI多種組織分割,相比目前常用于組織病理圖像分割的網絡,本文模型在準確率和泛化性上有明顯優勢,在外部數據上依然保持了良好的性能,具有非常高的實際應用價值。
然而,這項研究也存在局限性:① 使模型工作在20倍分辨率下,仍需要付出昂貴的計算成本,未來的一種可行策略是采用一種多分辨率預測的方法,只有在更低的放大倍數下被識別為可疑的位置才會在20倍下進行驗證。② 輔助任務2使用的結直腸癌WSI數據仍然是一種較難獲取的數據,另一種可行思路是利用易獲取的自然圖像數據輔助醫學圖像分割任務,但目前尚沒有統一的方法和標準來判斷哪些自然圖像數據能夠提高醫學圖像分割和分類任務的性能,后續工作將針對上述局限性開展進一步的研究。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:高威:設計實驗,編寫代碼,分析數據,撰寫文章;蔣慧:收集數據,給予醫學專業相關的幫助;焦一平:指導實驗,對文章的知識性內容作批評型審閱;王向學:指導實驗,對文章的知識性內容作批評型審閱;徐軍:指導實驗,對文章的知識性內容作批評型審閱,獲取研究經費。
倫理聲明:本研究通過了中國人民解放軍海軍軍醫大學醫學研究倫理委員會的審批(批文編號:82003107)。