針對結腸息肉圖像分割時空間歸納偏差和全局上下文信息的有效表示缺失,導致邊緣細節信息丟失和病變區域誤分割等問題,提出一種融合Transformer和跨級相位感知的結腸息肉分割方法。該方法一是從變換的全局特征角度出發,運用分層Transformer編碼器逐層提取病變區域的語義信息和空間細節;二是通過相位感知融合模塊(PAFM)捕獲各階段跨層次交互信息,有效聚合多尺度上下文信息;三是設計位置導向功能模塊(POF)有效整合全局與局部特征信息,填補語義空白,抑制背景噪聲;四是利用殘差軸反向注意力模塊(RA-IA)來提升網絡對邊緣像素點的識別能力。在公共數據集CVC-ClinicDB、Kvasir、CVC-ColonDB和EITS上進行實驗測試,其Dice相似性系數分別為94.04%、92.04%、80.78%和76.80%,平均交并比分別為89.31%、86.81%、73.55%和69.10%。仿真實驗結果表明,本文提出的方法能有效地分割結腸息肉圖像,為結直腸息肉的診斷提供了新窗口。
引用本文: 梁禮明, 何安軍, 朱晨錕, 盛校棋. 融合Transformer和跨級相位感知的結腸息肉分割方法. 生物醫學工程學雜志, 2023, 40(2): 234-243. doi: 10.7507/1001-5515.202211067 復制
0 引言
結腸癌是世界上最常見和最致命的惡性腫瘤之一,其中腺癌性息肉是誘發結腸癌的關鍵因素之一。由于病變區域在形狀、大小和紋理上質地各異,當下結腸息肉專科醫生主要通過結腸鏡來定位結腸病變區域。因此,臨床上迫切需要一種能夠自動識別和準確分割的方法,以提升臨床醫生的診斷效率[1]。
目前針對結腸息肉的分割方法主要分為兩大類:① 基于區域生長、閾值圖像和主動輪廓模型等傳統分割方法[2-5];② 基于深度學習的方法[6]。由于結腸息肉與周圍組織對比度低,形狀結構復雜多變,傳統學習方法難以生成高精度的預測結果。近年來,許多基于卷積神經網絡(convolutional neural network,CNN)的結腸息肉分割方法被提出,CNN編碼器通過不斷堆疊卷積和下采樣操作逐步提取圖像的上下文信息,解碼器用于重構分割預測結果。Poudel等[7]首先通過聚合金字塔結構的U-Net編碼器來生成多尺度全局上下文依賴關系,然后利用注意力機制來校準編碼器中的全局信息,實現了細胞核和息肉的自動分割。最近,許多基于Transformer的網絡應用于視覺任務,以捕獲遠程依賴關系,獲得較高的預測分割結果。Dosovitskiy等[8]提出ViT,首次將Transformer結構應用于圖像分類任務。Chen等[9]結合Transformer和CNN的優點提出TransUNet,應用于多器官和心臟分割等不同的醫學領域,在實際的分割工作中取得較好的效果,但其計算量大,計算復雜度較高。Dong等[10]提出Polyp-PVT,該方法采用金字塔Transformer作為網絡編碼器進行特征提取,使模型能夠在不同的子空間中探索豐富的語義信息和空間細節,并設計相似性聚合模塊和級聯融合模塊進一步挖掘局部像素,在結腸息肉分割中獲得較好的分割結果。Gao等[11]提出一種有效的自注意力機制和相對位置編碼結構去捕獲不同尺度上的遠程依賴關系,并應用到編碼器解碼器網絡中,在多標簽、多供應商的心臟磁共振成像隊列中獲得較好的結果。上述方法主要是通過改進U-Net來提升結腸息肉的分割精度,但是單純地以CNN為基礎構成的U形網絡不足以學習全局語義信息和遠程語義信息,難以對特征信息進行長期交互。受到自然語言的啟發,將Tansformer結構應用于視覺領域,可以取得較好的效果,但僅利用Transformer結構在局部信息建模中易缺乏空間歸納偏差,導致捕捉細節能力受限。
針對上述方法的不足,本文提出一種融合Transformer和跨級相位感知的結腸息肉分割方法。該方法引用SegFormer網絡[12]中的分層編碼器重塑圖像結構,縮短遠距離特征間距,提取圖像的語義信息和空間細節。為了適應空間歸納偏差和全局上下文的有效表示,一是設計位置導向功能(position oriented function,POF)模塊來過濾背景噪聲,進行空間細節整合;二是引入相位感知融合模塊(phase-aware fusion module,PAFM),對不同階段特征圖賦予不同相位和振幅,并根據不同相位差和振幅進行智能融合;三是設計殘差軸反向注意力模塊(residual axis inverse attention module,RA-IA),利用軸向注意力機制對特征圖中相互依賴的局部細節進行強化,并用反向注意力機制提升網絡對邊緣像素的劃分能力。
1 算法描述
結腸息肉圖像中病灶區域形態結構復雜以及邊界模糊等復雜特性,導致在進行結腸息肉圖像分割時存在邊緣細節信息丟失和病灶區域錯分割的問題。為解決以上難點,本文提出一種融合Transformer和跨級相位感知(transformer and cross-level phase awareness fusion,TCPA-Net)的編解碼網絡用于結腸息肉分割,其結構如圖1所示。網絡主要包括4個模塊,即:Transformer編碼器、PAFM、POF和RA-IA。其中編碼器采用ADE20K[13]數據集上預訓練的MiT-B3網絡模型,有效建立遠距離特征依賴關系,提取結腸息肉圖像的空間細節和深層語義特征。PAFM通過為不同階段的特征圖賦予不同的相位和振幅,動態調制各特征圖間的權值關系,以自適應的方式進行特征加權融合。POF用于補充編碼部分淺層網絡與深層網絡之間的語義空白。RA-IA利用軸向注意力機制和反向注意力機制來提高模型的微觀表示和邊界信息的識別能力。

1.1 Mix Transformer
SegFormer是一個簡單而高效強大的語義分割框架,將Transformer和多層感知器編碼結合起來。與Vision Transformer(ViT)相比,它是一種新型的無位置編碼的分層Transformer編碼器。采用無位置編碼的方式,可以有效避免當測試分辨率與訓練分辨率不同而帶來的性能誤差。其次,分層Transformer編碼器能夠生成高分辨率精細特征和低分辨率的粗特征,而ViT結構生成的特征圖分辨率低且單一,易導致局部信息丟失。分層Transformer編碼器由高效自注意力(efficient self-attention)層、混合前饋網絡(mix feedforward network,Mix-FFN)層和重疊壓縮合并層(overlapped patch merging,OPM)構成。
自注意力層通過圖像形狀的重塑,縮短遠距離依賴特征間距,使網絡過濾非語義信息,捕捉圖像空間細節特征。其結構如圖2所示,自注意力模塊的輸入接受三個相同維度的輸入矩陣,即查詢矩陣Q、鍵矩陣K和值矩陣V。該自注意模塊計算式為:

![]() |
其中,注意力矩陣A中的行元素對應于Q中給定元素相對于K中所有元素的相似度;Q、K、V表示圖2中特征圖X的不同學習嵌入。位置編碼嵌入到輸入特征圖中可有效地捕獲息肉病變區域的相對位置和絕對位置。
位置編碼嵌入高效自注意層能有效地建立圖像上下文聯系。當測試分辨率與訓練分辨率不同時,圖像通過采樣的方式來保持分辨率一致,采樣操作會導致細節信息丟失,最終影響分割性能。為了抑制零填充對泄漏位置信息的影響,本文在高效注意力層后面引入混合前饋網絡。混合前饋網絡使用3 × 3的卷積為分層Transformer提供位置信息。其計算式為:
![]() |
其中, 表示高效自注意層的輸出;M表示多層感知器;GU表示GELU激活函數。Conv3×3表示3×3的標準卷積。
重疊壓縮合并層將給定輸入 的圖像轉化為
的圖像,用于改變圖像分辨率和通道數,保留穩定的空間細節特征,減少冗余信息。基于以上思想,Xie等[12]提出了6種不同的Mix Transformer編碼器,即MiT-B0到MiT-B5。6種Mix Transformer編碼器具有相同的架構,只是大小不同,綜合考量推理速度和測試精度,選用MiT-B3作為本文模型編碼器。
1.2 位置導向功能模塊
為了獲得強大語義結構信息的表示和實現良好空間細節信息整合。文獻[14]提出改進的DoubleUnet,在兩個子網絡的編解碼部分都引入SE注意力模塊,促使網絡為每個通道賦予不同的學習權重,以增強特征學習的表征能力。文獻[15]提出混合通道空間注意力模型,通過一系列的卷積、全局平均池化和全局最大池化等操作,聚焦特征圖的病變區域,從而提升模型微觀表達能力。本文提出POF通過跨通道交互的方式來挖掘不同特征圖之間的關鍵信息,并為之分配合適的學習權重。算法的偽代碼表示為:
Position Oriented Function Module Inputs: The input features map of the two branches features of and
, i = 2,3,4
Output: 1: = Interpolate(
,
)/*Matching the size of feature maps between
and
*/
2: = Add(
*
,
)/*Concatenate the feature map of
and
*/
3: = Conv3 × 3(
)/*3 × 3 convolution operation*/
4: = Avgpool(β)/*avg-pool*/
5: = Conv1d(
)/*1 × 1 convolution operation*/
6: (
)/*After sigmoid, the feature map becomes
7: =
*
+
/*The feature map of sigmoid is multiplied with
and then the original map add*/End
首先將來自PAFM編碼路徑的特征圖 進行采樣操作,使其大小與特征圖
相匹配,然后進行矩陣乘法,引入殘差結構來減少特征圖之間的語義空白。對疊加后的特征圖使用3 × 3的卷積操作,并對其全局平均池化,得到1 × 1 × C的權重值。考慮到全連接操作是捕獲所有通道之間的依賴關系,突顯出很高的復雜性,為了減少計算復雜度,本文設計一個一維卷積,該卷積只考慮每個通道的k個鄰近像素來探索特征圖之間的空間細節信息。接著使用Sigmoid函數將特征值壓縮到0~1,經過一維卷積處理后的特征圖與Sigmoid后的權重值相乘,最后使用1×1的標準卷積對病灶位置特征進行結構性補充。圖3為POF示意圖。POF具體表示為:

![]() |
![]() |
其中, 表示下采樣,
表示3 × 3的卷積,
元素乘法,
元素加法。
表示1 × 1的卷積;
表示卷積核大小為K的一維卷積,核大小可以自適應地設置
,
表示最近的奇數,C 表示
的通道數;
表示Sigmoid激活函數。
1.3 殘差軸反向注意力模塊
結腸息肉圖像病變區域與正常組織高度一致,容易導致邊緣像素點劃分不準確。為了挖掘邊緣信息,實現更加精準和完整的預測映射,Fan等[16]和Lou等[17]提出反向注意力模塊和軸向注意力模塊,有效地減少了目標邊緣像素點的誤分類。受到文獻[16-17]的啟發,結合反向注意力模塊和軸向注意力模塊的優點,文本引入RA-IA融合由粗網絡到精網絡的特征分布。圖4為RA-IA的實現過程,其頂部的輸入是來自POF的輸出特征圖。首先使用軸向注意力機制沿著高度和寬度軸分析顯著性信息,并引入殘差結構,加快網絡收斂速度和防止梯度消失,然后使用反向操作來檢測全局的顯著性特征,使用元素相乘的方式重新對息肉邊緣和位置信息進行信息校正。最后采用3 × 3卷積運算、BN和ReLU操作得到輪廓清晰、目標位置精準的特征圖。該模塊計算過程為:

![]() |
其中, 表示RA-IA輸出;
表示POF輸出;
表示3 × 3的標準卷積,
表示軸向注意力。
1.4 相位感知融合模塊
高分辨率特征圖包含豐富的空間細節特征,能精準定位息肉位置。低分辨率特征圖具有更加深層的語義信息,有利于識別息肉的外觀細節。為了更好地調整不同階段對目標區域權值的恢復以及減少由于采樣操作而產生的語義空白,本文引入PAFM[18],動態調制不同階段特征圖之間的關系,以更恰當的方式進行聚合。在PAFM中,每張特征圖被表示為具有振幅和相位信息的波,其波狀表達式為:
![]() |
其中,i滿足 ;
表示絕對值操作;
元素乘法;
表示振幅每個特征圖的實值特征;
是一個周期函數;
表示相位,即當前特征圖的位置;對于振幅和相位均可表示在復數域中。
當融合不同的特征圖信息時,相位項 會根據相位差賦予不同的權重值進行自適應聚合。假設特征圖g和特征圖h的波形表示為
和
,聚合的結果可表示為
,實驗中
和
設置均為1。其振幅
和相位
滿足的計算式如下:
![]() |
![]() |
其中, 表示雙參數的反正切函數。
相位表示:為了分別捕獲每個輸入的特定屬性,使用一個估計模塊Θ根據輸入特征生成相位信息,即
![]() |
其中,、
、
分別表示可學習參數。
振幅表示:為了更好地利用全局信息,采用點卷積操作為每個特征圖進行圖序列編碼。給定輸入 ,每個圖序列標記
都是一個 d 維向量。特征圖圖序列編碼可以表述為:
![]() |
其中, 表示可學習參數權重。
PAFM如圖5所示,采用波狀表示方法為每張特征圖賦予振幅和相位信息。由于每張特征圖都被賦予不同的振幅和相位信息,在進行特征圖融合時,會根據不同的相位差進行智能融合。PAFM具體操作為:對于給定輸入頻率 ,用信道全連接操作和相位估計模塊為每張特征圖分別生成振幅
和相位
。然后用式(6)展開波狀標記,用式(9)聚合輸出特征
,最后的模塊輸出是通過與另一個信道全連接操作來進一步轉換
,以提高特征信息的復用率。

2 實驗
本實驗采用的所有模型均在操作系統Ubuntu16.04(Canonical Inc.,美國)上進行;建模基于深度學習架構Pytorch 1.5(Facebook Inc.,美國)和計算統一設備架構CUDA 10.1(Nvidia Inc.,美國)。計算機具體配置:顯卡(Nvidia GeFore GTX2070 GPU,Nvidia Inc.,美國),中央處理器(Intel Core TM i7-6700H CPU,Inter Inc.,美國)。
2.1 數據集和實驗設置
為了驗證模型的適用性,采用4個公開的息肉圖像數據庫。包括CVC-ClinicDB[19]、Kvasir[20]、CVC-ColonDB[21]和EITS[22]。其中CVC-ClinicDB數據庫是由醫學圖像計算機與計算機輔助干預國際會議于2015年發布,Kvasir數據庫是由挪威奧斯陸大學醫院內窺鏡專家采集并標注,EITS數據庫是由MIC-CAI息肉挑戰賽于2017年發布,CVC-ColonDB數據庫是從美國國立大學梅奧診所結直腸鏡檢查中的15個簡短視頻中隨機抽取生成。實驗中訓練集由未經過任何數據增強隨機抽取的900張Kvasir圖像和550張CVC-ClinicDB圖像組成,測試集是由剩下100張Kvasir圖像、62張CVC-ClinicDB圖像和未可見數據集380張CVC-ColonDB圖像、196張EITS圖像組成。由于圖像分辨率大小不一,為了方便訓練和測試,本文將其調整為352 × 352。采用自適應矩估計優化器(adaptive moment estimation,Adam),損失函數采用二進制交叉熵損失函數和交并比損失函數為基礎的聯合損失,初始學習率設置為0.000 1,動量(momentum,Mom)設置為0.9,批量處理量設置為6,迭代次數設置為50,并使用多尺度訓練策略{0.75,1,1.25}。
2.2 評價指標
本文采用Dice相似性系數、平均交并比(mean intersection over union,MIoU)、召回率(sensitivity,SE)、精確率(precision,PC)、F2得分和平均絕對誤差(mean absolute error,MAE)來對結腸息肉的分割結果進行評估。其具體計算式分別為:
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
其中,X為預測輸出圖像,Y為專家標注的金標簽圖像,TP為預測結果中正確分類的前景像素數目,FN為預測結果中被錯誤分類為前景像素的數目,FP為預測結果中被錯誤分類為背景像素的數目,N為圖像中的像素點數。
2.3 實驗結果
2.3.1 不同方法對比
為了評估本文提出方法的分割性能,分別與U-Net、ResUnet[23]、PraNet、Polyp-PVT、SegFormer、SSFormer[24]方法進行對比,得到不同方法的各種量化指標,對比結果如表1所示,最優指標加粗表示。

表1給出了上述7種網絡在Kvasir、CVC-ClinicDB、CVC-ColonDB和EITS數據集上的量化指標,綜合對比可見本文網絡TCPA-Net分割性能較優。TCPA-Net在Kvasir、CVC-ClinicDB和CVC-ColonDB數據集上Dice、MIoU和PC指標中均最優,在EITS數據集上MIoU指標獲得最優,Dice和PC指標獲得次優結果,SE和F2指標均獲得較好的得分,相比于U-Net六個指標都有了較大的提升。TCPA-Net的MIoU分別為86.81%、89.31%、73.55%和69.10%,說明其預測分割結果更貼近真實標簽;精確度揭示了正確分類病變像素與正確和錯誤分類病變像素之間的比率關系,TCPA-Net的PC分別為94.92%、93.67%、84.32%和75.38%,說明它對結腸病變區域像素劃分能力最優。上述性能指標結果證明TCPA-Net相比其他網絡分割性能更優,泛化性能更好。
表2給出了上述7種網絡的模型參數性能,以Transformer為基礎框架構成的網絡SSFormer、SegFormer、Polyp-PVT和TCPA-Net在性能指標上明顯高于U-Net和ResUnet。在一定程度上,Transformer結構會提升網絡的參數量和降低推理速度。本文方法參數量為4.42 × 108,浮點運算為1.574 × 1011,單輪訓練時長為280 s,相比于ResUnet,參數量有一定提升,但計算復雜度卻大為降低,訓練一輪時長相接近。本文方法在考慮計算復雜度的同時也兼顧模型的訓練時間,其訓練時間和計算復雜度達到對比網絡的平均水平。

綜合表1和圖6~7可知,在四個數據集上基于Transformer結構的分割結果均優于基于CNN結構的U-Net和ResUNet,這是因為U-Net和ResUNet作為基礎卷積神經網絡對目標區域的特征重構能力不足,容易丟失空間細節特征。PraNet分割效果相對于U-Net和ResUNet更加精準,由于設計反向注意力機制來細化邊緣特征,提高了分割精度,但該網絡沒有充分利用上下文特征,導致分割結果出現漏缺現象。SegFormer和SSFormer使用Transformer結構來縮短遠距離特征間距,建立全局信息與局部信息的聯系,來緩解上下文特征信息缺失問題,但仍有分割不完全的現象。相比之下,Polyp-PVT在解碼部分設計相似性聚合模塊來探索低層次語義信息和深層次局部細節信息的高階關系,進一步優化了分割結果,但并沒有突出全局信息在網絡中的指導作用,在面臨結腸息肉邊緣模糊時,分割效果并不理想。本文提出的TCPA-Net網絡,一方面通過Transformer結構來建立短距離和遠距離的依賴關系,提取圖像的語義信息和空間細節;另一方面,利用RA-IA來增強目標的邊緣識別能力以及通過POF來進一步捕獲病變區域的位置信息,充分利用了全局信息與局部信息的關聯性,在努力分割不同尺度大小息肉的同時,可以避免誤分割以及息肉內部漏缺現象,得到更加貼近金標準的分割結果,并在分割性能上有了一定的優化。


2.3.2 與其他先進方法對比
為了驗證本文方法的優越性和泛化性,通過Dice和MIoU兩個指標將本文方法與近年先進方法[25-30]進行定量對比,結果如表3所示,其中最優值加粗表示。在CVC-ClinicDB、CVC-ColonDB和EITS數據集上,本文方法的Dice和MIoU最優。在Kvasir數據集上,本文方法的Dice和MIoU獲得次優的結果。總的來說,本文方法在四個數據集上均具有較好的分割性能。本文方法相比于文獻[28]提出的SANet有了較大的提升,后者主要是通過設計邊界分布生成模塊來聚合高級特征,生成邊界分布圖用于補充解碼器空間細節信息的丟失,并采用多尺度特征交互策略來改善不同大小的息肉分割。文獻[30]的ConvMLPSeg網絡以Conv-MLP作為網絡編碼器,使模型在不同的子空間中探索豐富的語義信息和空間細節并縮短遠程依賴關系,與之相比本文方法在CVC-ClinicDB、CVC-ColonDB和EITS數據集上的Dice和MIoU更具優勢。綜合分析對比在四個數據集上的結果顯示,本文提出的TCPA-Net整體較優,在抑制背景噪聲和預測分割方面更具優勢。

2.3.3 消融研究
為探究本文方法中各模塊對整體分割性能的影響,本文在Kvasir和EITS數據集上進行了消融研究。M1將分層Transformer編碼器和U型網絡結合,不添加任何模塊;M2在M1的基礎上添加PAFM;M3在M2的基礎上添加RA-IA;M4在M3的基礎上添加POF,即本文所提TCPA-Net方法。消融實驗結果如表4所示,最優值加粗表示。PAFM可互補高低層次特征圖的語義空白,有效聚合多尺度上下文信息,提升網絡MIoU值;POF和RA-IA對多尺度特征圖進行空間細節信息整合和邊緣像素點識別,提升了網絡的Dice,在提高精度的同時能進一步權衡SE和PC。消融實驗驗證了本文所提模塊的有效性和所提方法的合理性。

3 結論
本文提出融合Transformer和跨級相位感知網絡用于結腸息肉分割,有效地解決了結腸息肉分割中邊緣細節信息丟失和病變區域誤分割等問題。網絡首先利用分層Transformer編碼器對結腸息肉圖像進行粗粒度和細粒度特征提取,輸出豐富的多尺度特征圖。接著利用PAFM動態捕捉跨層次交互信息,減少不同階段特征圖的語義空白。其次,設計POF過濾背景噪聲,整合空間細節特征。最后,引入RA-IA提升網絡對邊緣像素點的識別能力,減少邊緣信息缺失的情況。在CVC-ClinicDB和Kvasir數據集上驗證其有效性,其SE分別為95.01%和91.13%,F2得分分別為94.53%和91.32%。結果表明,本文方法分割性能優于現有方法,對結腸息肉的診出具有一定的應用價值。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:梁禮明主要負責項目主持、平臺搭建、算法程序設計、協調溝通以及計劃安排;何安軍主要負責實驗流程、數據記錄與分析、論文編寫以及算法程序設計;朱晨錕和盛校棋主要負責提供實驗指導、數據分析指導以及論文審閱修訂。
0 引言
結腸癌是世界上最常見和最致命的惡性腫瘤之一,其中腺癌性息肉是誘發結腸癌的關鍵因素之一。由于病變區域在形狀、大小和紋理上質地各異,當下結腸息肉專科醫生主要通過結腸鏡來定位結腸病變區域。因此,臨床上迫切需要一種能夠自動識別和準確分割的方法,以提升臨床醫生的診斷效率[1]。
目前針對結腸息肉的分割方法主要分為兩大類:① 基于區域生長、閾值圖像和主動輪廓模型等傳統分割方法[2-5];② 基于深度學習的方法[6]。由于結腸息肉與周圍組織對比度低,形狀結構復雜多變,傳統學習方法難以生成高精度的預測結果。近年來,許多基于卷積神經網絡(convolutional neural network,CNN)的結腸息肉分割方法被提出,CNN編碼器通過不斷堆疊卷積和下采樣操作逐步提取圖像的上下文信息,解碼器用于重構分割預測結果。Poudel等[7]首先通過聚合金字塔結構的U-Net編碼器來生成多尺度全局上下文依賴關系,然后利用注意力機制來校準編碼器中的全局信息,實現了細胞核和息肉的自動分割。最近,許多基于Transformer的網絡應用于視覺任務,以捕獲遠程依賴關系,獲得較高的預測分割結果。Dosovitskiy等[8]提出ViT,首次將Transformer結構應用于圖像分類任務。Chen等[9]結合Transformer和CNN的優點提出TransUNet,應用于多器官和心臟分割等不同的醫學領域,在實際的分割工作中取得較好的效果,但其計算量大,計算復雜度較高。Dong等[10]提出Polyp-PVT,該方法采用金字塔Transformer作為網絡編碼器進行特征提取,使模型能夠在不同的子空間中探索豐富的語義信息和空間細節,并設計相似性聚合模塊和級聯融合模塊進一步挖掘局部像素,在結腸息肉分割中獲得較好的分割結果。Gao等[11]提出一種有效的自注意力機制和相對位置編碼結構去捕獲不同尺度上的遠程依賴關系,并應用到編碼器解碼器網絡中,在多標簽、多供應商的心臟磁共振成像隊列中獲得較好的結果。上述方法主要是通過改進U-Net來提升結腸息肉的分割精度,但是單純地以CNN為基礎構成的U形網絡不足以學習全局語義信息和遠程語義信息,難以對特征信息進行長期交互。受到自然語言的啟發,將Tansformer結構應用于視覺領域,可以取得較好的效果,但僅利用Transformer結構在局部信息建模中易缺乏空間歸納偏差,導致捕捉細節能力受限。
針對上述方法的不足,本文提出一種融合Transformer和跨級相位感知的結腸息肉分割方法。該方法引用SegFormer網絡[12]中的分層編碼器重塑圖像結構,縮短遠距離特征間距,提取圖像的語義信息和空間細節。為了適應空間歸納偏差和全局上下文的有效表示,一是設計位置導向功能(position oriented function,POF)模塊來過濾背景噪聲,進行空間細節整合;二是引入相位感知融合模塊(phase-aware fusion module,PAFM),對不同階段特征圖賦予不同相位和振幅,并根據不同相位差和振幅進行智能融合;三是設計殘差軸反向注意力模塊(residual axis inverse attention module,RA-IA),利用軸向注意力機制對特征圖中相互依賴的局部細節進行強化,并用反向注意力機制提升網絡對邊緣像素的劃分能力。
1 算法描述
結腸息肉圖像中病灶區域形態結構復雜以及邊界模糊等復雜特性,導致在進行結腸息肉圖像分割時存在邊緣細節信息丟失和病灶區域錯分割的問題。為解決以上難點,本文提出一種融合Transformer和跨級相位感知(transformer and cross-level phase awareness fusion,TCPA-Net)的編解碼網絡用于結腸息肉分割,其結構如圖1所示。網絡主要包括4個模塊,即:Transformer編碼器、PAFM、POF和RA-IA。其中編碼器采用ADE20K[13]數據集上預訓練的MiT-B3網絡模型,有效建立遠距離特征依賴關系,提取結腸息肉圖像的空間細節和深層語義特征。PAFM通過為不同階段的特征圖賦予不同的相位和振幅,動態調制各特征圖間的權值關系,以自適應的方式進行特征加權融合。POF用于補充編碼部分淺層網絡與深層網絡之間的語義空白。RA-IA利用軸向注意力機制和反向注意力機制來提高模型的微觀表示和邊界信息的識別能力。

1.1 Mix Transformer
SegFormer是一個簡單而高效強大的語義分割框架,將Transformer和多層感知器編碼結合起來。與Vision Transformer(ViT)相比,它是一種新型的無位置編碼的分層Transformer編碼器。采用無位置編碼的方式,可以有效避免當測試分辨率與訓練分辨率不同而帶來的性能誤差。其次,分層Transformer編碼器能夠生成高分辨率精細特征和低分辨率的粗特征,而ViT結構生成的特征圖分辨率低且單一,易導致局部信息丟失。分層Transformer編碼器由高效自注意力(efficient self-attention)層、混合前饋網絡(mix feedforward network,Mix-FFN)層和重疊壓縮合并層(overlapped patch merging,OPM)構成。
自注意力層通過圖像形狀的重塑,縮短遠距離依賴特征間距,使網絡過濾非語義信息,捕捉圖像空間細節特征。其結構如圖2所示,自注意力模塊的輸入接受三個相同維度的輸入矩陣,即查詢矩陣Q、鍵矩陣K和值矩陣V。該自注意模塊計算式為:

![]() |
其中,注意力矩陣A中的行元素對應于Q中給定元素相對于K中所有元素的相似度;Q、K、V表示圖2中特征圖X的不同學習嵌入。位置編碼嵌入到輸入特征圖中可有效地捕獲息肉病變區域的相對位置和絕對位置。
位置編碼嵌入高效自注意層能有效地建立圖像上下文聯系。當測試分辨率與訓練分辨率不同時,圖像通過采樣的方式來保持分辨率一致,采樣操作會導致細節信息丟失,最終影響分割性能。為了抑制零填充對泄漏位置信息的影響,本文在高效注意力層后面引入混合前饋網絡。混合前饋網絡使用3 × 3的卷積為分層Transformer提供位置信息。其計算式為:
![]() |
其中, 表示高效自注意層的輸出;M表示多層感知器;GU表示GELU激活函數。Conv3×3表示3×3的標準卷積。
重疊壓縮合并層將給定輸入 的圖像轉化為
的圖像,用于改變圖像分辨率和通道數,保留穩定的空間細節特征,減少冗余信息。基于以上思想,Xie等[12]提出了6種不同的Mix Transformer編碼器,即MiT-B0到MiT-B5。6種Mix Transformer編碼器具有相同的架構,只是大小不同,綜合考量推理速度和測試精度,選用MiT-B3作為本文模型編碼器。
1.2 位置導向功能模塊
為了獲得強大語義結構信息的表示和實現良好空間細節信息整合。文獻[14]提出改進的DoubleUnet,在兩個子網絡的編解碼部分都引入SE注意力模塊,促使網絡為每個通道賦予不同的學習權重,以增強特征學習的表征能力。文獻[15]提出混合通道空間注意力模型,通過一系列的卷積、全局平均池化和全局最大池化等操作,聚焦特征圖的病變區域,從而提升模型微觀表達能力。本文提出POF通過跨通道交互的方式來挖掘不同特征圖之間的關鍵信息,并為之分配合適的學習權重。算法的偽代碼表示為:
Position Oriented Function Module Inputs: The input features map of the two branches features of and
, i = 2,3,4
Output: 1: = Interpolate(
,
)/*Matching the size of feature maps between
and
*/
2: = Add(
*
,
)/*Concatenate the feature map of
and
*/
3: = Conv3 × 3(
)/*3 × 3 convolution operation*/
4: = Avgpool(β)/*avg-pool*/
5: = Conv1d(
)/*1 × 1 convolution operation*/
6: (
)/*After sigmoid, the feature map becomes
7: =
*
+
/*The feature map of sigmoid is multiplied with
and then the original map add*/End
首先將來自PAFM編碼路徑的特征圖 進行采樣操作,使其大小與特征圖
相匹配,然后進行矩陣乘法,引入殘差結構來減少特征圖之間的語義空白。對疊加后的特征圖使用3 × 3的卷積操作,并對其全局平均池化,得到1 × 1 × C的權重值。考慮到全連接操作是捕獲所有通道之間的依賴關系,突顯出很高的復雜性,為了減少計算復雜度,本文設計一個一維卷積,該卷積只考慮每個通道的k個鄰近像素來探索特征圖之間的空間細節信息。接著使用Sigmoid函數將特征值壓縮到0~1,經過一維卷積處理后的特征圖與Sigmoid后的權重值相乘,最后使用1×1的標準卷積對病灶位置特征進行結構性補充。圖3為POF示意圖。POF具體表示為:

![]() |
![]() |
其中, 表示下采樣,
表示3 × 3的卷積,
元素乘法,
元素加法。
表示1 × 1的卷積;
表示卷積核大小為K的一維卷積,核大小可以自適應地設置
,
表示最近的奇數,C 表示
的通道數;
表示Sigmoid激活函數。
1.3 殘差軸反向注意力模塊
結腸息肉圖像病變區域與正常組織高度一致,容易導致邊緣像素點劃分不準確。為了挖掘邊緣信息,實現更加精準和完整的預測映射,Fan等[16]和Lou等[17]提出反向注意力模塊和軸向注意力模塊,有效地減少了目標邊緣像素點的誤分類。受到文獻[16-17]的啟發,結合反向注意力模塊和軸向注意力模塊的優點,文本引入RA-IA融合由粗網絡到精網絡的特征分布。圖4為RA-IA的實現過程,其頂部的輸入是來自POF的輸出特征圖。首先使用軸向注意力機制沿著高度和寬度軸分析顯著性信息,并引入殘差結構,加快網絡收斂速度和防止梯度消失,然后使用反向操作來檢測全局的顯著性特征,使用元素相乘的方式重新對息肉邊緣和位置信息進行信息校正。最后采用3 × 3卷積運算、BN和ReLU操作得到輪廓清晰、目標位置精準的特征圖。該模塊計算過程為:

![]() |
其中, 表示RA-IA輸出;
表示POF輸出;
表示3 × 3的標準卷積,
表示軸向注意力。
1.4 相位感知融合模塊
高分辨率特征圖包含豐富的空間細節特征,能精準定位息肉位置。低分辨率特征圖具有更加深層的語義信息,有利于識別息肉的外觀細節。為了更好地調整不同階段對目標區域權值的恢復以及減少由于采樣操作而產生的語義空白,本文引入PAFM[18],動態調制不同階段特征圖之間的關系,以更恰當的方式進行聚合。在PAFM中,每張特征圖被表示為具有振幅和相位信息的波,其波狀表達式為:
![]() |
其中,i滿足 ;
表示絕對值操作;
元素乘法;
表示振幅每個特征圖的實值特征;
是一個周期函數;
表示相位,即當前特征圖的位置;對于振幅和相位均可表示在復數域中。
當融合不同的特征圖信息時,相位項 會根據相位差賦予不同的權重值進行自適應聚合。假設特征圖g和特征圖h的波形表示為
和
,聚合的結果可表示為
,實驗中
和
設置均為1。其振幅
和相位
滿足的計算式如下:
![]() |
![]() |
其中, 表示雙參數的反正切函數。
相位表示:為了分別捕獲每個輸入的特定屬性,使用一個估計模塊Θ根據輸入特征生成相位信息,即
![]() |
其中,、
、
分別表示可學習參數。
振幅表示:為了更好地利用全局信息,采用點卷積操作為每個特征圖進行圖序列編碼。給定輸入 ,每個圖序列標記
都是一個 d 維向量。特征圖圖序列編碼可以表述為:
![]() |
其中, 表示可學習參數權重。
PAFM如圖5所示,采用波狀表示方法為每張特征圖賦予振幅和相位信息。由于每張特征圖都被賦予不同的振幅和相位信息,在進行特征圖融合時,會根據不同的相位差進行智能融合。PAFM具體操作為:對于給定輸入頻率 ,用信道全連接操作和相位估計模塊為每張特征圖分別生成振幅
和相位
。然后用式(6)展開波狀標記,用式(9)聚合輸出特征
,最后的模塊輸出是通過與另一個信道全連接操作來進一步轉換
,以提高特征信息的復用率。

2 實驗
本實驗采用的所有模型均在操作系統Ubuntu16.04(Canonical Inc.,美國)上進行;建模基于深度學習架構Pytorch 1.5(Facebook Inc.,美國)和計算統一設備架構CUDA 10.1(Nvidia Inc.,美國)。計算機具體配置:顯卡(Nvidia GeFore GTX2070 GPU,Nvidia Inc.,美國),中央處理器(Intel Core TM i7-6700H CPU,Inter Inc.,美國)。
2.1 數據集和實驗設置
為了驗證模型的適用性,采用4個公開的息肉圖像數據庫。包括CVC-ClinicDB[19]、Kvasir[20]、CVC-ColonDB[21]和EITS[22]。其中CVC-ClinicDB數據庫是由醫學圖像計算機與計算機輔助干預國際會議于2015年發布,Kvasir數據庫是由挪威奧斯陸大學醫院內窺鏡專家采集并標注,EITS數據庫是由MIC-CAI息肉挑戰賽于2017年發布,CVC-ColonDB數據庫是從美國國立大學梅奧診所結直腸鏡檢查中的15個簡短視頻中隨機抽取生成。實驗中訓練集由未經過任何數據增強隨機抽取的900張Kvasir圖像和550張CVC-ClinicDB圖像組成,測試集是由剩下100張Kvasir圖像、62張CVC-ClinicDB圖像和未可見數據集380張CVC-ColonDB圖像、196張EITS圖像組成。由于圖像分辨率大小不一,為了方便訓練和測試,本文將其調整為352 × 352。采用自適應矩估計優化器(adaptive moment estimation,Adam),損失函數采用二進制交叉熵損失函數和交并比損失函數為基礎的聯合損失,初始學習率設置為0.000 1,動量(momentum,Mom)設置為0.9,批量處理量設置為6,迭代次數設置為50,并使用多尺度訓練策略{0.75,1,1.25}。
2.2 評價指標
本文采用Dice相似性系數、平均交并比(mean intersection over union,MIoU)、召回率(sensitivity,SE)、精確率(precision,PC)、F2得分和平均絕對誤差(mean absolute error,MAE)來對結腸息肉的分割結果進行評估。其具體計算式分別為:
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
其中,X為預測輸出圖像,Y為專家標注的金標簽圖像,TP為預測結果中正確分類的前景像素數目,FN為預測結果中被錯誤分類為前景像素的數目,FP為預測結果中被錯誤分類為背景像素的數目,N為圖像中的像素點數。
2.3 實驗結果
2.3.1 不同方法對比
為了評估本文提出方法的分割性能,分別與U-Net、ResUnet[23]、PraNet、Polyp-PVT、SegFormer、SSFormer[24]方法進行對比,得到不同方法的各種量化指標,對比結果如表1所示,最優指標加粗表示。

表1給出了上述7種網絡在Kvasir、CVC-ClinicDB、CVC-ColonDB和EITS數據集上的量化指標,綜合對比可見本文網絡TCPA-Net分割性能較優。TCPA-Net在Kvasir、CVC-ClinicDB和CVC-ColonDB數據集上Dice、MIoU和PC指標中均最優,在EITS數據集上MIoU指標獲得最優,Dice和PC指標獲得次優結果,SE和F2指標均獲得較好的得分,相比于U-Net六個指標都有了較大的提升。TCPA-Net的MIoU分別為86.81%、89.31%、73.55%和69.10%,說明其預測分割結果更貼近真實標簽;精確度揭示了正確分類病變像素與正確和錯誤分類病變像素之間的比率關系,TCPA-Net的PC分別為94.92%、93.67%、84.32%和75.38%,說明它對結腸病變區域像素劃分能力最優。上述性能指標結果證明TCPA-Net相比其他網絡分割性能更優,泛化性能更好。
表2給出了上述7種網絡的模型參數性能,以Transformer為基礎框架構成的網絡SSFormer、SegFormer、Polyp-PVT和TCPA-Net在性能指標上明顯高于U-Net和ResUnet。在一定程度上,Transformer結構會提升網絡的參數量和降低推理速度。本文方法參數量為4.42 × 108,浮點運算為1.574 × 1011,單輪訓練時長為280 s,相比于ResUnet,參數量有一定提升,但計算復雜度卻大為降低,訓練一輪時長相接近。本文方法在考慮計算復雜度的同時也兼顧模型的訓練時間,其訓練時間和計算復雜度達到對比網絡的平均水平。

綜合表1和圖6~7可知,在四個數據集上基于Transformer結構的分割結果均優于基于CNN結構的U-Net和ResUNet,這是因為U-Net和ResUNet作為基礎卷積神經網絡對目標區域的特征重構能力不足,容易丟失空間細節特征。PraNet分割效果相對于U-Net和ResUNet更加精準,由于設計反向注意力機制來細化邊緣特征,提高了分割精度,但該網絡沒有充分利用上下文特征,導致分割結果出現漏缺現象。SegFormer和SSFormer使用Transformer結構來縮短遠距離特征間距,建立全局信息與局部信息的聯系,來緩解上下文特征信息缺失問題,但仍有分割不完全的現象。相比之下,Polyp-PVT在解碼部分設計相似性聚合模塊來探索低層次語義信息和深層次局部細節信息的高階關系,進一步優化了分割結果,但并沒有突出全局信息在網絡中的指導作用,在面臨結腸息肉邊緣模糊時,分割效果并不理想。本文提出的TCPA-Net網絡,一方面通過Transformer結構來建立短距離和遠距離的依賴關系,提取圖像的語義信息和空間細節;另一方面,利用RA-IA來增強目標的邊緣識別能力以及通過POF來進一步捕獲病變區域的位置信息,充分利用了全局信息與局部信息的關聯性,在努力分割不同尺度大小息肉的同時,可以避免誤分割以及息肉內部漏缺現象,得到更加貼近金標準的分割結果,并在分割性能上有了一定的優化。


2.3.2 與其他先進方法對比
為了驗證本文方法的優越性和泛化性,通過Dice和MIoU兩個指標將本文方法與近年先進方法[25-30]進行定量對比,結果如表3所示,其中最優值加粗表示。在CVC-ClinicDB、CVC-ColonDB和EITS數據集上,本文方法的Dice和MIoU最優。在Kvasir數據集上,本文方法的Dice和MIoU獲得次優的結果。總的來說,本文方法在四個數據集上均具有較好的分割性能。本文方法相比于文獻[28]提出的SANet有了較大的提升,后者主要是通過設計邊界分布生成模塊來聚合高級特征,生成邊界分布圖用于補充解碼器空間細節信息的丟失,并采用多尺度特征交互策略來改善不同大小的息肉分割。文獻[30]的ConvMLPSeg網絡以Conv-MLP作為網絡編碼器,使模型在不同的子空間中探索豐富的語義信息和空間細節并縮短遠程依賴關系,與之相比本文方法在CVC-ClinicDB、CVC-ColonDB和EITS數據集上的Dice和MIoU更具優勢。綜合分析對比在四個數據集上的結果顯示,本文提出的TCPA-Net整體較優,在抑制背景噪聲和預測分割方面更具優勢。

2.3.3 消融研究
為探究本文方法中各模塊對整體分割性能的影響,本文在Kvasir和EITS數據集上進行了消融研究。M1將分層Transformer編碼器和U型網絡結合,不添加任何模塊;M2在M1的基礎上添加PAFM;M3在M2的基礎上添加RA-IA;M4在M3的基礎上添加POF,即本文所提TCPA-Net方法。消融實驗結果如表4所示,最優值加粗表示。PAFM可互補高低層次特征圖的語義空白,有效聚合多尺度上下文信息,提升網絡MIoU值;POF和RA-IA對多尺度特征圖進行空間細節信息整合和邊緣像素點識別,提升了網絡的Dice,在提高精度的同時能進一步權衡SE和PC。消融實驗驗證了本文所提模塊的有效性和所提方法的合理性。

3 結論
本文提出融合Transformer和跨級相位感知網絡用于結腸息肉分割,有效地解決了結腸息肉分割中邊緣細節信息丟失和病變區域誤分割等問題。網絡首先利用分層Transformer編碼器對結腸息肉圖像進行粗粒度和細粒度特征提取,輸出豐富的多尺度特征圖。接著利用PAFM動態捕捉跨層次交互信息,減少不同階段特征圖的語義空白。其次,設計POF過濾背景噪聲,整合空間細節特征。最后,引入RA-IA提升網絡對邊緣像素點的識別能力,減少邊緣信息缺失的情況。在CVC-ClinicDB和Kvasir數據集上驗證其有效性,其SE分別為95.01%和91.13%,F2得分分別為94.53%和91.32%。結果表明,本文方法分割性能優于現有方法,對結腸息肉的診出具有一定的應用價值。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:梁禮明主要負責項目主持、平臺搭建、算法程序設計、協調溝通以及計劃安排;何安軍主要負責實驗流程、數據記錄與分析、論文編寫以及算法程序設計;朱晨錕和盛校棋主要負責提供實驗指導、數據分析指導以及論文審閱修訂。