皮膚惡性黑色素瘤是一種常見的惡性腫瘤,針對病灶區域進行準確的分割對于該病的早期診斷非常重要。為了實現對皮膚病灶區域進行更有效、準確的分割,本文提出了一種基于變換器(Transformer)的并聯網絡結構。該網絡由兩條并聯支路構成:前者為本文新構建的多重殘差頻域通道注意網絡(MFC),后者為視覺變換網絡(ViT)。首先,在MFC網絡支路中,本文將多重殘差模塊和頻域通道注意力模塊(FCA)進行融合,在提高網絡魯棒性的同時加強對圖像細節特征的提取;其次,在ViT網絡支路中采用Transformer中的多頭自注意機制(MSA)使圖像的全局特征得以保留;最后,通過并聯的方式將兩條支路提取的特征信息結合起來,更有效地實現對圖像的分割。為了驗證本文算法,本文在國際皮膚成像合作組織(ISIC)2018年所公開的皮膚鏡圖像數據集上進行實驗,結果表明本文算法的分割結果中交并比(IoU)和戴斯(Dice)系數分別達到了90.15%和94.82%,相比于最新的皮膚黑色素瘤分割網絡均有較好的提升。因此,本文提出的網絡能夠更好地對病灶區域進行分割,為皮膚科醫生提供更準確的病灶數據。
引用本文: 易三莉, 張罡, 賀建峰. 基于變換器的并聯網絡在皮膚黑色素瘤分割中的應用. 生物醫學工程學雜志, 2022, 39(5): 937-944, 957. doi: 10.7507/1001-5515.202110073 復制
引言
皮膚癌中的黑色素瘤是目前世界上發病率增長最快的癌癥之一[1]。研究表明,如果早期能及時發現黑色素瘤并對病灶區域進行精準判斷,便可通過手術進行切除治療,從而提高患者生存率。然而,當醫生通過肉眼來觀察皮膚鏡圖像中的病癥區域時,要求醫生具有高水平的專業知識和豐富的經驗。因此在實際的臨床中,在皮膚鏡圖像上對各種皮膚病變區域進行分割是一項具有挑戰性的任務。
近年來,運用計算機輔助診斷技術對皮膚的病灶區進行分割,有效地減輕了皮膚科醫生的工作時間和工作強度[2-5]。其中,深度學習技術是計算機輔助診斷中最受關注的方法,隨著此技術的發展,其算法的結構及功能都取得了較大的進展[6-7]。在結構上,早期的卷積神經網絡(convolutional neural networks,CNN)采用的是逐層處理、單一路徑的網絡結構,通過逐層地對圖像進行卷積、激活和池化達到對其特征的學習。Long等[8]提出的全卷積神經網絡(full convolutional neural networks,FCN),采用反卷積層對最后一層的特征圖進行上采樣,使它恢復到與輸入圖像相同的尺寸,從而實現圖像分割的任務。然而,由于該網絡使用的單路徑結構對圖像特征的提取不夠充分,因此Szegedy等[9]提出了谷歌網絡(google network,GoogleNet),采用并聯結構增加網絡的寬度使其能學習到更多的特征,增強了網絡的表達能力。隨后,Ronneberger等[10]提出了一種“U”型網絡(U-Net)并將其用于醫學圖像分割,它由編碼器和解碼器組成,通過增加跳躍連接使網絡的細節特征得到保留,有效地解決了高層語義特征丟失問題。近來,Valanarasu等[11]提出的復合型并聯結構,在總體上采用類似于GoogleNet模型的并聯結構,將網絡分為兩個并聯的分支,但其分支不再是簡單的卷積操作而是由功能完善的網絡模型構成。
與其他機器學習方法相比,深度學習具有顯著的模塊化特點。近年來,隨著各種新的功能模塊的提出[12-15],深度學習算法的性能更加完善。如He等[16]提出的殘差模塊能較好地解決深層次網絡中梯度消失的問題從而提高網絡對特征的捕獲能力。Ibtehaz等[17]在其基礎上提出多重殘差模塊,在不受網絡深度影響的前提下利用多重卷積提取了更多的特征。Qin等[18]提出的頻域通道注意力(frequency channel attention,FCA)模塊從頻域方面入手,進一步提升了CNN提取圖像特征的能力,但并沒有解決其提取全局特征信息能力較差的問題。Vaswani等[19]提出了變換器(Transformer)的概念,其中包含的多頭自注意機制(multiple head self-attention,MSA)因能夠較好地解決上述問題而受到廣泛關注。隨后Dosovitskiy等[20]將Transformer引入計算機視覺領域中,提出了視覺變換網絡(vision transformer network,ViT)并取得了較好的效果。該網絡能夠較好地提取全局特征信息,但在細節特征信息的提取方面卻不如CNN。
基于神經網絡在結構及功能上的進展,本文提出了一種能夠更好地提取圖像信息的新算法:多重殘差FCA(multiple residual frequency channel attention,MFC)-ViT(MFC-ViT),并將它應用于皮膚黑色素瘤的分割研究。該算法采用并聯結構,通過兩個分支從不同的角度提取圖像特征:首先,MFC網絡分支用于提取圖像的細節特征,該網絡在U-Net結構的基礎上結合了多重殘差模塊和FCA模塊,能夠有效提高網絡的魯棒性以及圖像特征的提取能力;其次,ViT網絡分支用于提取圖像的全局特征,該分支采用Transformer中的多頭自注意機制使圖像的全局特征信息得以保留;最后,本文將兩個分支所得到的特征信息結合起來,實現對皮膚病變區域進行更準確地分割,以期該算法能有效解決皮膚黑色素瘤分割精度低、難度大等問題,為醫生更好地對黑色素瘤進行診斷提供準確的病灶區域奠定理論基礎。
1 算法理論
1.1 算法結構
皮膚的病變區域由于存在易受毛發遮擋、病變區邊緣模糊等問題,而難以對這些區域實現精準分割。針對這些問題,本文提出了MFC-ViT算法,該算法采用雙支路的并聯結構,分別提取圖像的細節特征和全局特征,并將它們進行結合以達到對皮膚病變區域的精準分割,具體結構如圖1所示。

由圖1可知,此模型由兩個并聯分支組成,分別為MFC網絡分支和ViT網絡分支。這兩個分支的輸入都是從一個初始的卷積塊中提取特征向量,然后將其送入各分支中進行訓練。其中MFC網絡分支用于提取圖像的細節特征,ViT網絡分支用于提取圖像的全局特征。最后將兩個分支提取到的特征結合并對其進行降維,得到最終的分割圖像。各分支結構及功能如下文所述。
1.2 MFC網絡分支
本文所提出的MFC網絡分支在U-Net結構的基礎上,在其編碼塊和解碼塊中分別引入多重殘差模塊和FCA模塊,提高網絡的魯棒性及其圖像特征的提取能力,并通過上采樣、反卷積等操作對圖像尺寸進行恢復,達到分割要求,其具體結構如圖2所示。

圖2中,MFC網絡分支分為編碼階段和解碼階段。在編碼階段,每一級都運用多重殘差模塊,通過對輸入圖像進行多次堆疊,并與初始圖像拼接,通過數量的累積達到類似于大卷積核的效果。同時運用殘差結構提高網絡的魯棒性,有效防止了由于網絡深度而引起的梯度消失問題。在解碼階段引入了FCA模塊提取頻域信息,使得到的拼接圖像不僅完成淺層特征與深層特征的交互,還包含相關的頻域特征,有效地提升了細節特征的提取能力。
1.2.1 多重殘差模塊
根據上文所述,本文在MFC網絡分支中采用多重殘差模塊,具體結構如圖3所示。

圖3中,多重殘差模塊由卷積操作、歸一化處理和激活函數組成[17]。不同于其他的功能模塊,該模塊秉承了一種雙向優化的原則:一方面,通過堆疊多個3 × 3的小卷積核以達到與大卷積核相似的感受野,提取不同尺度的特征信息;另一方面,這些3 × 3和1 × 1卷積核在避免參數過大以及內存過載問題的同時,也便于融合多層次的特征信息,提升分割效果。
1.2.2 FCA模塊
注意力機制是一種能夠強化重要信息抑制非重要信息的方法,本文采用FCA模塊,通過融合多個頻域分量提升網絡的特征提取能力,具體流程如圖4所示。

由圖4可知,FCA模塊在Hu等[21]提出的壓縮激勵(squeeze-excitation,SE)模塊的基礎上,從頻域出發,使用離散余弦變換(discrete cosine transform,DCT)(以符號DCT表示)對相關頻域進行處理,通過融合多個頻域分量加強對特征的提取。具體操作流程為:首先將輸入按其通道維度劃分為n部分
,C′ = C/n,H、W為原始圖像的分辨率,C為通道數。為每個部分分配相應的二維(two dimensional,2D)(以符號2D表示)離散余弦變換頻域分量,如式(1)所示:
![]() |
即為Xi對應的第i個頻域分量。其中,B為Xi經過DCT變換所得的頻域特征圖。[ui, vi]為相應的頻域分量指標。對于這兩個超參數u和v,本文采用Qin等[18]經過實驗后的最優參數進行計算。
接著計算各頻域分量的權重系數并將其進行拼接(concatenation,cat),如式(2)和式(3)所示:
![]() |
![]() |
其中,f_atti為Freqi對應的權重系數,f_att是將所有權重系數拼接后的組合。cat為拼接操作,fc是全連接層,S型生長曲線(sigmoid)為常用激活函數。
最后,將計算出的每個頻域分量的權重系數與通道逐個進行加權,完成對之前特征向量的重構,得到新的特征圖 ,如式(4)所示:
![]() |
其中,X為最初的輸入圖像,Xi是將X按照通道維度劃分后的第i個分量。Fscale(·)為逐通道加權操作。
1.3 ViT網絡分支
ViT網絡分支結構如圖1所示,由編碼塊和解碼塊組成。編碼塊中采用Transformer編碼結構,通過“把圖像看作文本,像素塊看成單詞”的方式,使ViT網絡分支能夠更好地提取圖像的全局信息,彌補了MFC網絡分支在此方面的不足。解碼塊中運用卷積塊操作減少計算負荷并恢復圖像的尺寸。Transformer編碼結構如圖5所示。

根據圖5可知,Transformer編碼結構主要包括三個組成部分:補丁嵌入、多頭自注意機制和多層感知機(multiple layer perceptron,MLP)。輸入圖像首先通過補丁嵌入操作,將圖像分為大小相同的圖像塊并對其位置信息進行嵌入,隨后輸入到由多頭自注意機制和多層感知機組成的編碼塊中進行訓練。
首先,對輸入圖像進行補丁嵌入。將大小為H × W × C的輸入圖像轉變為N個P × P × C的圖像塊。其中(H,W)為原始圖像的分辨率,C為通道數,(P,P)為每個圖像塊的分辨率,N = H × W/P × P為生成的圖像塊數,也作為Transformer的輸入序列長度。出于對內存空間和實驗數據的考慮,在此本文將P的大小設置為32 × 32分辨率,通過較小的圖像塊學習細微的特征表示。由于Transformer在其所有層中都使用維度為D的向量,因此對圖像塊進行壓縮,并通過一個可迭代的線性投影映射到D維空間中。同時為了對圖像塊的序列信息進行編碼,在圖像塊中嵌入特定的位置信息,如式(5)所示:
![]() |
其中,Z0為補丁嵌入后的第0層特征信息。E ∈ 為圖像塊的嵌入投影,Xip為輸入圖像劃分后的第i個圖像塊,位置編碼Epos ∈
是在正態分布中隨機選取的一個可學習的變量,在輸出時可通過其選擇正確的通道位置。
然后,將通過補丁嵌入處理后的數據序列輸入編碼塊中。其結構如圖5所示,由多頭自注意機制和多層感知機交替組成,在每個模塊前進行特征逐層歸一化(layer-norm,LN)并通過殘差結構連接。這種結構設計能讓注意力機制去優化每個序列的不同特征部分,從而均衡同一種注意力機制可能產生的偏差,讓特征擁有更多元的表達。第N層的輸出可以寫成如式(6)、式(7)所示:
![]() |
![]() |
其中,Zn為編碼后的特征信息,Zn’為多頭自注意機制所提取的特征信息,Zn-1為第n-1層所輸出的特征信息,MSA(·)和MLP(·)為多頭自注意機制和多層感知機的相關操作,LN(·)為逐層歸一化操作。最后,在解碼階段通過卷積對輸出圖像的尺寸進行恢復,達到分割要求。
2 實驗
本文的實驗工具為Python 3.8 (Centrum Wiskunde&Informatica,荷蘭)中的PyTorch 1.5,編譯環境搭建在64位Windows 10操作系統上,圖形處理器(graphics processing unit,GPU)為2 060,內存6 GB。PyTorch (Facebook Inc.,美國)是一個高度開源的深度學習庫,它可以利用諸如GPU等并行結構優化深度學習模型,本文使用端對端開源機器學習平臺PyTorch (Facebook Inc.,美國)作后端搭建模型。
2.1 數據集和實驗設置
為了驗證模型的適用性,本文將國際皮膚成像合作組織( International Skin Imaging Collaboration,ISIC)中2016年(ISIC 2016)和2018年(ISIC 2018)的皮膚病變分割數據集(網址:https://www.isic-archive.com/#!/onlyHeaderTop/gallery)作為數據來源進行實驗。這些數據集的收集來自各種不同的醫療中心,由該組織所制作。其中,ISIC 2018包含2 594張和900張的皮膚境圖像作為訓練集和測試集;ISIC 2016包括1000張和379張的圖像作為訓練集和測試集。數據集中的每張圖片是在專業醫生的監督下對擁有黑色素瘤的病灶區進行了手動分割,并形成了二值圖像的金標準。由于圖像大小不一且灰度范圍不一致,出于對內存空間和訓練速度等問題的考慮,本文將數據集中的圖像裁剪成224 × 224的像素大小,并進行灰度歸一化等預處理。
本文采用隨機梯度下降(stochastic gradient descent,SGD)優化器更新參數,學習率為0.01,并采用二分類交叉熵(binary cross entropy,BCE)作為損失函數,訓練50次,訓練批次大小(batchsize)為8。
2.2 評價指標
本文采用準確率(accuracy)、交并比(intersection-over-union,IoU)、敏感度(sensitivity)和戴斯(Dice)系數來對皮膚病灶區的分割結果進行評估,其計算公式如式(8)~式(11)所示:
![]() |
![]() |
![]() |
![]() |
其中,真陽性(true positive,TP)表示分割算法將醫生手工標注的病灶區域正確分割,假陰性(false negative,FN)表示分割算法將醫生手工標注的病灶區域錯誤分割為非病灶區域,真陰性(true negative,TN)表示分割算法將非病灶區域正確分割為非病灶區域,假陽性(false positive,FP)表示分割算法將非病灶區域錯誤分割為醫生手工標注的病灶區域。
2.3 實驗結果
2.3.1 ISIC 2018數據集結果
為了驗證本文提出算法的性能,本文在ISIC 2018數據集上,分別將本文算法與常用的醫學圖像分割算法[10, 13, 22]以及目前最新的圖像分割算法[11, 23-25]進行對比,并以算法分割結果和金標準之間的Dice系數、IoU和accuracy作為評價指標,結果如表1所示。

從表1可以得出,本文改進的算法在accuracy、sensitivity、IoU、Dice上的評估結果分別為 94.82%、94.81%、90.15%、94.82%均高于其他對比的算法。其中,IoU和Dice系數常用來評價模型的分割性能,相比于Wang等[24]提出的對皮膚黑色素瘤分割的邊界感知Transformer(boundary-aware Transformer,BA-Transformer),本文算法的評價指標占比更高。相較于Wang等[23]提出的“U-Net”型通道變換網絡(U-Net channel transformer network,UCTransNet)也有提升。此外,本文算法的sensitivity相比于運用注意力U-Net(Attention U-Net)也更高,這表明本文算法預測的結果中假陽性更少,其在抑制噪聲預測方面比其他算法更有優勢。
為了更進一步說明本文算法在病灶區分割上的優勢,本研究隨機選取了4個樣本,并分析這些樣本在不同算法上的分割結果,如圖6所示。

根據圖6所示,各行圖像分別為樣本1~樣本4,各列圖像從左至右分別為:原始圖像、金標準、本文算法MFC-ViT、Attention U-Net、U-Net、巢穴U-Net(U-Net++)[22]和UCTransNet的分割結果。為了更明顯地比較分割結果中差異較大的區域,本文通過紅色方框進行標注,紅色方框中的圖像為分割結果中與金標準圖像差異較大的區域。對比這些方框區域可知,僅運用CNN的U-Net、Attention U-Net和U-net++對于皮膚黑色素瘤區域的分割更容易出現欠分割或者過分割現象。例如在樣本1中,Attention U-Net對右邊方框中的病灶區域有一些過分割,而U-Net對其欠分割;在樣本2中,U-Net對上方病灶區的預測出現了過分割現象,而Attention U-Net和U-Net++則對其有著欠分割現象。與此同時,將Transformer和CNN結合后的網絡模型,如UCTransNet,在進行分割時較前幾種方法有了較大的改善,但其分割結果仍與本文算法存在差距。
曲線下面積(area under the curve,AUC)定義為受試者工作特征(receiver operating characteristic,ROC)的AUC,其值可以有效衡量算法的性能,通常AUC值越大,模型的性能就越好,故本文使用AUC值來進一步驗證各算法性能好壞,如圖7所示。

2.3.2 ISIC 2016數據集結果
為了進一步驗證本文方法可以在不同皮膚圖像上對病灶區進行有效分割,本文在ISIC 2016數據集上重新訓練所提出的模型,并在測試集中對其進行評估,實驗及參數設置與上文相同,實驗結果如表2所示。

從表2 中可以看出本文算法的IoU、Dice系數等指標均優于所對比算法[4-5, 10, 13, 22, 24, 26],進一步說明了本文算法在皮膚黑色素瘤分割方面有很好的性能和更強的泛化能力。
2.3.3 消融實驗
為了驗證本文算法中各個模塊的效果,分別在上述兩個數據集中進行消融實驗,結果如表3所示。在分別去掉ViT和MFC網絡分支后本文所提出的網絡在各項指標中均有所下降,該實驗證明上述兩個分支在皮膚病灶區的分割任務中起著至關重要的作用。同時,本文分別將FCA模塊和Attention U-Net中的注意門(attention gates,AG)模塊放入MFC網絡分支中進行訓練,結果表明運用FCA模塊所得的accuracy比AG模塊高,證明在黑色素瘤的分割任務中FCA模塊可以提取更多有效的特征信息。

3 結論
本文提出了一種基于Transformer的并聯結構網絡模型,并將其運用到皮膚黑色素瘤的分割中。該算法采用并聯的方式將MFC網絡分支和ViT網絡分支進行連接,前者在U-Net結構的基礎上結合了多重殘差模塊和FCA模塊,從而更好地提取圖像的細節特征;后者通過Transformer中的多頭自注意機制對長范圍特征信息進行編碼,更好地提取圖像全局特征;最終將兩者的信息結合起來達到對特征圖像的精確分割。實驗表明,以accuracy、IoU、Dice系數、AUC等作為評價指標,本文所提出算法在ISIC 2018和ISIC 2016數據集上取得了良好的分割結果,相比于最新的皮膚黑色素瘤分割網絡均有一定程度的提升。因此,使用本文算法對皮膚黑色素瘤區域進行分割時可得到更準確的病灶區域。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:易三莉作者對論文進行撰寫,張罡作者對數據進行收集和實驗,賀建峰作者為論文提供了資助和支持。
引言
皮膚癌中的黑色素瘤是目前世界上發病率增長最快的癌癥之一[1]。研究表明,如果早期能及時發現黑色素瘤并對病灶區域進行精準判斷,便可通過手術進行切除治療,從而提高患者生存率。然而,當醫生通過肉眼來觀察皮膚鏡圖像中的病癥區域時,要求醫生具有高水平的專業知識和豐富的經驗。因此在實際的臨床中,在皮膚鏡圖像上對各種皮膚病變區域進行分割是一項具有挑戰性的任務。
近年來,運用計算機輔助診斷技術對皮膚的病灶區進行分割,有效地減輕了皮膚科醫生的工作時間和工作強度[2-5]。其中,深度學習技術是計算機輔助診斷中最受關注的方法,隨著此技術的發展,其算法的結構及功能都取得了較大的進展[6-7]。在結構上,早期的卷積神經網絡(convolutional neural networks,CNN)采用的是逐層處理、單一路徑的網絡結構,通過逐層地對圖像進行卷積、激活和池化達到對其特征的學習。Long等[8]提出的全卷積神經網絡(full convolutional neural networks,FCN),采用反卷積層對最后一層的特征圖進行上采樣,使它恢復到與輸入圖像相同的尺寸,從而實現圖像分割的任務。然而,由于該網絡使用的單路徑結構對圖像特征的提取不夠充分,因此Szegedy等[9]提出了谷歌網絡(google network,GoogleNet),采用并聯結構增加網絡的寬度使其能學習到更多的特征,增強了網絡的表達能力。隨后,Ronneberger等[10]提出了一種“U”型網絡(U-Net)并將其用于醫學圖像分割,它由編碼器和解碼器組成,通過增加跳躍連接使網絡的細節特征得到保留,有效地解決了高層語義特征丟失問題。近來,Valanarasu等[11]提出的復合型并聯結構,在總體上采用類似于GoogleNet模型的并聯結構,將網絡分為兩個并聯的分支,但其分支不再是簡單的卷積操作而是由功能完善的網絡模型構成。
與其他機器學習方法相比,深度學習具有顯著的模塊化特點。近年來,隨著各種新的功能模塊的提出[12-15],深度學習算法的性能更加完善。如He等[16]提出的殘差模塊能較好地解決深層次網絡中梯度消失的問題從而提高網絡對特征的捕獲能力。Ibtehaz等[17]在其基礎上提出多重殘差模塊,在不受網絡深度影響的前提下利用多重卷積提取了更多的特征。Qin等[18]提出的頻域通道注意力(frequency channel attention,FCA)模塊從頻域方面入手,進一步提升了CNN提取圖像特征的能力,但并沒有解決其提取全局特征信息能力較差的問題。Vaswani等[19]提出了變換器(Transformer)的概念,其中包含的多頭自注意機制(multiple head self-attention,MSA)因能夠較好地解決上述問題而受到廣泛關注。隨后Dosovitskiy等[20]將Transformer引入計算機視覺領域中,提出了視覺變換網絡(vision transformer network,ViT)并取得了較好的效果。該網絡能夠較好地提取全局特征信息,但在細節特征信息的提取方面卻不如CNN。
基于神經網絡在結構及功能上的進展,本文提出了一種能夠更好地提取圖像信息的新算法:多重殘差FCA(multiple residual frequency channel attention,MFC)-ViT(MFC-ViT),并將它應用于皮膚黑色素瘤的分割研究。該算法采用并聯結構,通過兩個分支從不同的角度提取圖像特征:首先,MFC網絡分支用于提取圖像的細節特征,該網絡在U-Net結構的基礎上結合了多重殘差模塊和FCA模塊,能夠有效提高網絡的魯棒性以及圖像特征的提取能力;其次,ViT網絡分支用于提取圖像的全局特征,該分支采用Transformer中的多頭自注意機制使圖像的全局特征信息得以保留;最后,本文將兩個分支所得到的特征信息結合起來,實現對皮膚病變區域進行更準確地分割,以期該算法能有效解決皮膚黑色素瘤分割精度低、難度大等問題,為醫生更好地對黑色素瘤進行診斷提供準確的病灶區域奠定理論基礎。
1 算法理論
1.1 算法結構
皮膚的病變區域由于存在易受毛發遮擋、病變區邊緣模糊等問題,而難以對這些區域實現精準分割。針對這些問題,本文提出了MFC-ViT算法,該算法采用雙支路的并聯結構,分別提取圖像的細節特征和全局特征,并將它們進行結合以達到對皮膚病變區域的精準分割,具體結構如圖1所示。

由圖1可知,此模型由兩個并聯分支組成,分別為MFC網絡分支和ViT網絡分支。這兩個分支的輸入都是從一個初始的卷積塊中提取特征向量,然后將其送入各分支中進行訓練。其中MFC網絡分支用于提取圖像的細節特征,ViT網絡分支用于提取圖像的全局特征。最后將兩個分支提取到的特征結合并對其進行降維,得到最終的分割圖像。各分支結構及功能如下文所述。
1.2 MFC網絡分支
本文所提出的MFC網絡分支在U-Net結構的基礎上,在其編碼塊和解碼塊中分別引入多重殘差模塊和FCA模塊,提高網絡的魯棒性及其圖像特征的提取能力,并通過上采樣、反卷積等操作對圖像尺寸進行恢復,達到分割要求,其具體結構如圖2所示。

圖2中,MFC網絡分支分為編碼階段和解碼階段。在編碼階段,每一級都運用多重殘差模塊,通過對輸入圖像進行多次堆疊,并與初始圖像拼接,通過數量的累積達到類似于大卷積核的效果。同時運用殘差結構提高網絡的魯棒性,有效防止了由于網絡深度而引起的梯度消失問題。在解碼階段引入了FCA模塊提取頻域信息,使得到的拼接圖像不僅完成淺層特征與深層特征的交互,還包含相關的頻域特征,有效地提升了細節特征的提取能力。
1.2.1 多重殘差模塊
根據上文所述,本文在MFC網絡分支中采用多重殘差模塊,具體結構如圖3所示。

圖3中,多重殘差模塊由卷積操作、歸一化處理和激活函數組成[17]。不同于其他的功能模塊,該模塊秉承了一種雙向優化的原則:一方面,通過堆疊多個3 × 3的小卷積核以達到與大卷積核相似的感受野,提取不同尺度的特征信息;另一方面,這些3 × 3和1 × 1卷積核在避免參數過大以及內存過載問題的同時,也便于融合多層次的特征信息,提升分割效果。
1.2.2 FCA模塊
注意力機制是一種能夠強化重要信息抑制非重要信息的方法,本文采用FCA模塊,通過融合多個頻域分量提升網絡的特征提取能力,具體流程如圖4所示。

由圖4可知,FCA模塊在Hu等[21]提出的壓縮激勵(squeeze-excitation,SE)模塊的基礎上,從頻域出發,使用離散余弦變換(discrete cosine transform,DCT)(以符號DCT表示)對相關頻域進行處理,通過融合多個頻域分量加強對特征的提取。具體操作流程為:首先將輸入按其通道維度劃分為n部分
,C′ = C/n,H、W為原始圖像的分辨率,C為通道數。為每個部分分配相應的二維(two dimensional,2D)(以符號2D表示)離散余弦變換頻域分量,如式(1)所示:
![]() |
即為Xi對應的第i個頻域分量。其中,B為Xi經過DCT變換所得的頻域特征圖。[ui, vi]為相應的頻域分量指標。對于這兩個超參數u和v,本文采用Qin等[18]經過實驗后的最優參數進行計算。
接著計算各頻域分量的權重系數并將其進行拼接(concatenation,cat),如式(2)和式(3)所示:
![]() |
![]() |
其中,f_atti為Freqi對應的權重系數,f_att是將所有權重系數拼接后的組合。cat為拼接操作,fc是全連接層,S型生長曲線(sigmoid)為常用激活函數。
最后,將計算出的每個頻域分量的權重系數與通道逐個進行加權,完成對之前特征向量的重構,得到新的特征圖 ,如式(4)所示:
![]() |
其中,X為最初的輸入圖像,Xi是將X按照通道維度劃分后的第i個分量。Fscale(·)為逐通道加權操作。
1.3 ViT網絡分支
ViT網絡分支結構如圖1所示,由編碼塊和解碼塊組成。編碼塊中采用Transformer編碼結構,通過“把圖像看作文本,像素塊看成單詞”的方式,使ViT網絡分支能夠更好地提取圖像的全局信息,彌補了MFC網絡分支在此方面的不足。解碼塊中運用卷積塊操作減少計算負荷并恢復圖像的尺寸。Transformer編碼結構如圖5所示。

根據圖5可知,Transformer編碼結構主要包括三個組成部分:補丁嵌入、多頭自注意機制和多層感知機(multiple layer perceptron,MLP)。輸入圖像首先通過補丁嵌入操作,將圖像分為大小相同的圖像塊并對其位置信息進行嵌入,隨后輸入到由多頭自注意機制和多層感知機組成的編碼塊中進行訓練。
首先,對輸入圖像進行補丁嵌入。將大小為H × W × C的輸入圖像轉變為N個P × P × C的圖像塊。其中(H,W)為原始圖像的分辨率,C為通道數,(P,P)為每個圖像塊的分辨率,N = H × W/P × P為生成的圖像塊數,也作為Transformer的輸入序列長度。出于對內存空間和實驗數據的考慮,在此本文將P的大小設置為32 × 32分辨率,通過較小的圖像塊學習細微的特征表示。由于Transformer在其所有層中都使用維度為D的向量,因此對圖像塊進行壓縮,并通過一個可迭代的線性投影映射到D維空間中。同時為了對圖像塊的序列信息進行編碼,在圖像塊中嵌入特定的位置信息,如式(5)所示:
![]() |
其中,Z0為補丁嵌入后的第0層特征信息。E ∈ 為圖像塊的嵌入投影,Xip為輸入圖像劃分后的第i個圖像塊,位置編碼Epos ∈
是在正態分布中隨機選取的一個可學習的變量,在輸出時可通過其選擇正確的通道位置。
然后,將通過補丁嵌入處理后的數據序列輸入編碼塊中。其結構如圖5所示,由多頭自注意機制和多層感知機交替組成,在每個模塊前進行特征逐層歸一化(layer-norm,LN)并通過殘差結構連接。這種結構設計能讓注意力機制去優化每個序列的不同特征部分,從而均衡同一種注意力機制可能產生的偏差,讓特征擁有更多元的表達。第N層的輸出可以寫成如式(6)、式(7)所示:
![]() |
![]() |
其中,Zn為編碼后的特征信息,Zn’為多頭自注意機制所提取的特征信息,Zn-1為第n-1層所輸出的特征信息,MSA(·)和MLP(·)為多頭自注意機制和多層感知機的相關操作,LN(·)為逐層歸一化操作。最后,在解碼階段通過卷積對輸出圖像的尺寸進行恢復,達到分割要求。
2 實驗
本文的實驗工具為Python 3.8 (Centrum Wiskunde&Informatica,荷蘭)中的PyTorch 1.5,編譯環境搭建在64位Windows 10操作系統上,圖形處理器(graphics processing unit,GPU)為2 060,內存6 GB。PyTorch (Facebook Inc.,美國)是一個高度開源的深度學習庫,它可以利用諸如GPU等并行結構優化深度學習模型,本文使用端對端開源機器學習平臺PyTorch (Facebook Inc.,美國)作后端搭建模型。
2.1 數據集和實驗設置
為了驗證模型的適用性,本文將國際皮膚成像合作組織( International Skin Imaging Collaboration,ISIC)中2016年(ISIC 2016)和2018年(ISIC 2018)的皮膚病變分割數據集(網址:https://www.isic-archive.com/#!/onlyHeaderTop/gallery)作為數據來源進行實驗。這些數據集的收集來自各種不同的醫療中心,由該組織所制作。其中,ISIC 2018包含2 594張和900張的皮膚境圖像作為訓練集和測試集;ISIC 2016包括1000張和379張的圖像作為訓練集和測試集。數據集中的每張圖片是在專業醫生的監督下對擁有黑色素瘤的病灶區進行了手動分割,并形成了二值圖像的金標準。由于圖像大小不一且灰度范圍不一致,出于對內存空間和訓練速度等問題的考慮,本文將數據集中的圖像裁剪成224 × 224的像素大小,并進行灰度歸一化等預處理。
本文采用隨機梯度下降(stochastic gradient descent,SGD)優化器更新參數,學習率為0.01,并采用二分類交叉熵(binary cross entropy,BCE)作為損失函數,訓練50次,訓練批次大小(batchsize)為8。
2.2 評價指標
本文采用準確率(accuracy)、交并比(intersection-over-union,IoU)、敏感度(sensitivity)和戴斯(Dice)系數來對皮膚病灶區的分割結果進行評估,其計算公式如式(8)~式(11)所示:
![]() |
![]() |
![]() |
![]() |
其中,真陽性(true positive,TP)表示分割算法將醫生手工標注的病灶區域正確分割,假陰性(false negative,FN)表示分割算法將醫生手工標注的病灶區域錯誤分割為非病灶區域,真陰性(true negative,TN)表示分割算法將非病灶區域正確分割為非病灶區域,假陽性(false positive,FP)表示分割算法將非病灶區域錯誤分割為醫生手工標注的病灶區域。
2.3 實驗結果
2.3.1 ISIC 2018數據集結果
為了驗證本文提出算法的性能,本文在ISIC 2018數據集上,分別將本文算法與常用的醫學圖像分割算法[10, 13, 22]以及目前最新的圖像分割算法[11, 23-25]進行對比,并以算法分割結果和金標準之間的Dice系數、IoU和accuracy作為評價指標,結果如表1所示。

從表1可以得出,本文改進的算法在accuracy、sensitivity、IoU、Dice上的評估結果分別為 94.82%、94.81%、90.15%、94.82%均高于其他對比的算法。其中,IoU和Dice系數常用來評價模型的分割性能,相比于Wang等[24]提出的對皮膚黑色素瘤分割的邊界感知Transformer(boundary-aware Transformer,BA-Transformer),本文算法的評價指標占比更高。相較于Wang等[23]提出的“U-Net”型通道變換網絡(U-Net channel transformer network,UCTransNet)也有提升。此外,本文算法的sensitivity相比于運用注意力U-Net(Attention U-Net)也更高,這表明本文算法預測的結果中假陽性更少,其在抑制噪聲預測方面比其他算法更有優勢。
為了更進一步說明本文算法在病灶區分割上的優勢,本研究隨機選取了4個樣本,并分析這些樣本在不同算法上的分割結果,如圖6所示。

根據圖6所示,各行圖像分別為樣本1~樣本4,各列圖像從左至右分別為:原始圖像、金標準、本文算法MFC-ViT、Attention U-Net、U-Net、巢穴U-Net(U-Net++)[22]和UCTransNet的分割結果。為了更明顯地比較分割結果中差異較大的區域,本文通過紅色方框進行標注,紅色方框中的圖像為分割結果中與金標準圖像差異較大的區域。對比這些方框區域可知,僅運用CNN的U-Net、Attention U-Net和U-net++對于皮膚黑色素瘤區域的分割更容易出現欠分割或者過分割現象。例如在樣本1中,Attention U-Net對右邊方框中的病灶區域有一些過分割,而U-Net對其欠分割;在樣本2中,U-Net對上方病灶區的預測出現了過分割現象,而Attention U-Net和U-Net++則對其有著欠分割現象。與此同時,將Transformer和CNN結合后的網絡模型,如UCTransNet,在進行分割時較前幾種方法有了較大的改善,但其分割結果仍與本文算法存在差距。
曲線下面積(area under the curve,AUC)定義為受試者工作特征(receiver operating characteristic,ROC)的AUC,其值可以有效衡量算法的性能,通常AUC值越大,模型的性能就越好,故本文使用AUC值來進一步驗證各算法性能好壞,如圖7所示。

2.3.2 ISIC 2016數據集結果
為了進一步驗證本文方法可以在不同皮膚圖像上對病灶區進行有效分割,本文在ISIC 2016數據集上重新訓練所提出的模型,并在測試集中對其進行評估,實驗及參數設置與上文相同,實驗結果如表2所示。

從表2 中可以看出本文算法的IoU、Dice系數等指標均優于所對比算法[4-5, 10, 13, 22, 24, 26],進一步說明了本文算法在皮膚黑色素瘤分割方面有很好的性能和更強的泛化能力。
2.3.3 消融實驗
為了驗證本文算法中各個模塊的效果,分別在上述兩個數據集中進行消融實驗,結果如表3所示。在分別去掉ViT和MFC網絡分支后本文所提出的網絡在各項指標中均有所下降,該實驗證明上述兩個分支在皮膚病灶區的分割任務中起著至關重要的作用。同時,本文分別將FCA模塊和Attention U-Net中的注意門(attention gates,AG)模塊放入MFC網絡分支中進行訓練,結果表明運用FCA模塊所得的accuracy比AG模塊高,證明在黑色素瘤的分割任務中FCA模塊可以提取更多有效的特征信息。

3 結論
本文提出了一種基于Transformer的并聯結構網絡模型,并將其運用到皮膚黑色素瘤的分割中。該算法采用并聯的方式將MFC網絡分支和ViT網絡分支進行連接,前者在U-Net結構的基礎上結合了多重殘差模塊和FCA模塊,從而更好地提取圖像的細節特征;后者通過Transformer中的多頭自注意機制對長范圍特征信息進行編碼,更好地提取圖像全局特征;最終將兩者的信息結合起來達到對特征圖像的精確分割。實驗表明,以accuracy、IoU、Dice系數、AUC等作為評價指標,本文所提出算法在ISIC 2018和ISIC 2016數據集上取得了良好的分割結果,相比于最新的皮膚黑色素瘤分割網絡均有一定程度的提升。因此,使用本文算法對皮膚黑色素瘤區域進行分割時可得到更準確的病灶區域。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:易三莉作者對論文進行撰寫,張罡作者對數據進行收集和實驗,賀建峰作者為論文提供了資助和支持。