非剛性配準在醫學圖像分析中有著重要的作用。U-Net被證明是醫學圖像分析的研究熱點,被廣泛應用于醫學圖像配準中,然而現有的基于U-Net及其變體的配準模型在處理復雜形變時,學習能力不足,且沒有充分利用多尺度上下文信息,導致配準精度不夠理想。針對該問題,本文提出了一種基于可變形卷積和多尺度特征聚焦模塊的X線圖像非剛性配準算法。該算法首先使用殘差可變形卷積替代原U-Net的標準卷積,以增強配準網絡對圖像幾何形變的表達能力;然后使用步長卷積代替下采樣操作的池化運算,以緩解連續池化導致的特征丟失問題;此外在編、解碼結構的橋接層中引入多尺度特征聚焦模塊,以提高網絡模型集成全局上下文信息的能力。理論分析和實驗結果均表明提出的配準算法能聚焦多尺度上下文信息,能夠處理具有復雜形變的醫學圖像,配準精度有一定提高,適合胸部X線片的非剛性配準。
引用本文: 彭昆, 張桂梅, 王杰, 儲珺. 基于可變形卷積和多尺度特征聚焦的X線圖像非剛性配準. 生物醫學工程學雜志, 2023, 40(3): 492-498. doi: 10.7507/1001-5515.202301012 復制
0 引言
胸部X線片是利用X射線對人體胸部掃描所得到的圖像,其臨床應用廣泛,如常被用于檢查胸腔內部的肋骨、胸椎、肺組織等處的疾病[1]。直接對比觀察不同的胸片圖像費時費力,且受醫生主觀因素的影響。為了減輕醫生負擔,可利用計算機自動將不同的胸片圖像進行對齊,即進行醫學圖像配準。醫學圖像配準[2]是醫學圖像融合、重建等研究的基礎,在疾病診斷、臨床治療、手術導航和療效評估等臨床應用中有重要作用。其本質是將不同時間、不同視點或不同傳感器采集到的兩幅或多幅圖像的對應點達到空間位置和解剖位置的對齊。
傳統的配準算法通常將變形建模為物理模型,該類方法在執行配準過程中進行迭代優化來搜索空間變換,使已定義的相似性達到最大。Marstal等[3]提出了基于互相關信息的SimpleElastix軟件包,它是多種傳統配準方法的合集,旨在拓寬醫學圖像非剛性配準算法的應用。雖然傳統算法在配準精度和魯棒性方面具有較大優勢,但其優化過程需要反復迭代,配準速度緩慢。
隨著人工智能技術的快速發展,卷積神經網絡(convolutional neural networks,CNN)已被應用在醫學圖像分析的各種任務中,在醫學圖像配準領域也取得了顯著的成果。Sokooti等[4]提出用CNN預測浮動圖像與固定圖像間的形變場,并利用RegNet模型實現可變形醫學圖像的配準。de Vos等[5]首先提出了一種無監督端到端的深度學習網絡,在手寫體數字和心臟核磁共振成像數據集上進行驗證,實驗結果表明其配準精度與傳統配準算法相當,但耗時更短。Balakrishnan等[6]提出了一種稱為VoxelMorph的無監督端到端U-Net架構,使用分割掩碼作為可用的輔助信息參與配準網絡的訓練,直接預測網絡的變換參數。但當存在較大形變時,Voxelmorph的效果不夠理想。Zhu等[7]針對復雜大形變問題,提出了在不同尺度下進行配準,分別得到不同尺度下的形變場并進行融合,實現了從粗到精的圖像配準。但是,上述算法均未利用解剖結構的全局背景信息。Mansilla等[8]提出結合U-Net和自編碼器結構的AC-RegNet網絡模型,將分割掩碼作為先驗信息,在配準過程中結合全局約束和局部約束,提高了模型的配準精度。針對器官或組織邊界不連續的圖像配準精度低的問題,Chen等[9]提出了一種圖像配準方法,該方法利用圖像分割和配準的互補性,實現了圖像的聯合分割和成對配準,保證了全局不連續和局部平滑的形變場,從而獲得更準確和真實的配準結果。現有的醫學圖像配準算法雖然在配準精度方面取得了一定的提升,但仍然存在以下問題:① 在處理復雜解剖結構差異性較大的圖像時,模型的學習能力不足。② 目前的圖像配準算法大多數在單一尺度下對圖像進行表征,大尺度下的圖像表征缺乏圖像各異性的細節信息,小尺度下的圖像表征過分注意局部細節,忽視全局信息,導致模型求解陷于入局部最優,產生過擬合。
針對上述問題,本文在Mansilla等[8]的基礎上提出一種基于可變形卷積和多尺度特征聚焦的X線圖像非剛性配準算法,用于胸部X線片圖像的配準。首先使用殘差可變形卷積模塊(residual deformation convolution module,RD)替代原U-Net[10]的標準卷積模塊,以增強配準網絡對圖像復雜幾何形變的表達能力。然后使用步長卷積替換下采樣操作的池化運算,以緩解連續池化導致的特征丟失問題。其次在編解碼結構的橋接層中引入多尺度特征聚焦模塊(multiscale feature focusing module,MFF),以提高網絡模型集成全局上下文信息的能力。
1 本文算法
1.1 算法框架
本文算法所提出的配準網絡框架如圖1所示,分為上下兩個分支,上分支是基于醫學圖像的配準過程,而下分支是基于分割掩碼的輔助約束引導過程。

具體流程如下:首先,本文在AC-RegNet[8]的基礎上,設計了配準網絡結構,命名為DM-RegNet。將參考圖像和浮動圖像輸入到DM-RegNet網絡得到形變場,然后基于形變場
利用空間變換網絡(spatial transformer networks,STN)[11]對浮動圖像進行矯正,得到配準后的圖像。為了提升配準精度,本文參照AC-RegNet[8]也在網絡框架下分支增加一個分割掩碼輔助約束模塊,同時,利用STN[11]對浮動圖像的分割掩碼進行矯正獲得矯正后圖像的分割掩碼。然后,通過引入兩個損失函數迭代更新配準網絡的參數,以提高配準網絡的精度。兩個損失函數分別為:分割掩碼的全局約束損失和局部特征約束損失。下分支輔助模塊利用分割掩碼之間的相似性作為全局約束。同時,利用預先訓練好的自編碼器計算參考圖像分割掩碼和矯正后圖像分割掩碼的潛在特征之間的相似性作為局部特征約束,從而引導網絡獲得更加合理的形變場。
1.2 DM-RegNet網絡結構
DM-RegNet網絡結構如圖2所示,配準網絡模型使用U型結構。首先,在編碼階段采用連續3次下采樣,在下采樣中使用殘差可變形卷積模塊代替U-Net的標準卷積模塊,有效地提取輸入圖像對的特征信息。同時,使用步長為2的3×3卷積層替代下采樣的最大池化層。隨著下采樣操作的執行,特征圖的尺寸逐步減半,同時卷積核的感受野不斷擴大。下采樣結束后,在編、解碼結構中間的橋接層引入多尺度特征聚焦模塊來捕獲不同尺度下的圖像特征信息。用反卷積進行上采樣,將上采樣后的特征與下采樣中具有相同分辨率的特征進行跳躍連接,然后再使用兩個連續的3×3卷積層進行卷積運算。最后,使用一個1×1卷積層后輸出形變場。

1.3 殘差可變形卷積模塊
現有配準算法通常使用固定結構的卷積核來構建配準網絡,此類網絡模型不能較好地學習到復雜的幾何形變。可變形卷積[12]可以通過圖像內容自適應調整卷積運算中采樣點的位置,以適應目標幾何形狀的變化。基于此,本文提出使用殘差可變形卷積模塊替代原U-Net下采樣過程中的標準卷積模塊,以加強網絡模型對目標形態大小差異的關注。該模塊的結構如圖3所示。可變形卷積可以適應目標幾何形狀的變化,提高網絡對圖像相關區域的表征能力。此外,使用殘差連接的方式,在加深網絡的同時可以緩解過擬合問題。

標準卷積的運算過程首先是使用規則網格R對輸入特征圖X進行采樣,然后在每個采樣點處乘上權值W并求和。以一個3 × 3的卷積運算過程為例,網格 ,任意位置
所對應的輸出特征圖Y上的值可以通過式(1)得到。
![]() |
其中指的是在規則網絡
中的位置。
可變形卷積的核心思想是在標準卷積的規則網絡采樣點上添加偏移量,實現采樣網格的自適應變形。具體實現過程是首先使用一個并行連接的卷積層,對輸入特征圖進行卷積操作,得到一個偏移場的初步估計值。然后對初步估計值進行微調,以便更好地適應輸入特征圖的形變。其次對微調后的偏移場進行規范化處理,以確保偏移量的大小適中。最后將學習到的偏移量輸入原來的卷積層中。通過這個額外的操作,可變形卷積可以根據圖像中內容實現對當前位置的自適應采樣,而不僅限于規則網絡采樣。需要注意的是,可變形卷積學習的是特征圖中每個位置的偏移量,而不是卷積核的偏移量。在可變形卷積中,規則網絡用偏移量
增廣,實現過程如式(2)所示。
![]() |
1.4 多尺度特征聚焦模塊
為了同時獲得全局和細節信息,傳統方法是在不同的分辨率下提取圖像特征,然后將這些特征直接融合得到最終的特征表示。由于不同尺度的特征存在語義鴻溝,直接進行特征融合效果不夠理想,因此本文基于注意力機制,引入多尺度特征聚焦模塊[13]來有效地提取醫學圖像的全局上下文信息,該模型能夠兼顧全局和局部特征信息,模塊中使用較大內核的平均池化層來保留圖像的全局信息,而采用較小內核的最大池化層以突出細節信息。此外,使用通道注意力機制來建立通道間的依賴關系,通道注意力機制通過平均池化給每個特征通道生成一個權重值,將得到的權重值進行歸一化操作,最后加權到每個通道的特征上,使網絡模型自適應聚焦于圖像中局部形變較大的區域。該模塊的結構如圖4所示。具體的實現流程如式(3)所示。

![]() |
X表示輸入的圖像或特征圖。Y表示輸出的圖像或特征圖。T為通道注意力權重,取值范圍在[0, 1]之間,作為權重來細化特征圖,具體計算為:,其中
為平均池化運算,將每個通道的二維特征壓縮為一個實數,
表示歸一化操作,
為每個特征通道生成一個權重值。
表示1 × 1卷積運算調整輸入的特征圖通道數。
是經四個池化運算后的輸出,
,其中M2和M3表示最大池化運算,A5和A7表示平均池化運算,下標為各自的池化內核大小,
為雙線性插值上采樣函數。
1.5 損失函數
總損失函數包括配準分支參考圖像與配準后圖像的相似性損失、形變場的平滑約束項、分割掩碼的局部和全局約束項。
(1)圖像的相似性約束項
本文采用歸一化互相關(normalized cross correlation,NCC)作為相似性測度計算兩幅圖像之間的對齊程度。對于給定的任意一幅參考圖像F和一幅配準圖像,NCC定義為:
![]() |
其中為圖像的像素個數,
為圖像中所有像素的集合,
表示圖像的像素位置,
、
分別表示參考圖像和配準后圖像上的灰度,
、
分別表示兩幅圖像中像素點的平均灰度值。NCC在[0, 1]范圍內,其值越接近1,表示兩幅圖像間灰度值越相關,對齊程度越高。反之,則對齊程度越低。最小化損失函數即最大化圖像相似性,因此
如下所示:
![]() |
(2)平滑約束項損失
為了使形變場更加平滑,本文在損失函數中添加平滑正則項,其定義如下:
![]() |
其中p為圖像的像素個數, 為圖像中所有像素的集合,
表示圖像的像素位置。
(3)分割掩模的局部約束項
將解剖先驗信息引入到配準網絡中,用分割掩碼之間的相似度輔助約束與引導網絡的訓練。局部約束項 表示矯正后的浮動圖像分割掩碼
和參考圖像分割掩碼f之間的相似性。
![]() |
(4)分割掩碼的全局約束項
由于不能保證兩幅圖像分割掩碼之間的解剖結構在全局尺度上的對齊,因此,使用自編碼器提取兩者的潛在特征,并計算其損失。
如下所示:
![]() |
式中AE( )表示自編碼器提取的潛在特征。
(5)總損失函數
![]() |
式中 、
和
均為超參數,
為平滑項的權重,
、
分別為分割掩碼局部約束項和全局約束項的權重。
2 實驗與結果分析
2.1 數據集
為了驗證本文算法的配準性能,在3個胸部X線片圖像數據集上進行了評估,分別為日本放射技術協會數據集(Japanese Society of Radiological Technology,JSRT)[14]、蒙哥馬利縣X射線數據集(Montgomery County X-ray,Montgomery)[15]以及深圳醫院X射線數據集(Shenzhen Hospital X-ray,Shenzhen)[16]。JSRT數據集是一個公共數據庫,共247張胸部X線片圖像。Montgomery數據集來自美國馬里蘭州蒙哥馬利縣衛生和公共服務部結核病控制項目,包含138張帶標注的后前位胸片圖像。Shenzhen數據集包含662張不同大小的胸片圖像。本文使用與Mansilla等[8]相同的數據預處理方法,首先對Montgomery和Shenzhen數據集進行處理,通過對數據中的最短邊填充背景色來調整圖像大小,得到相同分辨率的方形圖像,然后對三個數據集中所有圖像進行仿射對齊,最后將預處理后的所有數據重采樣至大小為256×256。
實驗環境為:Ubuntu18.04操作系統,編程語言為python,tensorflow1.14框架。硬件設施為:顯存11 GB的NVIDIA GeForce 2080TI顯卡,內存大小為128 GB。配準模型訓練時使用ADM優化器進行網絡參數的更新,學習率為0.000 1,批量大小為32。損失函數中超參數的選擇通過多次實驗得到,其中取值為0.000 05,
取值為1,
取值為0.1。
2.2 評估指標
本文采用與文獻[8]相同的性能評估指標:Dice系數(Dice coefficient,Dice)、豪斯多夫距離(Hausdorff distance,HD)和平均對稱表面距離(average symmetric surface distance,ASSD)。Dice系數的取值范圍為0到1,Dice值越大,表示結構完全重疊越高;較小的HD值表示兩個對象之間的拓撲更緊密;兩幅圖像的ASSD值越低,配準效果越好。
2.3 定性分析
為了驗證本文所提出DM-RegNet模型的配準性能,利用預處理后的三個數據集進行配準實驗,并將本文算法與四種配準算法進行比較。對比算法分別是SimpleElatix[3]、DIRNet[5]、AC-RegNet[8]和SDDIR[9]。其中SimpleElastix是比較流行的圖像配準軟件包;DIRNet是首個使用無監督模型的非剛性配準算法;SDDIR利用圖像分割和配準的互補性,實現了圖像的聯合分割和成對配準;AC-RegNet是本文所使用的基線模型。
圖5表示不同配準算法在JSRT數據集上的兩組配準結果。若兩種顏色的分割掩碼重合程度越高,則表示其對齊效果越好。如圖所示,配準之前的浮動圖像和參考圖像具有較大的形態和空間位置差異,其對齊程度較差。從不同算法在配準之后的輪廓疊加圖可以看出對齊程度均優于配準前。其中SimpleElastix算法下的分割掩碼疊加圖,在整體胸部的左右輪廓上沒有得到完全的矯正,在局部較大形變區域如拐角處,其重合度較差。DIRNet算法、SDDIR算法和AC-RegNet算法在整體胸部輪廓上能實現較好的對齊,但仍存在較小范圍的變形,其中AC-RegNet采用多個約束引導配準網絡的訓練,在提升網絡性能的同時,也使得其輪廓疊加圖優于DIRNet算法和SDDIR算法。相比其他幾種算法,無論是在局部較大形變區域還是整體胸部左右輪廓上,本文算法均能夠實現最佳的配準效果,其配準圖像和參考圖像分割掩碼的重合度最高。

2.4 定量分析
表1顯示了不同配準算法在JSRT、Montgomery和Shenzhen三個數據集上配準結果的定量比較。從表1可知,與配準前相比,不同算法配準后的性能在Dice、HD和ASSD指標上均具有顯著的優勢,其中SimpleElastix[3]、DIRNet算法[5]和SDDIR算法[9]在Dice方面有一定的提升以及在HD和ASSD值上均有所下降,但配準性能提升的幅度不是很大。而AC-RegNet算法[8]使用圖像和分割掩碼的多損失約束去監督配準網絡的訓練,分割掩碼作為輔助信息約束與引導配準的實現,使得網絡模型在配準精度上的提升更為顯著,HD和ASSD均有較大幅度降低,且Dice有較大提升,但其配準結果與參考圖像仍不能實現完全地對齊。在三個胸部數據集上,本文算法在Dice、HD和ASSD方面均優于其他三種配準算法。這主要得益于本文算法在AC-RegNet[8]網絡模型的基礎上,使用了多種優化策略如引入殘差可變形卷積模塊和多尺度特征聚焦模塊來訓練配準網絡,使得生成的配準圖像更接近參考圖像。

2.5 消融實驗
為了驗證所提出的殘差可變形卷積模塊和多尺度特征聚焦模塊對配準性能的影響,在JSRT數據集上進行了消融實驗研究。本節設置了四種不同的網絡模型:將AC-RegNet[8]作為基線模型,命名為Base;在基線模型中單獨引入殘差可變形卷積模塊或多尺度特征聚焦模塊,分別命名為Base + RD和Base + MFF;在基線模型中同時引入RD和MFF模塊,命名為本文算法。
表2為在JSRT數據集上消融實驗的配準精度比較,從表中可知,在基線模型中分別添加RD模塊和MFF模塊,Dice分別提高了0.007和0.011,HD分別下降了0.86和1.53,ASSD分別下降了0.24和0.36。因此,在基線模型上單獨添加優化模塊帶來性能增益的優先級是,MFF模塊對配準精度的提升最為顯著,其次是RD模塊。這是因為MFF模塊結合多尺度特征融合和注意力機制的優勢,能有效提升配準網絡捕獲全局上下文信息的能力,且聚焦于具有較大局部形變的區域,有利于配準精度的提升。當同時添加RD模塊和MFF模塊后,Dice提升了0.025,且HD與ASSD均有較大的下降,表明當兩個優化模塊共同作用時,可以更好地增強匹配效果。

3 結論
本文提出一種基于可變形卷積和多尺度特征聚焦模塊的 X線圖像非剛性配準算法。一方面,本文提出的算法用殘差可變形卷積模塊代替U-Net中的標準卷積模塊,能適應目標幾何形狀的變化,從而加強網絡模型對目標形態大小差異的關注,達到增強網絡模型對目標幾何形變的建模能力的目的。另一方面,用卷積層替換U-Net模型用于下采樣的最大池化層,以緩解連續下采樣造成的特征丟失。此外,由于在編、解碼結構的橋接層使用多尺度特征聚焦模塊,使得網絡模型能自適應聚焦于圖像中局部形變較大的區域,從而提高獲取圖像上下文信息的能力。最后,在JSRT、Montgomery和Shenzhen數據集上進行了對比和消融實驗。理論分析和實驗結果均表明,提出的配準算法能聚焦多尺度上下文信息,能夠處理具有復雜形變的醫學圖像,配準精度有一定提高,適合胸部圖像的非剛性配準。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:彭昆負責算法設計與實現、數據處理與分析、論文寫作與修改;張桂梅、儲珺提供實驗指導及論文審閱修訂;王杰參與數據集收集及預處理并負責整理實驗結果。
0 引言
胸部X線片是利用X射線對人體胸部掃描所得到的圖像,其臨床應用廣泛,如常被用于檢查胸腔內部的肋骨、胸椎、肺組織等處的疾病[1]。直接對比觀察不同的胸片圖像費時費力,且受醫生主觀因素的影響。為了減輕醫生負擔,可利用計算機自動將不同的胸片圖像進行對齊,即進行醫學圖像配準。醫學圖像配準[2]是醫學圖像融合、重建等研究的基礎,在疾病診斷、臨床治療、手術導航和療效評估等臨床應用中有重要作用。其本質是將不同時間、不同視點或不同傳感器采集到的兩幅或多幅圖像的對應點達到空間位置和解剖位置的對齊。
傳統的配準算法通常將變形建模為物理模型,該類方法在執行配準過程中進行迭代優化來搜索空間變換,使已定義的相似性達到最大。Marstal等[3]提出了基于互相關信息的SimpleElastix軟件包,它是多種傳統配準方法的合集,旨在拓寬醫學圖像非剛性配準算法的應用。雖然傳統算法在配準精度和魯棒性方面具有較大優勢,但其優化過程需要反復迭代,配準速度緩慢。
隨著人工智能技術的快速發展,卷積神經網絡(convolutional neural networks,CNN)已被應用在醫學圖像分析的各種任務中,在醫學圖像配準領域也取得了顯著的成果。Sokooti等[4]提出用CNN預測浮動圖像與固定圖像間的形變場,并利用RegNet模型實現可變形醫學圖像的配準。de Vos等[5]首先提出了一種無監督端到端的深度學習網絡,在手寫體數字和心臟核磁共振成像數據集上進行驗證,實驗結果表明其配準精度與傳統配準算法相當,但耗時更短。Balakrishnan等[6]提出了一種稱為VoxelMorph的無監督端到端U-Net架構,使用分割掩碼作為可用的輔助信息參與配準網絡的訓練,直接預測網絡的變換參數。但當存在較大形變時,Voxelmorph的效果不夠理想。Zhu等[7]針對復雜大形變問題,提出了在不同尺度下進行配準,分別得到不同尺度下的形變場并進行融合,實現了從粗到精的圖像配準。但是,上述算法均未利用解剖結構的全局背景信息。Mansilla等[8]提出結合U-Net和自編碼器結構的AC-RegNet網絡模型,將分割掩碼作為先驗信息,在配準過程中結合全局約束和局部約束,提高了模型的配準精度。針對器官或組織邊界不連續的圖像配準精度低的問題,Chen等[9]提出了一種圖像配準方法,該方法利用圖像分割和配準的互補性,實現了圖像的聯合分割和成對配準,保證了全局不連續和局部平滑的形變場,從而獲得更準確和真實的配準結果。現有的醫學圖像配準算法雖然在配準精度方面取得了一定的提升,但仍然存在以下問題:① 在處理復雜解剖結構差異性較大的圖像時,模型的學習能力不足。② 目前的圖像配準算法大多數在單一尺度下對圖像進行表征,大尺度下的圖像表征缺乏圖像各異性的細節信息,小尺度下的圖像表征過分注意局部細節,忽視全局信息,導致模型求解陷于入局部最優,產生過擬合。
針對上述問題,本文在Mansilla等[8]的基礎上提出一種基于可變形卷積和多尺度特征聚焦的X線圖像非剛性配準算法,用于胸部X線片圖像的配準。首先使用殘差可變形卷積模塊(residual deformation convolution module,RD)替代原U-Net[10]的標準卷積模塊,以增強配準網絡對圖像復雜幾何形變的表達能力。然后使用步長卷積替換下采樣操作的池化運算,以緩解連續池化導致的特征丟失問題。其次在編解碼結構的橋接層中引入多尺度特征聚焦模塊(multiscale feature focusing module,MFF),以提高網絡模型集成全局上下文信息的能力。
1 本文算法
1.1 算法框架
本文算法所提出的配準網絡框架如圖1所示,分為上下兩個分支,上分支是基于醫學圖像的配準過程,而下分支是基于分割掩碼的輔助約束引導過程。

具體流程如下:首先,本文在AC-RegNet[8]的基礎上,設計了配準網絡結構,命名為DM-RegNet。將參考圖像和浮動圖像輸入到DM-RegNet網絡得到形變場,然后基于形變場
利用空間變換網絡(spatial transformer networks,STN)[11]對浮動圖像進行矯正,得到配準后的圖像。為了提升配準精度,本文參照AC-RegNet[8]也在網絡框架下分支增加一個分割掩碼輔助約束模塊,同時,利用STN[11]對浮動圖像的分割掩碼進行矯正獲得矯正后圖像的分割掩碼。然后,通過引入兩個損失函數迭代更新配準網絡的參數,以提高配準網絡的精度。兩個損失函數分別為:分割掩碼的全局約束損失和局部特征約束損失。下分支輔助模塊利用分割掩碼之間的相似性作為全局約束。同時,利用預先訓練好的自編碼器計算參考圖像分割掩碼和矯正后圖像分割掩碼的潛在特征之間的相似性作為局部特征約束,從而引導網絡獲得更加合理的形變場。
1.2 DM-RegNet網絡結構
DM-RegNet網絡結構如圖2所示,配準網絡模型使用U型結構。首先,在編碼階段采用連續3次下采樣,在下采樣中使用殘差可變形卷積模塊代替U-Net的標準卷積模塊,有效地提取輸入圖像對的特征信息。同時,使用步長為2的3×3卷積層替代下采樣的最大池化層。隨著下采樣操作的執行,特征圖的尺寸逐步減半,同時卷積核的感受野不斷擴大。下采樣結束后,在編、解碼結構中間的橋接層引入多尺度特征聚焦模塊來捕獲不同尺度下的圖像特征信息。用反卷積進行上采樣,將上采樣后的特征與下采樣中具有相同分辨率的特征進行跳躍連接,然后再使用兩個連續的3×3卷積層進行卷積運算。最后,使用一個1×1卷積層后輸出形變場。

1.3 殘差可變形卷積模塊
現有配準算法通常使用固定結構的卷積核來構建配準網絡,此類網絡模型不能較好地學習到復雜的幾何形變。可變形卷積[12]可以通過圖像內容自適應調整卷積運算中采樣點的位置,以適應目標幾何形狀的變化。基于此,本文提出使用殘差可變形卷積模塊替代原U-Net下采樣過程中的標準卷積模塊,以加強網絡模型對目標形態大小差異的關注。該模塊的結構如圖3所示。可變形卷積可以適應目標幾何形狀的變化,提高網絡對圖像相關區域的表征能力。此外,使用殘差連接的方式,在加深網絡的同時可以緩解過擬合問題。

標準卷積的運算過程首先是使用規則網格R對輸入特征圖X進行采樣,然后在每個采樣點處乘上權值W并求和。以一個3 × 3的卷積運算過程為例,網格 ,任意位置
所對應的輸出特征圖Y上的值可以通過式(1)得到。
![]() |
其中指的是在規則網絡
中的位置。
可變形卷積的核心思想是在標準卷積的規則網絡采樣點上添加偏移量,實現采樣網格的自適應變形。具體實現過程是首先使用一個并行連接的卷積層,對輸入特征圖進行卷積操作,得到一個偏移場的初步估計值。然后對初步估計值進行微調,以便更好地適應輸入特征圖的形變。其次對微調后的偏移場進行規范化處理,以確保偏移量的大小適中。最后將學習到的偏移量輸入原來的卷積層中。通過這個額外的操作,可變形卷積可以根據圖像中內容實現對當前位置的自適應采樣,而不僅限于規則網絡采樣。需要注意的是,可變形卷積學習的是特征圖中每個位置的偏移量,而不是卷積核的偏移量。在可變形卷積中,規則網絡用偏移量
增廣,實現過程如式(2)所示。
![]() |
1.4 多尺度特征聚焦模塊
為了同時獲得全局和細節信息,傳統方法是在不同的分辨率下提取圖像特征,然后將這些特征直接融合得到最終的特征表示。由于不同尺度的特征存在語義鴻溝,直接進行特征融合效果不夠理想,因此本文基于注意力機制,引入多尺度特征聚焦模塊[13]來有效地提取醫學圖像的全局上下文信息,該模型能夠兼顧全局和局部特征信息,模塊中使用較大內核的平均池化層來保留圖像的全局信息,而采用較小內核的最大池化層以突出細節信息。此外,使用通道注意力機制來建立通道間的依賴關系,通道注意力機制通過平均池化給每個特征通道生成一個權重值,將得到的權重值進行歸一化操作,最后加權到每個通道的特征上,使網絡模型自適應聚焦于圖像中局部形變較大的區域。該模塊的結構如圖4所示。具體的實現流程如式(3)所示。

![]() |
X表示輸入的圖像或特征圖。Y表示輸出的圖像或特征圖。T為通道注意力權重,取值范圍在[0, 1]之間,作為權重來細化特征圖,具體計算為:,其中
為平均池化運算,將每個通道的二維特征壓縮為一個實數,
表示歸一化操作,
為每個特征通道生成一個權重值。
表示1 × 1卷積運算調整輸入的特征圖通道數。
是經四個池化運算后的輸出,
,其中M2和M3表示最大池化運算,A5和A7表示平均池化運算,下標為各自的池化內核大小,
為雙線性插值上采樣函數。
1.5 損失函數
總損失函數包括配準分支參考圖像與配準后圖像的相似性損失、形變場的平滑約束項、分割掩碼的局部和全局約束項。
(1)圖像的相似性約束項
本文采用歸一化互相關(normalized cross correlation,NCC)作為相似性測度計算兩幅圖像之間的對齊程度。對于給定的任意一幅參考圖像F和一幅配準圖像,NCC定義為:
![]() |
其中為圖像的像素個數,
為圖像中所有像素的集合,
表示圖像的像素位置,
、
分別表示參考圖像和配準后圖像上的灰度,
、
分別表示兩幅圖像中像素點的平均灰度值。NCC在[0, 1]范圍內,其值越接近1,表示兩幅圖像間灰度值越相關,對齊程度越高。反之,則對齊程度越低。最小化損失函數即最大化圖像相似性,因此
如下所示:
![]() |
(2)平滑約束項損失
為了使形變場更加平滑,本文在損失函數中添加平滑正則項,其定義如下:
![]() |
其中p為圖像的像素個數, 為圖像中所有像素的集合,
表示圖像的像素位置。
(3)分割掩模的局部約束項
將解剖先驗信息引入到配準網絡中,用分割掩碼之間的相似度輔助約束與引導網絡的訓練。局部約束項 表示矯正后的浮動圖像分割掩碼
和參考圖像分割掩碼f之間的相似性。
![]() |
(4)分割掩碼的全局約束項
由于不能保證兩幅圖像分割掩碼之間的解剖結構在全局尺度上的對齊,因此,使用自編碼器提取兩者的潛在特征,并計算其損失。
如下所示:
![]() |
式中AE( )表示自編碼器提取的潛在特征。
(5)總損失函數
![]() |
式中 、
和
均為超參數,
為平滑項的權重,
、
分別為分割掩碼局部約束項和全局約束項的權重。
2 實驗與結果分析
2.1 數據集
為了驗證本文算法的配準性能,在3個胸部X線片圖像數據集上進行了評估,分別為日本放射技術協會數據集(Japanese Society of Radiological Technology,JSRT)[14]、蒙哥馬利縣X射線數據集(Montgomery County X-ray,Montgomery)[15]以及深圳醫院X射線數據集(Shenzhen Hospital X-ray,Shenzhen)[16]。JSRT數據集是一個公共數據庫,共247張胸部X線片圖像。Montgomery數據集來自美國馬里蘭州蒙哥馬利縣衛生和公共服務部結核病控制項目,包含138張帶標注的后前位胸片圖像。Shenzhen數據集包含662張不同大小的胸片圖像。本文使用與Mansilla等[8]相同的數據預處理方法,首先對Montgomery和Shenzhen數據集進行處理,通過對數據中的最短邊填充背景色來調整圖像大小,得到相同分辨率的方形圖像,然后對三個數據集中所有圖像進行仿射對齊,最后將預處理后的所有數據重采樣至大小為256×256。
實驗環境為:Ubuntu18.04操作系統,編程語言為python,tensorflow1.14框架。硬件設施為:顯存11 GB的NVIDIA GeForce 2080TI顯卡,內存大小為128 GB。配準模型訓練時使用ADM優化器進行網絡參數的更新,學習率為0.000 1,批量大小為32。損失函數中超參數的選擇通過多次實驗得到,其中取值為0.000 05,
取值為1,
取值為0.1。
2.2 評估指標
本文采用與文獻[8]相同的性能評估指標:Dice系數(Dice coefficient,Dice)、豪斯多夫距離(Hausdorff distance,HD)和平均對稱表面距離(average symmetric surface distance,ASSD)。Dice系數的取值范圍為0到1,Dice值越大,表示結構完全重疊越高;較小的HD值表示兩個對象之間的拓撲更緊密;兩幅圖像的ASSD值越低,配準效果越好。
2.3 定性分析
為了驗證本文所提出DM-RegNet模型的配準性能,利用預處理后的三個數據集進行配準實驗,并將本文算法與四種配準算法進行比較。對比算法分別是SimpleElatix[3]、DIRNet[5]、AC-RegNet[8]和SDDIR[9]。其中SimpleElastix是比較流行的圖像配準軟件包;DIRNet是首個使用無監督模型的非剛性配準算法;SDDIR利用圖像分割和配準的互補性,實現了圖像的聯合分割和成對配準;AC-RegNet是本文所使用的基線模型。
圖5表示不同配準算法在JSRT數據集上的兩組配準結果。若兩種顏色的分割掩碼重合程度越高,則表示其對齊效果越好。如圖所示,配準之前的浮動圖像和參考圖像具有較大的形態和空間位置差異,其對齊程度較差。從不同算法在配準之后的輪廓疊加圖可以看出對齊程度均優于配準前。其中SimpleElastix算法下的分割掩碼疊加圖,在整體胸部的左右輪廓上沒有得到完全的矯正,在局部較大形變區域如拐角處,其重合度較差。DIRNet算法、SDDIR算法和AC-RegNet算法在整體胸部輪廓上能實現較好的對齊,但仍存在較小范圍的變形,其中AC-RegNet采用多個約束引導配準網絡的訓練,在提升網絡性能的同時,也使得其輪廓疊加圖優于DIRNet算法和SDDIR算法。相比其他幾種算法,無論是在局部較大形變區域還是整體胸部左右輪廓上,本文算法均能夠實現最佳的配準效果,其配準圖像和參考圖像分割掩碼的重合度最高。

2.4 定量分析
表1顯示了不同配準算法在JSRT、Montgomery和Shenzhen三個數據集上配準結果的定量比較。從表1可知,與配準前相比,不同算法配準后的性能在Dice、HD和ASSD指標上均具有顯著的優勢,其中SimpleElastix[3]、DIRNet算法[5]和SDDIR算法[9]在Dice方面有一定的提升以及在HD和ASSD值上均有所下降,但配準性能提升的幅度不是很大。而AC-RegNet算法[8]使用圖像和分割掩碼的多損失約束去監督配準網絡的訓練,分割掩碼作為輔助信息約束與引導配準的實現,使得網絡模型在配準精度上的提升更為顯著,HD和ASSD均有較大幅度降低,且Dice有較大提升,但其配準結果與參考圖像仍不能實現完全地對齊。在三個胸部數據集上,本文算法在Dice、HD和ASSD方面均優于其他三種配準算法。這主要得益于本文算法在AC-RegNet[8]網絡模型的基礎上,使用了多種優化策略如引入殘差可變形卷積模塊和多尺度特征聚焦模塊來訓練配準網絡,使得生成的配準圖像更接近參考圖像。

2.5 消融實驗
為了驗證所提出的殘差可變形卷積模塊和多尺度特征聚焦模塊對配準性能的影響,在JSRT數據集上進行了消融實驗研究。本節設置了四種不同的網絡模型:將AC-RegNet[8]作為基線模型,命名為Base;在基線模型中單獨引入殘差可變形卷積模塊或多尺度特征聚焦模塊,分別命名為Base + RD和Base + MFF;在基線模型中同時引入RD和MFF模塊,命名為本文算法。
表2為在JSRT數據集上消融實驗的配準精度比較,從表中可知,在基線模型中分別添加RD模塊和MFF模塊,Dice分別提高了0.007和0.011,HD分別下降了0.86和1.53,ASSD分別下降了0.24和0.36。因此,在基線模型上單獨添加優化模塊帶來性能增益的優先級是,MFF模塊對配準精度的提升最為顯著,其次是RD模塊。這是因為MFF模塊結合多尺度特征融合和注意力機制的優勢,能有效提升配準網絡捕獲全局上下文信息的能力,且聚焦于具有較大局部形變的區域,有利于配準精度的提升。當同時添加RD模塊和MFF模塊后,Dice提升了0.025,且HD與ASSD均有較大的下降,表明當兩個優化模塊共同作用時,可以更好地增強匹配效果。

3 結論
本文提出一種基于可變形卷積和多尺度特征聚焦模塊的 X線圖像非剛性配準算法。一方面,本文提出的算法用殘差可變形卷積模塊代替U-Net中的標準卷積模塊,能適應目標幾何形狀的變化,從而加強網絡模型對目標形態大小差異的關注,達到增強網絡模型對目標幾何形變的建模能力的目的。另一方面,用卷積層替換U-Net模型用于下采樣的最大池化層,以緩解連續下采樣造成的特征丟失。此外,由于在編、解碼結構的橋接層使用多尺度特征聚焦模塊,使得網絡模型能自適應聚焦于圖像中局部形變較大的區域,從而提高獲取圖像上下文信息的能力。最后,在JSRT、Montgomery和Shenzhen數據集上進行了對比和消融實驗。理論分析和實驗結果均表明,提出的配準算法能聚焦多尺度上下文信息,能夠處理具有復雜形變的醫學圖像,配準精度有一定提高,適合胸部圖像的非剛性配準。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:彭昆負責算法設計與實現、數據處理與分析、論文寫作與修改;張桂梅、儲珺提供實驗指導及論文審閱修訂;王杰參與數據集收集及預處理并負責整理實驗結果。