臨床腦瘤手術或意外創傷引起的顱骨缺損需要手工設計顱骨植入物進行修復。顱骨植入物的邊緣需要精確地吻合形態各異的缺損顱骨創傷口邊界,但顱骨植入物手工設計用時周期長、技術門檻高且準確度低。為此,本文提出用于三維顱骨植入物自動化設計的信息器殘差注意力U形網絡(IRA-Unet)。本文將信息器(Informer)從自然語義處理領域應用到計算機視覺領域,設計信息器注意力進行注意力的提取,讓模型更加關注顱骨缺損位置,將計算量和參數量從N2降到log(N)。本文進一步構建信息器殘差注意力,將信息器注意力和殘差結合并置于模型靠近輸出層的位置,讓模型能根據需求在全局感受野和局部信息中進行選擇和綜合,提高模型精度和加快模型收斂速度。本文使用顱骨植入物自動化設計挑戰賽2020(AutoImplant 2020)公開數據集進行訓練和測試,并在實驗部分對比分析直接獲得顱骨植入物和間接獲得顱骨植入物兩種方式對結果的影響。實驗結果表明,本文所提模型具有較好魯棒性,在AutoImplant 2020的110例測試集上取得戴斯系數值為0.9404,豪斯多夫距離值為3.6866的結果;本文所提模型在保證顱骨植入物外形精度的同時減少了模型運行所需的資源,可有效地輔助外科醫生完成高效的顱骨修復自動化設計,從而提高患者術后的康復質量。
引用本文: 秦傳波, 曾俊博, 鄭斌, 曾軍英, 翟懿奎, 張文光, 閆敬文. 結合殘差和信息器注意力的三維顱骨修復研究. 生物醫學工程學雜志, 2022, 39(5): 897-908. doi: 10.7507/1001-5515.202202047 復制
引言
顱骨修復是一項常見的神經外科手術。在完成腦腫瘤切除或創傷性意外腦損傷手術后,患者缺損的顱骨需要使用能精確地吻合顱骨缺損邊界的顱骨植入物進行修復。然而,在目前的臨床現狀中,顱骨植入物的設計和制造過程通常由第三方供應商完成,價格昂貴。整個過程通常需要涉及臨床專業、增材制造和工程設計等交叉領域相關專業知識,且耗時長[1]。典型的缺損顱骨植入物設計方法是使用計算機輔助設計工具進行設計,該方法中最常用的技術之一是找到顱骨的對稱面,通過鏡像填充缺損區域[2]。但人類的頭骨不是嚴格對稱,該方法不能適應形態各異、厚度不均勻的顱骨創傷口幾何形狀,不能很好地設計出精確的顱骨植入物[3],影響術后顱骨整體美觀和術后康復效果。為了能夠以較低成本在較短時間內進行顱骨修復,研究能夠實現全自動、低成本、邊緣緊密吻合度高且能在手術室內進行顱骨植入物設計制造的方法具有重要臨床應用價值。
近年來,深度學習在臨床醫學影像的發展和應用中取得顯著成果,采用深度學習算法來實現顱骨植入物自動化設計方法亦不例外[4-6]。Wang等[7]提出將編解碼架構與變分自動編碼器(variational autoencoder,VAE)相結合的算法用以完成顱骨植入物的預測,即通過訓練VAE模型學習整個顱骨的潛在分布,然后將訓練的VAE編碼部分與編解碼架構結合,預測出完整的顱骨。但該方法不能很好地學習缺損顱骨潛在的分布,對于缺損形狀和位置不同的缺損顱骨的預測結果并不理想。Matzkin等[8]提出形狀先驗的方法,將形狀先驗信息作為網絡額外的通道,可提高網絡性能;然而其使用直接預測顱骨植入物的方法,使得模型泛化性下降。Jin等[9]提出將輸入圖像拆分成4份作為網絡輸入,而后將輸出的4份圖像進行合成,從而得到顱骨植入物圖像。由于對輸入圖像進行拆分,該模型不能很好地把握缺損顱骨的完整信息,導致模型效果提升不大。Ellis等[10]構建結合跳躍連接的U形網絡(U-Net)模型,使用更大的輸入圖像尺寸以獲得更大的感受野[11],并提出一種數據增強方式,將訓練集原來僅有的100例擴充到9 803例,以提高模型的魯棒性。然而,Ellis等[10]所提模型參數量與計算量過大,對運行設備要求高,給在手術室內進行顱骨植入物的設計帶來困難。且僅通過將殘差與U-Net結合的策略,不能對輸入的不同通道特征間的關聯性和重要性進行學習[12]。
在醫學影像領域的研究中,引入自注意力機制的方法能有效捕獲上下文信息[13-14]。然而,自注意力機制所需的內存和計算量會隨著輸入序列的增長呈平方增長,處理長序列輸入需占用大量內存和計算量。已有的解決方法是將上下文縮短或劃分成為較小的序列,減少輸入序列長度。但是這種方法可能導致重要的信息丟失[15]。Li等[16]和Child等[17]通過啟發式的方法將內存和計算量從N2降到log(N),但其效果有限。近期,Zhou等[18]和Srinivas等[19]針對自然語言處理領域提出信息器(informer)機制,他們通過改進相對熵,對貢獻大部分注意的權值運算進行提取,通過在注意力中結合informer可以實現注意力的集中,減少所需的計算量、參數量。
通過上述分析,針對顱骨修復中的植入物自動化設計,本文提出一種結合殘差和informer注意力機制的informer殘差注意力(informer residual attention,IRA)的U-Net(IRA-Unet),實現資源使用量和準確率之間的平衡。該方法的創新性主要體現以下3方面:① 構建可用于三維(three dimensional,3D)影像的IRA-Unet模型,使顱骨植入物可以低成本、自動化、高效地在手術室進行設計,縮短了顱骨植入物的設計周期和成本。② 將informer從自然語義處理領域應用到計算機視覺領域,設計informer注意力進行注意力的提取,讓模型更加關注顱骨缺損位置,將計算量和參數量從N2降到log(N);并進一步將informer注意力與殘差塊結合得到IRA模塊,使模型能根據需求在全局感受野和局部信息中進行選擇和綜合,提高模型精度和加快模型收斂速度。③ 在實驗部分,本文首次將直接獲得顱骨植入物和間接獲得顱骨植入物兩種方式進行對比分析其對結果的影響,并通過消融實驗和注意力可視化驗證所提模型有效性。進一步,本文希望經實驗可以證明,所提模型能減少計算量和參數量,專注顱骨缺損區域以得到擬合度高的顱骨植入物。
綜上,實現顱骨植入物自動化設計可以減少顱骨植入物設計所需的成本和周期,讓患者能以更低的成本得到及時的治療。但現有研究方法存在泛化能力較差、模型參數量和計算量大、對設備要求高等問題。本文期望結合informer、注意力機制和殘差塊,提出IRA-Unet模型,可具有較好泛化能力,在保證結果精度的同時可減少模型運行所需的資源,有利于促進顱骨植入物自動化設計在實際中的應用。此外,本文將首次通過對比直接獲得顱骨植入物和間接獲得顱骨植入物兩種方式分析其對結果的影響,為相關研究工作提供參考。
1 方法
1.1 IRA-Unet模型
本文使用U-Net作為基礎骨干網絡,編碼器對數據特征進行提取,解碼器對提取到的特征進行恢復。編碼器和解碼器之間使用跳躍連接進行特征補充。結合殘差塊提取深層語義信息,將IRA模塊嵌入解碼器倒數第二層構建用于3D影像的IRA-Unet。
如圖1所示,IRA-Unet以U-Net模型作為基礎骨干網絡,分別構造5層編碼器和解碼器。編碼器每層嵌入兩個殘差塊,解碼器每層嵌入一個殘差塊。殘差塊激活函數使用線性整流函數(rectified linear unit,ReLU)。IRA模塊位于解碼器路徑的倒數第二層,用于進行特征的提取。每個解碼層將前一個解碼層的輸出與編碼層的跳躍連接輸出進行結合作為輸入。第一層的輸入通道數為32,通道數每層增加一倍,依次為:64、128、256、512。每層之間使用步長為2的3 × 3 × 3卷積核進行特征提取,使用雙線性插值進行特征的恢復。在模型的輸出部分進行了1 × 1 × 1卷積和S型生長曲線(sigmoid)函數激活[20]。其中,IRA模塊為本文基于informer所提出的informer注意力與殘差結合,讓模型能根據需求在全局感受野和局部信息中進行選擇和綜合,提高模型精度和加快模型收斂速度。本文構建的informer注意力可以進行注意力的提取,使模型注意力集中在顱骨缺損重點區域,減少資源的使用。本文實驗部分對直接通過模型預測得到顱骨植入物和通過后處理間接得到顱骨植入物兩種方式進行探討。最終,本文選擇使用160 × 192 × 128大小的缺損顱骨3D影像作為輸入,通過IRA-Unet預測得到對應的完整顱骨3D影像,經由后處理得到顱骨植入物的形體。

1.2 informer注意力與殘差塊的結合
隨著模型深度的加深,模型可以提取到更多的特征,但同時模型也會因深度的加深而難以訓練,導致模型的退化。He等[21]提出殘差結構讓模型可以在恒等映射和卷積操作之間綜合選取,解決了模型因深度加深而產生退化問題,提高了性能。本文將informer注意力與殘差結構相結合,構建IRA模塊,使得模型在訓練的過程中自主進行卷積和注意力的選擇。從而加速模型收斂,并且可以讓模型關注重點區域。如圖2所示,通過將殘差網絡50(residual network 50,ResNet50)的三層殘差塊中的第二層替換為注意力模塊[21],令最后一層的輸出維度與輸入維度相同,得到IRA模塊。IRA的數學表達如式(1)所示:

![]() |
其中,x為輸入,H(·)為輸出,F(·)為卷積、informer注意力和非線性變換操作。通過將informer注意力融入殘差塊中,可以讓模型有更加靈活的結構。模型在訓練過程中,可以進行卷積、注意力的選擇和綜合。如,當F(x)趨近于0,模型選擇抑制注意力操作;反之,模型選擇將注意力與卷積操作結合,進行全局信息與局部信息的綜合。通過將informer注意力和殘差塊結合有利于提高模型精度和加快收斂。
1.3 informer注意力
注意力機制只針對輸入或輸出的一個特征進行空間學習,可以有效地捕獲上下文信息,解決了學習長距離特征之間的依賴關系。Tsai等[22]將注意力公式解釋為如式(2)所示:
![]() |
其中,A(·)為注意力公式;輸入特征經過線性變換得到Q、K、V作為注意力的輸入;qi、qj為Q的元素;ki、kj為K的元素;vi為V的元素;為exp
,其中d為縮放因子;L為注意力輸入的長度;
。Q和K進行相似度計算得到權值,將權值歸一化后與V進行加權求和輸出得到注意力。注意力的關鍵在于Q與K的相似度計算
。若
的分布結果趨近于均勻分布,即
,注意力機制退化為求V的和。此時注意力機制雖占用大量內存和計算量但不能起到實質性的作用。反之,若Q和K的相似度高可以有效捕獲上下文信息。但注意力機制的概率分布具有稀疏性,即使
取得相似度高的結果也僅只有小部分權值對注意力起重要影響,其余權值對注意力影響甚微卻占用大量內存和計算量[17-18]。
受Zhou等[18]和Srinivas等[19]啟發,本文提出一種結合informer的注意力模塊,通過改進相對熵計算得到Q與K相似度后,只取其中對注意力起重要作用的權值代入注意力公式進行計算。通過注意力的提取,減少計算所需的計算量和內存,并使模型集中注意力在重點區域。所提方法主要表現為以下兩點:①本文提出使用3D的位置編碼信息,使模型可以獲得更高維度的上下文關聯信息;②從自然語言處理領域引入informer進行注意力的提煉,使模型注意力更加集中,減少了參數量和計算量。
結合informer的注意力模塊如圖3所示。表示逐元素相加,
表示矩陣乘法;X表示輸入的3D特征圖;C、D、H、W分別代表輸入X的通道數、長、高、寬;Wd、Wh、Ww為可學習參數;P由Wd、Wh、Ww逐元素相加得到,為相對位置編碼;線性變換為1 × 1 × 1卷積核大小的卷積操作,X分別經過三個卷積操作得到Q、K、V;informer為輸入Q和(P+K)進行相似度計算篩選出Qr后進行權值計算
,輸出權值I和Qr對應Q中的索引;歸一化指數函數(softmax)為歸一化操作[23];映射操作為輸入
、V的均值Vm、informer得到的索引,將Vm中索引對應的值使用
替換后還原其維度與輸入X維度一致,輸出得到Z。

informer實現過程:輸入Q和(P+K),對Q和(P+K)進行相似度的度量,如式(3)所示:
![]() |
其中,R=P+K;qi為Q的元素;rj為R的元素;d為縮放因子;為Q對R進行相似度量;LR為R的輸入長度。在計算時隨機采樣lnL個值(L為注意力輸入特征長度)進行
計算[18],減少計算量。依據Q與R相似度量的得分
,從Q中選取得分前log(D × H × W)個qi,記為Qr。與此同時,獲得Qr在Q中對應的位置索引。由于
,本文將P與K先進行逐元素相加,然后再進行矩陣乘法。將Qr與(P+K)T進行矩陣乘法輸出得到權值I。通過篩選對注意力起重要影響的Qr替代Q進行運算,減少了所需的計算量和內存占用量,并使注意力集中在重要區域,減少不必要注意力的分散和資源使用。
2 實驗結果與討論
2.1 數據庫及預處理
本文實驗中所使用的數據來源于國際醫學圖像計算和計算機輔助干預協會(medical image computing and computer assisted intervention society,MICCAI)舉辦的顱骨植入物自動化設計挑戰賽2020(automatic cranial implant design challenge 2020,AutoImplant 2020),該比賽提供了免費公開使用的研究數據集(網址:

針對訓練集數據不足的問題,本文參照Ellis等[10]提出的數據增強方式,將100例訓練集擴充到9 803例。每次迭代訓練時還將擴充的圖像進行如下數據增強:沿前后水平方向以50%的概率進行鏡像操作;以75%的概率隨機放大和縮小;以75%的概率隨機平移;并對所有輸入圖像額外的背景填充進行裁剪。通過上述操作,以確保本文模型對不同缺損位置、圖像縮放、顱骨位置變化的圖像都具有魯棒性[10]。
2.2 實驗環境及參數設置
在本文實驗中,使用了五邑大學超算中心平臺服務器,配置為:社區企業操作系統CentOS(7.6,Red Hat,美國);特斯拉Tesla(V100,Nvidia,美國);編程語言Python(3.7,Python Software Foundation,美國);輸入顱骨影像尺寸為160 × 192 × 128,以完整顱骨作為標簽,通過后處理間接得到顱骨植入物的形狀,使用自適應矩估計(adaptive moment estimation,Adam)優化器進行梯度下降[24],戴斯損失(Dice loss)作為損失函數[25],同時使用早停法監測訓練過程[26]。參數設置方面,批大小設置為2,學習率設置為0.001,并使用學習率衰減進行全局最優點地尋找。每次完成迭代訓練后對驗證集進行驗證,保留在驗證集上取得最好結果的權重。
2.3 評估指標
評估指標使用AutoImplant 2020指定的戴斯相似性系數(Dice similarity coefficient,DSC)(以符號DSC表示)和豪斯多夫距離(Hausdorff distance,HD)(以符號HD表示)兩個指標作為對顱骨缺損重建植入物預測的評估[27-28]。DSC和HD為用于衡量兩個樣本之間的相似度的指標。DSC傾向于比較兩個樣本內部填充的相似性,HD傾向于比較兩個樣本邊界的相似性。DSC和HD的公式如式(4)、式(5)所示:
![]() |
![]() |
其中,P和T分別表示預測結果和標簽,是P和T之間的任何度量,p∈P,t∈T。
2.4 形態學后處理
顱骨植入物的獲得,有直接預測植入物和預測完整顱骨再進行后處理得到植入物兩種方式。本文采用后者,后處理方法如圖5所示,第一行為后處理結果,第二行圖像為第一行圖像的局部放大圖。后處理的主要思路是:以0.5為閾值化將完整顱骨減去缺損顱骨,計算得到植入物;然后基于AutoImplant 2020提供的方法對獲得的植入物進行連接區域分析,將除了最大的連接區域以外的所有對象都去除掉;最后,使用形態學運算中的開運算去除降噪后顱骨植入物的邊緣突起。

2.5 不同方法的實驗對比分析
為了驗證所提方法有效性,將所提算法與AutoImplant 2020的研究工作進行對比分析。本實驗所使用數據集與其相同。實驗測試集共110例,測試集中編號為0~99例數據缺損形狀與訓練集缺損形狀相似,編號為100~109例數據缺損形狀與訓練集缺損形狀差異較大。本文所提方法和其它研究工作的結果對比如表1所示。表1中,DSC-100為0~99例數據DSC結果;DSC-10為100~109例DSC結果;DSC-110為0~109例數據DSC結果;HD-100為0~99例數據HD結果;HD-10為100~109例HD結果;HD-110為0~109例數據HD結果[3, 7-10, 29-33]。文獻[7]訓練VAE模型學習整個顱骨的潛在分布;然后將訓練的VAE編碼部分與編解碼架構結合,預測出完整的顱骨。但該方法不能很好地學習缺損顱骨潛在的分布,對于缺損形狀和位置不同的缺損顱骨的預測結果并不理想,泛化能力較差。文獻[8]提出形狀先驗的方法,將形狀先驗信息作為網絡額外的通道,提高網絡性能;然而其使用直接預測顱骨植入物的方法,使得模型泛化性下降。文獻[9]將輸入圖像拆分成4份作為網絡輸入,而后將輸出的4份圖像進行合成,從而得到顱骨植入物圖像。由于對輸入圖像進行拆分,模型不能很好地把握缺損顱骨的完整信息,導致模型效果提升不大。文獻[10]構建結合跳躍連接的U-Net模型,使用更大的輸入圖像尺寸以獲得更大的感受野,并提出一種數據增強方式,將訓練集原來僅有的100例擴充到9 803例,提高模型的魯棒性。然而,文獻[10]所提模型參數量與計算量過大,對運行設備要求高,給在手術室內進行顱骨植入物的設計帶來困難。且僅通過將殘差與U-Net結合的策略,不能對輸入的不同通道特征間的關聯性和重要性進行學習。而本文所提IRA-Unet使用3D圖像作為輸入,讓模型可以獲得更多空間信息;使用預測完整顱骨再后處理間接獲得顱骨植入物的方式提供更多潛在分布信息,提高模型泛化能力。本文所提IRA能讓模型根據需求在全局感受野和局部信息中進行選擇和綜合,對輸入特征間的關聯性和重要性進行學習,提高模型精度。如表1所示,本文所提的方法相較于AutoImplant 2020最佳結果文獻[10]的指標值基本持平,在缺損形狀與訓練集缺損形狀差異較大的100~109例數據上具有魯棒性,優勝于其它論文研究結果。

進一步從模型參數與計算量上比較。本文所提方法與文獻[10]所提方法所需參數量和計算量如表2所示。文獻[10]所提方法每秒所需的浮點運算次數(floating-point operations per second,FLOPS)為1.8 T,參數量為68 M。而本文所提informer注意力能進行注意力的提取,去除冗余注意力,減少計算量和參數量。本文方法每秒所需的浮點運算次數為1.7 T,參數量為55 M。

綜上,本文所提的方法在所需參數量、計算量和準確度之間做到很好的權衡,與AutoImplant 2020最佳結果文獻[10]所提出的方法僅存在微小的差距,但進一步減少了參數量和計算量。
2.6 消融實驗
2.6.1 informer有效性分析
informer通過注意力的提取,實現注意力的集中和減少資源使用量。為了驗證informer的有效性,將informer注意力中的informer替換為矩陣乘法,由于替換成矩陣乘法造成過多的內存消耗,因此將IRA放在第三層,圖像輸入尺寸設置為160 × 192 × 128,以顱骨植入物作為標簽,構建直接得到顱骨植入物的模型記為殘差注意力U-Net(residual attention U-Net,RA-Unet)。將RA-Unet中注意力的矩陣乘法替換為informer操作,構建得到IRA變體U-Net(IRA variant U-Net,IRAV-Unet)作為對照。實驗訓練使用來源于AutoImplant 2020中包含100例受試者圖像的訓練集,不使用擴充的9 803例數據進行訓練。測試使用包含110名受試者圖像的測試集。如表3所示,對RA-Unet和IRAV-Unet中注意力模塊所需的計算時間復雜度和內存使用量進行展示。informer可以從L個Q中提取出logL個Q與K進行相似度的計算,因此IRAV-Unet的時間復雜度和內存使用量只需 ,而RA-Unet的注意力計算所需的時間復雜度和內存使用量需要O(L2)。其中,L為輸入注意力模塊的尺寸大小。

如圖6和圖7所示,為了驗證informer對注意力提取的作用,對RA-Unet和IRAV-Unet的注意力權值分布以折線圖和熱力圖的形式展示。折線圖展示RA-Unet和IRAV-Unet注意力權值數量前十的數值。RA-Unet的熱力圖大小為7 680 × 7 680。因informer對Q進行提取,IRAV-Unet熱力圖大小為7 680 × 45。


首先,分析權值數量。如圖6所示,對于沒有使用informer的RA-Unet,其注意力權值趨于0的數量占了大多數,即大量的權值占用內存和計算量但對注意力沒有貢獻。而使用informer的IRAV-Unet能夠對趨于0的權值進行篩選實現注意力的提取,減少內存的使用和計算量。其次,分析RA-Unet和IRAV-Unet注意力的權值熱力圖。如圖7所示,對于沒有使用informer的RA-Unet,其注意力稀疏地分布在全圖。然而,在顱骨修復任務中模型將注意力集中在顱骨缺損位置,更有利于提高模型的預測結果。而使用informer的IRAV-Unet篩除了不必要的注意力使整體注意力有所提升,可以將注意力集中在重點區域。
2.6.2 IRA有效性分析
informer注意力和殘差結合可以讓模型具有更加靈活的結構。通過將informer注意力模塊與殘差結構結合構造IRA,模型在訓練的過程中可以在卷積和informer注意力間進行選擇,讓模型關注重點區域,使模型更快收斂。為了驗證將informer注意力和殘差結合的有效性,將IRA替換為informer注意力模塊,以完整顱骨為標簽,設置圖像輸入尺寸為176 × 224 × 144,構建得到informer注意力U-Net(informer attention U-Net,IA-Unet)。以完整顱骨為標簽,圖像輸入尺寸為176 × 224 × 144的IRA-Unet作為對照。實驗訓練直接使用來源于AutoImplant 2020中包含100例受試者圖像的訓練集,不使用擴充的9 803例數據進行訓練;測試時使用包含110名受試者圖像的測試集。
IA-Unet和IRA-Unet在訓練過程中的損失曲線如圖8所示。虛線表示IA-Unet訓練時在訓練集和驗證集上的損失曲線。實線表示IRA-Unet訓練時在訓練集和驗證集上的損失曲線。從損失曲線中可以看出,將informer注意力與殘差相結合,模型可以通過在informer注意力和卷積間進行選擇和綜合,能夠更快地找到更優點。

IA-Unet和IRA-Unet在測試集上經過后處理的預測結果如圖9和表4所示。測試集中0~99例數據缺損形狀與訓練集缺損形狀相似,100~109例數據缺損形狀與訓練集缺損形狀差異較大。如圖9所示為模型第1、9、100、109例測試數據的預測結果。表4中,DSC-100為0~99例數據DSC結果;DSC-10為100~109例DSC結果;DSC-110為0~109例數據DSC結果;HD-100為0~99例數據HD結果;HD-10為100~109例HD結果;HD-110為0~109例數據HD結果。如圖9和表4所示,使用IRA的IRA-Unet能夠很好地得到顱骨植入物,且具有泛化性。在缺損形狀與訓練集差異較大的額外10例測試集上也能得到不錯的效果。而單獨使用informer注意力模塊的IA-Unet,因不具有能在informer注意力和卷積間選擇的能力,預測得到的顱骨植入物仍存在缺損,在額外10例測試集上表現也不佳。


顱骨修復任務的重點在于對缺損位置的修復,而不是對于非缺損位置的預測,因此網絡能否進行注意力的合理分配是取得不錯效果的關鍵。為了探究IA-Unet和IRA-Unet在輸出層注意力的分布,將兩個變體模型輸出層的輸出特征可視化為二維圖像如圖10所示。圖10中,第1行為測試集中3例(分別是:第2、77、59例)缺損顱骨的切片圖像;第2行為IA-Unet輸出層的輸出特征二維圖像;第3行為IRA-Unet輸出層的輸出特征二維圖像。可以看到,IA-Unet會把部分注意力分散在顱骨內腔,導致其不能很好地預測出完整的顱骨。而使用IRA的IRA-Unet能夠在卷積和注意之間進行選擇和綜合,能夠很好地進行注意力的選擇,將注意力集中在顱骨缺損位置,從而預測出完整的顱骨。另外,如表4所示,IRA-Unet相較于IA-Unet在測試集上的測試結果在各項指標上有明顯的提升。

2.6.3 直接和間接獲得顱骨植入物方式分析
通過深度學習方式獲得顱骨植入物有兩種方式:① 直接獲得顱骨植入物:以顱骨植入物作為標簽,讓模型直接輸出顱骨植入物;② 間接獲得顱骨植入物:以完整顱骨作為標簽,讓模型輸出完整顱骨再經由后處理得到顱骨植入物。直接獲得顱骨植入物的方式無需額外后處理步驟更為便捷;間接獲得顱骨植入物的方式則更具泛化性。兩種方式各有利弊,現有研究工作均使用其中一種方式進行實現,還未有研究工作將兩種方式對結果的影響進行對比。但使用直接獲得顱骨植入物方式的研究工作普遍存在模型泛化能力差的問題,本文構建對比實驗對這兩種方式進行分析。
本文分別以顱骨植入物和完整顱骨作為標簽構建模型,分別是直接的IRA-Unet(direct IRA-Unet,D-IRA-Unet)和間接的IRA-Unet(indirect IRA-Unet,I-IRA-Unet),圖像輸入尺寸設置為160×192×128。實驗訓練直接使用來源于AutoImplant 2020中包含100例受試者圖像的訓練集,不使用擴充的9803例數據進行訓練。測試使用包含110名受試者圖像的測試集。D-IRA-Unet和I-IRA-Unet的實驗結果和預測結果3D展示如表4和圖9所示。如表4所示,使用直接獲得顱骨植入物的D-IRA-Unet不僅在缺損形狀差異較大的額外10例表現不如間接獲得顱骨植入物的I-IRA-Unet,在缺損形狀相似的前100例整體表現也不如I-IRA-Unet。如圖9所示,可以更直觀地看出直接獲得顱骨植入物和間接獲得顱骨植入物兩種方式結果的差距。對于缺損形狀相似的前100例,D-IRA-Unet和I-IRA-Unet均可以得到完整的顱骨植入物。但對于缺損形狀差異較大的額外10例,間接獲得顱骨植入物的I-IRA-Unet仍能較好地獲得完整顱骨植入物,而直接獲得顱骨植入物的D-IRA-Unet得到的顱骨植入物仍具有缺損,泛化能力較差。在臨床上,顱骨缺損患者的顱骨缺損各異,這要求模型有很好的泛化能力,能針對不同形狀的缺損顱骨得到高精度的顱骨植入物。直接獲得顱骨植入物的方式雖省去后處理步驟更為便捷,但泛化性不佳。間接獲得顱骨植入物的方式雖需要額外的后處理步驟,但模型更能找到標簽與輸入之間的關聯性,使得結果更具魯棒性。
3 結論
針對缺損形狀和位置不同的缺損顱骨預測邊緣精細的顱骨植入物問題,本文提出了一種面向顱骨缺損修復的3D顱骨植入物設計模型IRA-Unet。通過從自然語義處理領域引入informer,設計得到informer注意力,讓模型更加關注顱骨缺損位置,將計算量和參數量從N2降到log(N),并進一步將informer注意力與殘差塊結合得到IRA,使模型能根據需求在全局感受野和局部信息中進行選擇和綜合,提高模型精度和加快模型收斂速度。通過使用更大的輸入尺寸和增強的完整顱骨數據進行訓練后處理獲得顱骨植入物,能夠提高模型精度且更具魯棒性。本文還對所提模型進行可視化,進一步驗證模型有效性。本文所提方法在缺損形狀和位置與訓練集相似的缺損顱骨上取得DSC值為0.9413,HD值為3.6572的結果。在缺損形狀和位置與訓練集不同的缺損顱骨上取得DSC值為0.9315,HD值為3.980 0的結果。綜上,針對顱骨缺損修復問題,本文所提方法能夠在保持精度的同時降低內存使用量并且具有較好的魯棒性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:秦傳波主要負責項目主持、提供實驗指導、數據分析指導以及論文審閱修訂;曾俊博主要負責論文撰寫、算法設計、數據處理、實驗設計與分析、代碼編寫與調試;鄭斌主要負責數據整理、代碼調試;曾軍英主要負責提供實驗指導、數據分析指導、論文撰寫指導;翟懿奎、閆敬文主要負責算法設計指導;張文光主要負責提供臨床顱骨植入物設計需求分析和指導。
引言
顱骨修復是一項常見的神經外科手術。在完成腦腫瘤切除或創傷性意外腦損傷手術后,患者缺損的顱骨需要使用能精確地吻合顱骨缺損邊界的顱骨植入物進行修復。然而,在目前的臨床現狀中,顱骨植入物的設計和制造過程通常由第三方供應商完成,價格昂貴。整個過程通常需要涉及臨床專業、增材制造和工程設計等交叉領域相關專業知識,且耗時長[1]。典型的缺損顱骨植入物設計方法是使用計算機輔助設計工具進行設計,該方法中最常用的技術之一是找到顱骨的對稱面,通過鏡像填充缺損區域[2]。但人類的頭骨不是嚴格對稱,該方法不能適應形態各異、厚度不均勻的顱骨創傷口幾何形狀,不能很好地設計出精確的顱骨植入物[3],影響術后顱骨整體美觀和術后康復效果。為了能夠以較低成本在較短時間內進行顱骨修復,研究能夠實現全自動、低成本、邊緣緊密吻合度高且能在手術室內進行顱骨植入物設計制造的方法具有重要臨床應用價值。
近年來,深度學習在臨床醫學影像的發展和應用中取得顯著成果,采用深度學習算法來實現顱骨植入物自動化設計方法亦不例外[4-6]。Wang等[7]提出將編解碼架構與變分自動編碼器(variational autoencoder,VAE)相結合的算法用以完成顱骨植入物的預測,即通過訓練VAE模型學習整個顱骨的潛在分布,然后將訓練的VAE編碼部分與編解碼架構結合,預測出完整的顱骨。但該方法不能很好地學習缺損顱骨潛在的分布,對于缺損形狀和位置不同的缺損顱骨的預測結果并不理想。Matzkin等[8]提出形狀先驗的方法,將形狀先驗信息作為網絡額外的通道,可提高網絡性能;然而其使用直接預測顱骨植入物的方法,使得模型泛化性下降。Jin等[9]提出將輸入圖像拆分成4份作為網絡輸入,而后將輸出的4份圖像進行合成,從而得到顱骨植入物圖像。由于對輸入圖像進行拆分,該模型不能很好地把握缺損顱骨的完整信息,導致模型效果提升不大。Ellis等[10]構建結合跳躍連接的U形網絡(U-Net)模型,使用更大的輸入圖像尺寸以獲得更大的感受野[11],并提出一種數據增強方式,將訓練集原來僅有的100例擴充到9 803例,以提高模型的魯棒性。然而,Ellis等[10]所提模型參數量與計算量過大,對運行設備要求高,給在手術室內進行顱骨植入物的設計帶來困難。且僅通過將殘差與U-Net結合的策略,不能對輸入的不同通道特征間的關聯性和重要性進行學習[12]。
在醫學影像領域的研究中,引入自注意力機制的方法能有效捕獲上下文信息[13-14]。然而,自注意力機制所需的內存和計算量會隨著輸入序列的增長呈平方增長,處理長序列輸入需占用大量內存和計算量。已有的解決方法是將上下文縮短或劃分成為較小的序列,減少輸入序列長度。但是這種方法可能導致重要的信息丟失[15]。Li等[16]和Child等[17]通過啟發式的方法將內存和計算量從N2降到log(N),但其效果有限。近期,Zhou等[18]和Srinivas等[19]針對自然語言處理領域提出信息器(informer)機制,他們通過改進相對熵,對貢獻大部分注意的權值運算進行提取,通過在注意力中結合informer可以實現注意力的集中,減少所需的計算量、參數量。
通過上述分析,針對顱骨修復中的植入物自動化設計,本文提出一種結合殘差和informer注意力機制的informer殘差注意力(informer residual attention,IRA)的U-Net(IRA-Unet),實現資源使用量和準確率之間的平衡。該方法的創新性主要體現以下3方面:① 構建可用于三維(three dimensional,3D)影像的IRA-Unet模型,使顱骨植入物可以低成本、自動化、高效地在手術室進行設計,縮短了顱骨植入物的設計周期和成本。② 將informer從自然語義處理領域應用到計算機視覺領域,設計informer注意力進行注意力的提取,讓模型更加關注顱骨缺損位置,將計算量和參數量從N2降到log(N);并進一步將informer注意力與殘差塊結合得到IRA模塊,使模型能根據需求在全局感受野和局部信息中進行選擇和綜合,提高模型精度和加快模型收斂速度。③ 在實驗部分,本文首次將直接獲得顱骨植入物和間接獲得顱骨植入物兩種方式進行對比分析其對結果的影響,并通過消融實驗和注意力可視化驗證所提模型有效性。進一步,本文希望經實驗可以證明,所提模型能減少計算量和參數量,專注顱骨缺損區域以得到擬合度高的顱骨植入物。
綜上,實現顱骨植入物自動化設計可以減少顱骨植入物設計所需的成本和周期,讓患者能以更低的成本得到及時的治療。但現有研究方法存在泛化能力較差、模型參數量和計算量大、對設備要求高等問題。本文期望結合informer、注意力機制和殘差塊,提出IRA-Unet模型,可具有較好泛化能力,在保證結果精度的同時可減少模型運行所需的資源,有利于促進顱骨植入物自動化設計在實際中的應用。此外,本文將首次通過對比直接獲得顱骨植入物和間接獲得顱骨植入物兩種方式分析其對結果的影響,為相關研究工作提供參考。
1 方法
1.1 IRA-Unet模型
本文使用U-Net作為基礎骨干網絡,編碼器對數據特征進行提取,解碼器對提取到的特征進行恢復。編碼器和解碼器之間使用跳躍連接進行特征補充。結合殘差塊提取深層語義信息,將IRA模塊嵌入解碼器倒數第二層構建用于3D影像的IRA-Unet。
如圖1所示,IRA-Unet以U-Net模型作為基礎骨干網絡,分別構造5層編碼器和解碼器。編碼器每層嵌入兩個殘差塊,解碼器每層嵌入一個殘差塊。殘差塊激活函數使用線性整流函數(rectified linear unit,ReLU)。IRA模塊位于解碼器路徑的倒數第二層,用于進行特征的提取。每個解碼層將前一個解碼層的輸出與編碼層的跳躍連接輸出進行結合作為輸入。第一層的輸入通道數為32,通道數每層增加一倍,依次為:64、128、256、512。每層之間使用步長為2的3 × 3 × 3卷積核進行特征提取,使用雙線性插值進行特征的恢復。在模型的輸出部分進行了1 × 1 × 1卷積和S型生長曲線(sigmoid)函數激活[20]。其中,IRA模塊為本文基于informer所提出的informer注意力與殘差結合,讓模型能根據需求在全局感受野和局部信息中進行選擇和綜合,提高模型精度和加快模型收斂速度。本文構建的informer注意力可以進行注意力的提取,使模型注意力集中在顱骨缺損重點區域,減少資源的使用。本文實驗部分對直接通過模型預測得到顱骨植入物和通過后處理間接得到顱骨植入物兩種方式進行探討。最終,本文選擇使用160 × 192 × 128大小的缺損顱骨3D影像作為輸入,通過IRA-Unet預測得到對應的完整顱骨3D影像,經由后處理得到顱骨植入物的形體。

1.2 informer注意力與殘差塊的結合
隨著模型深度的加深,模型可以提取到更多的特征,但同時模型也會因深度的加深而難以訓練,導致模型的退化。He等[21]提出殘差結構讓模型可以在恒等映射和卷積操作之間綜合選取,解決了模型因深度加深而產生退化問題,提高了性能。本文將informer注意力與殘差結構相結合,構建IRA模塊,使得模型在訓練的過程中自主進行卷積和注意力的選擇。從而加速模型收斂,并且可以讓模型關注重點區域。如圖2所示,通過將殘差網絡50(residual network 50,ResNet50)的三層殘差塊中的第二層替換為注意力模塊[21],令最后一層的輸出維度與輸入維度相同,得到IRA模塊。IRA的數學表達如式(1)所示:

![]() |
其中,x為輸入,H(·)為輸出,F(·)為卷積、informer注意力和非線性變換操作。通過將informer注意力融入殘差塊中,可以讓模型有更加靈活的結構。模型在訓練過程中,可以進行卷積、注意力的選擇和綜合。如,當F(x)趨近于0,模型選擇抑制注意力操作;反之,模型選擇將注意力與卷積操作結合,進行全局信息與局部信息的綜合。通過將informer注意力和殘差塊結合有利于提高模型精度和加快收斂。
1.3 informer注意力
注意力機制只針對輸入或輸出的一個特征進行空間學習,可以有效地捕獲上下文信息,解決了學習長距離特征之間的依賴關系。Tsai等[22]將注意力公式解釋為如式(2)所示:
![]() |
其中,A(·)為注意力公式;輸入特征經過線性變換得到Q、K、V作為注意力的輸入;qi、qj為Q的元素;ki、kj為K的元素;vi為V的元素;為exp
,其中d為縮放因子;L為注意力輸入的長度;
。Q和K進行相似度計算得到權值,將權值歸一化后與V進行加權求和輸出得到注意力。注意力的關鍵在于Q與K的相似度計算
。若
的分布結果趨近于均勻分布,即
,注意力機制退化為求V的和。此時注意力機制雖占用大量內存和計算量但不能起到實質性的作用。反之,若Q和K的相似度高可以有效捕獲上下文信息。但注意力機制的概率分布具有稀疏性,即使
取得相似度高的結果也僅只有小部分權值對注意力起重要影響,其余權值對注意力影響甚微卻占用大量內存和計算量[17-18]。
受Zhou等[18]和Srinivas等[19]啟發,本文提出一種結合informer的注意力模塊,通過改進相對熵計算得到Q與K相似度后,只取其中對注意力起重要作用的權值代入注意力公式進行計算。通過注意力的提取,減少計算所需的計算量和內存,并使模型集中注意力在重點區域。所提方法主要表現為以下兩點:①本文提出使用3D的位置編碼信息,使模型可以獲得更高維度的上下文關聯信息;②從自然語言處理領域引入informer進行注意力的提煉,使模型注意力更加集中,減少了參數量和計算量。
結合informer的注意力模塊如圖3所示。表示逐元素相加,
表示矩陣乘法;X表示輸入的3D特征圖;C、D、H、W分別代表輸入X的通道數、長、高、寬;Wd、Wh、Ww為可學習參數;P由Wd、Wh、Ww逐元素相加得到,為相對位置編碼;線性變換為1 × 1 × 1卷積核大小的卷積操作,X分別經過三個卷積操作得到Q、K、V;informer為輸入Q和(P+K)進行相似度計算篩選出Qr后進行權值計算
,輸出權值I和Qr對應Q中的索引;歸一化指數函數(softmax)為歸一化操作[23];映射操作為輸入
、V的均值Vm、informer得到的索引,將Vm中索引對應的值使用
替換后還原其維度與輸入X維度一致,輸出得到Z。

informer實現過程:輸入Q和(P+K),對Q和(P+K)進行相似度的度量,如式(3)所示:
![]() |
其中,R=P+K;qi為Q的元素;rj為R的元素;d為縮放因子;為Q對R進行相似度量;LR為R的輸入長度。在計算時隨機采樣lnL個值(L為注意力輸入特征長度)進行
計算[18],減少計算量。依據Q與R相似度量的得分
,從Q中選取得分前log(D × H × W)個qi,記為Qr。與此同時,獲得Qr在Q中對應的位置索引。由于
,本文將P與K先進行逐元素相加,然后再進行矩陣乘法。將Qr與(P+K)T進行矩陣乘法輸出得到權值I。通過篩選對注意力起重要影響的Qr替代Q進行運算,減少了所需的計算量和內存占用量,并使注意力集中在重要區域,減少不必要注意力的分散和資源使用。
2 實驗結果與討論
2.1 數據庫及預處理
本文實驗中所使用的數據來源于國際醫學圖像計算和計算機輔助干預協會(medical image computing and computer assisted intervention society,MICCAI)舉辦的顱骨植入物自動化設計挑戰賽2020(automatic cranial implant design challenge 2020,AutoImplant 2020),該比賽提供了免費公開使用的研究數據集(網址:

針對訓練集數據不足的問題,本文參照Ellis等[10]提出的數據增強方式,將100例訓練集擴充到9 803例。每次迭代訓練時還將擴充的圖像進行如下數據增強:沿前后水平方向以50%的概率進行鏡像操作;以75%的概率隨機放大和縮小;以75%的概率隨機平移;并對所有輸入圖像額外的背景填充進行裁剪。通過上述操作,以確保本文模型對不同缺損位置、圖像縮放、顱骨位置變化的圖像都具有魯棒性[10]。
2.2 實驗環境及參數設置
在本文實驗中,使用了五邑大學超算中心平臺服務器,配置為:社區企業操作系統CentOS(7.6,Red Hat,美國);特斯拉Tesla(V100,Nvidia,美國);編程語言Python(3.7,Python Software Foundation,美國);輸入顱骨影像尺寸為160 × 192 × 128,以完整顱骨作為標簽,通過后處理間接得到顱骨植入物的形狀,使用自適應矩估計(adaptive moment estimation,Adam)優化器進行梯度下降[24],戴斯損失(Dice loss)作為損失函數[25],同時使用早停法監測訓練過程[26]。參數設置方面,批大小設置為2,學習率設置為0.001,并使用學習率衰減進行全局最優點地尋找。每次完成迭代訓練后對驗證集進行驗證,保留在驗證集上取得最好結果的權重。
2.3 評估指標
評估指標使用AutoImplant 2020指定的戴斯相似性系數(Dice similarity coefficient,DSC)(以符號DSC表示)和豪斯多夫距離(Hausdorff distance,HD)(以符號HD表示)兩個指標作為對顱骨缺損重建植入物預測的評估[27-28]。DSC和HD為用于衡量兩個樣本之間的相似度的指標。DSC傾向于比較兩個樣本內部填充的相似性,HD傾向于比較兩個樣本邊界的相似性。DSC和HD的公式如式(4)、式(5)所示:
![]() |
![]() |
其中,P和T分別表示預測結果和標簽,是P和T之間的任何度量,p∈P,t∈T。
2.4 形態學后處理
顱骨植入物的獲得,有直接預測植入物和預測完整顱骨再進行后處理得到植入物兩種方式。本文采用后者,后處理方法如圖5所示,第一行為后處理結果,第二行圖像為第一行圖像的局部放大圖。后處理的主要思路是:以0.5為閾值化將完整顱骨減去缺損顱骨,計算得到植入物;然后基于AutoImplant 2020提供的方法對獲得的植入物進行連接區域分析,將除了最大的連接區域以外的所有對象都去除掉;最后,使用形態學運算中的開運算去除降噪后顱骨植入物的邊緣突起。

2.5 不同方法的實驗對比分析
為了驗證所提方法有效性,將所提算法與AutoImplant 2020的研究工作進行對比分析。本實驗所使用數據集與其相同。實驗測試集共110例,測試集中編號為0~99例數據缺損形狀與訓練集缺損形狀相似,編號為100~109例數據缺損形狀與訓練集缺損形狀差異較大。本文所提方法和其它研究工作的結果對比如表1所示。表1中,DSC-100為0~99例數據DSC結果;DSC-10為100~109例DSC結果;DSC-110為0~109例數據DSC結果;HD-100為0~99例數據HD結果;HD-10為100~109例HD結果;HD-110為0~109例數據HD結果[3, 7-10, 29-33]。文獻[7]訓練VAE模型學習整個顱骨的潛在分布;然后將訓練的VAE編碼部分與編解碼架構結合,預測出完整的顱骨。但該方法不能很好地學習缺損顱骨潛在的分布,對于缺損形狀和位置不同的缺損顱骨的預測結果并不理想,泛化能力較差。文獻[8]提出形狀先驗的方法,將形狀先驗信息作為網絡額外的通道,提高網絡性能;然而其使用直接預測顱骨植入物的方法,使得模型泛化性下降。文獻[9]將輸入圖像拆分成4份作為網絡輸入,而后將輸出的4份圖像進行合成,從而得到顱骨植入物圖像。由于對輸入圖像進行拆分,模型不能很好地把握缺損顱骨的完整信息,導致模型效果提升不大。文獻[10]構建結合跳躍連接的U-Net模型,使用更大的輸入圖像尺寸以獲得更大的感受野,并提出一種數據增強方式,將訓練集原來僅有的100例擴充到9 803例,提高模型的魯棒性。然而,文獻[10]所提模型參數量與計算量過大,對運行設備要求高,給在手術室內進行顱骨植入物的設計帶來困難。且僅通過將殘差與U-Net結合的策略,不能對輸入的不同通道特征間的關聯性和重要性進行學習。而本文所提IRA-Unet使用3D圖像作為輸入,讓模型可以獲得更多空間信息;使用預測完整顱骨再后處理間接獲得顱骨植入物的方式提供更多潛在分布信息,提高模型泛化能力。本文所提IRA能讓模型根據需求在全局感受野和局部信息中進行選擇和綜合,對輸入特征間的關聯性和重要性進行學習,提高模型精度。如表1所示,本文所提的方法相較于AutoImplant 2020最佳結果文獻[10]的指標值基本持平,在缺損形狀與訓練集缺損形狀差異較大的100~109例數據上具有魯棒性,優勝于其它論文研究結果。

進一步從模型參數與計算量上比較。本文所提方法與文獻[10]所提方法所需參數量和計算量如表2所示。文獻[10]所提方法每秒所需的浮點運算次數(floating-point operations per second,FLOPS)為1.8 T,參數量為68 M。而本文所提informer注意力能進行注意力的提取,去除冗余注意力,減少計算量和參數量。本文方法每秒所需的浮點運算次數為1.7 T,參數量為55 M。

綜上,本文所提的方法在所需參數量、計算量和準確度之間做到很好的權衡,與AutoImplant 2020最佳結果文獻[10]所提出的方法僅存在微小的差距,但進一步減少了參數量和計算量。
2.6 消融實驗
2.6.1 informer有效性分析
informer通過注意力的提取,實現注意力的集中和減少資源使用量。為了驗證informer的有效性,將informer注意力中的informer替換為矩陣乘法,由于替換成矩陣乘法造成過多的內存消耗,因此將IRA放在第三層,圖像輸入尺寸設置為160 × 192 × 128,以顱骨植入物作為標簽,構建直接得到顱骨植入物的模型記為殘差注意力U-Net(residual attention U-Net,RA-Unet)。將RA-Unet中注意力的矩陣乘法替換為informer操作,構建得到IRA變體U-Net(IRA variant U-Net,IRAV-Unet)作為對照。實驗訓練使用來源于AutoImplant 2020中包含100例受試者圖像的訓練集,不使用擴充的9 803例數據進行訓練。測試使用包含110名受試者圖像的測試集。如表3所示,對RA-Unet和IRAV-Unet中注意力模塊所需的計算時間復雜度和內存使用量進行展示。informer可以從L個Q中提取出logL個Q與K進行相似度的計算,因此IRAV-Unet的時間復雜度和內存使用量只需 ,而RA-Unet的注意力計算所需的時間復雜度和內存使用量需要O(L2)。其中,L為輸入注意力模塊的尺寸大小。

如圖6和圖7所示,為了驗證informer對注意力提取的作用,對RA-Unet和IRAV-Unet的注意力權值分布以折線圖和熱力圖的形式展示。折線圖展示RA-Unet和IRAV-Unet注意力權值數量前十的數值。RA-Unet的熱力圖大小為7 680 × 7 680。因informer對Q進行提取,IRAV-Unet熱力圖大小為7 680 × 45。


首先,分析權值數量。如圖6所示,對于沒有使用informer的RA-Unet,其注意力權值趨于0的數量占了大多數,即大量的權值占用內存和計算量但對注意力沒有貢獻。而使用informer的IRAV-Unet能夠對趨于0的權值進行篩選實現注意力的提取,減少內存的使用和計算量。其次,分析RA-Unet和IRAV-Unet注意力的權值熱力圖。如圖7所示,對于沒有使用informer的RA-Unet,其注意力稀疏地分布在全圖。然而,在顱骨修復任務中模型將注意力集中在顱骨缺損位置,更有利于提高模型的預測結果。而使用informer的IRAV-Unet篩除了不必要的注意力使整體注意力有所提升,可以將注意力集中在重點區域。
2.6.2 IRA有效性分析
informer注意力和殘差結合可以讓模型具有更加靈活的結構。通過將informer注意力模塊與殘差結構結合構造IRA,模型在訓練的過程中可以在卷積和informer注意力間進行選擇,讓模型關注重點區域,使模型更快收斂。為了驗證將informer注意力和殘差結合的有效性,將IRA替換為informer注意力模塊,以完整顱骨為標簽,設置圖像輸入尺寸為176 × 224 × 144,構建得到informer注意力U-Net(informer attention U-Net,IA-Unet)。以完整顱骨為標簽,圖像輸入尺寸為176 × 224 × 144的IRA-Unet作為對照。實驗訓練直接使用來源于AutoImplant 2020中包含100例受試者圖像的訓練集,不使用擴充的9 803例數據進行訓練;測試時使用包含110名受試者圖像的測試集。
IA-Unet和IRA-Unet在訓練過程中的損失曲線如圖8所示。虛線表示IA-Unet訓練時在訓練集和驗證集上的損失曲線。實線表示IRA-Unet訓練時在訓練集和驗證集上的損失曲線。從損失曲線中可以看出,將informer注意力與殘差相結合,模型可以通過在informer注意力和卷積間進行選擇和綜合,能夠更快地找到更優點。

IA-Unet和IRA-Unet在測試集上經過后處理的預測結果如圖9和表4所示。測試集中0~99例數據缺損形狀與訓練集缺損形狀相似,100~109例數據缺損形狀與訓練集缺損形狀差異較大。如圖9所示為模型第1、9、100、109例測試數據的預測結果。表4中,DSC-100為0~99例數據DSC結果;DSC-10為100~109例DSC結果;DSC-110為0~109例數據DSC結果;HD-100為0~99例數據HD結果;HD-10為100~109例HD結果;HD-110為0~109例數據HD結果。如圖9和表4所示,使用IRA的IRA-Unet能夠很好地得到顱骨植入物,且具有泛化性。在缺損形狀與訓練集差異較大的額外10例測試集上也能得到不錯的效果。而單獨使用informer注意力模塊的IA-Unet,因不具有能在informer注意力和卷積間選擇的能力,預測得到的顱骨植入物仍存在缺損,在額外10例測試集上表現也不佳。


顱骨修復任務的重點在于對缺損位置的修復,而不是對于非缺損位置的預測,因此網絡能否進行注意力的合理分配是取得不錯效果的關鍵。為了探究IA-Unet和IRA-Unet在輸出層注意力的分布,將兩個變體模型輸出層的輸出特征可視化為二維圖像如圖10所示。圖10中,第1行為測試集中3例(分別是:第2、77、59例)缺損顱骨的切片圖像;第2行為IA-Unet輸出層的輸出特征二維圖像;第3行為IRA-Unet輸出層的輸出特征二維圖像。可以看到,IA-Unet會把部分注意力分散在顱骨內腔,導致其不能很好地預測出完整的顱骨。而使用IRA的IRA-Unet能夠在卷積和注意之間進行選擇和綜合,能夠很好地進行注意力的選擇,將注意力集中在顱骨缺損位置,從而預測出完整的顱骨。另外,如表4所示,IRA-Unet相較于IA-Unet在測試集上的測試結果在各項指標上有明顯的提升。

2.6.3 直接和間接獲得顱骨植入物方式分析
通過深度學習方式獲得顱骨植入物有兩種方式:① 直接獲得顱骨植入物:以顱骨植入物作為標簽,讓模型直接輸出顱骨植入物;② 間接獲得顱骨植入物:以完整顱骨作為標簽,讓模型輸出完整顱骨再經由后處理得到顱骨植入物。直接獲得顱骨植入物的方式無需額外后處理步驟更為便捷;間接獲得顱骨植入物的方式則更具泛化性。兩種方式各有利弊,現有研究工作均使用其中一種方式進行實現,還未有研究工作將兩種方式對結果的影響進行對比。但使用直接獲得顱骨植入物方式的研究工作普遍存在模型泛化能力差的問題,本文構建對比實驗對這兩種方式進行分析。
本文分別以顱骨植入物和完整顱骨作為標簽構建模型,分別是直接的IRA-Unet(direct IRA-Unet,D-IRA-Unet)和間接的IRA-Unet(indirect IRA-Unet,I-IRA-Unet),圖像輸入尺寸設置為160×192×128。實驗訓練直接使用來源于AutoImplant 2020中包含100例受試者圖像的訓練集,不使用擴充的9803例數據進行訓練。測試使用包含110名受試者圖像的測試集。D-IRA-Unet和I-IRA-Unet的實驗結果和預測結果3D展示如表4和圖9所示。如表4所示,使用直接獲得顱骨植入物的D-IRA-Unet不僅在缺損形狀差異較大的額外10例表現不如間接獲得顱骨植入物的I-IRA-Unet,在缺損形狀相似的前100例整體表現也不如I-IRA-Unet。如圖9所示,可以更直觀地看出直接獲得顱骨植入物和間接獲得顱骨植入物兩種方式結果的差距。對于缺損形狀相似的前100例,D-IRA-Unet和I-IRA-Unet均可以得到完整的顱骨植入物。但對于缺損形狀差異較大的額外10例,間接獲得顱骨植入物的I-IRA-Unet仍能較好地獲得完整顱骨植入物,而直接獲得顱骨植入物的D-IRA-Unet得到的顱骨植入物仍具有缺損,泛化能力較差。在臨床上,顱骨缺損患者的顱骨缺損各異,這要求模型有很好的泛化能力,能針對不同形狀的缺損顱骨得到高精度的顱骨植入物。直接獲得顱骨植入物的方式雖省去后處理步驟更為便捷,但泛化性不佳。間接獲得顱骨植入物的方式雖需要額外的后處理步驟,但模型更能找到標簽與輸入之間的關聯性,使得結果更具魯棒性。
3 結論
針對缺損形狀和位置不同的缺損顱骨預測邊緣精細的顱骨植入物問題,本文提出了一種面向顱骨缺損修復的3D顱骨植入物設計模型IRA-Unet。通過從自然語義處理領域引入informer,設計得到informer注意力,讓模型更加關注顱骨缺損位置,將計算量和參數量從N2降到log(N),并進一步將informer注意力與殘差塊結合得到IRA,使模型能根據需求在全局感受野和局部信息中進行選擇和綜合,提高模型精度和加快模型收斂速度。通過使用更大的輸入尺寸和增強的完整顱骨數據進行訓練后處理獲得顱骨植入物,能夠提高模型精度且更具魯棒性。本文還對所提模型進行可視化,進一步驗證模型有效性。本文所提方法在缺損形狀和位置與訓練集相似的缺損顱骨上取得DSC值為0.9413,HD值為3.6572的結果。在缺損形狀和位置與訓練集不同的缺損顱骨上取得DSC值為0.9315,HD值為3.980 0的結果。綜上,針對顱骨缺損修復問題,本文所提方法能夠在保持精度的同時降低內存使用量并且具有較好的魯棒性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:秦傳波主要負責項目主持、提供實驗指導、數據分析指導以及論文審閱修訂;曾俊博主要負責論文撰寫、算法設計、數據處理、實驗設計與分析、代碼編寫與調試;鄭斌主要負責數據整理、代碼調試;曾軍英主要負責提供實驗指導、數據分析指導、論文撰寫指導;翟懿奎、閆敬文主要負責算法設計指導;張文光主要負責提供臨床顱骨植入物設計需求分析和指導。