高分辨率磁共振成像(MRI)和計算機斷層掃描(CT)影像能夠提供更清晰的人體解剖細節,有助于疾病的早期診斷。但是,由于成像系統、成像環境和人為等因素限制,清晰的高分辨率圖像難于獲得。本文提出一種非下采樣剪切波變換域(NSST)多尺度信息蒸餾(MSID)網絡的醫學影像超分辨率重建方法(即NSST-MSID網絡)。首先,提出一種MSID網絡,主要由多個級聯的MSID塊構成,充分探取圖像的多尺度特征,有效恢復低分辨率圖像至高分辨率圖像。此外,由于現有方法往往在空間域預測高分辨率圖像,使得輸出過于平滑且丟失了紋理細節,因此將醫學圖像的超分辨率問題描述為NSST系數的預測問題,使得MSID網絡比空間域保持更豐富的結構細節。最后,在建立的醫學影像數據集上對提出的方法進行性能評價。實驗結果表明,與其他現有杰出的方法相比,NSST-MSID網絡可以得到較優的峰值信噪比(PSNR)、結構相似性(SSIM)及均方根誤差(RMSE)值,更好地保留了局部紋理細節與全局拓撲結構,實現了不錯的醫學影像重建效果。
引用本文: 王華東, 孫挺. 變換域多尺度信息蒸餾網絡的醫學影像超分辨率重建. 生物醫學工程學雜志, 2022, 39(5): 887-896. doi: 10.7507/1001-5515.202109057 復制
引言
計算機斷層掃描(computed tomography,CT)與磁共振成像(magnetic resonance imaging,MRI)為無創醫療提供了便利,非常有助于醫生診斷。高分辨率(high resolution,HR)醫學影像可以提供更豐富的病變信息,提升診斷的準確性。然而,由于諸多因素的影響,HR醫學影像的采集過程很復雜。除了成像硬件潛在的限制外,醫學圖像更容易受到身體限制和采集時間限制的影響。例如,由于患者疲勞和器官搏動而引起的移動會進一步降低圖像質量,并導致較低的信噪比(signal-to-noise ratio,SNR)圖像。因此,醫學影像超分辨率(super resolution,SR)方法目前變得極其重要[1-3]。
近年來,深度學習(deep learning,DL)技術在圖像分類[4]、目標檢測[5]等任務中表現出了優越的性能,優于傳統的機器學習算法,這主要歸因于計算能力的提高和可用的大數據量的增加。對于SR任務,基于卷積神經網絡(convolutional neural networks,CNNs)的模型[6-18]顯著地提高了SR方法的質量。第一個SRCNN[7]的性能受其淺層結構的限制,為了獲得更好的性能,網絡傾向越深越好,學者們提出了具有更深層次結構的VDSR[8]、DRRN[9]和Memnet[10]等網絡。最近,Zhang等[11]提出了更深層的RCAN模型,在SR問題上得到了極其令人滿意的效果。一些學者提出了結合密集連接的超分辨率模型,如SRDenseNet[12]和Memnet[10],進一步提高了性能。此外,更有效的基于CNNs的SR方法是通過連接一系列相同的特征提取模塊來構建整個網絡,如RDN[13]、IDN[14]、MSRN[15]和SRFBN[16]等,結果表明每個塊的性能起著至關重要的作用。
多尺度網絡[15,19-22]在具有代表性的計算機視覺任務(目標檢測、圖像分類和語義分割等)上顯示出很好的結果。對于SR任務,Li等[15]提出了多尺度殘差網絡的圖像SR方法,能夠自適應地檢測出不同尺度下的圖像特征。應自爐等[21]提出了多尺度密集殘差網絡的單幅圖像SR重建方法。Wang等[22]提出了一種用于醫學影像SR方法處理的深度多尺度網絡,較好地表達了HR醫學影像的全局拓撲結構和局部紋理細節。
上述方法均是在圖像的空間域中完成圖像SR,但通常會生成過于平滑的輸出,從而丟失紋理細節。相比之下,變換域中的圖像SR可以在不同的層次上保留圖像的上下文和紋理信息,從而產生更好的SR效果。考慮到這一點,Guo等[23]設計了深度小波超分辨率DWSR網絡,通過預測低分辨率(low resolution,LR)圖像小波系數的“缺失細節”以獲取HR圖像。此外,Huang等[24]將小波變換(wavelet transform,WT)應用于卷積神經網絡的人臉SR中,驗證了該方法能夠準確地捕獲人臉的局部紋理細節和全局拓撲信息。
本文提出一種非下采樣剪切波變換域(non-subsampled shearlet transform,NSST)多尺度信息蒸餾(multi-scale information distillation,MSID)網絡的醫學圖像SR方法,即NSST-MSID網絡。MSID網絡主要由一系列級聯的多尺度信息蒸餾塊組成,充分提取醫學圖像的多尺度特征,有效地將LR圖像恢復為HR圖像。此外,NSST是較WT具有更好的多尺度、多方向和平移不變的特性。所提出網絡融合了NSST,并驗證了NSST相對于WT的優越性,將醫學圖像的SR問題描述為NSST系數的預測問題,使得MSID網絡進一步保持比空間域更豐富的結構細節。
1 提出的方法
本文提出一種基于NSST域MSID網絡的醫學影像SR方法。該方法首先提出了MSID網絡,將多尺度與信息蒸餾結構融合,形成了級聯的多尺度信息蒸餾網絡,提取出更加豐富的長-短路徑的特征,促進更高質量的HR醫學圖像重建。此外,在變換域中實現SR方法可使得處理后的圖像具有更好的紋理細節,且邊緣更加平滑。因此,本文提出了采用性能優越的NSST進行HR圖像預測。相對小波、曲波等變換,NSST具有更好的多尺度、多方向和平移不變的特性,能夠更好地探索紋理和邊緣特征,進一步使MSID網絡保留更豐富的結構細節。
具體地,本文在NSST域中設計了一系列級聯的深度MSID塊,以利用醫學圖像中豐富的潛在特征用于HR圖像重建。提出的網絡框架如圖1所示。首先,在LR醫學圖像上應用NSST,獲得一個低頻分量和一系列高頻分量。低頻分量保留全局拓撲信息,高頻分量捕獲結構和紋理信息。然后,低頻分量和高頻分量被一起輸入到MSID網絡中,以預測生成的HR圖像的變換系數,所有分量共享一套參數,這些低/高頻分量作為網絡的輸入比空域圖像更能提高識別能力。最終,將這些變換系數通過NSST逆變換獲得超分辨重建的HR圖像。本節首先描述提出的MSID網絡結構,然后介紹提出的MSID塊以及NSST-MSID網絡中的NSST系數預測。

1.1 多尺度信息蒸餾網絡結構
本文提出一種MSID網絡,相較于傳統多尺度CNNs或多尺度殘差網絡,MSID網絡融入了級聯的信息蒸餾塊,提取局部長路徑和短路徑的特征,使用較少的卷積層,盡可能收集更多信息,逐步豐富有效的特征用于HR圖像重建,獲得具有競爭力的效果。
如圖2所示,MSID網絡由兩部分組成:淺層特征提取(shallow feature extraction,SFE)模塊和深層特征提取(deep feature extraction,DFE)模塊。用 和
分別表示LR圖像和HR圖像。最終目標是學習
和
之間的端到端映射函數F。因此,將解決如下問題:

![]() |
其中, 表示p個卷積層的權重和偏差參數;N是訓練樣本數;
是最小化
和
之間差異的損失函數。
均方誤差函數是圖像SR方法中最常用的目標優化函數[9-10]。然而,Lim等[25]證明使用均方誤差損失具有局限性,因此本文選用平均絕對誤差作為損失函數:
![]() |
具體地,采用兩個卷積層從醫學影像中獲取淺層的特征:
![]() |
其中, 和
分別表示SFE模塊中兩層的卷積運算。在淺層特征模塊之后,淺層特征被用于DFE模塊,該模塊包含一組級聯的MSID塊。每個MSID塊可以收集盡可能多的信息,并提取更多有用的信息。然后采用1 × 1卷積層對輸出信息進行特征融合:
![]() |
其中, 表示由MSID塊1, 2, …, T生成的特征圖的級聯;
是1 × 1卷積層的融合函數。特征被融合后,通過全局殘差學習獲得特征圖
:
![]() |
在MSID網絡中,除了特征融合中設計128個濾波器外,所有卷積層均設計為64個濾波器。
1.2 多尺度信息蒸餾塊
MSID塊如圖3所示(即為圖2中的MSID塊),每個MSID塊可以分為兩個部分,分別用于提取局部長路徑和短路徑的特性。與IDN模型[14]不同,在每個部分構造了三個路徑,不同路徑使用不同的卷積核。這樣,模型可以自適應地檢測出不同尺度下的長路徑和短路徑特征。具體地,假設第一部分的輸入和輸出是和
,因此有:

![]() |
其中,、
、
和
分別是第一部分1 × 1、3 × 3、5 × 5和7 × 7卷積函數;
表示由不同卷積核獲得的特征圖的連接;
表示ReLU函數[26]。然后,將
的64維特征圖和MSID塊的輸入
連接到通道維中:
![]() |
其中,C和S分別表示連接操作和切片操作。從S中提取64維特征,目的是將當前的多尺度信息與前面的信息結合起來。這可以看作是保留的短路徑信息。然后,將剩下的64維特征圖作為第二部分的輸入,進而獲取長路徑信息:
![]() |
其中,、
、
和
分別是第二部分中1 × 1、3 × 3、5 × 5和7 × 7卷積函數。最后,對輸入信息、短路徑信息和長路徑信息進行聚合:
![]() |
其中, 表示MSID塊的輸出。
1.3 非下采樣剪切波變換系數預測
小波分析[27]不能“最優地”用直線和曲線表示圖像函數。相比之下,剪切波變換[28]是一種多尺度多分辨率的幾何表示方法。而NSST[29]利用非下采樣Laplacian金字塔濾波器代替Laplacian金字塔濾波器,保持了剪切波變換的優越性,避免了剪切波變換上采樣和下采樣帶來的負面影響,使得NSST具有多尺度、多方向和平移不變的特性。
NSST由兩部分組成:多尺度分解和多方向分解。多尺度分解由非下采樣Laplacian金字塔濾波器實現;多方向分解由改進的剪切波濾波器實現。為了捕獲圖像或信號的奇異性,非下采樣Laplacian金字塔濾波器將低頻子帶分解k次,進而獲得k + 1個高頻子帶與一個低頻子帶。為了不使用下采樣操作,整個過程將剪切波濾波器從偽極化網格系統映射至笛卡爾坐標系下的二維卷積計算實現,即在變換域中直接處理。本文將醫學圖像SR問題描述為NSST系數的預測問題,使MSID網絡進一步保留更豐富的結構細節。在圖4中比較了NSST和WT的高頻系數,可以清楚地看到NSST可以更準確地表示紋理曲度和細節。

以往基于CNNs的SR方法大多是在空間域預測高分辨率圖像,在丟失紋理細節的同時產生了過平滑的輸出。如引言所述,變換域中的SR方法比空間域能夠獲得更好的結果。隨后,一些學者[23-24]提出了在WT域預測HR圖像。但WT在方向性上具有局限性,僅涉及三個方向(水平、垂直和對角線),對曲線的刻畫能力不強。因此,文本采用性能優越的具有更好多尺度、多方向和平移不變特性的NSST進行HR圖像預測。將醫學圖像SR問題表示為NSST系數的預測,如圖1所示,這能夠使MSID網絡比空間域進一步保留更豐富的結構細節。值得一提的是,NSST可以用于不同的SR網絡,是一種簡單有效的提高性能的方法。NSST實現的詳細過程見文獻[29]。
2 實驗結果與分析
在實驗中,從定量與定性兩方面對提出方法的性能進行評價。采用峰值信噪比(peak signal to noise ratio,PSNR)、結構相似性(structural similarity,SSIM)及均方根誤差(root mean square error,RMSE)三個指標[30]來評價網絡性能以及圖像紋理變化等質量,計算公式如下:
![]() |
![]() |
![]() |
其中,MAX表示醫學圖像的最大灰度值,x表示網絡訓練得到的預測圖像,y表示標準的高精度圖像; 表示x的均值,
表示y的均值,
表示x的方差,
表示y的方差,
表示xy的協方差,
和
是常數。此外,本文測試結果由一位影像診斷經驗超過10年的資深放射科醫生進行評測,將平均意見評分(mean opinion score,MOS)[3,31]作為主觀性評估標準。
2.1 醫學圖像數據集
將四個身體部位(頭部Brain、肺部Lung、腹部Abdomen和骨部Bone)的醫學圖像進行整合,建立一個適用于醫學圖像SR的數據集。該數據集包含1 000幅醫學圖像,每個身體部位250幅圖像。頭部和肺部圖像選自腫瘤影像資料(The Cancer Imaging Archive,TCIA)[32];骨部和腹部圖像取自國內周口市人民醫院放射線科,且獲得授權使用。總共700幅醫學圖像(每個身體部位175幅圖像)組成訓練集;其余300幅圖像組成測試集。所有圖像主要為CT(低密度、高密度和混雜密度)和MRI(T1加權成像、T2加權成像、擴散加權成像DWI和液體翻轉恢復衰減系列FLAIR)等模態。在本實驗中,腹部為MRI圖像,成像分辨率為320×290;其他部位為CT圖像,成像分辨率均為512×512。
實驗中,原始的1 000幅醫學圖像為高分辨率圖像;通過Bicubic 8×/4×對原始高清圖像使用經典的Bicubic(雙三次插值)降尺度8倍/4倍的方式生成低分辨率圖像,形成低分辨率圖像數據集。這些低分辨率和高分辨率數據集形成訓練集送入網絡進行訓練,以建立SR模型,最終獲得SR結果。
2.2 實驗執行細節
在2.1節描述的700個圖像訓練數據集上執行數據增強。受文獻[8-9]的啟發,考慮了翻轉和旋轉增加訓練圖像。具體來說,是將原始圖像旋轉90、180、270°,然后水平翻轉。這樣,對于每個原始圖像有4個額外的增強版本。
NSST-MSID網絡包含8個MSID塊。訓練醫學圖像通過一級NSST分解獲得1個低頻子帶與4個高頻子帶,然后將這些子帶裁剪為48 × 48個重疊24像素的片進行訓練。設置批量輸入為64,所有層的學習率初始為10?4,每50個周期降低一半。使用Tesla k80 GPUs訓練模型大約需要9 h。
2.3 與先進方法的比較
本文在四個子數據集(即頭部、肺部、腹部和骨部)上對所提出的方法進行性能評估。為了公平比較,采用被比較方法公開發布的代碼,并在相同的訓練集上訓練全部模型,包括MSRN[15]、IDN[14]、SRFBN[16]、DWSR[23]、DMSN[22]、RCAN[11]和本文提出的方法NSST-MSID網絡。用于比較的PSNR、SSIM和RMSE值(尺度:4 × 和8 ×)如表1~3所示。從表中明顯看到,當對四個數據集進行評估時,與其他方法相比,本文提出的NSST-MSID網絡得到了更高的PSNR和SSIM值,以及更低的RMSE值。這表明提出的方法具有更好的網絡性能和圖像紋理變化質量。除此之外,用MOS來量化評估所生成的SR圖像的感知真實性。在本研究中,隨機選取300張測試集圖像中的100張圖像進行驗證評估。對于每張圖像,均有1張HR圖像和本文七種SR方法處理的7張結果圖像。邀請某二甲醫院腦部放射科專家根據圖像質量[3](過度平滑、偽影、紋理差和低信噪比)給出評分,評分標準:1分(差)、2分(一般)、3分(良好)和4分(非常好);最終,通過計算每種方法的均值和標準差獲得MOS。表4給出了每種方法在頭部數據集(4 ×)下的MOS值,本文提出的NSST-MSID網絡獲得了最高的MOS。




圖5顯示了四個部位的定性結果,即疑似腦血管畸形的大腦、肺縱隔窗主動脈粥樣硬化的肺部、腎囊腫的腹部和正常的骶骨在8 × 尺度上的視覺效果。NSST-MSID網絡重建的圖像結構清晰,細節豐富,在縮放區域清晰可見。

2.4 消融實驗
2.4.1 MSID網絡、塊數量及蒸餾特性的影響
表5所示為MSID塊數量T對網絡性能的影響,發現增加T會帶來性能改進,表明網絡越深越好。考慮到精度和速度的折衷,在實驗中采用T=8構造NSST-MSID網絡。表6所示為蒸餾特性對網絡性能的影響,融入蒸餾特性后,四個部位在尺度為8×、MSID塊數量T = 8情況下PSNR值均有所提高。表7所示為多尺度特性對網絡性能的影響,融入多尺度特性后,四個部位在尺度為8 ×、MSID塊數量T = 8情況下PSNR值均有所提高。此外,關于圖像patch的大小,由于卷積在不同patch上的絕對感受野是不變的,因此不同尺寸的patch基本上不會影響網絡的特征提取。



2.4.2 NSST有效性
本小節考慮NSST的有效性。圖6a所示為將MSID網絡分別與小波[27]、曲波[22]和NSST融合在4個子數據集上的比較結果(尺度:8×);圖6b所示為IDN、MSRN和RCAN分別與NSST融合的比較結果。綜合圖6可以看出,提出的NSST-MSID網絡有了顯著的改進;NSST預測優于空間域和其他兩個變換域,且在不同數據集和SR網絡上的改進是一致的。除此之外,本文進一步評價NSST分解層級對網絡性能的影響。由于分解的高頻層級越多,方向數也越多,網絡的開銷會隨之增大,因此本文僅討論5個以內的分解高頻層級。考慮網絡開銷,本文選取NSST分解3個層級的結果。表8所示為NSST分解的不同高頻層級對應的PSNR值,隨著分解層級和分解方向數的增加,學習到的細節信息更加豐富,PSNR值也隨之增加。

a.與不同變換域融合的MSID網絡; b. 融合NSST的IDN、MSRN和RCAN
Figure6. Effectiveness of NSST predictiona. MSID network integrated with different transform domains; b. IDN, MSRN and RCAN integrated with NSST

3 小結
本文提出一種新穎的基于CNNs的醫學圖像SR網絡。該網絡由一系列級聯的多尺度信息蒸餾塊組成,可充分提取醫學圖像的多尺度特征。此外,NSST被融入網絡,比空間域保留了更豐富的細節,進一步提高了SR性能。定量與定性研究結果表明了所提出方法的優越性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:王華東負責實驗設計、數據收集、數據分析和論文寫作,孫挺負責數據收集和論文寫作。
引言
計算機斷層掃描(computed tomography,CT)與磁共振成像(magnetic resonance imaging,MRI)為無創醫療提供了便利,非常有助于醫生診斷。高分辨率(high resolution,HR)醫學影像可以提供更豐富的病變信息,提升診斷的準確性。然而,由于諸多因素的影響,HR醫學影像的采集過程很復雜。除了成像硬件潛在的限制外,醫學圖像更容易受到身體限制和采集時間限制的影響。例如,由于患者疲勞和器官搏動而引起的移動會進一步降低圖像質量,并導致較低的信噪比(signal-to-noise ratio,SNR)圖像。因此,醫學影像超分辨率(super resolution,SR)方法目前變得極其重要[1-3]。
近年來,深度學習(deep learning,DL)技術在圖像分類[4]、目標檢測[5]等任務中表現出了優越的性能,優于傳統的機器學習算法,這主要歸因于計算能力的提高和可用的大數據量的增加。對于SR任務,基于卷積神經網絡(convolutional neural networks,CNNs)的模型[6-18]顯著地提高了SR方法的質量。第一個SRCNN[7]的性能受其淺層結構的限制,為了獲得更好的性能,網絡傾向越深越好,學者們提出了具有更深層次結構的VDSR[8]、DRRN[9]和Memnet[10]等網絡。最近,Zhang等[11]提出了更深層的RCAN模型,在SR問題上得到了極其令人滿意的效果。一些學者提出了結合密集連接的超分辨率模型,如SRDenseNet[12]和Memnet[10],進一步提高了性能。此外,更有效的基于CNNs的SR方法是通過連接一系列相同的特征提取模塊來構建整個網絡,如RDN[13]、IDN[14]、MSRN[15]和SRFBN[16]等,結果表明每個塊的性能起著至關重要的作用。
多尺度網絡[15,19-22]在具有代表性的計算機視覺任務(目標檢測、圖像分類和語義分割等)上顯示出很好的結果。對于SR任務,Li等[15]提出了多尺度殘差網絡的圖像SR方法,能夠自適應地檢測出不同尺度下的圖像特征。應自爐等[21]提出了多尺度密集殘差網絡的單幅圖像SR重建方法。Wang等[22]提出了一種用于醫學影像SR方法處理的深度多尺度網絡,較好地表達了HR醫學影像的全局拓撲結構和局部紋理細節。
上述方法均是在圖像的空間域中完成圖像SR,但通常會生成過于平滑的輸出,從而丟失紋理細節。相比之下,變換域中的圖像SR可以在不同的層次上保留圖像的上下文和紋理信息,從而產生更好的SR效果。考慮到這一點,Guo等[23]設計了深度小波超分辨率DWSR網絡,通過預測低分辨率(low resolution,LR)圖像小波系數的“缺失細節”以獲取HR圖像。此外,Huang等[24]將小波變換(wavelet transform,WT)應用于卷積神經網絡的人臉SR中,驗證了該方法能夠準確地捕獲人臉的局部紋理細節和全局拓撲信息。
本文提出一種非下采樣剪切波變換域(non-subsampled shearlet transform,NSST)多尺度信息蒸餾(multi-scale information distillation,MSID)網絡的醫學圖像SR方法,即NSST-MSID網絡。MSID網絡主要由一系列級聯的多尺度信息蒸餾塊組成,充分提取醫學圖像的多尺度特征,有效地將LR圖像恢復為HR圖像。此外,NSST是較WT具有更好的多尺度、多方向和平移不變的特性。所提出網絡融合了NSST,并驗證了NSST相對于WT的優越性,將醫學圖像的SR問題描述為NSST系數的預測問題,使得MSID網絡進一步保持比空間域更豐富的結構細節。
1 提出的方法
本文提出一種基于NSST域MSID網絡的醫學影像SR方法。該方法首先提出了MSID網絡,將多尺度與信息蒸餾結構融合,形成了級聯的多尺度信息蒸餾網絡,提取出更加豐富的長-短路徑的特征,促進更高質量的HR醫學圖像重建。此外,在變換域中實現SR方法可使得處理后的圖像具有更好的紋理細節,且邊緣更加平滑。因此,本文提出了采用性能優越的NSST進行HR圖像預測。相對小波、曲波等變換,NSST具有更好的多尺度、多方向和平移不變的特性,能夠更好地探索紋理和邊緣特征,進一步使MSID網絡保留更豐富的結構細節。
具體地,本文在NSST域中設計了一系列級聯的深度MSID塊,以利用醫學圖像中豐富的潛在特征用于HR圖像重建。提出的網絡框架如圖1所示。首先,在LR醫學圖像上應用NSST,獲得一個低頻分量和一系列高頻分量。低頻分量保留全局拓撲信息,高頻分量捕獲結構和紋理信息。然后,低頻分量和高頻分量被一起輸入到MSID網絡中,以預測生成的HR圖像的變換系數,所有分量共享一套參數,這些低/高頻分量作為網絡的輸入比空域圖像更能提高識別能力。最終,將這些變換系數通過NSST逆變換獲得超分辨重建的HR圖像。本節首先描述提出的MSID網絡結構,然后介紹提出的MSID塊以及NSST-MSID網絡中的NSST系數預測。

1.1 多尺度信息蒸餾網絡結構
本文提出一種MSID網絡,相較于傳統多尺度CNNs或多尺度殘差網絡,MSID網絡融入了級聯的信息蒸餾塊,提取局部長路徑和短路徑的特征,使用較少的卷積層,盡可能收集更多信息,逐步豐富有效的特征用于HR圖像重建,獲得具有競爭力的效果。
如圖2所示,MSID網絡由兩部分組成:淺層特征提取(shallow feature extraction,SFE)模塊和深層特征提取(deep feature extraction,DFE)模塊。用 和
分別表示LR圖像和HR圖像。最終目標是學習
和
之間的端到端映射函數F。因此,將解決如下問題:

![]() |
其中, 表示p個卷積層的權重和偏差參數;N是訓練樣本數;
是最小化
和
之間差異的損失函數。
均方誤差函數是圖像SR方法中最常用的目標優化函數[9-10]。然而,Lim等[25]證明使用均方誤差損失具有局限性,因此本文選用平均絕對誤差作為損失函數:
![]() |
具體地,采用兩個卷積層從醫學影像中獲取淺層的特征:
![]() |
其中, 和
分別表示SFE模塊中兩層的卷積運算。在淺層特征模塊之后,淺層特征被用于DFE模塊,該模塊包含一組級聯的MSID塊。每個MSID塊可以收集盡可能多的信息,并提取更多有用的信息。然后采用1 × 1卷積層對輸出信息進行特征融合:
![]() |
其中, 表示由MSID塊1, 2, …, T生成的特征圖的級聯;
是1 × 1卷積層的融合函數。特征被融合后,通過全局殘差學習獲得特征圖
:
![]() |
在MSID網絡中,除了特征融合中設計128個濾波器外,所有卷積層均設計為64個濾波器。
1.2 多尺度信息蒸餾塊
MSID塊如圖3所示(即為圖2中的MSID塊),每個MSID塊可以分為兩個部分,分別用于提取局部長路徑和短路徑的特性。與IDN模型[14]不同,在每個部分構造了三個路徑,不同路徑使用不同的卷積核。這樣,模型可以自適應地檢測出不同尺度下的長路徑和短路徑特征。具體地,假設第一部分的輸入和輸出是和
,因此有:

![]() |
其中,、
、
和
分別是第一部分1 × 1、3 × 3、5 × 5和7 × 7卷積函數;
表示由不同卷積核獲得的特征圖的連接;
表示ReLU函數[26]。然后,將
的64維特征圖和MSID塊的輸入
連接到通道維中:
![]() |
其中,C和S分別表示連接操作和切片操作。從S中提取64維特征,目的是將當前的多尺度信息與前面的信息結合起來。這可以看作是保留的短路徑信息。然后,將剩下的64維特征圖作為第二部分的輸入,進而獲取長路徑信息:
![]() |
其中,、
、
和
分別是第二部分中1 × 1、3 × 3、5 × 5和7 × 7卷積函數。最后,對輸入信息、短路徑信息和長路徑信息進行聚合:
![]() |
其中, 表示MSID塊的輸出。
1.3 非下采樣剪切波變換系數預測
小波分析[27]不能“最優地”用直線和曲線表示圖像函數。相比之下,剪切波變換[28]是一種多尺度多分辨率的幾何表示方法。而NSST[29]利用非下采樣Laplacian金字塔濾波器代替Laplacian金字塔濾波器,保持了剪切波變換的優越性,避免了剪切波變換上采樣和下采樣帶來的負面影響,使得NSST具有多尺度、多方向和平移不變的特性。
NSST由兩部分組成:多尺度分解和多方向分解。多尺度分解由非下采樣Laplacian金字塔濾波器實現;多方向分解由改進的剪切波濾波器實現。為了捕獲圖像或信號的奇異性,非下采樣Laplacian金字塔濾波器將低頻子帶分解k次,進而獲得k + 1個高頻子帶與一個低頻子帶。為了不使用下采樣操作,整個過程將剪切波濾波器從偽極化網格系統映射至笛卡爾坐標系下的二維卷積計算實現,即在變換域中直接處理。本文將醫學圖像SR問題描述為NSST系數的預測問題,使MSID網絡進一步保留更豐富的結構細節。在圖4中比較了NSST和WT的高頻系數,可以清楚地看到NSST可以更準確地表示紋理曲度和細節。

以往基于CNNs的SR方法大多是在空間域預測高分辨率圖像,在丟失紋理細節的同時產生了過平滑的輸出。如引言所述,變換域中的SR方法比空間域能夠獲得更好的結果。隨后,一些學者[23-24]提出了在WT域預測HR圖像。但WT在方向性上具有局限性,僅涉及三個方向(水平、垂直和對角線),對曲線的刻畫能力不強。因此,文本采用性能優越的具有更好多尺度、多方向和平移不變特性的NSST進行HR圖像預測。將醫學圖像SR問題表示為NSST系數的預測,如圖1所示,這能夠使MSID網絡比空間域進一步保留更豐富的結構細節。值得一提的是,NSST可以用于不同的SR網絡,是一種簡單有效的提高性能的方法。NSST實現的詳細過程見文獻[29]。
2 實驗結果與分析
在實驗中,從定量與定性兩方面對提出方法的性能進行評價。采用峰值信噪比(peak signal to noise ratio,PSNR)、結構相似性(structural similarity,SSIM)及均方根誤差(root mean square error,RMSE)三個指標[30]來評價網絡性能以及圖像紋理變化等質量,計算公式如下:
![]() |
![]() |
![]() |
其中,MAX表示醫學圖像的最大灰度值,x表示網絡訓練得到的預測圖像,y表示標準的高精度圖像; 表示x的均值,
表示y的均值,
表示x的方差,
表示y的方差,
表示xy的協方差,
和
是常數。此外,本文測試結果由一位影像診斷經驗超過10年的資深放射科醫生進行評測,將平均意見評分(mean opinion score,MOS)[3,31]作為主觀性評估標準。
2.1 醫學圖像數據集
將四個身體部位(頭部Brain、肺部Lung、腹部Abdomen和骨部Bone)的醫學圖像進行整合,建立一個適用于醫學圖像SR的數據集。該數據集包含1 000幅醫學圖像,每個身體部位250幅圖像。頭部和肺部圖像選自腫瘤影像資料(The Cancer Imaging Archive,TCIA)[32];骨部和腹部圖像取自國內周口市人民醫院放射線科,且獲得授權使用。總共700幅醫學圖像(每個身體部位175幅圖像)組成訓練集;其余300幅圖像組成測試集。所有圖像主要為CT(低密度、高密度和混雜密度)和MRI(T1加權成像、T2加權成像、擴散加權成像DWI和液體翻轉恢復衰減系列FLAIR)等模態。在本實驗中,腹部為MRI圖像,成像分辨率為320×290;其他部位為CT圖像,成像分辨率均為512×512。
實驗中,原始的1 000幅醫學圖像為高分辨率圖像;通過Bicubic 8×/4×對原始高清圖像使用經典的Bicubic(雙三次插值)降尺度8倍/4倍的方式生成低分辨率圖像,形成低分辨率圖像數據集。這些低分辨率和高分辨率數據集形成訓練集送入網絡進行訓練,以建立SR模型,最終獲得SR結果。
2.2 實驗執行細節
在2.1節描述的700個圖像訓練數據集上執行數據增強。受文獻[8-9]的啟發,考慮了翻轉和旋轉增加訓練圖像。具體來說,是將原始圖像旋轉90、180、270°,然后水平翻轉。這樣,對于每個原始圖像有4個額外的增強版本。
NSST-MSID網絡包含8個MSID塊。訓練醫學圖像通過一級NSST分解獲得1個低頻子帶與4個高頻子帶,然后將這些子帶裁剪為48 × 48個重疊24像素的片進行訓練。設置批量輸入為64,所有層的學習率初始為10?4,每50個周期降低一半。使用Tesla k80 GPUs訓練模型大約需要9 h。
2.3 與先進方法的比較
本文在四個子數據集(即頭部、肺部、腹部和骨部)上對所提出的方法進行性能評估。為了公平比較,采用被比較方法公開發布的代碼,并在相同的訓練集上訓練全部模型,包括MSRN[15]、IDN[14]、SRFBN[16]、DWSR[23]、DMSN[22]、RCAN[11]和本文提出的方法NSST-MSID網絡。用于比較的PSNR、SSIM和RMSE值(尺度:4 × 和8 ×)如表1~3所示。從表中明顯看到,當對四個數據集進行評估時,與其他方法相比,本文提出的NSST-MSID網絡得到了更高的PSNR和SSIM值,以及更低的RMSE值。這表明提出的方法具有更好的網絡性能和圖像紋理變化質量。除此之外,用MOS來量化評估所生成的SR圖像的感知真實性。在本研究中,隨機選取300張測試集圖像中的100張圖像進行驗證評估。對于每張圖像,均有1張HR圖像和本文七種SR方法處理的7張結果圖像。邀請某二甲醫院腦部放射科專家根據圖像質量[3](過度平滑、偽影、紋理差和低信噪比)給出評分,評分標準:1分(差)、2分(一般)、3分(良好)和4分(非常好);最終,通過計算每種方法的均值和標準差獲得MOS。表4給出了每種方法在頭部數據集(4 ×)下的MOS值,本文提出的NSST-MSID網絡獲得了最高的MOS。




圖5顯示了四個部位的定性結果,即疑似腦血管畸形的大腦、肺縱隔窗主動脈粥樣硬化的肺部、腎囊腫的腹部和正常的骶骨在8 × 尺度上的視覺效果。NSST-MSID網絡重建的圖像結構清晰,細節豐富,在縮放區域清晰可見。

2.4 消融實驗
2.4.1 MSID網絡、塊數量及蒸餾特性的影響
表5所示為MSID塊數量T對網絡性能的影響,發現增加T會帶來性能改進,表明網絡越深越好。考慮到精度和速度的折衷,在實驗中采用T=8構造NSST-MSID網絡。表6所示為蒸餾特性對網絡性能的影響,融入蒸餾特性后,四個部位在尺度為8×、MSID塊數量T = 8情況下PSNR值均有所提高。表7所示為多尺度特性對網絡性能的影響,融入多尺度特性后,四個部位在尺度為8 ×、MSID塊數量T = 8情況下PSNR值均有所提高。此外,關于圖像patch的大小,由于卷積在不同patch上的絕對感受野是不變的,因此不同尺寸的patch基本上不會影響網絡的特征提取。



2.4.2 NSST有效性
本小節考慮NSST的有效性。圖6a所示為將MSID網絡分別與小波[27]、曲波[22]和NSST融合在4個子數據集上的比較結果(尺度:8×);圖6b所示為IDN、MSRN和RCAN分別與NSST融合的比較結果。綜合圖6可以看出,提出的NSST-MSID網絡有了顯著的改進;NSST預測優于空間域和其他兩個變換域,且在不同數據集和SR網絡上的改進是一致的。除此之外,本文進一步評價NSST分解層級對網絡性能的影響。由于分解的高頻層級越多,方向數也越多,網絡的開銷會隨之增大,因此本文僅討論5個以內的分解高頻層級。考慮網絡開銷,本文選取NSST分解3個層級的結果。表8所示為NSST分解的不同高頻層級對應的PSNR值,隨著分解層級和分解方向數的增加,學習到的細節信息更加豐富,PSNR值也隨之增加。

a.與不同變換域融合的MSID網絡; b. 融合NSST的IDN、MSRN和RCAN
Figure6. Effectiveness of NSST predictiona. MSID network integrated with different transform domains; b. IDN, MSRN and RCAN integrated with NSST

3 小結
本文提出一種新穎的基于CNNs的醫學圖像SR網絡。該網絡由一系列級聯的多尺度信息蒸餾塊組成,可充分提取醫學圖像的多尺度特征。此外,NSST被融入網絡,比空間域保留了更豐富的細節,進一步提高了SR性能。定量與定性研究結果表明了所提出方法的優越性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:王華東負責實驗設計、數據收集、數據分析和論文寫作,孫挺負責數據收集和論文寫作。