近年來,研究人員將眾多領域方法引入到醫學圖像處理中。經過不斷改進,醫學圖像處理算法的效果和效率均得到不同程度的提高。目前,生成式對抗網絡(GAN)在醫學圖像處理領域中的應用研究發展迅速。本文主要綜述了 GAN 在醫學圖像處理中的應用研究情況,介紹了 GAN 的基本概念,并從醫學圖像降噪、檢測、分割、合成、重建和分類等六個方面對 GAN 應用研究的最新進展進行了歸納總結,最后對該領域中值得進一步研究的方向進行了展望。
引用本文: 潘丹, 賈龍飛, 曾安, SongXiaowei. 生成式對抗網絡在醫學圖像處理中的應用. 生物醫學工程學雜志, 2018, 35(6): 970-976. doi: 10.7507/1001-5515.201803025 復制
引言
隨著信息技術的飛速發展和計算機應用水平的不斷提高,利用計算機斷層成像(computed tomography,CT)、正電子發射斷層成像(positron emission computed tomography,PET)、單光子發射計算機斷層成像(single-photon emission computed tomography,SPECT)、磁共振成像(magnetic resonance imaging,MRI)、超聲成像以及其他醫學影像設備所獲得的圖像,被廣泛應用于醫療診斷、組織容積定量分析、病變組織定位、解剖結構學習、治療規劃、功能成像數據的局部體效應校正、計算機指導手術、手術導航和術后監測等各個醫療環節中。醫學影像技術的飛速發展極大地提升了現代醫療診斷水平,并已成為推動醫學進步的主要動力之一。與普通圖像相比,醫學圖像紋理更多,分辨率更高,相關性更強,所需存儲空間更大,并且為了嚴格確保臨床應用的可靠性,人們對壓縮、分割等圖像預處理、圖像分析及理解等的要求更高。醫學圖像處理跨計算機、數學、圖形學、醫學等多學科領域,處理技術包括圖像變換、圖像壓縮、圖像增強、圖像平滑、邊緣銳化、圖像分割、圖像識別、圖像融合等等。近年來,研究人員將眾多領域方法引入到醫學圖像處理中。經過不斷改進,醫學圖像處理算法的效果和效率均得到不同程度的提高[1]。
生成式對抗網絡(generative adversarial networks,GAN)是 Goodfellow 等[2]在 2014 年提出的一種生成式模型。原始 GAN 模型由一個生成器和一個判別器構成,生成器通過捕捉真實數據樣本的潛在分布來生成新的數據樣本;判別器是一個二分類器,判別輸入的是真實數據還是生成的樣本。在當前的人工智能熱潮下,GAN 的提出滿足了眾多領域的研究和應用需求,同時為這些領域注入了新的發展動力。目前,GAN 應用得最廣泛的領域是圖像和視覺領域。它在圖像生成[3]、圖像分割[4]、由低分辨率圖像生成高分辨率圖像[5]等方面都已表現出了獨有的優勢。近年來,隨著 GAN 的飛速發展,越來越多的學者開始將其應用到醫學圖像處理中。這為該領域帶來了新的方法和思路。
1 生成式對抗網絡概述
GAN 模型是受到博弈論中納什均衡的啟發而提出來的。其基本框架包含一對模型:生成模型(generative model,G)和判別模型(discriminative model,D)。主要目的是由判別器 D 輔助生成器 G 產生出與真實數據分布一致的偽數據。模型的輸入為隨機高斯白噪聲信號 z;該噪聲信號經由生成器 G 映射到某個新的數據空間,得到生成數據 G(z);將真實數據 x 與生成數據 G(z)作為 D 的輸入,判別器 D 輸出一個概率,用以表示輸入是真實數據的置信度,以此衡量 D、G 的性能并計算梯度反向調節 D、G;當最終 D 不能區分真實數據 x 和生成數據 G(z)時,就認為生成器 G 達到了最優。原始 GAN 模型結構如圖 1 所示。

GAN 作為一個強大的生成式模型,可以由 G 產生出與真實數據分布一致的樣本,現已被廣泛應用于圖像處理領域。常見的應用有圖片合成[3]、圖像增強與超分辨率重建[5]、草稿圖復原[6]、圖片上色[6]、圖片風格化[7]以及水下圖像實時色彩校正[8]等。GAN 模型易于與其他神經網絡模型結合,生成器 G 和判別器 D 可以靈活使用其他模型結構來充當。這使得 GAN 很快滲入到其他研究領域中。從 2016 年底開始,GAN 在醫學圖像處理領域的研究如雨后春筍般涌現。根據我們對收集到的文獻的分析歸納,GAN 在醫學圖像領域中的應用,目前主要涉及以下這些方面:醫學圖像降噪、醫學圖像檢測、醫學圖像分割、醫學圖像合成、醫學圖像重構和醫學圖像分類等。
2 生成式對抗網絡在醫學圖像處理領域研究進展
2.1 醫學圖像降噪方向
目前 GAN 在醫學圖像降噪領域中的研究主要是集中在低劑量 CT(low-dose CT,LDCT)圖像的降噪研究上。Wolterink 等[9]提出一種基于 GAN 的 CT 圖像去噪方法,該模型將圖像體素損失和判別器 D 的對抗損失函數結合起來進行優化,使得去噪后的圖像具有更好的質量。Yang 等[10]提出一種融合 Wasserstein 距離[11]與知覺相似度(perceptual similarity)的基于視覺幾何組網絡的 Wasserstein 生成式對抗網(Wasserstein GAN-visual geometry group,WGAN-VGG)用于 CT 圖像降噪,使其既能夠降低噪聲水平,又能保留圖像的關鍵信息。Yi 等[12]在其提出的模型中,額外增加了一個清晰度檢測子網絡 S,用來比較生成圖像與真實圖像之間的清晰度,使去噪后的圖像不僅更逼真,而且能保持與常規劑量 CT 相近的清晰度,從而彌補了其他去噪方法在去噪后圖像變模糊的缺陷。Wolterink 等[9]的實驗結果表明,將 GAN 與卷積神經網絡(convolutional neural network,CNN)結合用于低劑量 CT 降噪,相比傳統的迭代重建法具有更低的硬件及數據需求,并具有更高的效率;Yang 等[10]的實驗表明,相比基于 CNN 的去噪方法,其提出的基于 GAN 的模型能保留更多細節信息,減少過度平滑。
從以上研究結果可以看出,基于 GAN 的去噪模型易于擴展,可以通過在其損失函數中靈活加入其他優化項(如像素級損失、知覺損失等)來獲得更高質量的去噪圖像;也可直接增加額外的子網絡模塊來專門優化圖像的某些屬性,如文獻[12]中增加清晰度檢測子網絡,提高了去噪后圖像的清晰度。
2.2 醫學圖像檢測方向
檢測和量化醫學圖像中的疾病標志物在疾病診斷或監測疾病進展中具有重要意義。然而,基于深度學習的圖像檢測模型訓練通常需要大量人工標注樣本。這不但需要花費大量精力,而且,目前對疾病標志物認識的局限性也會使人工標注過程有可能遺漏掉一些有用的信息[13]。Schlegl 等[13]提出了一種無監督模型 Anomaly GAN(AnoGAN),用于自動從光學相干斷層成像(optical coherence tomography,OCT)圖像中篩檢出可以作為新的候選疾病標志物的異常部位;Kohl 等[14]將 GAN 應用于侵襲性前列腺癌的檢測中,輸入 MRI 圖像切片,輸出標注好前列腺癌部位的圖像;Baumgartner 等[15]提出一種基于 WGAN[11]的模型用于圖像視覺特征檢測,可以自動標識出某類患者 MRI 圖像的類別特征區域。
與普通圖像相比,醫學圖像數據較難獲得,且人工標注成本很高。然而,用傳統的全卷積網絡模型從醫學圖像中檢測出患病部位或疾病標志物,又往往需要大量人工標注的訓練樣本。于是,獲取大量人工標注的訓練樣本就成為了模型訓練的一個瓶頸。將 GAN 引入醫學圖像檢測后,由于對抗訓練的優勢,模型對訓練數據的需求量大大減少,且檢測效率獲得提升。通過對 GAN 的損失函數進行靈活修改,可以使模型對圖像差異的檢測更具全局性,且能約束模型傾向于捕捉圖像最重要的特征。
2.3 醫學圖像分割方向
醫學圖像的分割是按照紋理、顏色等特征,把圖像分解成具有不同特性的區域,并將感興趣的部分提取出來的過程。它是圖像處理與分析的關鍵步驟,也是對圖像進行特征提取、參數選擇、目標識別的基礎和前提條件[16]。傳統的醫學圖像分割模型都需要大量的有標注的圖像來訓練,而帶標注的醫學圖像往往很難獲得,我們常常能獲取到的數據是少量帶標注的圖像和大量未標注的圖像。Zhang 等[17]提出一種基于 GAN 的深度對抗網絡(deep adversarial networks,DAN),可以將未標注的圖像與標注圖像一起應用到醫學圖像分割模型的訓練中,減少了對標注數據的需求。Kamnitsas 等[18]提出了一種基于 GAN 的無監督域適應網絡用于腦部損傷分割。該模型的優點在于,可以適應不同成像設備或成像協議下采集的圖像數據。Dai 等[19]提出一種基于 GAN 的結構校正對抗網絡(Structure Correcting Adversarial Network,SCAN)用于胸部 X 射線圖像的分割,模型簡單高效,對訓練數據的需求量小,分割效果好。Xue 等[4]提出一種基于 GAN 的圖像分割模型,并提出一種新的損失計算方法,作者稱之為 multi-scale L1 loss,計算該 loss 時會從判別器 D 的各個層(包括輸入層和各卷積層)中提取特征進行計算,這樣可以檢測圖像的像素級特征、低維特征、高維特征等不同級別特征的差異,使模型更加精確。
GAN 在醫學圖像分割領域中的應用主要是利用了其強大的生成能力。這里,生成的不是醫學圖像本身,而是感興趣區域的標簽。與其他模型的改進思路相比,上述基于 GAN 的分割模型的改進思路主要有:減少對人工標注樣本的需要,將大量無標簽數據應用到網絡的訓練中來;利用判別器 D 識別圖像來源,盡量提取不受圖像來源影響的特征,增加模型的適應性和魯棒性;用不同級別卷積層提取到的特征計算損失,相比只用最后一層提取到的特征計算損失更加合理。
2.4 醫學圖像合成方向
醫學圖像的獲取方式多樣,各有其優點和缺點。有時,出于成本和對人體所造成的副作用等因素的考慮,會利用其他成像技術獲得的圖像來合成我們所需的圖像。這是醫學圖像合成的一個重要研究方向。Nie 等[20]用 CNN 作為生成器來從 MR 圖像生成對應的 CT 圖像,采用 GAN 的對抗訓練策略使生成的 CT 圖像更加逼真,最后運用自動上下文模型(auto-context model)[21]對生成的 CT 圖像進行進一步精煉。Wolterink 等[22]提出了一種基于循環生成式對抗網絡(cycle generative adversarial networks,CycleGAN)的模型,用于從 MR 圖像生成相應的 CT 圖像,并且用于訓練的 MR 和 CT 數據不需要配對。此外,還有利用已有 CT 圖像生成相應的 PET 圖像[23-24]、利用帶標簽的 CT 圖像生成帶標簽的 MR 圖像[25]等研究。
由于醫學圖像數據較難獲得,尤其是獲得帶標注的醫學圖像更是要耗費大量人力物力,于是,人工合成醫學圖像就成為了擴充醫學圖像數據的一種有效方法。Costa 等[26]提出一種基于 GAN 的生成眼底圖像(retinal image)的模型,該模型可以用很少的帶標簽數據進行訓練,生成逼真的眼底圖像。Zhao 等[27]也用 GAN 來生成眼底圖像,其特點是通過增加一個額外的模塊來控制生成圖像的風格。
圖像合成是 GAN 最擅長的領域之一,將其應用到醫學圖像領域也使得醫學圖像合成效果得到提升。用 GAN 進行醫學圖像合成可以在一定程度上緩解醫學圖像數據獲取難的問題,也可以實現不同模態圖像之間的轉換(如由 MR 圖像合成 CT 圖像)。基于 GAN 的圖像合成模型可以在較小的數據集上進行訓練,且通過對抗訓練能夠得到更逼真的合成圖像,模型結構易于擴展。
2.5 醫學圖像重建方向
醫學圖像重建的目的是,對已經獲得的醫學圖像進行重建處理,以得到更具有診斷價值的圖像。目前 GAN 在該領域的研究主要是集中于對快速 MR 成像產生的欠采樣圖像進行重建。快速 MR 成像可以加快成像速度,但由于采集信號減少,違背 Nyquist-Shannon 采樣定理,圖像會產生混疊偽影。Yang 等[28]提出一種基于 GAN 的快速壓縮感知磁共振圖像(compressive sensing based MRI,CS-MRI)重建模型,重建后的圖像在細節還原上取得了不錯的效果;并且,重建一幅圖像只需要 0.22~0.37 ms,可以達到實時性應用的要求。Shitrit 等[29]也提出一種基于 GAN 的 CS-MRI 重建模型,在采樣率 52% 的 1.5T MRI 欠采樣圖像上取得了令人滿意的重建結果。
在醫學圖像中,掃描切片越薄,就越能提供更高的空間分辨率和更多的診斷信息,但是相應的,也會增加掃描成本和掃描時間。Li 等[30]通過軟件,用基于 GAN 的模型來實現從厚層 MR 圖像到薄層 MR 圖像的重建。作者用該模型從切片厚度為 6 mm 的 T2Flair MR 圖像重建出切片厚度為 2 mm 的 T2Flair MR 圖像,并在兩個數據集上驗證了方法的優越性。
無論是對快速 MR 成像產生的欠采樣圖像進行重建以得到接近全采樣效果的圖像,還是從厚切片圖像重建出薄切片圖像,都是為了在硬件和成本等條件的限制下用軟件方法來提升圖像的診斷價值。醫學圖像重建和上一節的醫學圖像合成類似,主要利用 GAN 的生成模型來產生新的圖像,GAN 在非醫學領域圖像生成上已取得很好的效果,將其引入到醫學圖像領域也表現出了其在圖像生成上的優勢。
2.6 醫學圖像分類方向
目前,GAN 在醫學圖像分類方向上的應用尚處于起步階段,發表的論文較少,且主要集中在以下兩種應用:一是直接用 GAN 來提取特征,訓練基于 GAN 的分類器來提高分類精度;二是將 GAN 作為數據擴充(data augmentation,DA)工具,生成更多樣本來提高其他分類器的分類能力。
Zhang 等[31]提出一種基于 GAN 的半監督分類模型,用于從大量的心臟 MR 圖像中篩選出覆蓋完整左心室的圖像。作者在模型中設置了兩個生成器 G1、G2,分別用來生成帶標簽 1 的正例圖像(左心室無缺失)和帶標簽 0 的反例圖像(左心室有缺失),另外還需要準備少量帶標簽 1 的真實圖像(左心室無缺失)和帶標簽 0 的真實圖像(左心室有缺失)。判別器 D 的輸入是上面四種圖像及標簽的組合,輸出是分類標量,1 代表該圖像為正例(左心室無缺失),0 代表該圖像為反例(左心室有缺失)。該模型取得了比 2D CNN 分類模型更好的效果,而且在訓練分類器 D 的同時,也訓練出了兩個圖片生成器 G1、G2,可以人工合成帶標簽的樣本來訓練分類器 D,從而大大減少了模型訓練對真實帶標簽圖像的需求。Hu 等[32]將 GAN 用于組織病理學圖像的細胞分類。作者將梯度罰項生成式對抗網絡(Wasserstein GAN-gradient penalty,WGAN-GP)[33]的穩定性與互信息生成式對抗網絡(mutual information GAN,InfoGAN)[34]能學到具有良好可解釋性的表達這兩種優點結合起來,創建了基于 GAN 的分類模型。該模型主要由三部分組成:生成器 G,判別器 D,輔助網絡 Q。生成器和判別器的對抗訓練使 D 能學到圖像的特征,將 D 習得的參數共享給輔助網絡 Q,利用作者設計的損失函數對 Q 的輸出進行約束,使 Q 學習到圖像與類別之間的隱含關系。模型訓練好之后,Q 就成為了一個分類器,輸入細胞圖像就能輸出其類別信息。Frid-Adar 等[35]將 GAN 用于數據擴充,將 CNN 分類器的準確率提升了約 7%。
相比前述的醫學圖像分割、醫學圖像合成、醫學圖像重建等,GAN 在醫學圖像分類領域主要利用其判別模型 D。在原始 GAN 模型中,判別器 D 只需要判別輸入圖像是真實圖像還是生成圖像;將 GAN 用于醫學圖像分類中,D 必須既能判斷圖像真偽,也能判斷圖像類別。這可以通過改進判別器的結構或增加額外的判別器來實現。基于 GAN 的醫學圖像分類模型可以減少對訓練數據的需求,對抗訓練思想也能提升模型的分類準確性。
3 總結與展望
對各種基于 GAN 的醫學圖像處理模型進行歸納總結,所得結果如表 1 所示。理論上,GAN 的生成器 G 和判別器 D 可以由任意種類的神經網絡模型充當,但用于醫學圖像處理時,GAN 都是與 CNN 結合來構造模型的,因為 CNN 在圖像處理上具有天然優勢。目前,這些模型主要從以下兩個方面進行改進。(1)增加額外損失函數項:在 GAN 原始的對抗損失基礎上增加圖像像素級損失、知覺損失等,使生成的圖像更逼真,或根據特定的改進目標,加入約束圖像某方面特征的特殊損失項(如約束圖像清晰度的損失項等),使實驗結果朝著期望的優化目標方向改進。當需要添加的損失項無法通過現有網絡結構中的各模塊算出,則又引入另一種改進方法,即:(2)增加用于計算損失項的額外模塊。增加額外模塊計算出可以約束模型優化方向的損失項,然后將其加入到總損失函數中,以期取得更好效果。增加額外模塊往往也是通過添加額外損失函數項的方式而對總體優化過程產生影響的。

GAN 目前是一個非常熱門的研究方向。自 2014 年 GAN 提出以來,有關 GAN 的論文數量逐年增加。GAN 作為一種生成式方法,不需要預先設定數據分布,理論上可以完全逼近真實數據,在圖像生成上能夠生成更利于人類理解的樣本。GAN 的對抗訓練方法摒棄了直接對真實數據的復制或平均,增加了生成樣本的多樣性;對抗訓練可以使用反向傳播進行訓練,不需要效率較低的馬爾科夫鏈方法,改善了生成模型的訓練難度和訓練效率。GAN 也包含判別模型,可以利用 GAN 的判別模型來完成分類任務。當利用 GAN 來實現分類時,GAN 的生成模型可以通過與判別模型的對抗訓練幫助判別器更好地學習到圖像的類別特征,使得模型對帶標簽訓練數據的需求減少。GAN 提供的對抗訓練框架可以很好地與其他神經網絡模型結合,理論上生成器和判別器可以由任何神經網絡來充當。GAN 的這些優勢使其被迅速應用到圖像合成、超分辨率圖像生成、文本生成圖像等方向。
GAN 在醫學圖像處理領域中的應用研究是在 2016 年末興起的,目前尚處于起步階段,但 GAN 對訓練數據的需求少、圖像生成效果好、易于與其他神經網絡模型相結合等優勢已經顯現出來。特別地,醫學圖像數據獲取困難是其他神經網絡方法在醫學圖像領域應用的一大瓶頸;而 GAN 在小樣本數據集上也能取得很好的訓練效果。這就給醫學圖像領域中的深度學習發展帶來了新的動力。
從目前收集的文獻資料來看,GAN 在醫學圖像處理領域的應用主要集中在醫學圖像分割、醫學圖像合成等方面,在醫學圖像檢測和分類方向上的研究較少,在醫學圖像配準[40]、醫學圖像壓縮和醫學圖像融合等方面的研究就更少了。這些尚有待研究者進一步去探索。Yan 等[40]提出了一種基于 GAN 的多模態配準模型,作者將參考圖像和待配準圖像通過維度串聯方式輸入到生成器 G 中,生成剛性配準的 6 個變換參數。將重采樣后的圖像輸入到判別器 D 中可得到衡量配準效果好壞的度量值。該模型可在 100 ms 內完成前列腺部位的 MR 和超聲圖像的剛性配準,能滿足實時配準的要求。我們研究組目前已參考該論文完成了一系列用于鼻咽癌輔助診斷的基于 GAN 的 CT 和 MR 模態圖像配準實驗,雖然模型的訓練穩定性還有待優化,但其與傳統配準方法相比,配準時間大大縮短,從幾分鐘縮短到幾秒。我們相信,GAN 用于醫學圖像配準將是未來值得深入研究的一個方向。
目前基于 GAN 的醫學圖像處理模型主要是與 CNN 模型的結合使用,在未來的研究中,我們可以嘗試將 GAN 與循環神經網絡(Recurrent Neural Networks,RNN)模型結合,用于處理醫學圖像領域中的時序信息,如對患者長期隨訪過程中產生的一系列圖像數據的時間序列進行分析,找出疾病變化與圖像變化間的聯系,用于患者狀態預測等研究。與此同時,當 GAN 提出新的變體(如能夠提升 GAN 訓練穩定性的 WGAN),或其他神經網絡模型取得新進展時,我們可以將新的進展應用到醫學圖像處理模型中,以期提高模型性能。此外,不同損失函數項對實驗結果和訓練收斂性的影響,以及不同損失函數項之間的權重選擇也是未來值得深入研究的問題。
有理由相信,GAN 研究的快速發展與醫學圖像領域研究的持續深入一定會推動 GAN 在醫學圖像處理領域中取得更多更好的研究成果。
引言
隨著信息技術的飛速發展和計算機應用水平的不斷提高,利用計算機斷層成像(computed tomography,CT)、正電子發射斷層成像(positron emission computed tomography,PET)、單光子發射計算機斷層成像(single-photon emission computed tomography,SPECT)、磁共振成像(magnetic resonance imaging,MRI)、超聲成像以及其他醫學影像設備所獲得的圖像,被廣泛應用于醫療診斷、組織容積定量分析、病變組織定位、解剖結構學習、治療規劃、功能成像數據的局部體效應校正、計算機指導手術、手術導航和術后監測等各個醫療環節中。醫學影像技術的飛速發展極大地提升了現代醫療診斷水平,并已成為推動醫學進步的主要動力之一。與普通圖像相比,醫學圖像紋理更多,分辨率更高,相關性更強,所需存儲空間更大,并且為了嚴格確保臨床應用的可靠性,人們對壓縮、分割等圖像預處理、圖像分析及理解等的要求更高。醫學圖像處理跨計算機、數學、圖形學、醫學等多學科領域,處理技術包括圖像變換、圖像壓縮、圖像增強、圖像平滑、邊緣銳化、圖像分割、圖像識別、圖像融合等等。近年來,研究人員將眾多領域方法引入到醫學圖像處理中。經過不斷改進,醫學圖像處理算法的效果和效率均得到不同程度的提高[1]。
生成式對抗網絡(generative adversarial networks,GAN)是 Goodfellow 等[2]在 2014 年提出的一種生成式模型。原始 GAN 模型由一個生成器和一個判別器構成,生成器通過捕捉真實數據樣本的潛在分布來生成新的數據樣本;判別器是一個二分類器,判別輸入的是真實數據還是生成的樣本。在當前的人工智能熱潮下,GAN 的提出滿足了眾多領域的研究和應用需求,同時為這些領域注入了新的發展動力。目前,GAN 應用得最廣泛的領域是圖像和視覺領域。它在圖像生成[3]、圖像分割[4]、由低分辨率圖像生成高分辨率圖像[5]等方面都已表現出了獨有的優勢。近年來,隨著 GAN 的飛速發展,越來越多的學者開始將其應用到醫學圖像處理中。這為該領域帶來了新的方法和思路。
1 生成式對抗網絡概述
GAN 模型是受到博弈論中納什均衡的啟發而提出來的。其基本框架包含一對模型:生成模型(generative model,G)和判別模型(discriminative model,D)。主要目的是由判別器 D 輔助生成器 G 產生出與真實數據分布一致的偽數據。模型的輸入為隨機高斯白噪聲信號 z;該噪聲信號經由生成器 G 映射到某個新的數據空間,得到生成數據 G(z);將真實數據 x 與生成數據 G(z)作為 D 的輸入,判別器 D 輸出一個概率,用以表示輸入是真實數據的置信度,以此衡量 D、G 的性能并計算梯度反向調節 D、G;當最終 D 不能區分真實數據 x 和生成數據 G(z)時,就認為生成器 G 達到了最優。原始 GAN 模型結構如圖 1 所示。

GAN 作為一個強大的生成式模型,可以由 G 產生出與真實數據分布一致的樣本,現已被廣泛應用于圖像處理領域。常見的應用有圖片合成[3]、圖像增強與超分辨率重建[5]、草稿圖復原[6]、圖片上色[6]、圖片風格化[7]以及水下圖像實時色彩校正[8]等。GAN 模型易于與其他神經網絡模型結合,生成器 G 和判別器 D 可以靈活使用其他模型結構來充當。這使得 GAN 很快滲入到其他研究領域中。從 2016 年底開始,GAN 在醫學圖像處理領域的研究如雨后春筍般涌現。根據我們對收集到的文獻的分析歸納,GAN 在醫學圖像領域中的應用,目前主要涉及以下這些方面:醫學圖像降噪、醫學圖像檢測、醫學圖像分割、醫學圖像合成、醫學圖像重構和醫學圖像分類等。
2 生成式對抗網絡在醫學圖像處理領域研究進展
2.1 醫學圖像降噪方向
目前 GAN 在醫學圖像降噪領域中的研究主要是集中在低劑量 CT(low-dose CT,LDCT)圖像的降噪研究上。Wolterink 等[9]提出一種基于 GAN 的 CT 圖像去噪方法,該模型將圖像體素損失和判別器 D 的對抗損失函數結合起來進行優化,使得去噪后的圖像具有更好的質量。Yang 等[10]提出一種融合 Wasserstein 距離[11]與知覺相似度(perceptual similarity)的基于視覺幾何組網絡的 Wasserstein 生成式對抗網(Wasserstein GAN-visual geometry group,WGAN-VGG)用于 CT 圖像降噪,使其既能夠降低噪聲水平,又能保留圖像的關鍵信息。Yi 等[12]在其提出的模型中,額外增加了一個清晰度檢測子網絡 S,用來比較生成圖像與真實圖像之間的清晰度,使去噪后的圖像不僅更逼真,而且能保持與常規劑量 CT 相近的清晰度,從而彌補了其他去噪方法在去噪后圖像變模糊的缺陷。Wolterink 等[9]的實驗結果表明,將 GAN 與卷積神經網絡(convolutional neural network,CNN)結合用于低劑量 CT 降噪,相比傳統的迭代重建法具有更低的硬件及數據需求,并具有更高的效率;Yang 等[10]的實驗表明,相比基于 CNN 的去噪方法,其提出的基于 GAN 的模型能保留更多細節信息,減少過度平滑。
從以上研究結果可以看出,基于 GAN 的去噪模型易于擴展,可以通過在其損失函數中靈活加入其他優化項(如像素級損失、知覺損失等)來獲得更高質量的去噪圖像;也可直接增加額外的子網絡模塊來專門優化圖像的某些屬性,如文獻[12]中增加清晰度檢測子網絡,提高了去噪后圖像的清晰度。
2.2 醫學圖像檢測方向
檢測和量化醫學圖像中的疾病標志物在疾病診斷或監測疾病進展中具有重要意義。然而,基于深度學習的圖像檢測模型訓練通常需要大量人工標注樣本。這不但需要花費大量精力,而且,目前對疾病標志物認識的局限性也會使人工標注過程有可能遺漏掉一些有用的信息[13]。Schlegl 等[13]提出了一種無監督模型 Anomaly GAN(AnoGAN),用于自動從光學相干斷層成像(optical coherence tomography,OCT)圖像中篩檢出可以作為新的候選疾病標志物的異常部位;Kohl 等[14]將 GAN 應用于侵襲性前列腺癌的檢測中,輸入 MRI 圖像切片,輸出標注好前列腺癌部位的圖像;Baumgartner 等[15]提出一種基于 WGAN[11]的模型用于圖像視覺特征檢測,可以自動標識出某類患者 MRI 圖像的類別特征區域。
與普通圖像相比,醫學圖像數據較難獲得,且人工標注成本很高。然而,用傳統的全卷積網絡模型從醫學圖像中檢測出患病部位或疾病標志物,又往往需要大量人工標注的訓練樣本。于是,獲取大量人工標注的訓練樣本就成為了模型訓練的一個瓶頸。將 GAN 引入醫學圖像檢測后,由于對抗訓練的優勢,模型對訓練數據的需求量大大減少,且檢測效率獲得提升。通過對 GAN 的損失函數進行靈活修改,可以使模型對圖像差異的檢測更具全局性,且能約束模型傾向于捕捉圖像最重要的特征。
2.3 醫學圖像分割方向
醫學圖像的分割是按照紋理、顏色等特征,把圖像分解成具有不同特性的區域,并將感興趣的部分提取出來的過程。它是圖像處理與分析的關鍵步驟,也是對圖像進行特征提取、參數選擇、目標識別的基礎和前提條件[16]。傳統的醫學圖像分割模型都需要大量的有標注的圖像來訓練,而帶標注的醫學圖像往往很難獲得,我們常常能獲取到的數據是少量帶標注的圖像和大量未標注的圖像。Zhang 等[17]提出一種基于 GAN 的深度對抗網絡(deep adversarial networks,DAN),可以將未標注的圖像與標注圖像一起應用到醫學圖像分割模型的訓練中,減少了對標注數據的需求。Kamnitsas 等[18]提出了一種基于 GAN 的無監督域適應網絡用于腦部損傷分割。該模型的優點在于,可以適應不同成像設備或成像協議下采集的圖像數據。Dai 等[19]提出一種基于 GAN 的結構校正對抗網絡(Structure Correcting Adversarial Network,SCAN)用于胸部 X 射線圖像的分割,模型簡單高效,對訓練數據的需求量小,分割效果好。Xue 等[4]提出一種基于 GAN 的圖像分割模型,并提出一種新的損失計算方法,作者稱之為 multi-scale L1 loss,計算該 loss 時會從判別器 D 的各個層(包括輸入層和各卷積層)中提取特征進行計算,這樣可以檢測圖像的像素級特征、低維特征、高維特征等不同級別特征的差異,使模型更加精確。
GAN 在醫學圖像分割領域中的應用主要是利用了其強大的生成能力。這里,生成的不是醫學圖像本身,而是感興趣區域的標簽。與其他模型的改進思路相比,上述基于 GAN 的分割模型的改進思路主要有:減少對人工標注樣本的需要,將大量無標簽數據應用到網絡的訓練中來;利用判別器 D 識別圖像來源,盡量提取不受圖像來源影響的特征,增加模型的適應性和魯棒性;用不同級別卷積層提取到的特征計算損失,相比只用最后一層提取到的特征計算損失更加合理。
2.4 醫學圖像合成方向
醫學圖像的獲取方式多樣,各有其優點和缺點。有時,出于成本和對人體所造成的副作用等因素的考慮,會利用其他成像技術獲得的圖像來合成我們所需的圖像。這是醫學圖像合成的一個重要研究方向。Nie 等[20]用 CNN 作為生成器來從 MR 圖像生成對應的 CT 圖像,采用 GAN 的對抗訓練策略使生成的 CT 圖像更加逼真,最后運用自動上下文模型(auto-context model)[21]對生成的 CT 圖像進行進一步精煉。Wolterink 等[22]提出了一種基于循環生成式對抗網絡(cycle generative adversarial networks,CycleGAN)的模型,用于從 MR 圖像生成相應的 CT 圖像,并且用于訓練的 MR 和 CT 數據不需要配對。此外,還有利用已有 CT 圖像生成相應的 PET 圖像[23-24]、利用帶標簽的 CT 圖像生成帶標簽的 MR 圖像[25]等研究。
由于醫學圖像數據較難獲得,尤其是獲得帶標注的醫學圖像更是要耗費大量人力物力,于是,人工合成醫學圖像就成為了擴充醫學圖像數據的一種有效方法。Costa 等[26]提出一種基于 GAN 的生成眼底圖像(retinal image)的模型,該模型可以用很少的帶標簽數據進行訓練,生成逼真的眼底圖像。Zhao 等[27]也用 GAN 來生成眼底圖像,其特點是通過增加一個額外的模塊來控制生成圖像的風格。
圖像合成是 GAN 最擅長的領域之一,將其應用到醫學圖像領域也使得醫學圖像合成效果得到提升。用 GAN 進行醫學圖像合成可以在一定程度上緩解醫學圖像數據獲取難的問題,也可以實現不同模態圖像之間的轉換(如由 MR 圖像合成 CT 圖像)。基于 GAN 的圖像合成模型可以在較小的數據集上進行訓練,且通過對抗訓練能夠得到更逼真的合成圖像,模型結構易于擴展。
2.5 醫學圖像重建方向
醫學圖像重建的目的是,對已經獲得的醫學圖像進行重建處理,以得到更具有診斷價值的圖像。目前 GAN 在該領域的研究主要是集中于對快速 MR 成像產生的欠采樣圖像進行重建。快速 MR 成像可以加快成像速度,但由于采集信號減少,違背 Nyquist-Shannon 采樣定理,圖像會產生混疊偽影。Yang 等[28]提出一種基于 GAN 的快速壓縮感知磁共振圖像(compressive sensing based MRI,CS-MRI)重建模型,重建后的圖像在細節還原上取得了不錯的效果;并且,重建一幅圖像只需要 0.22~0.37 ms,可以達到實時性應用的要求。Shitrit 等[29]也提出一種基于 GAN 的 CS-MRI 重建模型,在采樣率 52% 的 1.5T MRI 欠采樣圖像上取得了令人滿意的重建結果。
在醫學圖像中,掃描切片越薄,就越能提供更高的空間分辨率和更多的診斷信息,但是相應的,也會增加掃描成本和掃描時間。Li 等[30]通過軟件,用基于 GAN 的模型來實現從厚層 MR 圖像到薄層 MR 圖像的重建。作者用該模型從切片厚度為 6 mm 的 T2Flair MR 圖像重建出切片厚度為 2 mm 的 T2Flair MR 圖像,并在兩個數據集上驗證了方法的優越性。
無論是對快速 MR 成像產生的欠采樣圖像進行重建以得到接近全采樣效果的圖像,還是從厚切片圖像重建出薄切片圖像,都是為了在硬件和成本等條件的限制下用軟件方法來提升圖像的診斷價值。醫學圖像重建和上一節的醫學圖像合成類似,主要利用 GAN 的生成模型來產生新的圖像,GAN 在非醫學領域圖像生成上已取得很好的效果,將其引入到醫學圖像領域也表現出了其在圖像生成上的優勢。
2.6 醫學圖像分類方向
目前,GAN 在醫學圖像分類方向上的應用尚處于起步階段,發表的論文較少,且主要集中在以下兩種應用:一是直接用 GAN 來提取特征,訓練基于 GAN 的分類器來提高分類精度;二是將 GAN 作為數據擴充(data augmentation,DA)工具,生成更多樣本來提高其他分類器的分類能力。
Zhang 等[31]提出一種基于 GAN 的半監督分類模型,用于從大量的心臟 MR 圖像中篩選出覆蓋完整左心室的圖像。作者在模型中設置了兩個生成器 G1、G2,分別用來生成帶標簽 1 的正例圖像(左心室無缺失)和帶標簽 0 的反例圖像(左心室有缺失),另外還需要準備少量帶標簽 1 的真實圖像(左心室無缺失)和帶標簽 0 的真實圖像(左心室有缺失)。判別器 D 的輸入是上面四種圖像及標簽的組合,輸出是分類標量,1 代表該圖像為正例(左心室無缺失),0 代表該圖像為反例(左心室有缺失)。該模型取得了比 2D CNN 分類模型更好的效果,而且在訓練分類器 D 的同時,也訓練出了兩個圖片生成器 G1、G2,可以人工合成帶標簽的樣本來訓練分類器 D,從而大大減少了模型訓練對真實帶標簽圖像的需求。Hu 等[32]將 GAN 用于組織病理學圖像的細胞分類。作者將梯度罰項生成式對抗網絡(Wasserstein GAN-gradient penalty,WGAN-GP)[33]的穩定性與互信息生成式對抗網絡(mutual information GAN,InfoGAN)[34]能學到具有良好可解釋性的表達這兩種優點結合起來,創建了基于 GAN 的分類模型。該模型主要由三部分組成:生成器 G,判別器 D,輔助網絡 Q。生成器和判別器的對抗訓練使 D 能學到圖像的特征,將 D 習得的參數共享給輔助網絡 Q,利用作者設計的損失函數對 Q 的輸出進行約束,使 Q 學習到圖像與類別之間的隱含關系。模型訓練好之后,Q 就成為了一個分類器,輸入細胞圖像就能輸出其類別信息。Frid-Adar 等[35]將 GAN 用于數據擴充,將 CNN 分類器的準確率提升了約 7%。
相比前述的醫學圖像分割、醫學圖像合成、醫學圖像重建等,GAN 在醫學圖像分類領域主要利用其判別模型 D。在原始 GAN 模型中,判別器 D 只需要判別輸入圖像是真實圖像還是生成圖像;將 GAN 用于醫學圖像分類中,D 必須既能判斷圖像真偽,也能判斷圖像類別。這可以通過改進判別器的結構或增加額外的判別器來實現。基于 GAN 的醫學圖像分類模型可以減少對訓練數據的需求,對抗訓練思想也能提升模型的分類準確性。
3 總結與展望
對各種基于 GAN 的醫學圖像處理模型進行歸納總結,所得結果如表 1 所示。理論上,GAN 的生成器 G 和判別器 D 可以由任意種類的神經網絡模型充當,但用于醫學圖像處理時,GAN 都是與 CNN 結合來構造模型的,因為 CNN 在圖像處理上具有天然優勢。目前,這些模型主要從以下兩個方面進行改進。(1)增加額外損失函數項:在 GAN 原始的對抗損失基礎上增加圖像像素級損失、知覺損失等,使生成的圖像更逼真,或根據特定的改進目標,加入約束圖像某方面特征的特殊損失項(如約束圖像清晰度的損失項等),使實驗結果朝著期望的優化目標方向改進。當需要添加的損失項無法通過現有網絡結構中的各模塊算出,則又引入另一種改進方法,即:(2)增加用于計算損失項的額外模塊。增加額外模塊計算出可以約束模型優化方向的損失項,然后將其加入到總損失函數中,以期取得更好效果。增加額外模塊往往也是通過添加額外損失函數項的方式而對總體優化過程產生影響的。

GAN 目前是一個非常熱門的研究方向。自 2014 年 GAN 提出以來,有關 GAN 的論文數量逐年增加。GAN 作為一種生成式方法,不需要預先設定數據分布,理論上可以完全逼近真實數據,在圖像生成上能夠生成更利于人類理解的樣本。GAN 的對抗訓練方法摒棄了直接對真實數據的復制或平均,增加了生成樣本的多樣性;對抗訓練可以使用反向傳播進行訓練,不需要效率較低的馬爾科夫鏈方法,改善了生成模型的訓練難度和訓練效率。GAN 也包含判別模型,可以利用 GAN 的判別模型來完成分類任務。當利用 GAN 來實現分類時,GAN 的生成模型可以通過與判別模型的對抗訓練幫助判別器更好地學習到圖像的類別特征,使得模型對帶標簽訓練數據的需求減少。GAN 提供的對抗訓練框架可以很好地與其他神經網絡模型結合,理論上生成器和判別器可以由任何神經網絡來充當。GAN 的這些優勢使其被迅速應用到圖像合成、超分辨率圖像生成、文本生成圖像等方向。
GAN 在醫學圖像處理領域中的應用研究是在 2016 年末興起的,目前尚處于起步階段,但 GAN 對訓練數據的需求少、圖像生成效果好、易于與其他神經網絡模型相結合等優勢已經顯現出來。特別地,醫學圖像數據獲取困難是其他神經網絡方法在醫學圖像領域應用的一大瓶頸;而 GAN 在小樣本數據集上也能取得很好的訓練效果。這就給醫學圖像領域中的深度學習發展帶來了新的動力。
從目前收集的文獻資料來看,GAN 在醫學圖像處理領域的應用主要集中在醫學圖像分割、醫學圖像合成等方面,在醫學圖像檢測和分類方向上的研究較少,在醫學圖像配準[40]、醫學圖像壓縮和醫學圖像融合等方面的研究就更少了。這些尚有待研究者進一步去探索。Yan 等[40]提出了一種基于 GAN 的多模態配準模型,作者將參考圖像和待配準圖像通過維度串聯方式輸入到生成器 G 中,生成剛性配準的 6 個變換參數。將重采樣后的圖像輸入到判別器 D 中可得到衡量配準效果好壞的度量值。該模型可在 100 ms 內完成前列腺部位的 MR 和超聲圖像的剛性配準,能滿足實時配準的要求。我們研究組目前已參考該論文完成了一系列用于鼻咽癌輔助診斷的基于 GAN 的 CT 和 MR 模態圖像配準實驗,雖然模型的訓練穩定性還有待優化,但其與傳統配準方法相比,配準時間大大縮短,從幾分鐘縮短到幾秒。我們相信,GAN 用于醫學圖像配準將是未來值得深入研究的一個方向。
目前基于 GAN 的醫學圖像處理模型主要是與 CNN 模型的結合使用,在未來的研究中,我們可以嘗試將 GAN 與循環神經網絡(Recurrent Neural Networks,RNN)模型結合,用于處理醫學圖像領域中的時序信息,如對患者長期隨訪過程中產生的一系列圖像數據的時間序列進行分析,找出疾病變化與圖像變化間的聯系,用于患者狀態預測等研究。與此同時,當 GAN 提出新的變體(如能夠提升 GAN 訓練穩定性的 WGAN),或其他神經網絡模型取得新進展時,我們可以將新的進展應用到醫學圖像處理模型中,以期提高模型性能。此外,不同損失函數項對實驗結果和訓練收斂性的影響,以及不同損失函數項之間的權重選擇也是未來值得深入研究的問題。
有理由相信,GAN 研究的快速發展與醫學圖像領域研究的持續深入一定會推動 GAN 在醫學圖像處理領域中取得更多更好的研究成果。