計算機輔助診斷(CAD)系統對現代醫學診療體系具有非常重要的作用,但其性能受訓練樣本的限制。而訓練樣本受成像成本、標記成本和涉及患者隱私等因素的影響,導致訓練圖像多樣性不足且難以獲取。因此,如何高效且以較低成本擴充現有醫學圖像數據集成為研究的熱點。本文結合國內外的相關文獻,對醫學圖像數據集擴充方法的研究進展進行綜述,首先對比分析基于幾何變換和基于生成對抗網絡的擴充方法,其次重點介紹基于生成對抗網絡擴充方法的改進及其適用場景,最后討論醫學圖像數據集擴充領域的一些亟待解決的問題并對其未來發展趨勢進行展望。
引用本文: 陳英, 林洪平, 張偉, 馮龍鋒, 鄭鋮, 周滔輝, 易珍, 劉嵐. 醫學圖像數據集擴充方法研究進展. 生物醫學工程學雜志, 2023, 40(1): 185-192. doi: 10.7507/1001-5515.202206039 復制
0 引言
醫學圖像能夠顯示人體內部相關信息的細節,是放射科醫生判斷患者病情最主要的方式之一,在疾病診斷、患者治療方案規劃、術中導航、術后檢測等多個醫療環節中具有廣泛的應用[1]。如今,醫學圖像已具有多種成像模態,如磁共振成像(magnetic resonance imaging,MRI)、計算機斷層掃描成像(computed tomography,CT)、正電子發射斷層掃描成像(positron emission computed tomography,PET)等。多種模態的醫學圖像為臨床疾病診斷提供了全方位的病理信息,顯著地提升了醫學領域的疾病診斷水平,極大地加速了醫學學科的發展進程[2]。但由于醫學圖像中包含的信息量龐大以及部分疾病的病變部位細小,導致醫學圖像的準確診斷一直是難點。
深度學習和醫學領域的聯系日趨緊密,進一步推動了計算機輔助診斷(computer aided diagnosis,CAD)系統技術在醫學圖像分析領域的發展。實踐表明,CAD系統在減少醫生漏診、誤診情況的發生、提高醫生工作效率等方面起到了極大的促進作用[3]。但是,CAD系統的性能取決于其內部集成的深度學習算法模型,因此提升CAD系統性能最有效的一個方法是增加算法模型訓練的醫學圖像數據量[4]。但醫學圖像不僅成像成本高昂,而且需要專業的影像學醫師進行手動標注,此外還涉及到患者的隱私信息,導致可公開獲取的醫學圖像數據十分匱乏[5]。因此,數據集擴充方法成為了醫學圖像診療領域的研究熱點之一。
目前已有的醫學圖像數據集擴充方法主要有基于幾何變換和基于生成對抗網絡(generative adversarial network,GAN)的擴充方法。其中,基于幾何變換的醫學圖像數據集擴充方法通常對醫學圖像進行旋轉、裁剪、強度變換等幾何形態學的變換,生成圖像的數據分布與原圖高度重疊,對數據集多樣性的提升有限。而基于GAN的醫學圖像數據集擴充方法能夠從已有的圖像數據中學習其潛在特征分布,利用獲得的特征分布生成新圖像,其生成的圖像紋理平滑,原始圖像與生成圖像間保持著良好的差異性,對算法模型的特異性和準確率的提升十分顯著,因此基于GAN的醫學圖像數據集擴充方法已成為當前主流的研究方向。
本文分別對醫學圖像數據集擴充方法中基于幾何變換和基于GAN擴充方法的最新研究進展進行綜述,其中重點介紹基于GAN的醫學圖像數據集擴充方法及其改進方案。同時,為了保持該領域的發展脈絡,本文首先簡要介紹基于幾何變換的醫學圖像數據集擴充方法中具有代表性的工作。希望本文能夠幫助相關領域的科研工作者快速了解醫學圖像數據集擴充方法的最新研究進展,以供參考。
1 基于幾何變換的醫學圖像數據集擴充方法
基于幾何變換的醫學圖像數據集擴充方法可以進一步分為兩種操作方式:① 針對圖像中像素點的灰度值進行操作,通過一系列變換函數的映射,改變像素點位置信息,使其紋理細節與原圖保持一致;② 通過將圖像內容變形重組,使其病變區域、感興趣區域產生形變進而使該圖像擁有更多樣化的特征信息,常用的基于幾何變換的醫學圖像數據集擴充方法的應用效果如圖1所示。

從圖1中可以看出其生成的CT圖像的紋理結構與原CT圖像非常相似,主要的改變是局部特征的大小和形狀,該CT圖像來自肝臟腫瘤病灶區CT圖像分割挑戰大賽(liver tumor segmentation challenge,LiTS)公開數據集,網址為:https://competitions.codalab.org/competitions/17094。
基于幾何變換的醫學圖像數據集擴充方法對小樣本數據集可產生較為有效的擴充效果。Thaha等[6]提出強度歸一化變換方法應用于腦腫瘤MRI圖像分割模型,其骰子相似系數(dice similarity coefficient,DSC)提升1.9%。Ding等[7]提出用于腦部MRI圖像分割的方法,僅使用未標注的MRI圖像通過幾何變換法即可生成大量可用的腦部MRI圖像訓練示例。Brahim等[8]使用旋轉、水平翻轉、裁剪以及噪聲注入的方法擴充腦腫瘤病變MRI圖像數據集,緩解了其存在的類別不平衡問題。Afzal等[9]通過放縮、旋轉、裁剪等方法獲取了許多罕見的阿爾茨海默病MRI圖像,最終促使分類模型準確率提升7.54%。Karani等[10]使用基于幾何變換的數據集擴充方法,在腦部MRI圖像、前列腺MRI圖像分割測試中的DSC分別提升2.31%、6.91%。Chen等[11]提出一個用于生成困難示例的空間圖像擴充方法,與標準訓練方法相比其平均DSC提高15%。Novosad等[12]使用隨機彈性變形方法擴充大腦MRI圖像數據集,應用于老年人群體的海馬體分割,平均DSC達到92.1%。Pan等[13]在進行前列腺MRI圖像分割時,提出兩階段MRI圖像數據集擴充分割模型,最終DSC達到91.3%。Yang等[14]提出新穎的無監督域自適應方法,使得數據集中圖像間的差異值減小,有效減少模型的訓練成本。
目前,基于幾何變換的醫學圖像數據集擴充方法生成的新圖像與原圖像之間的數據分布一致,即該擴充方法對數據集多樣性的提升較少。而數據集的多樣性與訓練模型的泛化能力緊密相連,這將對依賴于該數據集的下游醫學圖像分析應用模型產生不良影響,可能削弱該模型的性能。并且隨著近年來CAD系統對其中集成的深度學習算法模型的性能要求越來越高,需要的訓練圖像數據量逐漸增加,基于幾何變換的擴充方法逐漸難以滿足醫學圖像數據集的擴充需求,因此研究更為高效的醫學圖像數據集擴充方法有其必要性。
2 基于GAN的醫學圖像數據集擴充方法
隨著深度學習技術的快速發展,特別是自亞歷克斯網絡(AlexNet)模型提出后深度學習神經網絡模型開始朝著縱深方向不斷探索,動輒數以百萬計的參數量使得模型的收斂需要更大的訓練數據量。醫學圖像分析領域若要應用此類模型,圖像數據的稀缺在當時看來會是個難以逾越的鴻溝,但GAN模型的提出為該問題提供了全新的解決思路[15]。
如圖2所示,展示了GAN在醫學圖像數據集擴充領域的應用效果圖,從圖2中可以清晰地看到,GAN生成的新CT圖像與原CT圖像保持了高度的內容一致性,同時生成的CT圖像中各種器官特征均發生了符合人體結構特點的變化。該模型分別使用兩個數據集中的CT圖像和MRI圖像作為訓練樣本,經過200輪訓練至模型收斂后獲得了圖2中的生成圖像。其中原始CT圖像來自LiTS數據集,而MRI圖像來自CT-MRI聯合健康腹部器官分割(combined CT-MRI healthy abdominal organ segmentation,CHAOS)公開數據集,網址為:https://zenodo.org/record/3431873#.Yl_9itpBxaQ。

GAN是一種生成式模型,其目的是構建一個從真實圖像到潛在特征分布的顯式映射關系,構建過程中不需要額外構造復雜的概率密度函數即可實現該映射關系[16]。GAN的訓練過程可以概括為一個零和博弈的過程,其生成器希望生成的圖像盡可能真實從而欺騙鑒別器,鑒別器則盡力分辨出真實圖像和生成圖像。GAN既能夠在無監督的條件下使用隨機噪聲生成圖像,也能夠將其它模態的醫學圖像轉換為所需要的圖像從而擴充數據集。綜合已發表的文獻,目前基于GAN的醫學圖像數據集擴充方法可以四類,分別為:① 無條件數據集擴充方法;② 條件數據集擴充方法;③ 跨模態數據集擴充方法;④ 與幾何變換方法結合的數據集擴充方法,下文將對這四類方法做進一步的介紹。
2.1 無條件數據集擴充方法
無條件數據集擴充方法是指在沒有任何額外信息的情況下,僅利用高斯噪聲或者均勻噪聲作為GAN的輸入而生成醫學圖像的一類方法。雖然該方法早期生成的圖像存在分辨率低、圖像模糊、圖像特征單一的問題,但可優化解決,其性能逐步上升。該方法與基于幾何變換的方法相比,其產生的圖像是現實世界中不存在的,即無需考慮泄露患者隱私信息的問題。
為了比較無條件數據集擴充方法與基于幾何變換的數據集擴充方法的擴充效果,Frid-Adar等[17]以深度卷積GAN(deep convolutional GAN,DCGAN)為原型構建深度學習框架并用于生成64×64像素尺寸的肝臟病變CT圖像。將生成的CT圖像加入到原始數據集中與僅使用幾何變換的擴充方法擴充的數據集形成對比,訓練肝臟病變分類模型,最終該模型的特異性和靈敏度從88.4%和78.6%分別提升至92.4%和85.7%。
為了緩解由于缺乏三維(three dimensional,3D)全腦MRI訓練圖像導致的模型過擬合問題,Kwon等[18]將自動編碼器與GAN結合提出一種新的3D GAN模型,該模型使用帶有梯度懲罰的損失函數來降低訓練的不穩定性,僅通過先驗噪聲即可生成分辨率為64 × 64 × 64的3D頭部MRI圖像,極大地緩解了該場景下的過擬合問題。
許多公開數據集存在結節數據缺乏從而導致類不平衡的問題。因此,Chuquicusma等[19]使用DCGAN進行CT肺結節圖像生成實驗,生成了良性、惡性以及混合的結節樣本圖像數據,這些生成樣本的加入極大地改善了該數據集中結節圖像缺乏的問題。Calimeri等[20]使用GAN生成大腦切片MRI圖像,生成的圖像僅僅比真實圖像低0.1的初始得分(inception score,IS)。Bermudez等[21]在使用MRI圖像進行神經成像的過程中,使用GAN通過隨機噪聲生成腦部MRI圖像,極大地緩解了MRI神經圖像不足的問題。Wang等[22]提出基于GAN的潛在向量生成多參數MRI圖像的方法,該方法中的生成器以順序的方式從128維的潛在向量生成MRI圖像并學習真實MRI圖像的邊緣紋理分布,實驗結果表明該方法可高效地生成MRI圖像并表現出良好的視覺效果。
雖然無條件數據集擴充方法已在成像質量方面基本達到真實臨床醫學圖像的水平,但圖像常出現一些與生理學相違背的現象,如Bermudez等[21]使用GAN生成的大腦MRI圖像在解剖專家審查時發現其左右尾狀核大部分不對稱,這表明無條件數據集擴充方法依然存在不足。因此,針對無條件數據集擴充方法的改進應考慮優化生成圖像的結構。
2.2 條件數據集擴充方法
條件數據集擴充方法是指在生成新的醫學圖像時,一些先驗信息如標簽、文字、圖片等跟隨噪聲信息一同輸入到GAN的生成器。其中,先驗信息能夠起到指導模型生成的作用,如標簽信息能夠對生成的圖像區域進行約束,文字信息能進一步對生成圖像的感興趣位置起到規范化作用。同時,與無條件數據集擴充方法相比,條件數據集擴充方法在先驗信息的約束之下生成的醫學圖像更符合人體的生理學構造。
在2020年新型冠狀病毒大流行期間,Jiang等[23]基于GAN生成了新冠感染者的CT肺部圖像,有效降低因采集新冠感染者CT圖像而帶來的感染風險。與此同時,生成的CT圖像最終被用于訓練肺病變分類深度學習模型并作為輔助醫生篩查新冠感染病例的依據之一。但臨床實踐表明,該方法生成的圖像與真實肺CT圖像還是有一定的差距,真實的肺結節中包括的形狀和背景更加多樣。因此,Wang等[24]引入了多目標聯合對抗機制并提出一種具有聯合損失函數的多目標協同引導生成方法,該方法包含一個掩碼引導GAN(用于肺結節背景和形狀的生成)和一個語義引導學習子網絡(用于進一步生成圖像的復雜紋理信息)。將生成的圖像作為美國國家癌癥研究所收集的肺結節數據庫(the lung image database consortium,LIDC)的擴充,用于訓練后,使視覺幾何群網絡(visual geometry group network,VGG)的分類性能提升5.6%。
為了緩解醫學圖像分析領域存在的高質量圖像稀缺問題,Costa等[25]基于GAN提出包含兩個子結構的對抗性學習方法,第一個子結構負責將輸入的視網膜圖像分割為二值血管樹圖像,第二個子結構則將生成的二值血管樹圖像作為先驗信息輸入到GAN中,最終形成高分辨率的彩色視網膜圖像,其視覺和定量結果表明生成圖像具有豐富的樣本空間且圖像內容分布合理。但該方法受到了中間階段語義分割產生的二值血管樹圖像的約束,若該階段出現問題會限制后續生成圖像數據的多樣性。Oliveira[26]基于條件GAN(conditional GAN,CGAN)提出更加簡單有效的方法,該方法將基于隨機貝塞爾曲線的兩個紋理補丁數據作為輸入,一個用于皮膚圖像生成,另一個用于皮膚病變生成,合理地消除了中間階段的影響。Zhang等[27]提出新穎的噪聲自適應GAN,它包含一個生成器和兩個鑒別器:生成器旨在將數據從源域映射到目標域;在兩個鑒別器中,第一個鑒別器生成的圖像與來自目標域的圖像具有相同的噪聲模式,第二個鑒別器將內容保留在生成的圖像中,同樣避免了圖像生成中間階段對后續實驗的影響。
條件數據集擴充方法本質上是無條件數據集擴充方法的改進版,該方法在繼承了無條件數據集擴充方法優點的同時,能夠生成特定類型的圖像如肝臟CT圖像、肝臟MRI圖像等。但該方法縮小了GAN的生成器樣本空間從而對生成圖像的多樣性起到了限制作用,若想要獲得更多樣化的醫學圖像需要訓練多個網絡,這增加了額外的資源消耗。
2.3 跨模態數據集擴充方法
不同模態的醫學圖像能夠提供關于疾病的不同層次信息,其病變特征也能夠獲得更加全面的顯示[28]。但由于某些模態的醫學圖像獲取受到限制,導致了疾病的診斷中通常難以獲取到全方位的病理信息[29]。
在跨模態數據集擴充方法中,使用最多的是有監督的像素到像素GAN(pixel-to-pixel GAN,Pix2PixGAN)和無監督的循環GAN(cycle GAN,CycleGAN)。但這兩種網絡模型都有不小的局限性,Pix2PixGAN在訓練過程中需要成對按像素值對齊的圖像,圖像的獲取成本高昂,而CycleGAN能夠適用于非對齊的醫學圖像,但其生成效果不如Pix2PixGAN。為了打破這個困境,Kong等[30]提出新的無監督模型,在該模型中,未對齊的目標圖像被視為噪聲并使用附加的配準網絡進行訓練以自適應地擬合未對齊的噪聲分布。實驗結果表明,該模型在對齊的醫學圖像中的表現優于Pix2PixGAN,在非對齊的醫學圖像中的表現優于CycleGAN。
生成的醫學圖像通常無法和源圖像之間保持良好的對齊,存在額外的對齊損失。為了降低這個損失, Luo等[31]提出基于迭代的多尺度特征融合GAN,其生成器由一個共享的編碼器和兩個特定的解碼器組成,其中一個解碼器旨在生成目標模態;另一個則負責生成相應的邊緣輪廓信息,有效降低圖像的對齊損失,但該方法生成的MRI圖像中存在域移問題。在此基礎上,Xie等[32]提出一個聯邦域翻譯新基準方法,以彌合聯邦學習和CycleGAN之間的差距,該方法加入新的損失函數約束CycleGAN的對抗學習過程,能夠提升網絡的穩定性并緩解圖像域移導致的圖像失真問題。
由于人體解剖結構具有大量重疊且復雜的細節信息,在X射線圖像中獲取準確的像素級標注過分依賴臨床醫生技術水平。為了解決這個現實問題,Zhang等[27]提出噪聲自適應GAN,并使用一個生成器和兩個判別器對圖像中的內容和包含的噪聲分布進行訓練引導。實驗結果表明該方法能夠有效地去除圖像中的噪聲分布,消除CT圖像中的噪聲差異。為了減少模態遷移過程中醫學圖像細節的丟失,Xie等[33]提出互信息約束GAN,該方法將MRI圖像中的內容特征提取出來并使用最大化特征互信息規范MRI圖像到CT圖像的遷移過程,最終MRI圖像到CT圖像遷移過程中特征信息的丟失明顯下降。
在跨模態MRI圖像生成領域,大多數現有方法只關注最小化像素強度差異,而忽略了圖像內容結構的紋理細節的處理。因此,Yu等[34]提出用于跨模態MRI圖像生成的邊緣感知GAN,該研究整合了邊緣信息并優化生成圖像的內容及結構紋理信息,在定性和定量測試方面均優于當時最先進的跨模態MRI圖像生成方法。Yang等[35]基于GAN和半監督學習方法提出兩階段的模態遷移方法,最終分辨率可達到512×512,IS和弗雷謝起始距離(Fréchet Inception Distance,FID)的平均得分達到1.98和268.73。Gilbert等[36]提出以CycleGAN為基準生成二維(two dimensional,2D)超聲心動圖的方法,該方法能夠從構建的解剖學模型中自動派生出用于分割心臟左心室和左心房的圖像,最終心臟分割的DSC分數中位數達到91%。
經模態轉化后的醫學圖像分辨率高,同時保留絕大部分生理結構信息,與無條件數據集擴充方法、條件數據集擴充方法相比,該方法在成像清晰度、圖像多樣性、特征多樣性、網絡收斂速度等方面都具有明顯優勢。但該方法需要消耗更多的計算機算力資源以及對訓練數據集有更高的要求,如Pix2PixGAN需要成對的CT圖像和MRI圖像進行訓練、CycleGAN需要其訓練數據集獲取自同一采集協議等,這些限制使得該方法的使用門檻偏高,有較大的優化改進空間。
2.4 與幾何變換結合的數據集擴充方法
如前文所述,基于幾何變換的數據集擴充方法使用簡單但多樣性不足,而基于GAN的數據集擴充方法可以保證多樣性卻復雜度高,因此結合這兩類方法將為研究打開新的思路。基于此,GAN的生成器對輸入圖像生成變形場、強度變換、仿射變換等模擬幾何變換方法的操作,可避免生成圖像缺乏特征多樣性。
針對大多數醫學圖像數據集很小且分散的現狀,Han等[37]提出兩步的基于GAN的數據集擴充方法,該方法先通過生成器生成高分辨率的腦部MRI圖像,然后使用已經訓練過的能使圖像產生幾何變換的GAN模型進一步細化生成該腦部MRI圖像的紋理。結果表明當GAN方法與基于幾何變換的擴充方法相結合時可生成更加真實且多樣化的圖像數據。
標注數據集的獲取普遍較為困難,因此,Chen等[38]提出一種對抗性數據集擴充方法,用于訓練醫學圖像分割的神經網絡,該方法不是生成逐像素的精確圖像,而是利用GAN對原圖像進行幾何變換,模擬由MRI圖像成像中常見的偽影引起的強度不均勻性偏置場,該方法可以用作監督和半監督學習中通用分割網絡的插件模塊。Chaitanya等[39]提出新的任務驅動型數據集擴充方法,該方法的生成器使用兩組變換來模擬圖像的強度和形狀變化,使用半監督框架中的標注和未標注數據進行增強并使用加性強度變換變形場對圖像進行生成,該方法在三個醫學數據集(心臟、前列腺和胰腺)上的實驗結果表明在經有限的標注數據集訓練后,該方法顯著優于幾何變換方法。
為了改變使用GAN模型隨機增強訓練示例卻提升有限的現狀,Chaitanya等[40]提出新的任務驅動數據集擴充方法,生成器首先對現有標注數據的形狀和強度變化建模;其次對圖像進行顯式的附加強度掩碼;最終借助于GAN強大的潛在特征學習能力對現有MRI圖像進行生成。Chaitanya等[40]將生成的MRI圖像應用于其下游心臟MRI圖像分割任務,消融實驗結果表明該方法在小數據集的擴充性能遠超現有擴充方法。
通過減少訓練數據集的噪聲對語義分割和醫學成像分類任務有極大的精度提升,然而利用現有方法實現這種圖像轉變依然具有較大困難,對分類任務中關鍵的感興趣區域很難先驗確定。因此,Cheng等[41]提出用于圖像生成的新型聯合強化學習方法,該方法使用弱監督的GAN模型充當代理,并在給定樣本作實例的情況下輸出圖像掩碼。通過這種方式,分割網絡學會了掩蓋不重要的成像特征,該方法在斯坦福大學的肌肉骨骼X光片(musculoskeletal radiographs,MURA)數據集中髖部骨折分類任務上顯示出優越的性能,全局分類準確度提高7.33%。
在醫學圖像分析中,設計良好的擴充策略通常需要大量專業知識,并且由于不同醫學任務中像素強度、圖像外觀和對象形狀之間存在巨大差異,難以同時應用于多個任務。為了實現自適應醫學圖像數據擴充, Gao等[42]通過極差化目標函數并使用基于仿射變換的可微擴充模型提出了正則化對抗學習方法,該方法得益于人工指定生成范圍和雙層優化預定義操作,可生成多種醫學圖像。實驗表明該方法在2D皮膚癌分類和3D腹部器官分割任務中,以較少的訓練消耗實現了優于已有的最先進的自適應擴充方法的性能。
將基于幾何變換和基于GAN的擴充方法結合是一種新的嘗試,該方法既能產生如基于幾何變換擴充方法的真實性又能兼顧GAN生成圖像的多樣化。但其依然繼承了兩種方法中原有的一些缺陷,如基于GAN的擴充方法不穩定、難訓練、缺乏可解釋性,基于幾何變換擴充方法生成的圖像數據分布過于一致,這些缺陷一定程度上限制了該方法的性能。因此未來如何改進該方法并找到兩種方法的良好結合點是一個值得探索的方向。
3 總結與展望
近年來,醫學圖像數據集擴充方法不斷被優化迭代,從基于幾何變換的數據集擴充方法發展到基與GAN的數據集擴充方法,從僅能擴充2D圖像到可擴充3D甚至更高維度的醫學圖像,從低分辨率、單一性擴充圖像到高分辨率、多類型、多樣化的擴充圖像,醫學圖像數據集擴充方法在解決醫學圖像數據稀缺的問題上扮演了一個舉足輕重的角色。但目前仍然存在一些亟待解決的問題:① 醫學圖像數據集擴充方法的研究已進行數年,但至今仍沒有提出廣泛接受的生成圖像質量評價標準,大多數研究者仍使用以往應用于計算機視覺領域的評價標準如峰值信噪比(peak signal to noise ratio,PSNR)、IS、FID等來衡量圖像質量。② 由于目前計算機算力的限制,現有研究中大多數擴充方法仍以生成2D醫學圖像為目標,但2D醫學圖像無法完整表達人體器官的結構特性。③ 在使用GAN進行跨模態醫學圖像擴充時,當前研究的大多數工作仍致力于研究單模態醫學圖像生成,未充分利用醫學圖像的多模態信息。④ GAN作為一種匿名化的工具,其生成的醫學圖像能否代表臨床醫學圖像中的影像學特性仍有待考究,這些圖像并非來自真實的臨床環境采集,將其用于醫學圖像分析領域可能會帶來不可預知的問題。⑤ 醫學圖像數據集擴充領域對其他領域的優秀模型的吸收和借鑒非常有限。⑥ 雖然獲取未標注的醫學圖像數據集已相對簡單,但無標注的醫學圖像僅能用于無監督學習任務,若需要訓練有監督的深度學習診療模型,其需要的帶標注醫學圖像數據依舊難以獲取,需要專業的影像學醫師手動進行標注。
為了解決上述問題,該領域未來可能的研究方向如下:① 當前評價生成圖像質量的體系還不夠完善,因此有必要建立廣泛接受的定性評價標準。② 隨著計算機運算能力的進一步提升以及深度學習方法的不斷改進,對于3D的醫學圖像應用會越來越廣泛,醫學圖像分析對高維度的圖像需求也將進一步增加。③ 由于不同模態的醫學圖像間包含的病理信息是互補且相關的,為了充分利用圖像間的多模態信息,未來會出現更多從多模態圖像出發生成綜合性單模態圖像的研究。④ 由于GAN擴充的醫學圖像缺乏可解釋性,阻礙了其進一步發展。因此,隨著GAN模型這個匿名工具的神秘面紗被揭開,就能證明其生成圖像的科學性和合理性,最終生成的圖像將可以合理地應用于各個醫學圖像研究領域。⑤ 隨著各學科交流、交叉、融合速度的逐步加快,醫學圖像數據集擴充領域可以吸收其它領域的優秀成果,如與注意力機制、變換器(Transformer)、圖卷積神經網絡等優秀模型進行良好的結合,醫學圖像數據集擴充方法的性能可能會再次獲得較大的提升。⑥ 隨著未標注圖像數據集的稀缺問題逐漸得到解決,未來更加需要的是帶有標注的各類醫學圖像數據集,因此可能會有更多研究致力于解決標注數據集獲取困難的問題。
綜上所述,隨著數據集擴充方法的不斷改進,醫學圖像數據集稀缺問題將得到很好的解決。與此同時,CAD系統的性能也將進一步提升,能夠更好地輔助醫生診斷患者的病情,加速醫學圖像診斷領域的發展進程。
重要聲明
利益沖突說明:本文全體作者均聲明不存在利益沖突。
作者貢獻說明:陳英對文章框架和主題提供了指導性的意見并負責文章修改;林洪平、張偉、馮龍鋒、鄭鋮、周滔輝、易珍完成資料收集、文章撰寫;劉嵐參與論文的審校。
0 引言
醫學圖像能夠顯示人體內部相關信息的細節,是放射科醫生判斷患者病情最主要的方式之一,在疾病診斷、患者治療方案規劃、術中導航、術后檢測等多個醫療環節中具有廣泛的應用[1]。如今,醫學圖像已具有多種成像模態,如磁共振成像(magnetic resonance imaging,MRI)、計算機斷層掃描成像(computed tomography,CT)、正電子發射斷層掃描成像(positron emission computed tomography,PET)等。多種模態的醫學圖像為臨床疾病診斷提供了全方位的病理信息,顯著地提升了醫學領域的疾病診斷水平,極大地加速了醫學學科的發展進程[2]。但由于醫學圖像中包含的信息量龐大以及部分疾病的病變部位細小,導致醫學圖像的準確診斷一直是難點。
深度學習和醫學領域的聯系日趨緊密,進一步推動了計算機輔助診斷(computer aided diagnosis,CAD)系統技術在醫學圖像分析領域的發展。實踐表明,CAD系統在減少醫生漏診、誤診情況的發生、提高醫生工作效率等方面起到了極大的促進作用[3]。但是,CAD系統的性能取決于其內部集成的深度學習算法模型,因此提升CAD系統性能最有效的一個方法是增加算法模型訓練的醫學圖像數據量[4]。但醫學圖像不僅成像成本高昂,而且需要專業的影像學醫師進行手動標注,此外還涉及到患者的隱私信息,導致可公開獲取的醫學圖像數據十分匱乏[5]。因此,數據集擴充方法成為了醫學圖像診療領域的研究熱點之一。
目前已有的醫學圖像數據集擴充方法主要有基于幾何變換和基于生成對抗網絡(generative adversarial network,GAN)的擴充方法。其中,基于幾何變換的醫學圖像數據集擴充方法通常對醫學圖像進行旋轉、裁剪、強度變換等幾何形態學的變換,生成圖像的數據分布與原圖高度重疊,對數據集多樣性的提升有限。而基于GAN的醫學圖像數據集擴充方法能夠從已有的圖像數據中學習其潛在特征分布,利用獲得的特征分布生成新圖像,其生成的圖像紋理平滑,原始圖像與生成圖像間保持著良好的差異性,對算法模型的特異性和準確率的提升十分顯著,因此基于GAN的醫學圖像數據集擴充方法已成為當前主流的研究方向。
本文分別對醫學圖像數據集擴充方法中基于幾何變換和基于GAN擴充方法的最新研究進展進行綜述,其中重點介紹基于GAN的醫學圖像數據集擴充方法及其改進方案。同時,為了保持該領域的發展脈絡,本文首先簡要介紹基于幾何變換的醫學圖像數據集擴充方法中具有代表性的工作。希望本文能夠幫助相關領域的科研工作者快速了解醫學圖像數據集擴充方法的最新研究進展,以供參考。
1 基于幾何變換的醫學圖像數據集擴充方法
基于幾何變換的醫學圖像數據集擴充方法可以進一步分為兩種操作方式:① 針對圖像中像素點的灰度值進行操作,通過一系列變換函數的映射,改變像素點位置信息,使其紋理細節與原圖保持一致;② 通過將圖像內容變形重組,使其病變區域、感興趣區域產生形變進而使該圖像擁有更多樣化的特征信息,常用的基于幾何變換的醫學圖像數據集擴充方法的應用效果如圖1所示。

從圖1中可以看出其生成的CT圖像的紋理結構與原CT圖像非常相似,主要的改變是局部特征的大小和形狀,該CT圖像來自肝臟腫瘤病灶區CT圖像分割挑戰大賽(liver tumor segmentation challenge,LiTS)公開數據集,網址為:https://competitions.codalab.org/competitions/17094。
基于幾何變換的醫學圖像數據集擴充方法對小樣本數據集可產生較為有效的擴充效果。Thaha等[6]提出強度歸一化變換方法應用于腦腫瘤MRI圖像分割模型,其骰子相似系數(dice similarity coefficient,DSC)提升1.9%。Ding等[7]提出用于腦部MRI圖像分割的方法,僅使用未標注的MRI圖像通過幾何變換法即可生成大量可用的腦部MRI圖像訓練示例。Brahim等[8]使用旋轉、水平翻轉、裁剪以及噪聲注入的方法擴充腦腫瘤病變MRI圖像數據集,緩解了其存在的類別不平衡問題。Afzal等[9]通過放縮、旋轉、裁剪等方法獲取了許多罕見的阿爾茨海默病MRI圖像,最終促使分類模型準確率提升7.54%。Karani等[10]使用基于幾何變換的數據集擴充方法,在腦部MRI圖像、前列腺MRI圖像分割測試中的DSC分別提升2.31%、6.91%。Chen等[11]提出一個用于生成困難示例的空間圖像擴充方法,與標準訓練方法相比其平均DSC提高15%。Novosad等[12]使用隨機彈性變形方法擴充大腦MRI圖像數據集,應用于老年人群體的海馬體分割,平均DSC達到92.1%。Pan等[13]在進行前列腺MRI圖像分割時,提出兩階段MRI圖像數據集擴充分割模型,最終DSC達到91.3%。Yang等[14]提出新穎的無監督域自適應方法,使得數據集中圖像間的差異值減小,有效減少模型的訓練成本。
目前,基于幾何變換的醫學圖像數據集擴充方法生成的新圖像與原圖像之間的數據分布一致,即該擴充方法對數據集多樣性的提升較少。而數據集的多樣性與訓練模型的泛化能力緊密相連,這將對依賴于該數據集的下游醫學圖像分析應用模型產生不良影響,可能削弱該模型的性能。并且隨著近年來CAD系統對其中集成的深度學習算法模型的性能要求越來越高,需要的訓練圖像數據量逐漸增加,基于幾何變換的擴充方法逐漸難以滿足醫學圖像數據集的擴充需求,因此研究更為高效的醫學圖像數據集擴充方法有其必要性。
2 基于GAN的醫學圖像數據集擴充方法
隨著深度學習技術的快速發展,特別是自亞歷克斯網絡(AlexNet)模型提出后深度學習神經網絡模型開始朝著縱深方向不斷探索,動輒數以百萬計的參數量使得模型的收斂需要更大的訓練數據量。醫學圖像分析領域若要應用此類模型,圖像數據的稀缺在當時看來會是個難以逾越的鴻溝,但GAN模型的提出為該問題提供了全新的解決思路[15]。
如圖2所示,展示了GAN在醫學圖像數據集擴充領域的應用效果圖,從圖2中可以清晰地看到,GAN生成的新CT圖像與原CT圖像保持了高度的內容一致性,同時生成的CT圖像中各種器官特征均發生了符合人體結構特點的變化。該模型分別使用兩個數據集中的CT圖像和MRI圖像作為訓練樣本,經過200輪訓練至模型收斂后獲得了圖2中的生成圖像。其中原始CT圖像來自LiTS數據集,而MRI圖像來自CT-MRI聯合健康腹部器官分割(combined CT-MRI healthy abdominal organ segmentation,CHAOS)公開數據集,網址為:https://zenodo.org/record/3431873#.Yl_9itpBxaQ。

GAN是一種生成式模型,其目的是構建一個從真實圖像到潛在特征分布的顯式映射關系,構建過程中不需要額外構造復雜的概率密度函數即可實現該映射關系[16]。GAN的訓練過程可以概括為一個零和博弈的過程,其生成器希望生成的圖像盡可能真實從而欺騙鑒別器,鑒別器則盡力分辨出真實圖像和生成圖像。GAN既能夠在無監督的條件下使用隨機噪聲生成圖像,也能夠將其它模態的醫學圖像轉換為所需要的圖像從而擴充數據集。綜合已發表的文獻,目前基于GAN的醫學圖像數據集擴充方法可以四類,分別為:① 無條件數據集擴充方法;② 條件數據集擴充方法;③ 跨模態數據集擴充方法;④ 與幾何變換方法結合的數據集擴充方法,下文將對這四類方法做進一步的介紹。
2.1 無條件數據集擴充方法
無條件數據集擴充方法是指在沒有任何額外信息的情況下,僅利用高斯噪聲或者均勻噪聲作為GAN的輸入而生成醫學圖像的一類方法。雖然該方法早期生成的圖像存在分辨率低、圖像模糊、圖像特征單一的問題,但可優化解決,其性能逐步上升。該方法與基于幾何變換的方法相比,其產生的圖像是現實世界中不存在的,即無需考慮泄露患者隱私信息的問題。
為了比較無條件數據集擴充方法與基于幾何變換的數據集擴充方法的擴充效果,Frid-Adar等[17]以深度卷積GAN(deep convolutional GAN,DCGAN)為原型構建深度學習框架并用于生成64×64像素尺寸的肝臟病變CT圖像。將生成的CT圖像加入到原始數據集中與僅使用幾何變換的擴充方法擴充的數據集形成對比,訓練肝臟病變分類模型,最終該模型的特異性和靈敏度從88.4%和78.6%分別提升至92.4%和85.7%。
為了緩解由于缺乏三維(three dimensional,3D)全腦MRI訓練圖像導致的模型過擬合問題,Kwon等[18]將自動編碼器與GAN結合提出一種新的3D GAN模型,該模型使用帶有梯度懲罰的損失函數來降低訓練的不穩定性,僅通過先驗噪聲即可生成分辨率為64 × 64 × 64的3D頭部MRI圖像,極大地緩解了該場景下的過擬合問題。
許多公開數據集存在結節數據缺乏從而導致類不平衡的問題。因此,Chuquicusma等[19]使用DCGAN進行CT肺結節圖像生成實驗,生成了良性、惡性以及混合的結節樣本圖像數據,這些生成樣本的加入極大地改善了該數據集中結節圖像缺乏的問題。Calimeri等[20]使用GAN生成大腦切片MRI圖像,生成的圖像僅僅比真實圖像低0.1的初始得分(inception score,IS)。Bermudez等[21]在使用MRI圖像進行神經成像的過程中,使用GAN通過隨機噪聲生成腦部MRI圖像,極大地緩解了MRI神經圖像不足的問題。Wang等[22]提出基于GAN的潛在向量生成多參數MRI圖像的方法,該方法中的生成器以順序的方式從128維的潛在向量生成MRI圖像并學習真實MRI圖像的邊緣紋理分布,實驗結果表明該方法可高效地生成MRI圖像并表現出良好的視覺效果。
雖然無條件數據集擴充方法已在成像質量方面基本達到真實臨床醫學圖像的水平,但圖像常出現一些與生理學相違背的現象,如Bermudez等[21]使用GAN生成的大腦MRI圖像在解剖專家審查時發現其左右尾狀核大部分不對稱,這表明無條件數據集擴充方法依然存在不足。因此,針對無條件數據集擴充方法的改進應考慮優化生成圖像的結構。
2.2 條件數據集擴充方法
條件數據集擴充方法是指在生成新的醫學圖像時,一些先驗信息如標簽、文字、圖片等跟隨噪聲信息一同輸入到GAN的生成器。其中,先驗信息能夠起到指導模型生成的作用,如標簽信息能夠對生成的圖像區域進行約束,文字信息能進一步對生成圖像的感興趣位置起到規范化作用。同時,與無條件數據集擴充方法相比,條件數據集擴充方法在先驗信息的約束之下生成的醫學圖像更符合人體的生理學構造。
在2020年新型冠狀病毒大流行期間,Jiang等[23]基于GAN生成了新冠感染者的CT肺部圖像,有效降低因采集新冠感染者CT圖像而帶來的感染風險。與此同時,生成的CT圖像最終被用于訓練肺病變分類深度學習模型并作為輔助醫生篩查新冠感染病例的依據之一。但臨床實踐表明,該方法生成的圖像與真實肺CT圖像還是有一定的差距,真實的肺結節中包括的形狀和背景更加多樣。因此,Wang等[24]引入了多目標聯合對抗機制并提出一種具有聯合損失函數的多目標協同引導生成方法,該方法包含一個掩碼引導GAN(用于肺結節背景和形狀的生成)和一個語義引導學習子網絡(用于進一步生成圖像的復雜紋理信息)。將生成的圖像作為美國國家癌癥研究所收集的肺結節數據庫(the lung image database consortium,LIDC)的擴充,用于訓練后,使視覺幾何群網絡(visual geometry group network,VGG)的分類性能提升5.6%。
為了緩解醫學圖像分析領域存在的高質量圖像稀缺問題,Costa等[25]基于GAN提出包含兩個子結構的對抗性學習方法,第一個子結構負責將輸入的視網膜圖像分割為二值血管樹圖像,第二個子結構則將生成的二值血管樹圖像作為先驗信息輸入到GAN中,最終形成高分辨率的彩色視網膜圖像,其視覺和定量結果表明生成圖像具有豐富的樣本空間且圖像內容分布合理。但該方法受到了中間階段語義分割產生的二值血管樹圖像的約束,若該階段出現問題會限制后續生成圖像數據的多樣性。Oliveira[26]基于條件GAN(conditional GAN,CGAN)提出更加簡單有效的方法,該方法將基于隨機貝塞爾曲線的兩個紋理補丁數據作為輸入,一個用于皮膚圖像生成,另一個用于皮膚病變生成,合理地消除了中間階段的影響。Zhang等[27]提出新穎的噪聲自適應GAN,它包含一個生成器和兩個鑒別器:生成器旨在將數據從源域映射到目標域;在兩個鑒別器中,第一個鑒別器生成的圖像與來自目標域的圖像具有相同的噪聲模式,第二個鑒別器將內容保留在生成的圖像中,同樣避免了圖像生成中間階段對后續實驗的影響。
條件數據集擴充方法本質上是無條件數據集擴充方法的改進版,該方法在繼承了無條件數據集擴充方法優點的同時,能夠生成特定類型的圖像如肝臟CT圖像、肝臟MRI圖像等。但該方法縮小了GAN的生成器樣本空間從而對生成圖像的多樣性起到了限制作用,若想要獲得更多樣化的醫學圖像需要訓練多個網絡,這增加了額外的資源消耗。
2.3 跨模態數據集擴充方法
不同模態的醫學圖像能夠提供關于疾病的不同層次信息,其病變特征也能夠獲得更加全面的顯示[28]。但由于某些模態的醫學圖像獲取受到限制,導致了疾病的診斷中通常難以獲取到全方位的病理信息[29]。
在跨模態數據集擴充方法中,使用最多的是有監督的像素到像素GAN(pixel-to-pixel GAN,Pix2PixGAN)和無監督的循環GAN(cycle GAN,CycleGAN)。但這兩種網絡模型都有不小的局限性,Pix2PixGAN在訓練過程中需要成對按像素值對齊的圖像,圖像的獲取成本高昂,而CycleGAN能夠適用于非對齊的醫學圖像,但其生成效果不如Pix2PixGAN。為了打破這個困境,Kong等[30]提出新的無監督模型,在該模型中,未對齊的目標圖像被視為噪聲并使用附加的配準網絡進行訓練以自適應地擬合未對齊的噪聲分布。實驗結果表明,該模型在對齊的醫學圖像中的表現優于Pix2PixGAN,在非對齊的醫學圖像中的表現優于CycleGAN。
生成的醫學圖像通常無法和源圖像之間保持良好的對齊,存在額外的對齊損失。為了降低這個損失, Luo等[31]提出基于迭代的多尺度特征融合GAN,其生成器由一個共享的編碼器和兩個特定的解碼器組成,其中一個解碼器旨在生成目標模態;另一個則負責生成相應的邊緣輪廓信息,有效降低圖像的對齊損失,但該方法生成的MRI圖像中存在域移問題。在此基礎上,Xie等[32]提出一個聯邦域翻譯新基準方法,以彌合聯邦學習和CycleGAN之間的差距,該方法加入新的損失函數約束CycleGAN的對抗學習過程,能夠提升網絡的穩定性并緩解圖像域移導致的圖像失真問題。
由于人體解剖結構具有大量重疊且復雜的細節信息,在X射線圖像中獲取準確的像素級標注過分依賴臨床醫生技術水平。為了解決這個現實問題,Zhang等[27]提出噪聲自適應GAN,并使用一個生成器和兩個判別器對圖像中的內容和包含的噪聲分布進行訓練引導。實驗結果表明該方法能夠有效地去除圖像中的噪聲分布,消除CT圖像中的噪聲差異。為了減少模態遷移過程中醫學圖像細節的丟失,Xie等[33]提出互信息約束GAN,該方法將MRI圖像中的內容特征提取出來并使用最大化特征互信息規范MRI圖像到CT圖像的遷移過程,最終MRI圖像到CT圖像遷移過程中特征信息的丟失明顯下降。
在跨模態MRI圖像生成領域,大多數現有方法只關注最小化像素強度差異,而忽略了圖像內容結構的紋理細節的處理。因此,Yu等[34]提出用于跨模態MRI圖像生成的邊緣感知GAN,該研究整合了邊緣信息并優化生成圖像的內容及結構紋理信息,在定性和定量測試方面均優于當時最先進的跨模態MRI圖像生成方法。Yang等[35]基于GAN和半監督學習方法提出兩階段的模態遷移方法,最終分辨率可達到512×512,IS和弗雷謝起始距離(Fréchet Inception Distance,FID)的平均得分達到1.98和268.73。Gilbert等[36]提出以CycleGAN為基準生成二維(two dimensional,2D)超聲心動圖的方法,該方法能夠從構建的解剖學模型中自動派生出用于分割心臟左心室和左心房的圖像,最終心臟分割的DSC分數中位數達到91%。
經模態轉化后的醫學圖像分辨率高,同時保留絕大部分生理結構信息,與無條件數據集擴充方法、條件數據集擴充方法相比,該方法在成像清晰度、圖像多樣性、特征多樣性、網絡收斂速度等方面都具有明顯優勢。但該方法需要消耗更多的計算機算力資源以及對訓練數據集有更高的要求,如Pix2PixGAN需要成對的CT圖像和MRI圖像進行訓練、CycleGAN需要其訓練數據集獲取自同一采集協議等,這些限制使得該方法的使用門檻偏高,有較大的優化改進空間。
2.4 與幾何變換結合的數據集擴充方法
如前文所述,基于幾何變換的數據集擴充方法使用簡單但多樣性不足,而基于GAN的數據集擴充方法可以保證多樣性卻復雜度高,因此結合這兩類方法將為研究打開新的思路。基于此,GAN的生成器對輸入圖像生成變形場、強度變換、仿射變換等模擬幾何變換方法的操作,可避免生成圖像缺乏特征多樣性。
針對大多數醫學圖像數據集很小且分散的現狀,Han等[37]提出兩步的基于GAN的數據集擴充方法,該方法先通過生成器生成高分辨率的腦部MRI圖像,然后使用已經訓練過的能使圖像產生幾何變換的GAN模型進一步細化生成該腦部MRI圖像的紋理。結果表明當GAN方法與基于幾何變換的擴充方法相結合時可生成更加真實且多樣化的圖像數據。
標注數據集的獲取普遍較為困難,因此,Chen等[38]提出一種對抗性數據集擴充方法,用于訓練醫學圖像分割的神經網絡,該方法不是生成逐像素的精確圖像,而是利用GAN對原圖像進行幾何變換,模擬由MRI圖像成像中常見的偽影引起的強度不均勻性偏置場,該方法可以用作監督和半監督學習中通用分割網絡的插件模塊。Chaitanya等[39]提出新的任務驅動型數據集擴充方法,該方法的生成器使用兩組變換來模擬圖像的強度和形狀變化,使用半監督框架中的標注和未標注數據進行增強并使用加性強度變換變形場對圖像進行生成,該方法在三個醫學數據集(心臟、前列腺和胰腺)上的實驗結果表明在經有限的標注數據集訓練后,該方法顯著優于幾何變換方法。
為了改變使用GAN模型隨機增強訓練示例卻提升有限的現狀,Chaitanya等[40]提出新的任務驅動數據集擴充方法,生成器首先對現有標注數據的形狀和強度變化建模;其次對圖像進行顯式的附加強度掩碼;最終借助于GAN強大的潛在特征學習能力對現有MRI圖像進行生成。Chaitanya等[40]將生成的MRI圖像應用于其下游心臟MRI圖像分割任務,消融實驗結果表明該方法在小數據集的擴充性能遠超現有擴充方法。
通過減少訓練數據集的噪聲對語義分割和醫學成像分類任務有極大的精度提升,然而利用現有方法實現這種圖像轉變依然具有較大困難,對分類任務中關鍵的感興趣區域很難先驗確定。因此,Cheng等[41]提出用于圖像生成的新型聯合強化學習方法,該方法使用弱監督的GAN模型充當代理,并在給定樣本作實例的情況下輸出圖像掩碼。通過這種方式,分割網絡學會了掩蓋不重要的成像特征,該方法在斯坦福大學的肌肉骨骼X光片(musculoskeletal radiographs,MURA)數據集中髖部骨折分類任務上顯示出優越的性能,全局分類準確度提高7.33%。
在醫學圖像分析中,設計良好的擴充策略通常需要大量專業知識,并且由于不同醫學任務中像素強度、圖像外觀和對象形狀之間存在巨大差異,難以同時應用于多個任務。為了實現自適應醫學圖像數據擴充, Gao等[42]通過極差化目標函數并使用基于仿射變換的可微擴充模型提出了正則化對抗學習方法,該方法得益于人工指定生成范圍和雙層優化預定義操作,可生成多種醫學圖像。實驗表明該方法在2D皮膚癌分類和3D腹部器官分割任務中,以較少的訓練消耗實現了優于已有的最先進的自適應擴充方法的性能。
將基于幾何變換和基于GAN的擴充方法結合是一種新的嘗試,該方法既能產生如基于幾何變換擴充方法的真實性又能兼顧GAN生成圖像的多樣化。但其依然繼承了兩種方法中原有的一些缺陷,如基于GAN的擴充方法不穩定、難訓練、缺乏可解釋性,基于幾何變換擴充方法生成的圖像數據分布過于一致,這些缺陷一定程度上限制了該方法的性能。因此未來如何改進該方法并找到兩種方法的良好結合點是一個值得探索的方向。
3 總結與展望
近年來,醫學圖像數據集擴充方法不斷被優化迭代,從基于幾何變換的數據集擴充方法發展到基與GAN的數據集擴充方法,從僅能擴充2D圖像到可擴充3D甚至更高維度的醫學圖像,從低分辨率、單一性擴充圖像到高分辨率、多類型、多樣化的擴充圖像,醫學圖像數據集擴充方法在解決醫學圖像數據稀缺的問題上扮演了一個舉足輕重的角色。但目前仍然存在一些亟待解決的問題:① 醫學圖像數據集擴充方法的研究已進行數年,但至今仍沒有提出廣泛接受的生成圖像質量評價標準,大多數研究者仍使用以往應用于計算機視覺領域的評價標準如峰值信噪比(peak signal to noise ratio,PSNR)、IS、FID等來衡量圖像質量。② 由于目前計算機算力的限制,現有研究中大多數擴充方法仍以生成2D醫學圖像為目標,但2D醫學圖像無法完整表達人體器官的結構特性。③ 在使用GAN進行跨模態醫學圖像擴充時,當前研究的大多數工作仍致力于研究單模態醫學圖像生成,未充分利用醫學圖像的多模態信息。④ GAN作為一種匿名化的工具,其生成的醫學圖像能否代表臨床醫學圖像中的影像學特性仍有待考究,這些圖像并非來自真實的臨床環境采集,將其用于醫學圖像分析領域可能會帶來不可預知的問題。⑤ 醫學圖像數據集擴充領域對其他領域的優秀模型的吸收和借鑒非常有限。⑥ 雖然獲取未標注的醫學圖像數據集已相對簡單,但無標注的醫學圖像僅能用于無監督學習任務,若需要訓練有監督的深度學習診療模型,其需要的帶標注醫學圖像數據依舊難以獲取,需要專業的影像學醫師手動進行標注。
為了解決上述問題,該領域未來可能的研究方向如下:① 當前評價生成圖像質量的體系還不夠完善,因此有必要建立廣泛接受的定性評價標準。② 隨著計算機運算能力的進一步提升以及深度學習方法的不斷改進,對于3D的醫學圖像應用會越來越廣泛,醫學圖像分析對高維度的圖像需求也將進一步增加。③ 由于不同模態的醫學圖像間包含的病理信息是互補且相關的,為了充分利用圖像間的多模態信息,未來會出現更多從多模態圖像出發生成綜合性單模態圖像的研究。④ 由于GAN擴充的醫學圖像缺乏可解釋性,阻礙了其進一步發展。因此,隨著GAN模型這個匿名工具的神秘面紗被揭開,就能證明其生成圖像的科學性和合理性,最終生成的圖像將可以合理地應用于各個醫學圖像研究領域。⑤ 隨著各學科交流、交叉、融合速度的逐步加快,醫學圖像數據集擴充領域可以吸收其它領域的優秀成果,如與注意力機制、變換器(Transformer)、圖卷積神經網絡等優秀模型進行良好的結合,醫學圖像數據集擴充方法的性能可能會再次獲得較大的提升。⑥ 隨著未標注圖像數據集的稀缺問題逐漸得到解決,未來更加需要的是帶有標注的各類醫學圖像數據集,因此可能會有更多研究致力于解決標注數據集獲取困難的問題。
綜上所述,隨著數據集擴充方法的不斷改進,醫學圖像數據集稀缺問題將得到很好的解決。與此同時,CAD系統的性能也將進一步提升,能夠更好地輔助醫生診斷患者的病情,加速醫學圖像診斷領域的發展進程。
重要聲明
利益沖突說明:本文全體作者均聲明不存在利益沖突。
作者貢獻說明:陳英對文章框架和主題提供了指導性的意見并負責文章修改;林洪平、張偉、馮龍鋒、鄭鋮、周滔輝、易珍完成資料收集、文章撰寫;劉嵐參與論文的審校。