隨著影像引導手術和放射治療的發展,臨床對醫學圖像配準研究的需求更強烈,帶來的挑戰也更大。最近幾年,深度學習,特別是深度卷積神經網絡,在醫學圖像處理方面取得了優異的成績,在醫學圖像配準上的研究發展迅速。本文按技術方法分類總結了基于深度學習的醫學圖像配準的國內外研究進展,包括了基于優化策略的相似性估計、直接估計醫學圖像配準的變換參數等。然后分析了深度學習方法在醫學圖像配準上的挑戰,并提出了可能的解決辦法和研究方向。
引用本文: 鄒茂揚, 楊昊, 潘光暉, 鐘勇. 深度學習在醫學圖像配準上的研究進展與挑戰. 生物醫學工程學雜志, 2019, 36(4): 677-683. doi: 10.7507/1001-5515.201810004 復制
引言
醫學圖像類型多樣,常見的有 X 光,超聲成像(ultrasound,US),計算機斷層掃描成像(computed tomography,CT)、磁共振成像(magnetic resonance imaging,MRI)與正電子發射斷層掃描成像(positron emission computed tomography,PET)等。醫學圖像配準是指對兩幅或多幅圖像建立對應關系,各圖像通過各種變換模型被帶入同一坐標系,人體上的同一解剖點在兩幅或多幅匹配圖像上具有相同的空間位置。對于影像引導的放射性治療、放射外科手術、微創外科手術、內窺鏡檢查、介入放射性治療等,圖像配準是輔助醫療的關鍵技術之一。對于單模態的醫學圖像配準(配準的是同一類型的醫學圖像),針對同一個患者,不同時期的醫學圖像配準可以比較病灶生長情況,分析治療效果。而對于不同的患者,圖像的配準可以輔助疾病的診斷。對于多模態的醫學圖像(配準的是不同類型的醫學圖像),在外科手術前和手術中,綜合利用多種成像設備的信息并實現多模態圖像配準有助于病灶的精確定位、輔助放射治療計劃。
現有的醫學圖像配準方法主要包括兩種類型:基于灰度的方法和基于特征的方法。基于灰度的常用方法包括互相關法、序列相似度配準法、互信息法等。基于灰度的方法可用于剛性和非剛性配準,配準精度高,但受到相似性度量最大值的平坦性、單調紋理和高計算復雜度等問題的困擾。基于特征的圖像配準方法的核心步驟為:特征提取、特征匹配、模型參數估計、圖像變換和灰度插值。特征分為點特征、線特征、面特征等,比較經典的配準方式是用尺度不變特征變換算法(scale-invariant feature transform,SIFT)或者加速魯棒特征算法(speed up robust features,Surf) 提取特征,結合隨機抽樣一致算法(random sample consensus,Ransac)篩選特征,得到匹配點對坐標,從而能夠計算圖像變換參數。傳統的配準方法面臨的最主要問題是:對于每一對待配準的圖像,傳統的配準方法從零開始迭代優化代價函數,嚴重限制了配準速度,忽略了同一數據集圖像間共享的固有配準模式[1]。
近年來,模擬人腦學習的深層神經網絡在圖像識別、語音識別、自然語言、計算機視覺等領域取得了巨大的成功,已成為研究的熱點之一。尤其是卷積神經網絡(convolutional neural networks,CNN)在計算機視覺的應用中,如分類[2]、分割[3]、目標檢測[4]等領域,它已經超過了其他方法。根據文獻[5-12],目前深度學習在醫學診斷和醫學圖像處理方面的應用均取得了優異成績,如檢測腦腫瘤、糖尿病視網膜病變、胸片中的結節以及根據 X 光片判斷乳腺癌等。利用深層神經網絡,對個別疾病可以進行專家級的診斷,如 Esteva 等[13]利用其進行皮膚癌診斷;Gulshan 等[14]將其應用于糖尿病視網膜病變和糖尿病黃斑水腫的自動檢測。其中,Esteva 等[13]的研究成果被 x-mol 知識平臺(網址為 https://www.x-mol.com/)評為 2017 年 2 月全球科學技術十大突破之五。在醫學圖像配準上,深度學習方法的應用也取得了最新進展,應用的方法有 CNN、全卷積網絡(fully convolutional networks,FCN)等,它對臨床的影像引導手術和放射治療具有重大的意義。
本課題組實驗室研究方向為醫學圖像的分割與配準,近期工作主要集中在深度學習方法在醫學圖像配準上的研究應用。相對于傳統的醫學圖像配準方法,深度學習在醫學圖像配準方面的研究成果的最大貢獻是改善了處理速度慢的問題。Shan 等[1]指出,利用完全卷積的配準框架,其配準速度比傳統方法快 100 倍。以典型三維腦圖像為數據集,Fan 等[15]研究了 7 種不同的可變形配準算法的計算成本,結果顯示不需要任何迭代優化的深層學習網絡(該文作者將其命名為“BIRNet”)需要的時間最少。其次,在應用深度學習方法后,配準精度也有一些改進,如 Cao 等[16]將深度學習方法引入腦部 MRI 圖像的配準后,在白質、灰質以及腦脊液的配準上,其骰子相似系數(dice similarity coefficient,DSC)都得到了提升,最大的提升率是 2.6%。本研究團隊在鼻咽癌的多模態圖像配準上取得了一定的研究成果,配準精度比傳統的 SIFT 算法提高了幾十倍。本文針對基于深度學習的醫學圖像配準這個新興的研究領域,總結其研究進展,分析它的挑戰與對策,提出了深度學習在醫學圖像配準中進一步的研究方向。
1 深度學習在醫學圖像配準方面的研究進展
基于深度學習的醫學圖像配準的研究有一些限制因素。Shan 等[1]指出:“對于基于學習的方法:① 很難通過學習和優化變形或相似函數直接獲得信息特征表示;② 與圖像分類和分割不同,配準標簽難以收集。這兩個原因限制了基于學習的配準算法的發展”。但是,在脊椎的超聲與 CT 圖像配準[17]、頭部 CT 與 MRI 圖像配準[18]、胸部 CT 圖像配準[19]等方面,研究者們已經取得了較好的成果。目前已有的研究成果中,提出的深度學習方法主要使用的是 CNN 和 FCN 框架,尤其是使用 CNN 框架的一些方法。
深度學習在醫學圖像配準上的研究分類可以從深度學習的框架方面分類,也可以按有監督和無監督來分類。本文按照深度學習的框架來分類,在挑戰和對策的章節中討論了有監督和無監督的深度學習,尤其是無監督深度學習的醫學圖像配準。
1.1 基于 CNN 的醫學圖像配準的研究進展
深度學習在醫學圖像配準方面的應用,大量采用的是 CNN 模型,最近幾年多采用的 CNN 回歸是一種通過學習方法來求解圖像配準的手段。
Chen 等[17]于 2016 年提出將 CNN 用于配準,他們在國際醫學成像和虛擬現實會議(International conference on medical imaging and virtual reality,MIAR)上提出:在脊柱手術中的圖像引導麻醉中,用 CNN 對多個椎體(L2~L4)的二維超聲和三維 CT 圖像進行配準。具體而言,是用 CNN 將輸入圖像分類為幾個預標定的標準切面,利用預標定切面的空間參數來實現圖像的粗配準,之后再使用互信息完成局部配準的精細調整。該方法實現了術中的自動化配準,平均目標配準誤差為 2.3 mm,低于臨床公認的 3.5 mm,但是提高配準誤差主要依靠的是利用互信息方法進行調優。
1.1.1 基于優化策略的相似性估計
配準的關鍵是選擇合適的相似性度量。相似性度量的方法有平方差和、互信息、聯合熵等,有研究人員用迭代優化策略,使用 CNN 估計圖像之間的相似性度量,將優化圖像配準度量作為代價函數來執行。由于匹配度量在似然配準參數空間上的非凸性,這一任務具有一定的挑戰性。Eppenhof 等[20]提出了一種基于 CNN 的有監督的圖像配準誤差圖的估計方法。在一組二維數字減影血管造影序列中對 CNN 進行訓練和驗證,CNN 能夠以亞像素精度對二維配準圖像中的配準誤差進行學習。Cheng 等[18]提出了兩種類型的堆疊自動編碼器來評估頭部 CT 與 MRI 圖像的相似性,該方法訓練二值分類器來學習兩個圖像塊的對應關系,將分類輸出轉換為連續概率值,然后作為相似度評分。此外,Cheng 等[18]還提出了利用多模態疊加去噪自動編碼器對深層神經網絡進行有效的預處理,實驗結果證實了該度量方法的高精度和高魯棒性。Simonovsky 等[21]提出了對新生兒大腦 MRI 圖像配準的相似度度量,具體而言是使用 CNN 估計來自不同模式的兩個圖像塊之間的相似成本,網絡訓練后用于其他主題的圖像配準,顯示了良好的泛化能力。Liao 等[22]使用 CNN 回歸對三維配準的運動動作序列進行建模,該方法以三維原始圖像數據為輸入,以下一次最優動作為輸出,對患者的心臟 CT 和 X 線斷層攝影圖像(cone beam computed tomography,CBCT)、腹部脊柱 CT 和 CBCT 三維圖像進行配準。他們將圖像配準問題歸結為一個“策略學習”過程,使用強化學習來預測配準的迭代更新,其目標是找到產生圖像對齊的最佳運動動作序列,但需要指出的是這個方法僅針對剛體變換適用。
1.1.2 直接估計醫學圖像配準的變換參數
在基于優化策略的 CNN 回歸配準方法中,可變形配準方法需要進行詳盡的迭代優化,同時需要參數調整來估計圖像間的變形場。雖然以往的研究提出了一些基于學習的初始變形估計方法,但它們往往是模板特有的,在實際應用中并不靈活。Cao 等[16]提出了一種基于 CNN 的回歸模型,直接學習從輸入圖像對到相應的變形場的復雜映射,通過在不同腦圖像數據集上進行實驗,得到了良好的配準性能。Miao 等[23]提出用 CNN 回歸直接估計醫學圖像配準的變換參數。在 2016 年 IEEE 醫學影像深度學習專刊(IEEE transactions on medical imaging,TMI)中,為了評估手術期間植入物體的姿態和位置,Miao 等[23]采用了針對二維 X 光—三維 CT 醫學圖像配準的深度學習方法。它利用 CNN 回歸器,對二維圖像和三維圖像剛性配準的變換矩陣進行預測,解決了現有基于灰度的二維/三維配準技術的兩個主要缺陷:① 計算速度慢。因為每次空間變換參數更新時,都需要做重渲染;② 捕獲范圍小。它們將特征空間按 20 度的階次參數化為兩個角參數,并訓練一個單獨的 CNN 來預測轉換參數的更新,將固定數量k的感興趣區域塊分別輸入 CNN 產生特征向量,然后將這些向量首尾相連,后面接兩層全連接層,最后輸入回歸器。該方法精度高、具有大捕捉范圍和實時性,在臨床應用中得到了好的評價。但是,他們的模型不能進行可變形的配準。
除了 CNN 回歸的方法,Sokooti 等[19]提出了一種基于 CNN 的端到端的方法,可以直接預測給定的固定或運動圖像的三維非剛性位移矢量場(displacement vector field, DVF)。Sokooti 等[19]為所設計的一種 CNN 結構取名叫配準網絡(RegNet),RegNet 使用大量人工生成的 DVF 進行訓練,可以直接從一對輸入圖像中估計 DVF。這個方法在三維胸部 CT 圖像上的配準精度和常規的 B 樣條(b-spline)方法的配準精度相當。Yang 等[24]設計了一個深度編解碼網絡來初始化大變形差分度量映射 (large deformation diffeomorphic metric mapping, LDDMM) 配準模型的動量,使用腦部的開放系列影像數據集(open access series of imaging studies,OASIS)實驗了腦部 MRI 圖像的配準問題。實驗表明,該方法能夠準確地預測數值優化得到的配準結果,速度非常快,與獲得類似結果的其他實驗相比,二維的速度提高了 1 500 倍,三維的速度提高了 66 倍。然而,該方法需要在 CNN 網絡之外做一些后處理。
1.1.3 針對小樣本的醫學圖像配準的研究
有監督的深度學習方法一般需要一個具有注釋的大型臨床數據集進行訓練,而醫學圖像樣本量普遍偏少,針對這一情況,Zheng 等[25]提出了一種雙域自適應(pairwise domain adaptation,PDA)模塊,通過學習域不變特征,將源域(即合成數據)訓練的模型調整到目標域(即臨床數據)。PDA 模塊可以插入到任何經過預先訓練的 CNN 模型中,能適應不同的深層網絡框架。利用 CNN 的建模能力,提高了術前三維數據和術中二維 X 線圖像準確配準的精度和效率。Uzunova 等[26]提出了一種從少量訓練樣本中學習具有代表性的形狀和外觀模型的新方法,并將其嵌入到一種新的基于模型的數據增強方案中,從而生成大量的訓練數據,解決了 CNN 僅從少量訓練數據中學習后進行醫學圖像配準的問題。
1.1.4 其他研究
Wu 等[27]對腦部 MRI 圖像進行配準,他們在 CNN 之前加入非監督學習過程,使模型能自動學習數據特征。具體而言,Wu 等[27]構造了一個疊加的兩層 CNN 網絡來尋找每個圖像塊的表示,其中高層特征是從低層網絡的響應中推斷出來的。將所學習的自適應特征代替手工設計的特征進行圖像配準,取得了良好的配準效果。但它們也是一個基于塊的學習系統,并依賴于其他基于特征的配準方法來進行圖像配準。
光流(optical flow)是利用圖像序列中像素在時間域上的變化以及相鄰幀之間的相關性,以找到上一幀跟當前幀之間存在的對應關系,從而計算出相鄰幀之間物體的運動信息的一種方法。Uzunova 等[26]對光流神經網絡(命名為:FlowNet)結構進行了改進,將 CNN 集成到光流配準方法中,應用于基于 CNN 的光流估計的醫學圖像配準問題。
1.2 基于 FCN 的醫學圖像配準的研究進展
FCN 在醫學圖像分割上的應用比較普遍,在醫學圖像配準上的應用還比較少。目前,FCN 主要在心臟 CT 圖像和三維腦結構 MRI 圖像的配準上取得了一定成效。Marc-Michel 等[28]提出了一種新的基于對兩幅圖像參數進行預測的配準方法,使用他們所設計的 FCN(和標準 FCN 有差異)對三維心臟 CT 圖像進行配準,網絡能夠檢測到無法用滑動窗口方法檢測到的全局特征和變形,在圖形處理器(graphics processing unit,GPU)上配準兩幅三維圖像花費不到 30 ms。
由于醫學圖像的樣本有限,而且標注不易,研究人員一直希望在對數據集要求較低的深度學習方法上有所突破。自監督學習通過學習可以生成視覺特征的語義標簽信息。Li 等[29]應用 FCN 進行自監督的非剛性圖像配準,利用已知的空間變換訓練數據來學習空間變換。它類似于傳統的圖像配準算法,通過和變形運動圖像之間的圖像相似性度量來直接估計圖像對之間的空間變換。Li 等[29]在三維腦結構 MRI 圖像集上進行實驗,通過 FCN 的前饋計算,經過訓練的 FCN 可以對新圖像進行配準。
2 挑戰與對策
2.1 醫學圖像樣本的挑戰與對策
2.1.1 樣本問題
深度學習用于醫學圖像的分析,在樣本方面有 3 個困難:① 樣本量小,由于隱私等問題很難共享樣本;② 需要專家標注樣本,耗時、成本高;③ 樣本不均衡,病理樣本少。
針對這些問題,現有三種對策。針對有監督的深度學習中樣本不足的情況,研究者們提出了樣本增強的方法和遷移學習的方法。另外,研究者們還提出了無監督學習的方法。
2.1.2 樣本增強
針對樣本增強,Chen 等[30]總結了 6 類數據增強方法,如下所述。
(1)利用大量無標記數據的流信息學習一個標注樣本的學習模型(one-shot)。
(3)借用相關類別的例子或語義詞匯表來擴充訓練集[33]。
(4)合成新的標注訓練數據。Chen 等[30]提出了一種新的雙三網自動編碼器網絡,用于特征增強。編碼器將深層 CNN 的多層視覺特性投射到語義空間中。因為語義空間上有更豐富的信息,可以在語義空間上做數據擴充,通過譯碼器將增強后的實例表示再映射回圖像特征空間中得到更多的擴充樣例。
(5)使用生成對抗性網絡(generative adversarial networks,GAN)生成新示例[34-36]。
(6)用屬性引導增強(attribute-guided augmentation,AGA)方法,使得可根據期望值或強度合成樣本。Dixit 等[37]提出的 AGA 利用小樣本學習方法(few-shot learning)進行數據增強,主要針對三維數據,把圖像投影到一個屬性空間,生成人工樣本來擴展給定的訓練數據集,它是在特征空間而非圖像空間中進行數據增強。
2.1.3 遷移學習
針對樣本不足的情況,還有一個實驗驗證了的有效方法是遷移學習(transfer learning),即可以采用遷移學習加上微調(fine tuning)來解決醫療圖像數據集的困難,本文課題組據此進行了這方面的研究。首先研究了如何在一個分層的方式下,微調預訓練的 CNN 可以獲得良好的圖像處理性能[38]。本課題組使用預訓練的 CNN 作為特征提取器,通過使用含有大量標簽數據的自然圖像庫(名為“Imagenet”)對 CNN 進行預訓練,將預訓練后的 CNN 參數作為監督學習網絡的初始值,使用有限的專業圖像標注數據集對預訓練后的 CNN 中可學習的參數進行調優。在遷移學習訓練過程中,對網絡的后一半層數進行微調,與對整個網絡進行微調相比,它們能夠達到幾乎相同的精度,但收斂速度更快。Shin 等[39]也研究了遷移學習結合微調的方法,說明了通過 ImageNet 自然圖像庫預訓練的網絡的微調何時有用和為什么是有用,他們的方法是除最后一個層外,其他所有層都以比默認學習速率小 10 倍的學習速率進行微調,最終結果通過胸腹淋巴結檢測進行了驗證,但如何確定不同層次的最佳學習速率仍具有挑戰性。
2.1.4 無監督學習
醫學樣本的標簽成本高且難以獲得,相對而言,獲取大量未標記的醫學數據容易得多。考慮到醫學圖像的獨特性和標注的高成本,無監督學習是一個重要的研究方向。迄今為止,有監督模型多比無監督模型表現得要好,無監督學習的研究成果也相對少,但人們非常希望開發一種無監督的、端到端的 CNN 醫學圖像配準框架。
2015 年,Jaderberg 等[40]提出了一種新的學習模塊——空間變換(spatial transformer,ST),讓網絡明確地利用了數據的空間信息。這種可導的模塊可以插入到現有的 CNN 中,使 CNN 在不需要額外訓練情況下,對平移、尺度變換、旋轉和常見的扭曲具備不變性,能夠在不需要監督標簽的情況下執行圖像對齊。在后續的研究中,利用 ST 模塊和其他網絡的組合,在無監督的醫學圖像配準上取得了進展。de Vos 等[41]提出了一種可變形圖像配準的深度學習網絡(作者命名為“DIRNet”),DIRNet 由 CNN 回歸器、空間變換器和重放器組成。DIRNet 對輸入圖像對之間的相似性度量進行無監督優化,其對心臟 MRI 圖像的配準精度與傳統的可變形圖像配準方法相同,具有較短的執行時間。
前述 de Vos 等[41]的方法美中不足的是在有限的卷集上,只支持小的轉換。為了適用處理大變形,最近 Balakrishnan 等[42]結合 CNN 與 ST,做了進一步改進。他們將配準定義為一個參數函數,使用一個 CNN 對該函數建模,并利用空間變換層從另一幅圖像中重建圖像,同時在配準域上施加平滑約束。這種方法不僅是無監督的不需要大量的標注數據,而且大大加快了速度。
除了結合 ST 模塊,Shan 等[1]提出的方法將傳統的圖像配準算法移植到端對端的 CNN 框架中,同時保持圖像配準問題的無監督性質。用于二維肝 CT/MRI、腦 CT/MRI 的醫學圖像配準,配準速度比傳統方法快 100 倍,并且該方法還可以擴展到肝臟和大腦以外的其他器官,如腎、肺和心臟。
此外,2014 年 GAN 問世。GAN 的網絡結構是具有顛覆性的,它在同一時間創建一個生成網絡和一個判別網絡,網絡可以接受端到端的訓練,并以完全不受監督的方式學習有代表性的特征,這為醫學圖像的無監督配準提供了一個技術解決的研究方向。
2.2 多模態醫學圖像配準的挑戰與對策
除了單模態圖像配準,由于不同成像方式下組織形態的高度變異性,臨床上還需要多模態醫學圖像配準,將成像技術相互取長補短。在基于灰度的多模態圖像配準方法中,相關像素的灰度值之間的關聯比較復雜。Alam 等[12]指出互信息是多模態圖像配準的一種標準相似性度量,但當圖像含有局部強度變化時,其性能下降,而且互信息只考慮圖像中的強度信息,忽略了空間信息。在基于特征的配準方法中,多模態圖像配準取得了一些成績,如 Chen 等[17]實現了對多個椎體(L2~L4)的二維超聲和三維 CT 圖像的配準;Miao 等[23]實現了針對二維 X 光圖像和三維 CT 醫學圖像的配準;Cheng 等[18]提出了兩種類型的堆疊自動編碼器來評估頭部 CT 與 MRI 圖像的相似性。但是,多模態圖像中相同特征和可變特征的提取仍然是一個重要的研究領域。在臨床的圖像引導手術中,將不同類型醫學圖像的對比信息關聯起來是多模態圖像配準中的一項具有挑戰性的任務。在圖像引導手術中,采用不同的成像方式對患者的器官進行多次掃描,給識別不同成像系統的患者位置和方位造成了困難,因此有必要開發出更先進的配準方法,以便于消除患者定位上的差異[12]。
3 結論
影像引導手術和放射治療對醫學圖像配準的研究提出了強烈的臨床需求,最近幾年深度學習在醫學圖像配準方面的應用也發展很快,本文分類闡述了基于深度學習的醫學圖像配準的研究進展,進一步分析了存在的挑戰和應對的對策。無論是有監督學習還是無監督學習,深度學習在醫學圖像配準方面的研究都還有廣闊的空間。在臨床中,針對術前術中醫學圖像配準的無監督學習的研究十分具有現實意義。在今后,除了無監督的醫學圖像配準這個重要的方向外,還有以下有意義的研究方向。
(1)自動標注數據集。在醫學圖像配準中,通過自動的方法來標注數據是快速的,但取決于深度學習方法。如 Chen 等[30]提出利用每個類的語義直接合成實例特征。Uzunova 等[26]提出的基于 CNN 的深度學習方法,從少數樣本圖像中生成一組具有已知對應關系的訓練圖像對,可用于合成大量的具有標注的醫學圖像配準訓練數據。在自動標注的過程中,尚有待解決的問題,比如如何運用深度學習方法高效地標注數據集,減少標記噪聲和標記成本等。
(2)臨床應用。當前的研究要走向臨床應用,還有很多尚待解決的問題,雖然深度學習加快了醫學圖像配準的計算速度,為實時的配準提供了可能性。但臨床數據總是受到噪聲、運動和均勻性等強度一致性的影響,影像引導手術中存在組織或小物體遮擋的現象,功能圖像有可能是低質量的,這些都為醫學圖像配準帶來挑戰。在外科手術指導系統中,需要解決這些挑戰,更為準確地對圖像中的點進行配準和轉換,提高目標配準誤差(target registration error,TRE)的正確概率,特別是在非剛性配準的情況下。此外,在手術中,由于組織的變形、患者和設備的移位等,在進行糾正術前圖像和術中圖像的配準時,需要不中斷手術而進行自動配準,所以自動配準,尤其是多模態的自動配準,是一個有臨床意義的研究方向。自動圖像配準方法的精度在很大程度上取決于算法的精度和優化,正確選擇三維地標、準確提取多模態圖像中相同特征等,都是自動配準面臨的挑戰[12]。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
醫學圖像類型多樣,常見的有 X 光,超聲成像(ultrasound,US),計算機斷層掃描成像(computed tomography,CT)、磁共振成像(magnetic resonance imaging,MRI)與正電子發射斷層掃描成像(positron emission computed tomography,PET)等。醫學圖像配準是指對兩幅或多幅圖像建立對應關系,各圖像通過各種變換模型被帶入同一坐標系,人體上的同一解剖點在兩幅或多幅匹配圖像上具有相同的空間位置。對于影像引導的放射性治療、放射外科手術、微創外科手術、內窺鏡檢查、介入放射性治療等,圖像配準是輔助醫療的關鍵技術之一。對于單模態的醫學圖像配準(配準的是同一類型的醫學圖像),針對同一個患者,不同時期的醫學圖像配準可以比較病灶生長情況,分析治療效果。而對于不同的患者,圖像的配準可以輔助疾病的診斷。對于多模態的醫學圖像(配準的是不同類型的醫學圖像),在外科手術前和手術中,綜合利用多種成像設備的信息并實現多模態圖像配準有助于病灶的精確定位、輔助放射治療計劃。
現有的醫學圖像配準方法主要包括兩種類型:基于灰度的方法和基于特征的方法。基于灰度的常用方法包括互相關法、序列相似度配準法、互信息法等。基于灰度的方法可用于剛性和非剛性配準,配準精度高,但受到相似性度量最大值的平坦性、單調紋理和高計算復雜度等問題的困擾。基于特征的圖像配準方法的核心步驟為:特征提取、特征匹配、模型參數估計、圖像變換和灰度插值。特征分為點特征、線特征、面特征等,比較經典的配準方式是用尺度不變特征變換算法(scale-invariant feature transform,SIFT)或者加速魯棒特征算法(speed up robust features,Surf) 提取特征,結合隨機抽樣一致算法(random sample consensus,Ransac)篩選特征,得到匹配點對坐標,從而能夠計算圖像變換參數。傳統的配準方法面臨的最主要問題是:對于每一對待配準的圖像,傳統的配準方法從零開始迭代優化代價函數,嚴重限制了配準速度,忽略了同一數據集圖像間共享的固有配準模式[1]。
近年來,模擬人腦學習的深層神經網絡在圖像識別、語音識別、自然語言、計算機視覺等領域取得了巨大的成功,已成為研究的熱點之一。尤其是卷積神經網絡(convolutional neural networks,CNN)在計算機視覺的應用中,如分類[2]、分割[3]、目標檢測[4]等領域,它已經超過了其他方法。根據文獻[5-12],目前深度學習在醫學診斷和醫學圖像處理方面的應用均取得了優異成績,如檢測腦腫瘤、糖尿病視網膜病變、胸片中的結節以及根據 X 光片判斷乳腺癌等。利用深層神經網絡,對個別疾病可以進行專家級的診斷,如 Esteva 等[13]利用其進行皮膚癌診斷;Gulshan 等[14]將其應用于糖尿病視網膜病變和糖尿病黃斑水腫的自動檢測。其中,Esteva 等[13]的研究成果被 x-mol 知識平臺(網址為 https://www.x-mol.com/)評為 2017 年 2 月全球科學技術十大突破之五。在醫學圖像配準上,深度學習方法的應用也取得了最新進展,應用的方法有 CNN、全卷積網絡(fully convolutional networks,FCN)等,它對臨床的影像引導手術和放射治療具有重大的意義。
本課題組實驗室研究方向為醫學圖像的分割與配準,近期工作主要集中在深度學習方法在醫學圖像配準上的研究應用。相對于傳統的醫學圖像配準方法,深度學習在醫學圖像配準方面的研究成果的最大貢獻是改善了處理速度慢的問題。Shan 等[1]指出,利用完全卷積的配準框架,其配準速度比傳統方法快 100 倍。以典型三維腦圖像為數據集,Fan 等[15]研究了 7 種不同的可變形配準算法的計算成本,結果顯示不需要任何迭代優化的深層學習網絡(該文作者將其命名為“BIRNet”)需要的時間最少。其次,在應用深度學習方法后,配準精度也有一些改進,如 Cao 等[16]將深度學習方法引入腦部 MRI 圖像的配準后,在白質、灰質以及腦脊液的配準上,其骰子相似系數(dice similarity coefficient,DSC)都得到了提升,最大的提升率是 2.6%。本研究團隊在鼻咽癌的多模態圖像配準上取得了一定的研究成果,配準精度比傳統的 SIFT 算法提高了幾十倍。本文針對基于深度學習的醫學圖像配準這個新興的研究領域,總結其研究進展,分析它的挑戰與對策,提出了深度學習在醫學圖像配準中進一步的研究方向。
1 深度學習在醫學圖像配準方面的研究進展
基于深度學習的醫學圖像配準的研究有一些限制因素。Shan 等[1]指出:“對于基于學習的方法:① 很難通過學習和優化變形或相似函數直接獲得信息特征表示;② 與圖像分類和分割不同,配準標簽難以收集。這兩個原因限制了基于學習的配準算法的發展”。但是,在脊椎的超聲與 CT 圖像配準[17]、頭部 CT 與 MRI 圖像配準[18]、胸部 CT 圖像配準[19]等方面,研究者們已經取得了較好的成果。目前已有的研究成果中,提出的深度學習方法主要使用的是 CNN 和 FCN 框架,尤其是使用 CNN 框架的一些方法。
深度學習在醫學圖像配準上的研究分類可以從深度學習的框架方面分類,也可以按有監督和無監督來分類。本文按照深度學習的框架來分類,在挑戰和對策的章節中討論了有監督和無監督的深度學習,尤其是無監督深度學習的醫學圖像配準。
1.1 基于 CNN 的醫學圖像配準的研究進展
深度學習在醫學圖像配準方面的應用,大量采用的是 CNN 模型,最近幾年多采用的 CNN 回歸是一種通過學習方法來求解圖像配準的手段。
Chen 等[17]于 2016 年提出將 CNN 用于配準,他們在國際醫學成像和虛擬現實會議(International conference on medical imaging and virtual reality,MIAR)上提出:在脊柱手術中的圖像引導麻醉中,用 CNN 對多個椎體(L2~L4)的二維超聲和三維 CT 圖像進行配準。具體而言,是用 CNN 將輸入圖像分類為幾個預標定的標準切面,利用預標定切面的空間參數來實現圖像的粗配準,之后再使用互信息完成局部配準的精細調整。該方法實現了術中的自動化配準,平均目標配準誤差為 2.3 mm,低于臨床公認的 3.5 mm,但是提高配準誤差主要依靠的是利用互信息方法進行調優。
1.1.1 基于優化策略的相似性估計
配準的關鍵是選擇合適的相似性度量。相似性度量的方法有平方差和、互信息、聯合熵等,有研究人員用迭代優化策略,使用 CNN 估計圖像之間的相似性度量,將優化圖像配準度量作為代價函數來執行。由于匹配度量在似然配準參數空間上的非凸性,這一任務具有一定的挑戰性。Eppenhof 等[20]提出了一種基于 CNN 的有監督的圖像配準誤差圖的估計方法。在一組二維數字減影血管造影序列中對 CNN 進行訓練和驗證,CNN 能夠以亞像素精度對二維配準圖像中的配準誤差進行學習。Cheng 等[18]提出了兩種類型的堆疊自動編碼器來評估頭部 CT 與 MRI 圖像的相似性,該方法訓練二值分類器來學習兩個圖像塊的對應關系,將分類輸出轉換為連續概率值,然后作為相似度評分。此外,Cheng 等[18]還提出了利用多模態疊加去噪自動編碼器對深層神經網絡進行有效的預處理,實驗結果證實了該度量方法的高精度和高魯棒性。Simonovsky 等[21]提出了對新生兒大腦 MRI 圖像配準的相似度度量,具體而言是使用 CNN 估計來自不同模式的兩個圖像塊之間的相似成本,網絡訓練后用于其他主題的圖像配準,顯示了良好的泛化能力。Liao 等[22]使用 CNN 回歸對三維配準的運動動作序列進行建模,該方法以三維原始圖像數據為輸入,以下一次最優動作為輸出,對患者的心臟 CT 和 X 線斷層攝影圖像(cone beam computed tomography,CBCT)、腹部脊柱 CT 和 CBCT 三維圖像進行配準。他們將圖像配準問題歸結為一個“策略學習”過程,使用強化學習來預測配準的迭代更新,其目標是找到產生圖像對齊的最佳運動動作序列,但需要指出的是這個方法僅針對剛體變換適用。
1.1.2 直接估計醫學圖像配準的變換參數
在基于優化策略的 CNN 回歸配準方法中,可變形配準方法需要進行詳盡的迭代優化,同時需要參數調整來估計圖像間的變形場。雖然以往的研究提出了一些基于學習的初始變形估計方法,但它們往往是模板特有的,在實際應用中并不靈活。Cao 等[16]提出了一種基于 CNN 的回歸模型,直接學習從輸入圖像對到相應的變形場的復雜映射,通過在不同腦圖像數據集上進行實驗,得到了良好的配準性能。Miao 等[23]提出用 CNN 回歸直接估計醫學圖像配準的變換參數。在 2016 年 IEEE 醫學影像深度學習專刊(IEEE transactions on medical imaging,TMI)中,為了評估手術期間植入物體的姿態和位置,Miao 等[23]采用了針對二維 X 光—三維 CT 醫學圖像配準的深度學習方法。它利用 CNN 回歸器,對二維圖像和三維圖像剛性配準的變換矩陣進行預測,解決了現有基于灰度的二維/三維配準技術的兩個主要缺陷:① 計算速度慢。因為每次空間變換參數更新時,都需要做重渲染;② 捕獲范圍小。它們將特征空間按 20 度的階次參數化為兩個角參數,并訓練一個單獨的 CNN 來預測轉換參數的更新,將固定數量k的感興趣區域塊分別輸入 CNN 產生特征向量,然后將這些向量首尾相連,后面接兩層全連接層,最后輸入回歸器。該方法精度高、具有大捕捉范圍和實時性,在臨床應用中得到了好的評價。但是,他們的模型不能進行可變形的配準。
除了 CNN 回歸的方法,Sokooti 等[19]提出了一種基于 CNN 的端到端的方法,可以直接預測給定的固定或運動圖像的三維非剛性位移矢量場(displacement vector field, DVF)。Sokooti 等[19]為所設計的一種 CNN 結構取名叫配準網絡(RegNet),RegNet 使用大量人工生成的 DVF 進行訓練,可以直接從一對輸入圖像中估計 DVF。這個方法在三維胸部 CT 圖像上的配準精度和常規的 B 樣條(b-spline)方法的配準精度相當。Yang 等[24]設計了一個深度編解碼網絡來初始化大變形差分度量映射 (large deformation diffeomorphic metric mapping, LDDMM) 配準模型的動量,使用腦部的開放系列影像數據集(open access series of imaging studies,OASIS)實驗了腦部 MRI 圖像的配準問題。實驗表明,該方法能夠準確地預測數值優化得到的配準結果,速度非常快,與獲得類似結果的其他實驗相比,二維的速度提高了 1 500 倍,三維的速度提高了 66 倍。然而,該方法需要在 CNN 網絡之外做一些后處理。
1.1.3 針對小樣本的醫學圖像配準的研究
有監督的深度學習方法一般需要一個具有注釋的大型臨床數據集進行訓練,而醫學圖像樣本量普遍偏少,針對這一情況,Zheng 等[25]提出了一種雙域自適應(pairwise domain adaptation,PDA)模塊,通過學習域不變特征,將源域(即合成數據)訓練的模型調整到目標域(即臨床數據)。PDA 模塊可以插入到任何經過預先訓練的 CNN 模型中,能適應不同的深層網絡框架。利用 CNN 的建模能力,提高了術前三維數據和術中二維 X 線圖像準確配準的精度和效率。Uzunova 等[26]提出了一種從少量訓練樣本中學習具有代表性的形狀和外觀模型的新方法,并將其嵌入到一種新的基于模型的數據增強方案中,從而生成大量的訓練數據,解決了 CNN 僅從少量訓練數據中學習后進行醫學圖像配準的問題。
1.1.4 其他研究
Wu 等[27]對腦部 MRI 圖像進行配準,他們在 CNN 之前加入非監督學習過程,使模型能自動學習數據特征。具體而言,Wu 等[27]構造了一個疊加的兩層 CNN 網絡來尋找每個圖像塊的表示,其中高層特征是從低層網絡的響應中推斷出來的。將所學習的自適應特征代替手工設計的特征進行圖像配準,取得了良好的配準效果。但它們也是一個基于塊的學習系統,并依賴于其他基于特征的配準方法來進行圖像配準。
光流(optical flow)是利用圖像序列中像素在時間域上的變化以及相鄰幀之間的相關性,以找到上一幀跟當前幀之間存在的對應關系,從而計算出相鄰幀之間物體的運動信息的一種方法。Uzunova 等[26]對光流神經網絡(命名為:FlowNet)結構進行了改進,將 CNN 集成到光流配準方法中,應用于基于 CNN 的光流估計的醫學圖像配準問題。
1.2 基于 FCN 的醫學圖像配準的研究進展
FCN 在醫學圖像分割上的應用比較普遍,在醫學圖像配準上的應用還比較少。目前,FCN 主要在心臟 CT 圖像和三維腦結構 MRI 圖像的配準上取得了一定成效。Marc-Michel 等[28]提出了一種新的基于對兩幅圖像參數進行預測的配準方法,使用他們所設計的 FCN(和標準 FCN 有差異)對三維心臟 CT 圖像進行配準,網絡能夠檢測到無法用滑動窗口方法檢測到的全局特征和變形,在圖形處理器(graphics processing unit,GPU)上配準兩幅三維圖像花費不到 30 ms。
由于醫學圖像的樣本有限,而且標注不易,研究人員一直希望在對數據集要求較低的深度學習方法上有所突破。自監督學習通過學習可以生成視覺特征的語義標簽信息。Li 等[29]應用 FCN 進行自監督的非剛性圖像配準,利用已知的空間變換訓練數據來學習空間變換。它類似于傳統的圖像配準算法,通過和變形運動圖像之間的圖像相似性度量來直接估計圖像對之間的空間變換。Li 等[29]在三維腦結構 MRI 圖像集上進行實驗,通過 FCN 的前饋計算,經過訓練的 FCN 可以對新圖像進行配準。
2 挑戰與對策
2.1 醫學圖像樣本的挑戰與對策
2.1.1 樣本問題
深度學習用于醫學圖像的分析,在樣本方面有 3 個困難:① 樣本量小,由于隱私等問題很難共享樣本;② 需要專家標注樣本,耗時、成本高;③ 樣本不均衡,病理樣本少。
針對這些問題,現有三種對策。針對有監督的深度學習中樣本不足的情況,研究者們提出了樣本增強的方法和遷移學習的方法。另外,研究者們還提出了無監督學習的方法。
2.1.2 樣本增強
針對樣本增強,Chen 等[30]總結了 6 類數據增強方法,如下所述。
(1)利用大量無標記數據的流信息學習一個標注樣本的學習模型(one-shot)。
(3)借用相關類別的例子或語義詞匯表來擴充訓練集[33]。
(4)合成新的標注訓練數據。Chen 等[30]提出了一種新的雙三網自動編碼器網絡,用于特征增強。編碼器將深層 CNN 的多層視覺特性投射到語義空間中。因為語義空間上有更豐富的信息,可以在語義空間上做數據擴充,通過譯碼器將增強后的實例表示再映射回圖像特征空間中得到更多的擴充樣例。
(5)使用生成對抗性網絡(generative adversarial networks,GAN)生成新示例[34-36]。
(6)用屬性引導增強(attribute-guided augmentation,AGA)方法,使得可根據期望值或強度合成樣本。Dixit 等[37]提出的 AGA 利用小樣本學習方法(few-shot learning)進行數據增強,主要針對三維數據,把圖像投影到一個屬性空間,生成人工樣本來擴展給定的訓練數據集,它是在特征空間而非圖像空間中進行數據增強。
2.1.3 遷移學習
針對樣本不足的情況,還有一個實驗驗證了的有效方法是遷移學習(transfer learning),即可以采用遷移學習加上微調(fine tuning)來解決醫療圖像數據集的困難,本文課題組據此進行了這方面的研究。首先研究了如何在一個分層的方式下,微調預訓練的 CNN 可以獲得良好的圖像處理性能[38]。本課題組使用預訓練的 CNN 作為特征提取器,通過使用含有大量標簽數據的自然圖像庫(名為“Imagenet”)對 CNN 進行預訓練,將預訓練后的 CNN 參數作為監督學習網絡的初始值,使用有限的專業圖像標注數據集對預訓練后的 CNN 中可學習的參數進行調優。在遷移學習訓練過程中,對網絡的后一半層數進行微調,與對整個網絡進行微調相比,它們能夠達到幾乎相同的精度,但收斂速度更快。Shin 等[39]也研究了遷移學習結合微調的方法,說明了通過 ImageNet 自然圖像庫預訓練的網絡的微調何時有用和為什么是有用,他們的方法是除最后一個層外,其他所有層都以比默認學習速率小 10 倍的學習速率進行微調,最終結果通過胸腹淋巴結檢測進行了驗證,但如何確定不同層次的最佳學習速率仍具有挑戰性。
2.1.4 無監督學習
醫學樣本的標簽成本高且難以獲得,相對而言,獲取大量未標記的醫學數據容易得多。考慮到醫學圖像的獨特性和標注的高成本,無監督學習是一個重要的研究方向。迄今為止,有監督模型多比無監督模型表現得要好,無監督學習的研究成果也相對少,但人們非常希望開發一種無監督的、端到端的 CNN 醫學圖像配準框架。
2015 年,Jaderberg 等[40]提出了一種新的學習模塊——空間變換(spatial transformer,ST),讓網絡明確地利用了數據的空間信息。這種可導的模塊可以插入到現有的 CNN 中,使 CNN 在不需要額外訓練情況下,對平移、尺度變換、旋轉和常見的扭曲具備不變性,能夠在不需要監督標簽的情況下執行圖像對齊。在后續的研究中,利用 ST 模塊和其他網絡的組合,在無監督的醫學圖像配準上取得了進展。de Vos 等[41]提出了一種可變形圖像配準的深度學習網絡(作者命名為“DIRNet”),DIRNet 由 CNN 回歸器、空間變換器和重放器組成。DIRNet 對輸入圖像對之間的相似性度量進行無監督優化,其對心臟 MRI 圖像的配準精度與傳統的可變形圖像配準方法相同,具有較短的執行時間。
前述 de Vos 等[41]的方法美中不足的是在有限的卷集上,只支持小的轉換。為了適用處理大變形,最近 Balakrishnan 等[42]結合 CNN 與 ST,做了進一步改進。他們將配準定義為一個參數函數,使用一個 CNN 對該函數建模,并利用空間變換層從另一幅圖像中重建圖像,同時在配準域上施加平滑約束。這種方法不僅是無監督的不需要大量的標注數據,而且大大加快了速度。
除了結合 ST 模塊,Shan 等[1]提出的方法將傳統的圖像配準算法移植到端對端的 CNN 框架中,同時保持圖像配準問題的無監督性質。用于二維肝 CT/MRI、腦 CT/MRI 的醫學圖像配準,配準速度比傳統方法快 100 倍,并且該方法還可以擴展到肝臟和大腦以外的其他器官,如腎、肺和心臟。
此外,2014 年 GAN 問世。GAN 的網絡結構是具有顛覆性的,它在同一時間創建一個生成網絡和一個判別網絡,網絡可以接受端到端的訓練,并以完全不受監督的方式學習有代表性的特征,這為醫學圖像的無監督配準提供了一個技術解決的研究方向。
2.2 多模態醫學圖像配準的挑戰與對策
除了單模態圖像配準,由于不同成像方式下組織形態的高度變異性,臨床上還需要多模態醫學圖像配準,將成像技術相互取長補短。在基于灰度的多模態圖像配準方法中,相關像素的灰度值之間的關聯比較復雜。Alam 等[12]指出互信息是多模態圖像配準的一種標準相似性度量,但當圖像含有局部強度變化時,其性能下降,而且互信息只考慮圖像中的強度信息,忽略了空間信息。在基于特征的配準方法中,多模態圖像配準取得了一些成績,如 Chen 等[17]實現了對多個椎體(L2~L4)的二維超聲和三維 CT 圖像的配準;Miao 等[23]實現了針對二維 X 光圖像和三維 CT 醫學圖像的配準;Cheng 等[18]提出了兩種類型的堆疊自動編碼器來評估頭部 CT 與 MRI 圖像的相似性。但是,多模態圖像中相同特征和可變特征的提取仍然是一個重要的研究領域。在臨床的圖像引導手術中,將不同類型醫學圖像的對比信息關聯起來是多模態圖像配準中的一項具有挑戰性的任務。在圖像引導手術中,采用不同的成像方式對患者的器官進行多次掃描,給識別不同成像系統的患者位置和方位造成了困難,因此有必要開發出更先進的配準方法,以便于消除患者定位上的差異[12]。
3 結論
影像引導手術和放射治療對醫學圖像配準的研究提出了強烈的臨床需求,最近幾年深度學習在醫學圖像配準方面的應用也發展很快,本文分類闡述了基于深度學習的醫學圖像配準的研究進展,進一步分析了存在的挑戰和應對的對策。無論是有監督學習還是無監督學習,深度學習在醫學圖像配準方面的研究都還有廣闊的空間。在臨床中,針對術前術中醫學圖像配準的無監督學習的研究十分具有現實意義。在今后,除了無監督的醫學圖像配準這個重要的方向外,還有以下有意義的研究方向。
(1)自動標注數據集。在醫學圖像配準中,通過自動的方法來標注數據是快速的,但取決于深度學習方法。如 Chen 等[30]提出利用每個類的語義直接合成實例特征。Uzunova 等[26]提出的基于 CNN 的深度學習方法,從少數樣本圖像中生成一組具有已知對應關系的訓練圖像對,可用于合成大量的具有標注的醫學圖像配準訓練數據。在自動標注的過程中,尚有待解決的問題,比如如何運用深度學習方法高效地標注數據集,減少標記噪聲和標記成本等。
(2)臨床應用。當前的研究要走向臨床應用,還有很多尚待解決的問題,雖然深度學習加快了醫學圖像配準的計算速度,為實時的配準提供了可能性。但臨床數據總是受到噪聲、運動和均勻性等強度一致性的影響,影像引導手術中存在組織或小物體遮擋的現象,功能圖像有可能是低質量的,這些都為醫學圖像配準帶來挑戰。在外科手術指導系統中,需要解決這些挑戰,更為準確地對圖像中的點進行配準和轉換,提高目標配準誤差(target registration error,TRE)的正確概率,特別是在非剛性配準的情況下。此外,在手術中,由于組織的變形、患者和設備的移位等,在進行糾正術前圖像和術中圖像的配準時,需要不中斷手術而進行自動配準,所以自動配準,尤其是多模態的自動配準,是一個有臨床意義的研究方向。自動圖像配準方法的精度在很大程度上取決于算法的精度和優化,正確選擇三維地標、準確提取多模態圖像中相同特征等,都是自動配準面臨的挑戰[12]。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。