阿爾茨海默癥(AD)是一種典型的神經退行性疾病,臨床上表現為失憶、喪失語言能力、喪失生活自理能力等。迄今為止,AD 病因尚不明確且病程不可逆,也沒有治愈的方法,因此,AD 的早期診斷對于研發新型藥物和措施以減緩病情發展具有重要意義。輕度認知障礙(MCI)是一種介于 AD 和正常老化(HC)之間的狀態。研究表明,MCI 患者比沒有患過 MCI 的人更有可能發展成 AD,因此,對 MCI 患者的準確篩查成為了 AD 早期診斷的研究熱點之一。隨著神經影像技術和深度學習的飛速發展,越來越多的研究者使用深度學習方法對大腦神經影像如磁共振影像(MRI)進行分析,用于 AD 的早期診斷。于是,本文提出基于卷積神經網絡(CNN)和集成學習的多切片集成分類模型用于 AD 早期診斷。與只用單切片訓練獲得的 CNN 分類模型相比,本文采用三個維度上的多個二維切片進行訓練而獲得的集成分類器模型,能更充分地利用 MRI 包含的有效信息,從而提高分類的準確率和穩定性。
引用本文: 曾安, 賈龍飛, 潘丹, SongXiaowei. 基于卷積神經網絡和集成學習的阿爾茨海默癥早期診斷. 生物醫學工程學雜志, 2019, 36(5): 711-719. doi: 10.7507/1001-5515.201809040 復制
引言
阿爾茨海默癥(Alzheimer’s disease,AD)是一種慢性神經退行性疾病,潛伏期很長,隨著時間推移病癥會慢慢惡化,臨床上表現為失憶以及喪失行動、語言能力等[1]。國際老年癡呆協會頒布的《2016 全球阿爾茨海默癥報告》指出,2050 年,全球 AD 的患病人數將從現在的 4 700 萬增加到 1.32 億。報告表明該疾病發展迅速且將造成嚴重后果[2]。AD 的患病原因尚不明確且病程不可逆,尚沒有藥物可以治愈 AD 或者完全阻止病情惡化。因此,AD 的早期診斷對于研發新型藥物和措施以減緩病情發展具有重要意義。
輕度認知障礙(mild cognitive impairment,MCI)是一種介于 AD 和正常老化(healthy controls,HC)之間的狀態,可以細分為會轉化為 AD 的輕度認知障礙(MCI patients who will convert to AD,MCIc)和不會轉化為 AD 的輕度認知障礙(MCI patients who will not convert to AD,MCInc)。研究表明,MCI 患者比之前沒有患過 MCI 的人更有可能發展成 AD[3],當前諸多研究者都希望盡早診斷出患者的 MCIc 狀態,然后通過有效措施防止病情的進一步惡化。如何準確檢測患者當前所處的病癥階段成為 AD 早期診斷的研究重點。
隨著神經影像技術的飛速發展,磁共振成像(magnetic resonance imaging,MRI)技術被廣泛用于 AD 診斷。近年來,使用機器學習方法分析 MRI 圖像來預測患者病癥階段取得了較好的效果,如隨機森林[4](random forest,RF)、支持向量機[5](support vector machine,SVM)、boosting 算法[6]等,對 MRI 的分析起到了很重要的作用。但是在以往基于機器學習方法的研究中,常常需要先人工勾選出 AD 患者中變化較明顯的大腦區域,如海馬、杏仁核、顳葉等感興趣區域(region of interest,ROI),然后利用機器學習方法對從這些 ROI 中提取到的特征進行分析,獲得對患者狀態的預測結果。這種方法雖然也能取得不錯的效果,但仍存在很大的局限性。首先,人工提取 ROI 是根據已有的臨床或實驗經驗,選取那些在 AD 被試與 HC 被試中存在較大差異的區域,由于 AD 的生物標志物目前尚不明確,人工選取 ROI 可能會漏掉一些目前還沒發現的有用區域;其次,人工特征提取可能會受到人為因素干擾而產生疏漏,影響 AD 早期診斷結果;另外,人工劃分 ROI 需要耗費大量時間成本和人力成本。
深度學習的概念源于人工神經網絡的研究,通過組合低層特征形成更加抽象的高層表示(屬性類別或特征),以發現數據的分布式特征表示[7]。深度學習模型包括棧式自編碼器[8](stacked autoencoder,SAE)、深度置信網絡[9](deep belief network,DBN)和卷積神經網絡[10](convolutional neural network,CNN)等。其中,CNN 模型可以直接輸入圖像,能利用相鄰像素點之間的空間信息,并通過局部感受野、權重共享和子采樣三種機制有效減少模型參數,已被廣泛用于圖像分類[11]、圖像分割[12]、物體檢測[13]等領域。本文采用深度學習方法,利用被試的大量 MRI 切片訓練 CNN,讓 CNN 自動學習圖像特征,避免了人工提取,然后根據這些特征對輸入圖像進行分類,獲得被試狀態的分類結果。本文使用的基礎 CNN 結構是文獻[14]中提出的 8 層 CNN 網絡結構,在此基礎上構建了三軸多切片集成分類模型。
1 方法
1.1 基本概念
1.1.1 卷積神經網絡
CNN 是近年發展起來,并引起廣泛重視的一種高效圖像識別方法。20 世紀 60 年代,Hubel 和 Wiesel 在研究貓腦皮層中關于局部敏感和方向選擇的神經元時,發現其獨特的網絡結構可以有效地降低反饋神經網絡的復雜性,繼而提出了 CNN。作為神經網絡領域的一個重要研究分支,CNN 的特點在于其每一層的特征都由上一層的局部區域通過共享權值的卷積核激勵得到。這一特點使得 CNN 相比于其他神經網絡方法更適合應用于圖像特征的學習與表達[15]。
一般地,CNN 的基本結構(卷積層)包括兩層。其一為特征提取層,每個神經元的輸入與前一層的局部感受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其他特征間的位置關系也隨之確定下來。其二是特征映射層,網絡的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經元的權值相等。由于一個映射面上的神經元共享權值,因而有效減少了網絡自由參數的個數。CNN 中的每一個卷積層都緊跟著一個用來求取局部平均或二次提取的池化層,這種特有的兩次特征提取結構減小了特征分辨率。CNN 卷積層與池化層的基本結構如圖 1 所示。

CNN 主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形,該部分功能主要由池化層實現。由于 CNN 可以通過訓練數據進行自適應學習,所以在使用 CNN 時,避免了顯式的特征抽取,能夠隱式地從訓練數據中學習到特征;再者由于同一特征映射面上的神經元權值相同,使得網絡可以并行學習,這也是卷積網絡相對于全連接網絡的一大優勢。CNN 以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優越性,其布局更接近于實際的生物神經網絡,權值共享降低了網絡的復雜性。典型的 CNN 如圖 2 所示。

1.1.2 集成學習
集成學習(ensemble learning)的主要思路是先通過一定的規則生成多個基學習機(在本文中,即指基分類器),再采用某種集成策略進行組合,最后通過綜合判斷來輸出最終結果。具有代表性的集成學習方法有 Bagging[16]、Boosting[17]和隨機森林[18],集成學習能夠顯著提高學習系統的泛化能力。目前,常見的用于生成基學習機的方法可以粗略分為兩大類:一類是將不同類型的學習算法應用于同一數據集上,這種方法得到的基學習機通常被稱為是異質類型的(heterogeneous);另一類是將同一學習算法應用于不同的訓練集,這種方法得到的基學習機被稱為是同質類型的(homogeneous)[19]。
本文模型得到的基學習機是同質類型的。本模型將同一種 CNN 分類器結構應用于不同切片上,產生出各自的基分類器,然后讓篩選出的基分類器表決出測試樣例的輸出結果。
1.2 數據集和預處理
1.2.1 ADNI 數據庫
本文使用的實驗數據來自阿爾茨海默病神經影像學倡議(Alzheimer’s Disease Neuroimaging Initiative,ADNI)數據庫(http://adni.loni.usc.edu)。ADNI 是由美國國立老年研究所(National Institute on Aging,NIA)、國家生物醫學成像和生物工程研究所(National Institute of Biomedical Imaging and Bioengineering,NIBIB)、美國食品藥品監督管理局(Food and Drug Administration,FDA)及一些民營醫藥企業和非盈利組織于 2003 年創建的。該數據庫公開提供一系列測試對象的 MRI、正電子發射計算機斷層掃描(positron emission tomography,PET)、基因數據以及其他生物標記和相關診斷信息,成為研究 AD 的一套比較標準的研究數據。本文的實驗數據是根據文獻[20]的附錄所提供的 ImageID 從 ADNI 數據庫中下載得到的。該文獻所用到的 MRI 圖像數據包含 137 例 AD、76 例 MCIc、134 例 MCInc 和 162 例 HC。509 名被試詳細信息見表 1。

另外,由于本模型需要一部分數據作為驗證集來篩選出用于集成學習的優秀基分類器,于是,我們又從 ADNI 中下載了 100 例 AD、100 例 HC、39 例 MCIc 和 39 例 MCInc 患者的 MRI 圖像作為驗證集。這些圖像與前面下載的圖像均來自于不同被試。這樣保證了測試集始終不參與基分類器的訓練與篩選過程,防止數據泄露。278 名驗證集被試詳細信息見表 2。

1.2.2 圖像預處理
從 ADNI 數據庫下載的圖像都為.nii 格式,實驗利用 SPM12 軟件的 CAT12 工具包(http://dbm.neuro.uni-jena.de/cat/)進行圖像預處理,包括去頭骨、配準到 MNI 標準空間(使用 MNI152 模板)以及圖像平滑(平滑核大小 2*2*2),預處理步驟參數使用 CAT12 工具包的默認參數。經過 SPM12 預處理后,所有圖像大小均為 121*145*121,空間分辨率為 1.5 mm。隨后對每個 MRI 圖像進行灰度歸一化,在保留具有診斷價值的灰度差異的同時,減小醫學成像因素造成的不同組織在圖像灰度信息上的絕對值差異,使深度學習模型更容易收斂。因為每個 MRI 體素最小值都為 0,歸一化時用當前值除以該 MRI 中的體素最大值即可將每個體素值歸一化到到 0~1 之間。
實驗使用二維切片作為訓練數據,所以需要對三維 MRI 進行切片處理。為了方便描述,本實驗將三維 MR 圖像的矢狀面、冠狀面、橫斷面三個方向分別用 X、Y、Z 表示,三個軸上的坐標范圍分別為[1,121]、[1,145]、[1,121]。對于每個 MRI 圖像,理論上本實驗從 X、Y、Z 三個方向進行切片分別可得到 121、145、121 張二維切片,但考慮到每個方向的切片中,靠近坐標軸兩端的一些切片幾乎沒有腦組織,這些切片包含的有效信息少,訓練價值低,故舍去。另外,考慮到兩個相鄰切片的變化不是很大,故為了提升基分類器的訓練效率,本文實驗采用間隔選取切片方法。最終,對于每張 MRI 圖像,本文實驗在 X 軸[20,100]坐標范圍中間隔選取 40 張切片(X20,X22,,X98),在 Y 軸[24,124]坐標范圍中間隔選取 50 張切片(Y24,Y26,
,Y122),在 Z 軸[30,96]坐標范圍中間隔選取 33 張切片(Z30,Z32,
,Z94),這樣,從每張三維 MRI 影像中,最終提取出來自三個軸向的 123 個切片作為基分類器的訓練數據。
由于配準后的 MRI 大小為 121*145*121,本實驗從 X、Y、Z 三軸進行切片,得到的二維切片大小分別為 145*121、121*121、121*145,為了保證基分類器的輸入圖像大小一致,本實驗將這些切片統一成 145*145 的尺寸大小(保持圖像中心點不變,邊緣填充值為 0 的像素點)。預處理總體流程如圖 3 所示。

1.3 實驗
1.3.1 數據集劃分
本文實驗共從 ADNI 數據庫下載了 787 個被試的 787 張 MRI 圖像,每個被試只有一張 MRI 圖像。其中,509 個 MRI 圖像用作訓練集和測試集,278 個 MRI 圖像用做驗證集。本實驗采用五折交叉驗證方法,每組分類實驗均進行 5 次。每次實驗都是從“訓練集&&測試集”中按照類別比例分層選取 4/5 作訓練集,1/5 作測試集。驗證集不參與 CNN 基分類器的訓練過程,僅當對訓練得到的基分類器進行集成時,才使用驗證集來篩選這些基分類器。
每次實驗,從每張 MRI 圖像中按照上述方法可以提取出來自 X、Y、Z 三個軸向的共計 123 張二維切片。選取來自不同 MRI 圖像的相同坐標位置的切片作為一組,訓練基分類器,共需訓練 123 個基分類器,即基分類器是與切片一一對應的。以 AD vs. HC 實驗在 X = 20 切片(后面簡稱 X20 切片)上訓練基分類器為例,訓練該基分類器時,先從 137 張 AD 類的 MRI 和 162 張 HC 類的 MRI 中,各選出 1/5 作為測試集(不能整除時向下取整),剩下的作為訓練集,將訓練集中所有 MRI 圖像中的 X20 切片提取出來作為該基分類器的訓練數據,測試集中所有 MRI 的 X20 切片提取出來留作測試數據。其他基分類器訓練時數據集劃分與此類似。
1.3.2 數據擴充
CNN 需要大量圖片進行訓練才能達到較好的效果,如果直接用原始切片訓練 CNN 基分類器,數據量是遠遠不夠的。本實驗對切片進行了數據擴充(data augmentation,DA),通過旋轉、平移、伽馬校正、隨機噪聲、縮放、隨機仿射變換六個操作從原始切片生成新的切片。本實驗在數據擴充時,不同類別的原始切片生成新切片的數量是不同的,原始切片較少的那類在數據擴充時會生成更多新切片,使得數據擴充后兩種類別的切片數量基本相同,這樣可以縮小數據集不平衡的影響。例如在 MCIc vs. HC 的分類實驗中,HC 有 162 例,MCIc 有 76 例,HC 的原始切片數約為 MCIc 的 2.1 倍,因此在用六種數據擴充操作生成新切片時,每種操作中每張 HC 切片生成 10 張新切片,每張 MCIc 切片生成 10*2.1 張新切片,數據擴充后兩類切片比例約為 1∶1。MCIc vs. HC 實驗中數據擴充后切片數詳情如表 3 所示,其他分類實驗數據擴充方法與此相同,不再列出。

1.3.3 基分類器
本文提出的 AD 早期診斷模型主要目的是盡早診斷出 AD 和 MCIc 狀態的被試。本實驗將被試狀態分為了 AD、MCIc、MCInc、HC 四種狀態,由于多分類的訓練效果往往不如二分類好,本課題組參照其他 AD 早期診斷研究者常用的實驗方案,將 AD 早期診斷拆分為三個不同的二分類問題:AD vs. HC、MCIc vs. HC、MCIc vs. MCInc。針對這三個二分類問題,本文一共訓練了三個分類器,每個分類器由三個部分組成:基分類器、單軸集成分類器、三軸集成分類器。本文提出的多切片集成分類模型總體結構如圖 4 所示,整個實驗的流程圖如圖 5 所示。


其中基分類器的結構為文獻[14]中提到的 8 層 CNN 分類器,它由 6 個卷積層(convolution layer,conv)和兩個全連接層(fully connected layer,FC)組成,最后一個全連接層只有兩個節點,采用 softmax 函數實現二分類,其網絡結構如圖 6 所示,具體參數見表 4。每個 CNN 基分類器訓練 30 個 epoch,經過測試,30 個 epoch 足夠使基分類器收斂,使基分類器在訓練集原始切片上分類準確率達到 100%。所有卷積層激活函數采用 LReLU[21],梯度更新算法采用 Adam[22],學習率設為 0.000 1,每批次輸入切片張數(batchsize)設為 200。


1.3.4 集成學習
本文提出的模型使用了兩階段集成學習方案:第一階段是對每個坐標軸(X,Y,Z)方向的多切片基分類器進行集成以獲得三個單軸集成分類器,該階段簡稱單軸集成;第二階段是對三個單軸集成分類器進行集成,最終獲得一個三軸集成分類器,該階段簡稱多軸集成。
當每個切片的基分類器訓練完后,X 軸切片一共得到 40 個基分類器,Y 軸切片得到 50 個基分類器,Z 軸切片得到 33 個基分類器。此時,使用驗證集對每軸每個切片得到的基分類器進行測試,選出分類測試效果最好的 5 個基分類器,然后,對每軸選取的 5 個基分類器的結果進行集成以獲得單軸集成分類器。集成時采用投票法對基分類器分類結果進行表決(即取 5 個基分類器分類結果中出現較多的那類作為最終分類結果),每軸最終可得到一個投票表決后的分類結果。
經過單軸集成后,每個坐標軸上選取的 5 個基分類器會構建出一個單軸集成分類器,三個坐標軸共可構建出三個單軸集成分類器。此時,再對這三個單軸集成分類器進行集成,以構建出一個三軸集成分類器,使用投票法得到最終的分類結果(即取 3 個單軸分類器分類結果中出現較多的那類作為最終分類結果)。
2 結果與討論
2.1 基分類器篩選結果
我們對基分類器 5 次實驗在同一驗證集上的平均分類準確率進行排序,選出各軸基分類器平均分類準確率最高的 5 個基分類器坐標如表 5 所示。

2.2 分類準確率
本實驗采用 5 折交叉驗證方法,最終三組實驗的分類準確率均值分別為:AD vs. HC 81%,MCIc vs. HC 79%,MCIc vs. MCInc 62%。本文與另外兩種 AD 早期診斷模型進行了對比,詳細實驗結果見表 6。表 6 中 PCA + SVM 代表文獻[20]提出的基于主成分分析(principal component analysis,PCA)和 SVM 的診斷模型;二維卷積神經網絡(two- dimensional convolutional neural network,2DCNN)代表文獻[14]提出的使用單切片訓練的 2DCNN 診斷模型;2DCNN + Ensemble 代表本文提出的基于 2DCNN 和 Ensemble 的多切片集成診斷模型。三組實驗均使用前面提到的 509 名被試的 MRI 圖像進行訓練和測試,具有可比性。

與基于 PCA + SVM 的診斷模型相比,本文提出的模型和在 AD vs. HC、MCIc vs. HC 兩組實驗中的分類準確率比文獻[20]基于 PCA + SVM 的模型要高,MCIc vs. MCInc 實驗的結果比基于 PCA 和 SVM 的模型實驗結果略低。但更為重要的是,本文模型三組實驗中 5 次重復實驗的標準差分別為:AD vs. HC 0.03,MCIc vs. HC 0.04,MCIc vs. MCInc 0.06,都比文獻[20]對應實驗的標準差減小了三分之二左右,表明模型的穩定性有了極大提升。另外,本文模型不需要對 MRI 進行灰質、白質分割,不需要用其他方法預選分類特征。特征提取及通過提取到的特征訓練分類器都由 CNN 的自適應學習自動完成,簡化了實驗流程,避免了人工選取特征帶來的人工成本和潛在疏漏。使用 CNN 還可以更有效地利用 MRI 中各體素點的空間位置所包含的隱藏信息,而 PCA + SVM 模型只用到體素點的灰度值。
本文模型與文獻[20]提出的只使用單切片訓練的 2DCNN 模型相比,三組分類實驗的分類準確率均有較大提升,且 5 次實驗結果的標準差更小,表明使用集成學習集成多個 2DCNN 基分類器可以有效提升 AD 早期診斷模型的準確率和穩定性。本文模型中的每一個基分類器即是文獻[14]中提出的 2DCNN 模型。本文模型從 X、Y、Z 軸選取所有有效切片訓練基分類器,然后對這些基分類器進行排序篩選,這比使用先驗知識只選取穿過海馬體的一個切片訓練 CNN 模型要更合理。用優化算法選出不同被試組中差異最大的切片可以擺脫已有經驗的束縛,充分利用 MRI 包含的信息。通過集成學習將挑選出的各優秀基分類器集成起來共同對整個 MRI 的類別進行決策,使得最終的集成模型比單個 CNN 基分類器具有更高的分類準確率和穩定性。本文提出的三軸集成分類器建模方法對于其他腦病的分類預測研究同樣具有參考價值,如帕金森病(Parkinson’s disease,PD)和 AD 臨床前期主觀認知下降(subjective cognitive decline,SCD)。
3 結論
本文提出了一種基于 CNN 和集成學習的用于 AD 的早期診斷模型,對疾病的計算機輔助診斷具有一定的臨床應用價值。本文模型主要有以下幾個特點:
(1)本模型采用了 6 種數據擴充方法對原始 MRI 切片進行數據擴充,大大增加了訓練樣本數量,并且針對不同類別圖像的樣本量不平衡性,每類圖像擴充數量也相應變化,使得擴充后的數據集中,兩類圖像的樣本量基本一致。
(2)一般基于 2DCNN 的 AD 早期診斷模型只選取了 MRI 圖像中的一個特定切片進行訓練,切片的選取位置是根據經驗人工設定,這強烈依賴于領域知識,具有很大的局限性。本模型采用多切片進行訓練,切片選取不需要根據領域知識特意指定某些位置,而是按順序選取,可以由程序自動完成。
(3)一般基于 2DCNN 的 AD 早期診斷模型只從一個方向選取切片,而本文模型從冠狀面、矢狀面、橫斷面三個方向都選取了切片。同一腦區從不同方向觀察一般會有完全不同的形態,將來自多個方向的切片信息結合起來進一步提升了模型的分類準確率和穩定性。
(4)本模型基于二維切片進行訓練,對硬件資源的要求比直接使用三維圖像低得多,且各個基分類器訓練時是相互獨立的,這樣就大大提升了訓練效率,并使該模型具有很好的分布式并行處理的可擴展性。
通過與 PCA + SVM 診斷模型、單切片 2DCNN 診斷模型進行對比實驗,發現本文模型在分類準確率和穩定性上都有很大優勢。但模型仍存在一些不足,例如在 MCIc vs. MCInc 這組樣本差異性較小的實驗中沒有取得較好的分類結果。在今后的研究中,將繼續對模型結構和基分類器優選方法進行改進,以期進一步提高模型分類準確率,并嘗試尋找 AD 的 MR 生物標志物。
致謝:本項目的數據收集和共享由阿爾茨海默病神經成像倡議(ADNI)(美國國家衛生研究院授權 U01AG024904)和 DoDADNI(美國國防部獎勵編號 W81xWH-12-2-0014)供資。ADNI 由美國國家老齡化研究所、美國國家生物醫學影像和生物工程研究所提供資金,并由下列機構提供慷慨捐助:AbbVie,Alzheimer’s Association;Alzheimer’s Drug Discovery Foundation;Araclon Biotech;BioClinica,Inc.;Biogen;Bristol-Myers Squibb Company;CereSpir,Inc.;Cogstate;Eisai Inc.;Elan Pharmaceuticals,Inc.;Eli Lilly and Company;EuroImmun;F. Hoffmann-La Roche Ltd and its affiliated company Genentech,Inc.;Fujirebio;GE Healthcare;IXICO Ltd.;Janssen Alzheimer Immunotherapy Research & Development,LLC.;Johnson & Johnson Pharmaceutical Research & Development LLC.;Lumosity;Lundbeck;Merck & Co.,Inc.;Meso Scale Diagnostics,LLC.;NeuroRx Research;Neurotrack Technologies;Novartis Pharmaceuticals Corporation;Pfizer Inc.;Piramal Imaging;Servier;Takeda Pharmaceutical Company;and Transition Therapeutics。加拿大衛生研究院正在提供資金,以支持在加拿大境內的 ADNI 臨床站點。美國國家衛生研究院基金會為私營部門的捐助提供了便利(www.fnih.org)。受捐贈機構是北加利福尼亞研究和教育研究所,這項研究由南加州大學的阿爾茨海默癥治療研究所負責協調。ADNI 數據由南加州大學神經影像實驗室發布。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
阿爾茨海默癥(Alzheimer’s disease,AD)是一種慢性神經退行性疾病,潛伏期很長,隨著時間推移病癥會慢慢惡化,臨床上表現為失憶以及喪失行動、語言能力等[1]。國際老年癡呆協會頒布的《2016 全球阿爾茨海默癥報告》指出,2050 年,全球 AD 的患病人數將從現在的 4 700 萬增加到 1.32 億。報告表明該疾病發展迅速且將造成嚴重后果[2]。AD 的患病原因尚不明確且病程不可逆,尚沒有藥物可以治愈 AD 或者完全阻止病情惡化。因此,AD 的早期診斷對于研發新型藥物和措施以減緩病情發展具有重要意義。
輕度認知障礙(mild cognitive impairment,MCI)是一種介于 AD 和正常老化(healthy controls,HC)之間的狀態,可以細分為會轉化為 AD 的輕度認知障礙(MCI patients who will convert to AD,MCIc)和不會轉化為 AD 的輕度認知障礙(MCI patients who will not convert to AD,MCInc)。研究表明,MCI 患者比之前沒有患過 MCI 的人更有可能發展成 AD[3],當前諸多研究者都希望盡早診斷出患者的 MCIc 狀態,然后通過有效措施防止病情的進一步惡化。如何準確檢測患者當前所處的病癥階段成為 AD 早期診斷的研究重點。
隨著神經影像技術的飛速發展,磁共振成像(magnetic resonance imaging,MRI)技術被廣泛用于 AD 診斷。近年來,使用機器學習方法分析 MRI 圖像來預測患者病癥階段取得了較好的效果,如隨機森林[4](random forest,RF)、支持向量機[5](support vector machine,SVM)、boosting 算法[6]等,對 MRI 的分析起到了很重要的作用。但是在以往基于機器學習方法的研究中,常常需要先人工勾選出 AD 患者中變化較明顯的大腦區域,如海馬、杏仁核、顳葉等感興趣區域(region of interest,ROI),然后利用機器學習方法對從這些 ROI 中提取到的特征進行分析,獲得對患者狀態的預測結果。這種方法雖然也能取得不錯的效果,但仍存在很大的局限性。首先,人工提取 ROI 是根據已有的臨床或實驗經驗,選取那些在 AD 被試與 HC 被試中存在較大差異的區域,由于 AD 的生物標志物目前尚不明確,人工選取 ROI 可能會漏掉一些目前還沒發現的有用區域;其次,人工特征提取可能會受到人為因素干擾而產生疏漏,影響 AD 早期診斷結果;另外,人工劃分 ROI 需要耗費大量時間成本和人力成本。
深度學習的概念源于人工神經網絡的研究,通過組合低層特征形成更加抽象的高層表示(屬性類別或特征),以發現數據的分布式特征表示[7]。深度學習模型包括棧式自編碼器[8](stacked autoencoder,SAE)、深度置信網絡[9](deep belief network,DBN)和卷積神經網絡[10](convolutional neural network,CNN)等。其中,CNN 模型可以直接輸入圖像,能利用相鄰像素點之間的空間信息,并通過局部感受野、權重共享和子采樣三種機制有效減少模型參數,已被廣泛用于圖像分類[11]、圖像分割[12]、物體檢測[13]等領域。本文采用深度學習方法,利用被試的大量 MRI 切片訓練 CNN,讓 CNN 自動學習圖像特征,避免了人工提取,然后根據這些特征對輸入圖像進行分類,獲得被試狀態的分類結果。本文使用的基礎 CNN 結構是文獻[14]中提出的 8 層 CNN 網絡結構,在此基礎上構建了三軸多切片集成分類模型。
1 方法
1.1 基本概念
1.1.1 卷積神經網絡
CNN 是近年發展起來,并引起廣泛重視的一種高效圖像識別方法。20 世紀 60 年代,Hubel 和 Wiesel 在研究貓腦皮層中關于局部敏感和方向選擇的神經元時,發現其獨特的網絡結構可以有效地降低反饋神經網絡的復雜性,繼而提出了 CNN。作為神經網絡領域的一個重要研究分支,CNN 的特點在于其每一層的特征都由上一層的局部區域通過共享權值的卷積核激勵得到。這一特點使得 CNN 相比于其他神經網絡方法更適合應用于圖像特征的學習與表達[15]。
一般地,CNN 的基本結構(卷積層)包括兩層。其一為特征提取層,每個神經元的輸入與前一層的局部感受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其他特征間的位置關系也隨之確定下來。其二是特征映射層,網絡的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經元的權值相等。由于一個映射面上的神經元共享權值,因而有效減少了網絡自由參數的個數。CNN 中的每一個卷積層都緊跟著一個用來求取局部平均或二次提取的池化層,這種特有的兩次特征提取結構減小了特征分辨率。CNN 卷積層與池化層的基本結構如圖 1 所示。

CNN 主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形,該部分功能主要由池化層實現。由于 CNN 可以通過訓練數據進行自適應學習,所以在使用 CNN 時,避免了顯式的特征抽取,能夠隱式地從訓練數據中學習到特征;再者由于同一特征映射面上的神經元權值相同,使得網絡可以并行學習,這也是卷積網絡相對于全連接網絡的一大優勢。CNN 以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優越性,其布局更接近于實際的生物神經網絡,權值共享降低了網絡的復雜性。典型的 CNN 如圖 2 所示。

1.1.2 集成學習
集成學習(ensemble learning)的主要思路是先通過一定的規則生成多個基學習機(在本文中,即指基分類器),再采用某種集成策略進行組合,最后通過綜合判斷來輸出最終結果。具有代表性的集成學習方法有 Bagging[16]、Boosting[17]和隨機森林[18],集成學習能夠顯著提高學習系統的泛化能力。目前,常見的用于生成基學習機的方法可以粗略分為兩大類:一類是將不同類型的學習算法應用于同一數據集上,這種方法得到的基學習機通常被稱為是異質類型的(heterogeneous);另一類是將同一學習算法應用于不同的訓練集,這種方法得到的基學習機被稱為是同質類型的(homogeneous)[19]。
本文模型得到的基學習機是同質類型的。本模型將同一種 CNN 分類器結構應用于不同切片上,產生出各自的基分類器,然后讓篩選出的基分類器表決出測試樣例的輸出結果。
1.2 數據集和預處理
1.2.1 ADNI 數據庫
本文使用的實驗數據來自阿爾茨海默病神經影像學倡議(Alzheimer’s Disease Neuroimaging Initiative,ADNI)數據庫(http://adni.loni.usc.edu)。ADNI 是由美國國立老年研究所(National Institute on Aging,NIA)、國家生物醫學成像和生物工程研究所(National Institute of Biomedical Imaging and Bioengineering,NIBIB)、美國食品藥品監督管理局(Food and Drug Administration,FDA)及一些民營醫藥企業和非盈利組織于 2003 年創建的。該數據庫公開提供一系列測試對象的 MRI、正電子發射計算機斷層掃描(positron emission tomography,PET)、基因數據以及其他生物標記和相關診斷信息,成為研究 AD 的一套比較標準的研究數據。本文的實驗數據是根據文獻[20]的附錄所提供的 ImageID 從 ADNI 數據庫中下載得到的。該文獻所用到的 MRI 圖像數據包含 137 例 AD、76 例 MCIc、134 例 MCInc 和 162 例 HC。509 名被試詳細信息見表 1。

另外,由于本模型需要一部分數據作為驗證集來篩選出用于集成學習的優秀基分類器,于是,我們又從 ADNI 中下載了 100 例 AD、100 例 HC、39 例 MCIc 和 39 例 MCInc 患者的 MRI 圖像作為驗證集。這些圖像與前面下載的圖像均來自于不同被試。這樣保證了測試集始終不參與基分類器的訓練與篩選過程,防止數據泄露。278 名驗證集被試詳細信息見表 2。

1.2.2 圖像預處理
從 ADNI 數據庫下載的圖像都為.nii 格式,實驗利用 SPM12 軟件的 CAT12 工具包(http://dbm.neuro.uni-jena.de/cat/)進行圖像預處理,包括去頭骨、配準到 MNI 標準空間(使用 MNI152 模板)以及圖像平滑(平滑核大小 2*2*2),預處理步驟參數使用 CAT12 工具包的默認參數。經過 SPM12 預處理后,所有圖像大小均為 121*145*121,空間分辨率為 1.5 mm。隨后對每個 MRI 圖像進行灰度歸一化,在保留具有診斷價值的灰度差異的同時,減小醫學成像因素造成的不同組織在圖像灰度信息上的絕對值差異,使深度學習模型更容易收斂。因為每個 MRI 體素最小值都為 0,歸一化時用當前值除以該 MRI 中的體素最大值即可將每個體素值歸一化到到 0~1 之間。
實驗使用二維切片作為訓練數據,所以需要對三維 MRI 進行切片處理。為了方便描述,本實驗將三維 MR 圖像的矢狀面、冠狀面、橫斷面三個方向分別用 X、Y、Z 表示,三個軸上的坐標范圍分別為[1,121]、[1,145]、[1,121]。對于每個 MRI 圖像,理論上本實驗從 X、Y、Z 三個方向進行切片分別可得到 121、145、121 張二維切片,但考慮到每個方向的切片中,靠近坐標軸兩端的一些切片幾乎沒有腦組織,這些切片包含的有效信息少,訓練價值低,故舍去。另外,考慮到兩個相鄰切片的變化不是很大,故為了提升基分類器的訓練效率,本文實驗采用間隔選取切片方法。最終,對于每張 MRI 圖像,本文實驗在 X 軸[20,100]坐標范圍中間隔選取 40 張切片(X20,X22,,X98),在 Y 軸[24,124]坐標范圍中間隔選取 50 張切片(Y24,Y26,
,Y122),在 Z 軸[30,96]坐標范圍中間隔選取 33 張切片(Z30,Z32,
,Z94),這樣,從每張三維 MRI 影像中,最終提取出來自三個軸向的 123 個切片作為基分類器的訓練數據。
由于配準后的 MRI 大小為 121*145*121,本實驗從 X、Y、Z 三軸進行切片,得到的二維切片大小分別為 145*121、121*121、121*145,為了保證基分類器的輸入圖像大小一致,本實驗將這些切片統一成 145*145 的尺寸大小(保持圖像中心點不變,邊緣填充值為 0 的像素點)。預處理總體流程如圖 3 所示。

1.3 實驗
1.3.1 數據集劃分
本文實驗共從 ADNI 數據庫下載了 787 個被試的 787 張 MRI 圖像,每個被試只有一張 MRI 圖像。其中,509 個 MRI 圖像用作訓練集和測試集,278 個 MRI 圖像用做驗證集。本實驗采用五折交叉驗證方法,每組分類實驗均進行 5 次。每次實驗都是從“訓練集&&測試集”中按照類別比例分層選取 4/5 作訓練集,1/5 作測試集。驗證集不參與 CNN 基分類器的訓練過程,僅當對訓練得到的基分類器進行集成時,才使用驗證集來篩選這些基分類器。
每次實驗,從每張 MRI 圖像中按照上述方法可以提取出來自 X、Y、Z 三個軸向的共計 123 張二維切片。選取來自不同 MRI 圖像的相同坐標位置的切片作為一組,訓練基分類器,共需訓練 123 個基分類器,即基分類器是與切片一一對應的。以 AD vs. HC 實驗在 X = 20 切片(后面簡稱 X20 切片)上訓練基分類器為例,訓練該基分類器時,先從 137 張 AD 類的 MRI 和 162 張 HC 類的 MRI 中,各選出 1/5 作為測試集(不能整除時向下取整),剩下的作為訓練集,將訓練集中所有 MRI 圖像中的 X20 切片提取出來作為該基分類器的訓練數據,測試集中所有 MRI 的 X20 切片提取出來留作測試數據。其他基分類器訓練時數據集劃分與此類似。
1.3.2 數據擴充
CNN 需要大量圖片進行訓練才能達到較好的效果,如果直接用原始切片訓練 CNN 基分類器,數據量是遠遠不夠的。本實驗對切片進行了數據擴充(data augmentation,DA),通過旋轉、平移、伽馬校正、隨機噪聲、縮放、隨機仿射變換六個操作從原始切片生成新的切片。本實驗在數據擴充時,不同類別的原始切片生成新切片的數量是不同的,原始切片較少的那類在數據擴充時會生成更多新切片,使得數據擴充后兩種類別的切片數量基本相同,這樣可以縮小數據集不平衡的影響。例如在 MCIc vs. HC 的分類實驗中,HC 有 162 例,MCIc 有 76 例,HC 的原始切片數約為 MCIc 的 2.1 倍,因此在用六種數據擴充操作生成新切片時,每種操作中每張 HC 切片生成 10 張新切片,每張 MCIc 切片生成 10*2.1 張新切片,數據擴充后兩類切片比例約為 1∶1。MCIc vs. HC 實驗中數據擴充后切片數詳情如表 3 所示,其他分類實驗數據擴充方法與此相同,不再列出。

1.3.3 基分類器
本文提出的 AD 早期診斷模型主要目的是盡早診斷出 AD 和 MCIc 狀態的被試。本實驗將被試狀態分為了 AD、MCIc、MCInc、HC 四種狀態,由于多分類的訓練效果往往不如二分類好,本課題組參照其他 AD 早期診斷研究者常用的實驗方案,將 AD 早期診斷拆分為三個不同的二分類問題:AD vs. HC、MCIc vs. HC、MCIc vs. MCInc。針對這三個二分類問題,本文一共訓練了三個分類器,每個分類器由三個部分組成:基分類器、單軸集成分類器、三軸集成分類器。本文提出的多切片集成分類模型總體結構如圖 4 所示,整個實驗的流程圖如圖 5 所示。


其中基分類器的結構為文獻[14]中提到的 8 層 CNN 分類器,它由 6 個卷積層(convolution layer,conv)和兩個全連接層(fully connected layer,FC)組成,最后一個全連接層只有兩個節點,采用 softmax 函數實現二分類,其網絡結構如圖 6 所示,具體參數見表 4。每個 CNN 基分類器訓練 30 個 epoch,經過測試,30 個 epoch 足夠使基分類器收斂,使基分類器在訓練集原始切片上分類準確率達到 100%。所有卷積層激活函數采用 LReLU[21],梯度更新算法采用 Adam[22],學習率設為 0.000 1,每批次輸入切片張數(batchsize)設為 200。


1.3.4 集成學習
本文提出的模型使用了兩階段集成學習方案:第一階段是對每個坐標軸(X,Y,Z)方向的多切片基分類器進行集成以獲得三個單軸集成分類器,該階段簡稱單軸集成;第二階段是對三個單軸集成分類器進行集成,最終獲得一個三軸集成分類器,該階段簡稱多軸集成。
當每個切片的基分類器訓練完后,X 軸切片一共得到 40 個基分類器,Y 軸切片得到 50 個基分類器,Z 軸切片得到 33 個基分類器。此時,使用驗證集對每軸每個切片得到的基分類器進行測試,選出分類測試效果最好的 5 個基分類器,然后,對每軸選取的 5 個基分類器的結果進行集成以獲得單軸集成分類器。集成時采用投票法對基分類器分類結果進行表決(即取 5 個基分類器分類結果中出現較多的那類作為最終分類結果),每軸最終可得到一個投票表決后的分類結果。
經過單軸集成后,每個坐標軸上選取的 5 個基分類器會構建出一個單軸集成分類器,三個坐標軸共可構建出三個單軸集成分類器。此時,再對這三個單軸集成分類器進行集成,以構建出一個三軸集成分類器,使用投票法得到最終的分類結果(即取 3 個單軸分類器分類結果中出現較多的那類作為最終分類結果)。
2 結果與討論
2.1 基分類器篩選結果
我們對基分類器 5 次實驗在同一驗證集上的平均分類準確率進行排序,選出各軸基分類器平均分類準確率最高的 5 個基分類器坐標如表 5 所示。

2.2 分類準確率
本實驗采用 5 折交叉驗證方法,最終三組實驗的分類準確率均值分別為:AD vs. HC 81%,MCIc vs. HC 79%,MCIc vs. MCInc 62%。本文與另外兩種 AD 早期診斷模型進行了對比,詳細實驗結果見表 6。表 6 中 PCA + SVM 代表文獻[20]提出的基于主成分分析(principal component analysis,PCA)和 SVM 的診斷模型;二維卷積神經網絡(two- dimensional convolutional neural network,2DCNN)代表文獻[14]提出的使用單切片訓練的 2DCNN 診斷模型;2DCNN + Ensemble 代表本文提出的基于 2DCNN 和 Ensemble 的多切片集成診斷模型。三組實驗均使用前面提到的 509 名被試的 MRI 圖像進行訓練和測試,具有可比性。

與基于 PCA + SVM 的診斷模型相比,本文提出的模型和在 AD vs. HC、MCIc vs. HC 兩組實驗中的分類準確率比文獻[20]基于 PCA + SVM 的模型要高,MCIc vs. MCInc 實驗的結果比基于 PCA 和 SVM 的模型實驗結果略低。但更為重要的是,本文模型三組實驗中 5 次重復實驗的標準差分別為:AD vs. HC 0.03,MCIc vs. HC 0.04,MCIc vs. MCInc 0.06,都比文獻[20]對應實驗的標準差減小了三分之二左右,表明模型的穩定性有了極大提升。另外,本文模型不需要對 MRI 進行灰質、白質分割,不需要用其他方法預選分類特征。特征提取及通過提取到的特征訓練分類器都由 CNN 的自適應學習自動完成,簡化了實驗流程,避免了人工選取特征帶來的人工成本和潛在疏漏。使用 CNN 還可以更有效地利用 MRI 中各體素點的空間位置所包含的隱藏信息,而 PCA + SVM 模型只用到體素點的灰度值。
本文模型與文獻[20]提出的只使用單切片訓練的 2DCNN 模型相比,三組分類實驗的分類準確率均有較大提升,且 5 次實驗結果的標準差更小,表明使用集成學習集成多個 2DCNN 基分類器可以有效提升 AD 早期診斷模型的準確率和穩定性。本文模型中的每一個基分類器即是文獻[14]中提出的 2DCNN 模型。本文模型從 X、Y、Z 軸選取所有有效切片訓練基分類器,然后對這些基分類器進行排序篩選,這比使用先驗知識只選取穿過海馬體的一個切片訓練 CNN 模型要更合理。用優化算法選出不同被試組中差異最大的切片可以擺脫已有經驗的束縛,充分利用 MRI 包含的信息。通過集成學習將挑選出的各優秀基分類器集成起來共同對整個 MRI 的類別進行決策,使得最終的集成模型比單個 CNN 基分類器具有更高的分類準確率和穩定性。本文提出的三軸集成分類器建模方法對于其他腦病的分類預測研究同樣具有參考價值,如帕金森病(Parkinson’s disease,PD)和 AD 臨床前期主觀認知下降(subjective cognitive decline,SCD)。
3 結論
本文提出了一種基于 CNN 和集成學習的用于 AD 的早期診斷模型,對疾病的計算機輔助診斷具有一定的臨床應用價值。本文模型主要有以下幾個特點:
(1)本模型采用了 6 種數據擴充方法對原始 MRI 切片進行數據擴充,大大增加了訓練樣本數量,并且針對不同類別圖像的樣本量不平衡性,每類圖像擴充數量也相應變化,使得擴充后的數據集中,兩類圖像的樣本量基本一致。
(2)一般基于 2DCNN 的 AD 早期診斷模型只選取了 MRI 圖像中的一個特定切片進行訓練,切片的選取位置是根據經驗人工設定,這強烈依賴于領域知識,具有很大的局限性。本模型采用多切片進行訓練,切片選取不需要根據領域知識特意指定某些位置,而是按順序選取,可以由程序自動完成。
(3)一般基于 2DCNN 的 AD 早期診斷模型只從一個方向選取切片,而本文模型從冠狀面、矢狀面、橫斷面三個方向都選取了切片。同一腦區從不同方向觀察一般會有完全不同的形態,將來自多個方向的切片信息結合起來進一步提升了模型的分類準確率和穩定性。
(4)本模型基于二維切片進行訓練,對硬件資源的要求比直接使用三維圖像低得多,且各個基分類器訓練時是相互獨立的,這樣就大大提升了訓練效率,并使該模型具有很好的分布式并行處理的可擴展性。
通過與 PCA + SVM 診斷模型、單切片 2DCNN 診斷模型進行對比實驗,發現本文模型在分類準確率和穩定性上都有很大優勢。但模型仍存在一些不足,例如在 MCIc vs. MCInc 這組樣本差異性較小的實驗中沒有取得較好的分類結果。在今后的研究中,將繼續對模型結構和基分類器優選方法進行改進,以期進一步提高模型分類準確率,并嘗試尋找 AD 的 MR 生物標志物。
致謝:本項目的數據收集和共享由阿爾茨海默病神經成像倡議(ADNI)(美國國家衛生研究院授權 U01AG024904)和 DoDADNI(美國國防部獎勵編號 W81xWH-12-2-0014)供資。ADNI 由美國國家老齡化研究所、美國國家生物醫學影像和生物工程研究所提供資金,并由下列機構提供慷慨捐助:AbbVie,Alzheimer’s Association;Alzheimer’s Drug Discovery Foundation;Araclon Biotech;BioClinica,Inc.;Biogen;Bristol-Myers Squibb Company;CereSpir,Inc.;Cogstate;Eisai Inc.;Elan Pharmaceuticals,Inc.;Eli Lilly and Company;EuroImmun;F. Hoffmann-La Roche Ltd and its affiliated company Genentech,Inc.;Fujirebio;GE Healthcare;IXICO Ltd.;Janssen Alzheimer Immunotherapy Research & Development,LLC.;Johnson & Johnson Pharmaceutical Research & Development LLC.;Lumosity;Lundbeck;Merck & Co.,Inc.;Meso Scale Diagnostics,LLC.;NeuroRx Research;Neurotrack Technologies;Novartis Pharmaceuticals Corporation;Pfizer Inc.;Piramal Imaging;Servier;Takeda Pharmaceutical Company;and Transition Therapeutics。加拿大衛生研究院正在提供資金,以支持在加拿大境內的 ADNI 臨床站點。美國國家衛生研究院基金會為私營部門的捐助提供了便利(www.fnih.org)。受捐贈機構是北加利福尼亞研究和教育研究所,這項研究由南加州大學的阿爾茨海默癥治療研究所負責協調。ADNI 數據由南加州大學神經影像實驗室發布。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。