隨著深度學習技術在疾病診斷方面的廣泛應用,尤其是卷積神經網絡(CNN)在計算機視覺、圖像處理方面的突出表現,越來越多的研究提出使用該算法實現阿爾茨海默病(AD)、輕度認知障礙(MCI)以及正常認知(CN)之間的診斷。本文系統地回顧了幾種經典的卷積神經網絡模型在該疾病不同階段腦影像分析診斷方面的應用進展,進一步探討了其存在的問題及研究方向,以期為該領域的研究提供一定的參考和借鑒。
引用本文: 續寶紅, 丁沖, 徐桂芝. 卷積神經網絡在阿爾茨海默病診斷中的應用研究. 生物醫學工程學雜志, 2021, 38(1): 169-177, 184. doi: 10.7507/1001-5515.202007019 復制
引言
阿爾茨海默病(Alzheimer’s disease,AD)是一種起病隱匿的進行性發展的神經系統退行性疾病,表現為持續性的認知功能下降以及行為障礙等。據統計全球每 3 秒鐘就有 1 例癡呆患者產生,全球癡呆相關成本持續增加[1]。據調查 62%的醫療從業者認為癡呆是正常衰老的一部分,即每三個人中就有兩個人認為癡呆癥是由正常衰老引起的,因此很多老人有 AD 癥狀但卻無法得到確診[2]。輕度認知障礙(mild cognitive impairment,MCI)是介于正常和 AD 之間的一種中間過渡狀態。根據阿爾茨海默病神經影像學計劃(Alzheimer’s Disease Neuroimaging Initiative,ADNI)數據庫診斷標準將 AD 分為四組:認知功能正常組(cognitive normal,CN 或者 normal cognitive,NC),早期輕度認知障礙組(early mild cognitive impairment,EMCI),晚期輕度認知障礙組(late mild cognitive impairment,LMCI)以及 AD。一部分文獻中會有轉化型輕度認知障礙(convert mild cognitive impairment,cMCI)及穩定型輕度認知障礙(stable mild cognitive impairment,sMCI)的分類[3-6]。目前 AD 尚無治愈方法,中晚期治療手段非常有限,而且 MCI 常被誤診為正常衰老的癥狀,在研究中發現有 44% 的 MCI 在幾年內可能最終轉化為 AD[7]。因此 MCI 的早期診斷和干預對預防和延緩 AD 的發展具有重要作用。
神經影像成像技術是 AD 診斷中重要的臨床檢查手段之一。研究顯示在認知和記憶退化前,海馬、顳葉等某些特定部位已經出現了退行性形變和萎縮,這些大腦結構的改變是 AD 早期診斷的可靠標志[8]。通過腦影像成像技術可以對疾病不同階段結構的變化進行定量定性的分析研究。首先是磁共振成像(magnetic resonance imaging,MRI),主要用于排除其他潛在疾病和發現 AD 的特異性影像學表現,可以監測出大腦變性區域物質的代謝異常、血流量的改變等;其次是正電子發射型計算機斷層顯像(positron emission computed tomography,PET),18 氟-氟代脫氧葡萄糖正電子發射型計算機斷層顯像(18-fluoro-deoxyglucose PET,18F-FDG-PET)可以顯示大腦局部葡萄糖的代謝率,為評價組織的代謝活性提供了可能,且研究顯示 18F-FDG-PET 對 AD 的診斷準確率更高[9];還有計算機斷層掃描(computed tomography,CT),AD 早期的 CT 腦影像診斷以腦萎縮、腦室擴大為主要評判指標[10]。上述方法中由于 MRI 不會產生如 CT 檢測中的偽影,無需注射造影劑,無電離輻射且無創,具有較高的普及率,因而成為 AD 早期診斷研究中常用的影像材料。
隨著計算機技術的發展,深度學習方法廣泛應用于醫學圖像處理中,使得醫學圖像處理逐漸實現智能化。其中卷積神經網絡(convolutional neural network,CNN)是一種帶有卷積結構的深度神經網絡,其結構包含輸入層、卷積層、激勵層、池化層以及全連接層。到目前為止,在圖像識別領域的每一個重大的突破都用到了該模型。CNN 以及眾多由此衍生出來的模型,被不斷用在 MCI 和 AD 分類任務中,并取得了優異的效果。
本文首先簡述了 CNN 的發展及最初的結構,其次綜述了 LeNet、AlexNet、GoogleNet、VGGNet、ResNet 以及 DenseNet 幾個典型的 CNN 網絡在 AD 早期診斷中的應用及研究方向,探討了目前存在的不足與挑戰,并提出了一些想法和建議。
1 卷積神經網絡
1.1 CNN 發展簡述
CNN 是一種前饋型神經網絡,它的出現啟蒙于 1962 年 Hubel 和 Wiesel 對貓視覺皮層電生理研究中提出的感受野(receptive field)的概念[11]。感受野是 CNN 每一層輸出的特征圖(feature map)上的像素點在輸入圖片上映射的區域大小,即特征圖上的一個點對應輸入圖上的區域。基于此 1980 年日本學者 Fukushima[12]提出的神經認知機(neocognitron)可以看作是 CNN 的第一個實現網絡,也是感受野概念在人工神經網絡領域的首次應用。之后 1989 年,LeCun 等[13]將反向傳播應用到了類似 Neocognitron 的網絡上做有監督學習,實現了一個手寫數字識別的神經網絡,最重要的是簡化了卷積操作,便于將反向傳播應用到 CNN 上。直到 1998 年被稱為是現代卷積神經網絡的鼻祖 LeNet-5 被 LeCun 等[14]提出,它是第一個成功大規模應用于手寫數字識別問題的 CNN,在 MNIST 數據集中的正確率可以高達 99.2%,也標志著 CNN 的開端。但直到 2012 年 AlexNet 的成功才奠定了 CNN 在深度學習應用中的重要地位,同時也成為了計算機視覺中的重點研究對象并且逐漸演化了眾多經典模型,包括 GoogLeNet、VGGNet、ResNet 以及 DenseNet 等,且廣泛應用于圖像處理、計算機視覺等領域。
1.2 CNN 的基本結構
與普通神經網絡非常相似,CNN 也是由具有可學習的權重和偏置常量的神經元組成。每個神經元都接收一些輸入,并做點積計算,輸出是每個分類的分數,而它成功的原因關鍵在于所采用的局部連接和共享權值的方式,一方面減少了的權值數量使得網絡易于優化,另一方面降低了過擬合的風險。該優點在網絡的輸入是多維圖像時表現得更為明顯,使圖像可以直接作為網絡的輸入,避免了傳統識別算法中復雜的特征提取和數據重建過程。
CNN 的基本結構一般劃分為 5 層:輸入層、卷積層、池化層、全連接層以及輸出層,結構如圖 1 所示。在圖像處理時,首先將原始數據送入輸入層經過去均值、歸一化、主成分分析(principal component analysis,PCA)和白化等預處理,其次經過卷積層與池化層交替操作對圖像進行特征提取與壓縮,之后經過全連接層輸出數據。

1.3 CNN 在醫學影像分析中的應用
近年來,使用深度學習方法進行數據分析呈迅猛增長趨勢,它已成為計算機視覺領域中領先的機器學習工具,其中 CNN 提取的信息在目標識別和定位方面效果優異。CNN 和其他深度學習方法結合用于醫學圖像分析,減少了特征選擇及特征提取的步驟,直接將圖像作為網絡的輸入,降低了醫學診斷錯誤率,在病變檢測、圖像分割、圖像配準及圖像融合等方面已有突出表現。醫學圖像處理基本流程是圖像預處理、圖像分割、特征提取、特征選擇、訓練分類器及對測試集進行測試。
CNN 在 AD 腦影像診斷應用中的大部分醫學數據,一是來自 ADNI 數據庫(http://adni.loni.usc.edu/),由美國加利福尼亞大學放射學和生物醫學成像中心創建于 2004 年,該計劃致力于確定 AD 的進展;另一個是影像研究開放獲取系列(Open Access Series of lmaging Studies,OASIS),是一個旨在向科學界免費提供大腦的神經影像數據集的項目,通過匯編和自由分享神經影像數據集,促進基礎和臨床神經科學方面的新發現。獲取到神經影像數據后,將圖像進行預處理,如時間層校正、頭動校正、配準、標準化、分割以及平滑處理等。SPM 和 FSL 是主要的腦影像處理工具,可以對核磁圖像進行一系列的預處理[15-16]。其中 FSL 是牛津大學研究人員開發的一種全面分析大腦圖像數據的軟件,可實現圖像預處理的各種任務。一般腦影像數據經過預處理后會送入 CNN 輸入層開始訓練,之后進行測試并分析評價分類效果。CNN 在 AD 腦影像診斷中的基本流程如圖 2 所示。

2 卷積神經網絡不同模型在 AD 診斷中的研究進展
從 1998 年 LeCun 等[14]發表論文確立了第一個真正意義上的 CNN 結構,到 2012 年 AlexNet 的成功,越來越多的研究者致力于該方向的研究,逐漸發展了許多經典的 CNN 模型,且應用于語音識別及圖像處理等領域。如今 CNN 在醫學圖像處理中占據著舉足輕重的地位,從最開始的 LeNet 到目前的 DenseNet,都有用于 AD 的早期診斷研究,并取得了很好的分類效果。各類 CNN 模型的特點及其在 AD 早期診斷中的大致流程如圖 3 所示。

2.1 LeNet
CNN 的發展簡述中提到,LeNet 的實現確立了 CNN 的結構如圖 1 所示,現在的神經網絡中都能看到它的身影,例如卷積層、池化層等。但由于當時缺乏大規模的訓練數據,計算機硬件的性能也較低,因此 LeNet 神經網絡在處理復雜問題時效果并不理想。之后 LeCun 等對其進行完善,設計了一種多層的人工神經網絡 LeNet-5。它通過巧妙的設計,利用卷積、參數共享、池化等操作提取特征,減少了計算成本,最后用全連接神經網絡進行分類識別。
Sarraf 等[17]應用 LeNet-5 架構對 AD 和正常對照組受試者的功能磁共振成像數據進行分類,分類準確率達到 96.86%。此外,Dai 等[18]改進現有 LeNet-5 模型,設計了 10 層的 CNN,對 MRI、PET 和多模式融合圖像分別進行訓練和測試,在網絡輸出層結合貝葉斯方法對臨床簡易智力狀態檢查量表(Mini-Mental State Examination,MMSE)分類的結果,最終顯示多模態成像與臨床數據相結合的深度學習診斷方法性能最優,平均準確率達到了 88.244%。由于 LeNet 的設計較為簡單,因此其處理復雜數據的能力有限,近年研究中較少將其應用在 AD 病程分類的研究中。
2.2 AlexNet
2012 年,Krizhevsky 等[19]提出的 AlexNet 以絕對的優勢贏得了 ImageNet 競賽的冠軍。它將 LeNet 的思想擴展到了更大的、能學習到更復雜對象層次的神經網絡上。其突出貢獻是使用修正線性單元(rectified linear unit,ReLU)、在訓練的時候使用 Dropout[20]技術有選擇地忽視單個神經元從而避免過擬合,AlexNet 的出現被稱為一個經典之作,激發了更多研究者的興趣,隨之更多更深的神經網絡被提出。
AlexNet 原模型對醫學圖像沒有針對性,Shakarami 等[21]在 AlexNet 末端添加全連接層,以減少特征向量長度,并用支持向量機(support vector machine,SVM)替換原有的分類輸出層作為分類器,平均分類精度達到 96.39%。另一項研究中,基于 AlexNet 提出了一種數據排列方案,包括離群值去除和基于熵的 MRI 切片選擇等對 OASIS 和 ADNI 數據集上的 MRI 圖像進行分類,取得平均分類準確率為 97.05%的分類效果[22]。
Kazemi 等[23]采用 AlexNet 模型,用隨機梯度下降求解方法更新權重,首次用深度學習方法對 AD 的不同階段即正常健康對照(NC)、顯著記憶關注(SMCI)、早期輕度認知障礙(EMCI)、晚期輕度認知損傷(LMCI)以及 AD 進行分類,平均準確度達到 97.63%。
2.3 GoogleNet
2014 年,Szegedy 團隊[24]提出的 GoogleNet 獲得了 ImageNet 競賽的冠軍。該模型創新之處是提出一種網中網的 Inception 結構,其中采用 1*1 卷積主要用來降維。用 Inception 之后整個網絡結構的寬度和深度都可擴大,但又不會增加計算量,且稀疏連接的方式有助于減少過擬合,因此它的設計目的在于用稀疏、分散的網絡來取代龐大、密集、臃腫的網絡。
在文獻[25]中,研究人員提出了一個使用 inceptionV3 架構的深度學習模型,將 CN、AD 及 MCI 患者 18F-FDG PET 腦圖像的 90% ADNI 數據集進行訓練,并在其余 10% 的數據集以及獨立的測試集上進行測試,對 AD 與 CN 的分類預測能力較強,準確率達到 97.58%,但對 MCI 的識別準確度相對較低,可能是因為最終診斷為 MCI 的患者尚處于早期狀態,無法顯示 AD 的臨床跡象,或者還有些屬于不會進展到 AD 的患者。
2.4 VGGNet
VGG 網絡由著名的牛津大學視覺組提出[26],并取得了 ILSVRC 2014 比賽分類任務的第 2 名和定位任務的第 1 名。VGGNet 整個網絡都使用了同樣大小的卷積核尺寸(3 × 3)和池化尺寸(2 × 2),通過不斷加深網絡深度來提升性能。VGGNet 的拓展性很強,遷移到其他圖片數據上的泛化性非常好。Mehmood 等[27]在 VGG-16 中插入額外的卷積層有效地獲取了數據集上的最大特征,在 AD 病程階段的分類中達到了 99.05% 的測試準確性。
還有研究者提出了一種將 VGGNet 和 SVM 相結合來更有效地區分 EMCI 和 NC 的方法。結果表明,與以往的研究相比,分類性能有了顯著的提高,平均準確率達到了前所未有的 89.4%[28]。
VGGNet 包含多層網絡,深度從 11 層到 19 層不等,較為常用的是 VGG16 和 VGG19。Jain 等[29]研究中采用了一種基于遷移學習的數學模型名為 PFSECTL,該模型使用 ImageNet 數據集中 VGG-16 作為分類任務的特征提取器,在 ADNI 數據庫收集的 MRI 數據驗證集部分三分類的準確率達到了 95.73%。Khan 研究團隊[30]也用同樣的遷移學習方法,使用 VGG 模型對 CN、AD 和 MCI 的 MRI 數據進行分類,且獲得了非常高的分類性能,AD 與 NC 以及 MCI 與 NC 的分類準確率分別為 99.36% 和 99.04%,三分類的總體準確率為 99.20%。
2.5 RestNet
2015 年,微軟亞洲研究院 He 等[31]使用 ResNet 在 ILSVRC 比賽中取得冠軍。該模型在增加網絡深度的情況下有效地解決了梯度消失的問題。殘差單元的引入使得在輸入和輸出之間建立了一個直接的連接,這樣新增的層僅僅需要在原來輸入層基礎上學習新的特征,解決了層次比較深時無法訓練的問題,殘差單元結構如圖 4 所示。與 GoogleLeNet 類似,ResNet 最后也使用了全局均值池化層,同時利用殘差模塊,可以訓練 152 層的殘差網絡,其準確度高于 VGG 和 GoogleNet。

Menikdiwela 等[32]基于 ResNet,首次探討了基于 MRI 皮質表面數據的 cMCI 和 sMCI 患者分類。該模型中特征向量對應于每次 MRI 掃描整個皮質厚度的測量值,最終獲得了 81% 的準確度,而基于類似網絡的 MRI 切片分類準確率為 68%。同時結果表明與切片數據相比,皮質數據在 cMCI 分類中表現良好。該團隊是第一個將深度學習網絡應用于 MRI 成像的大腦皮質圖研究中的。
Yee 等[33]使用 ResNet 中殘差結構設計的算法對 NC 和 AD 的分類準確率達到 93.5%。另外對 sMCI 在 3 年內轉化為 AD 的預測準確率為 74.0%,準確率下降的原因主要是 NC 和 sMCI 的錯誤分類。Fulton 等[34]在改進的 50 層殘差網絡即 ResNet-50 中對 AD 及 MCI 進行分類,達到了 98.99% 的分類準確率。
2.6 DenseNet
隨著網絡結構的加深,為解決梯度與信息消失現象以及巨量的網絡參數與網絡結構利用率不高的問題,由康奈爾大學、清華大學、Facebook 的研究者[35]共同研究并提出了 DenseNet 網絡結構,利用當前層與后面層的連接使得每一層的信息得到充分的利用,緩解梯度消失的同時極大地減少了參數,如圖 5 所示為一個 4 層的 Dense Block 示意圖。

DenseNet 盡管借鑒了 ResNet 及 Inception 網絡的思想,但是呈現了全新的結構。它是一種具有密集連接的 CNN。該研究團隊從特征圖入手,讓網絡中的每一層都直接與其前面層相連,實現特征圖(feature map)的重復利用。同時把網絡的每一層設計得特別“窄”,即只學習非常少的特征圖,實現降低冗余性的目的,最終使用更少的參數取得了更好的效果,而且減少了梯度消失的問題。
DenseNet[36]是比較新的 CNN 模型,它引入密集連接,解決了訓練數據有限的問題,隨著該模型深度的研究不斷提出了不同的改進模型以提升分類性能[37-38]。Wang 等[39]以 3D-MRI 為基礎采用 DenseNet 模型,進行了一系列超參數優化實驗,選擇多個優化的 3D-DenseNet 分類器,之后對各分類器結果進行集成最終證明了集成方法的優越性。
在文獻[40]的研究中提出了一種結合 3D DenseNets 和雙向門控遞歸單元(bi-directional gated recurrent unit,BGRU)的卷積遞歸混合神經網絡,利用 sMRI 圖像進行海馬特征提取分析從而進行 AD 病程分類診斷。在 ADNI 數據集上 AD 與 NC、MCI 與 NC、pMCI 與 sMCI 的分類中,ROC 曲線下面積分別達到 91.0%、75.8% 和 74.6%,可見該方法在 AD 和 NC 分類中顯示了良好的性能。
以上對不同 CNN 模型在 AD 診斷中的應用進行了簡要概述,通過對近幾年相關文獻的閱讀,對不同模型的分類診斷效果進行了對比,如表 1 所示。由于不同研究中所用數據、預處理以及算法改進優化方式不同,因此對于最后的分類準確率只是一個相對的比較。

3 CNN 在 AD 診斷中的應用分析
不同的經典 CNN 模型被廣泛應用于 AD 的早期診斷中,各類模型的分類診斷效果各有所長。本節將從三個方面總結 CNN 在 AD 診斷中提升分類準確率的研究方向,如圖 6 所示,首先是 CNN 算法結構優化,其次是與傳統機器學習方法相結合,最后是多模態數據融合的方法。

3.1 算法結構優化
CNN 應用于 AD 腦影像識別的分類任務時,通常都會根據目標任務對模型進行優化。首先常采用遷移學習的方法使用在 ImageNet 數據集中預訓練的 CNN 模型進行分類,這樣可以減少訓練時間。其次最初的研究中往往使用二維切片數據作為輸入層,但為了更好地利用腦影像信息提出了 3D-CNN 結構及多任務學習的方法,同時針對整體網絡對超參數進行調整,如學習率(Learning rate)、批處理大小(Batch size)的選擇[41],以及采用歸一化和 Dropout 技術進行優化以防止過擬合,提升 CNN 算法性能[42]。此外針對醫學數據樣本量小的問題提出數據增強的方法以擴充數據集[43]。最近的一項研究中提出了一種新的框架,該框架包含了 GoogleNet、ResNet 以及 DenseNet 三個先進的深度卷積神經網絡,各模型輸出層結果通過 Adaboost 集成分類器得出最后的判斷,在 AD 與 NC 的分類中準確率達到 99.27%,靈敏度達到 95.89%,特異度達到 98.72%[44]。另一項研究提出一種孿生卷積神經網絡(Siamese Convolution Neural Network),它借鑒孿生神經網絡(Siamese Neural Network)的結構[45],用改進的 VGG-16 并行計算,更有效地獲取到數據集的重要特征,總體分類準確率達到 99.05%[27],這項研究給 CNN 在 AD 病程分類應用的結構改進帶來了新的啟發。此外,Liu 等[46]使用深層孿生神經網絡研究了 AD 和 MCI 中腦不對稱預測的問題并取得了很好的預測精度。目前,很多研究表明與單一模型相比,不同 CNN 模型聯合用于 AD 病程的分類可以獲得更高的準確率[47-48]。
3.2 與傳統機器學習方法相結合
CNN 與傳統機器學習的方法結合,在 AD 分類中也有很好的表現。在幾項研究中,CNN 僅被用作特征提取器,而分類時則使用隨機森林[49]、線性或多項式核的 SVM 和邏輯回歸[50]。Duc 等[51]開發了一種 3D CNN 結構用于 AD 和 CN 的 MRI 圖像分類任務,同時結合線性最小二乘回歸(linear least squares regression,LLSR)、支持向量回歸及具有組獨立成分分析(group independent component analysis,gICA)特征的樹回歸等方法預測 MMSE 分數以綜合判斷疾病狀態。另有研究團隊提出基于深度 CNN 和 SVM 的混合診斷方法,將每個目標的切片特征融合成一個特征向量,采用套索的特征選擇方法,最后用 SVM 進行分類。實驗結果表明,由于 CNN 和 SVM 的結合以及冗余特征的消除,該方法大大提高了分類性能。此外,遷移學習技術有效地緩解了小數據集帶來的問題,減少了大量的訓練時間[28]。
在國際 Kaggle 平臺上提出了一項科學挑戰,以評估預測 MCI 及 cMCI 不同方法的性能。第三名的參賽團隊提出了一種基于隨機森林特征選擇和深度神經網絡分類的分類策略,使用包含 NC、AD、MCI 和 cMCI 四種分類問題的混合隊列來訓練模型。此外該方法與一種新的基于模糊邏輯的分類策略進行了比較,發現模糊邏輯在 cMCI 分類中尤其準確,表明這些方法的結合可能會帶來更優的分類效果[52]。CNN 與傳統機器學習方法相結合,為 AD 病程的分類研究提供了新的思路和方向。
3.3 多模態數據融合
晚期 AD 患者在臨床中很好鑒別,但是 MCI 的早期診斷較為困難,因此臨床醫生通常參考各類神經影像學檢查以及神經心理學診斷結果,綜合判斷病程階段。在基于 CNN 的 AD 病程分類中考慮多模態數據結合同樣有助于提高該疾病的診斷準確率。研究中通常選取 MRI 與 PET 影像與臨床簡易智力狀態檢查量表(Mini-mental State Examination,MMSE)、臨床癡呆評估量表(Clinical Dementia Rating Scale,CDR)或邏輯記憶測驗(logical memory,LM)等臨床信息進行融合分類。在一項研究中采用兩個獨立的 CNN 對 MRI 和 PET 醫學圖像進行訓練,通過相關分析判斷兩個網絡輸出的一致性,最后將多模態神經影像診斷結果與臨床神經心理診斷結果相結合,顯著提高了輔助診斷的準確性,也使診斷過程更加接近臨床醫生的診斷流程。在 ADNI 數據集實驗中,AD 與 MCI 分類靈敏度為 97.39%,特異度為 84.27%,準確度為 88.25%,AUC 值為 0.886 4。實驗結果表明多模態輔助診斷方法能夠達到很好的診斷效果[53]。此外,MRI 不同成像方式的融合也有利于提高分類精度,如結構 MRI 與彌散張量成像(diffusion tensor imaging,DTI)結合[54]。未來的研究中,更趨向將不同神經成像技術及臨床文本信息充分結合以提高算法分類性能。
4 CNN 在 AD 診斷中的挑戰
由于 AD 的不可治愈性,早期診斷變得尤為重要。近年來,深度學習方法中的 CNN 逐漸成為分析小數據集醫學圖像的熱門工具,廣泛應用于醫學圖像分割、識別等方面。本文通過系統地回顧近五年 CNN 在 AD 診斷方面的應用,了解到在該領域研究中 CNN 表現優異。在沒有臨床專家的情況下,自動分類疾病不同階段的方法可以為 MCI 的早期診斷提供客觀的依據。雖然目前在 AD、MCI、CN 甚至 MCI 早期的預測中已經取得了很好的分類效果,但仍然存在很多尚未解決的問題,而且研究成果還沒有真正應用于臨床以輔助醫生診斷。CNN 分類診斷 AD 需要在各種條件下表現出一致的性能,才能為臨床中的實際應用做好準備,但目前仍存在不足與挑戰,主要分以下幾點闡述。
4.1 可解釋性
傳統機器學習方法可能需要專家參與預處理步驟,以便從圖像中提取和選擇特征。然而,由于深度學習不需要人工干預,而是直接從輸入圖像中提取特征,相對于依賴預處理的傳統機器學習可以實現更好的性能。但是深度學習這一特點帶來了不確定性,即在每個時期會提取哪些特征,除非對特征有特殊的設計,否則很難顯示哪些特定特征是在網絡中提取的。同時因為深度學習算法的復雜性,具有多個隱含層,很難確定這些選擇的特征是如何得出結論的,以及特定特征或特征子類的相對重要性。正因為 CNN 分類 AD 過程缺乏解釋性,無法像臨床專家在診斷中一樣直接提供推理和解釋,因此臨床醫生也很難完全信任此類系統。
如果 CNN 模型具備可解釋性,算法研發者可根據其輸出結果優劣的原因所在,對算法進行改良。但如果算法不具備解釋性,則改良算法變得異常艱難。研究中提出利用反卷積可以重構每層的輸入特征并實現可視化,分析每層對整體分類性能的貢獻,解釋 CNN 學習到的特征如何,并對不足之處進行改進,由此來分析如何建立更好的網絡結構[55]。近年來研究者們不斷對 CNN 可視化進行探索,在一項研究中從不同角度對 3D-CNN 在 AD 分類中的機制進行了可視化解釋,提高了對 3D-CNN 在 AD 分類中的可解釋性[56]。
4.2 泛化性
由于不同醫院成像設備不同,掃描的參數也不盡相同,因此會影響 CNN 對疾病的分類效果,會出現模型在某個數據集上訓練效果很好,但用于另一個數據集時效果突然下降的情況。針對這個問題,在目前研究中一方面通過擴大數據集的來源以緩解在實際應用中的泛化困難,另一方面通過技術上的手段加以克服,如遷移學習,即先在數量大的數據集預訓練,再到數量小的數據集上微調,或者通過多任務學習(multi-task learning,MTL)的方法[57-59]。但目前該問題尚未得到有效的解決,仍在探索研究中。
4.3 準確率
醫學影像分類不同于其他的分類問題,預測準確性不僅對提升臨床醫生診斷信心有價值,而且對患者更是意義重大,因此將該模型應用于臨床實際診斷也需要更加慎重。任何一項關于 AD 分類模型最重要的目標就是提升準確率,有的算法表現很優異但是并不穩定,魯棒性較差。在許多研究中已經證實使用兩種或兩種以上多模式神經成像數據比單一神經成像數據的分類準確性更高,即多模態數據融合,這是從輸入數據的角度提高分類準確率。另外 CNN 各類模型在 AD 診斷中都有不錯的表現,從算法結構優化、數據增強、遷移學習、數據預訓練、CNN 與傳統機器學習方法的結合以及注意力機制[60]的運用上,都在一定程度上提升了分類性能。該領域的研究者通過不斷對 CNN 模型進行優化,致力于構建一個準確度高、性能穩定、可供臨床應用的模型,為延緩 AD 的發展做出貢獻。
5 總結與展望
隨著全球 AD 數量的迅速增加,在發達國家它已是主要死亡原因之一,而且 AD 患者不僅自己痛苦,也給家庭也帶來了沉重的負擔,因此早期發現、早期干預對于延緩疾病發展十分關鍵。本文以 CNN 的發展為軸,系統地回顧了它在 AD 診斷中的應用現狀,研究表明 AD 的早期診斷是完全可以實現的,但是仍存在一些待解決的問題,如模型泛化性、算法魯棒性及可視化等。本文參閱的文獻中,由于各個文獻研究所用數據的來源、類型以及預處理方法等并不一致,所以對于各類模型最終分類結果的正確率只是作為大致的參考與對比,并沒有詳細比較各個研究中的分類結果。目前 CNN 在 AD 早期診斷方面的研究仍然在不斷發展中,研究者們嘗試探索不同生物標志物最佳的融合方式,以及算法結構的優化改進,如注意力機制與 CNN 的結合。同時,加強理論技術人員與臨床工作者的交流對 AD 早期診斷的研究也大有益處。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
阿爾茨海默病(Alzheimer’s disease,AD)是一種起病隱匿的進行性發展的神經系統退行性疾病,表現為持續性的認知功能下降以及行為障礙等。據統計全球每 3 秒鐘就有 1 例癡呆患者產生,全球癡呆相關成本持續增加[1]。據調查 62%的醫療從業者認為癡呆是正常衰老的一部分,即每三個人中就有兩個人認為癡呆癥是由正常衰老引起的,因此很多老人有 AD 癥狀但卻無法得到確診[2]。輕度認知障礙(mild cognitive impairment,MCI)是介于正常和 AD 之間的一種中間過渡狀態。根據阿爾茨海默病神經影像學計劃(Alzheimer’s Disease Neuroimaging Initiative,ADNI)數據庫診斷標準將 AD 分為四組:認知功能正常組(cognitive normal,CN 或者 normal cognitive,NC),早期輕度認知障礙組(early mild cognitive impairment,EMCI),晚期輕度認知障礙組(late mild cognitive impairment,LMCI)以及 AD。一部分文獻中會有轉化型輕度認知障礙(convert mild cognitive impairment,cMCI)及穩定型輕度認知障礙(stable mild cognitive impairment,sMCI)的分類[3-6]。目前 AD 尚無治愈方法,中晚期治療手段非常有限,而且 MCI 常被誤診為正常衰老的癥狀,在研究中發現有 44% 的 MCI 在幾年內可能最終轉化為 AD[7]。因此 MCI 的早期診斷和干預對預防和延緩 AD 的發展具有重要作用。
神經影像成像技術是 AD 診斷中重要的臨床檢查手段之一。研究顯示在認知和記憶退化前,海馬、顳葉等某些特定部位已經出現了退行性形變和萎縮,這些大腦結構的改變是 AD 早期診斷的可靠標志[8]。通過腦影像成像技術可以對疾病不同階段結構的變化進行定量定性的分析研究。首先是磁共振成像(magnetic resonance imaging,MRI),主要用于排除其他潛在疾病和發現 AD 的特異性影像學表現,可以監測出大腦變性區域物質的代謝異常、血流量的改變等;其次是正電子發射型計算機斷層顯像(positron emission computed tomography,PET),18 氟-氟代脫氧葡萄糖正電子發射型計算機斷層顯像(18-fluoro-deoxyglucose PET,18F-FDG-PET)可以顯示大腦局部葡萄糖的代謝率,為評價組織的代謝活性提供了可能,且研究顯示 18F-FDG-PET 對 AD 的診斷準確率更高[9];還有計算機斷層掃描(computed tomography,CT),AD 早期的 CT 腦影像診斷以腦萎縮、腦室擴大為主要評判指標[10]。上述方法中由于 MRI 不會產生如 CT 檢測中的偽影,無需注射造影劑,無電離輻射且無創,具有較高的普及率,因而成為 AD 早期診斷研究中常用的影像材料。
隨著計算機技術的發展,深度學習方法廣泛應用于醫學圖像處理中,使得醫學圖像處理逐漸實現智能化。其中卷積神經網絡(convolutional neural network,CNN)是一種帶有卷積結構的深度神經網絡,其結構包含輸入層、卷積層、激勵層、池化層以及全連接層。到目前為止,在圖像識別領域的每一個重大的突破都用到了該模型。CNN 以及眾多由此衍生出來的模型,被不斷用在 MCI 和 AD 分類任務中,并取得了優異的效果。
本文首先簡述了 CNN 的發展及最初的結構,其次綜述了 LeNet、AlexNet、GoogleNet、VGGNet、ResNet 以及 DenseNet 幾個典型的 CNN 網絡在 AD 早期診斷中的應用及研究方向,探討了目前存在的不足與挑戰,并提出了一些想法和建議。
1 卷積神經網絡
1.1 CNN 發展簡述
CNN 是一種前饋型神經網絡,它的出現啟蒙于 1962 年 Hubel 和 Wiesel 對貓視覺皮層電生理研究中提出的感受野(receptive field)的概念[11]。感受野是 CNN 每一層輸出的特征圖(feature map)上的像素點在輸入圖片上映射的區域大小,即特征圖上的一個點對應輸入圖上的區域。基于此 1980 年日本學者 Fukushima[12]提出的神經認知機(neocognitron)可以看作是 CNN 的第一個實現網絡,也是感受野概念在人工神經網絡領域的首次應用。之后 1989 年,LeCun 等[13]將反向傳播應用到了類似 Neocognitron 的網絡上做有監督學習,實現了一個手寫數字識別的神經網絡,最重要的是簡化了卷積操作,便于將反向傳播應用到 CNN 上。直到 1998 年被稱為是現代卷積神經網絡的鼻祖 LeNet-5 被 LeCun 等[14]提出,它是第一個成功大規模應用于手寫數字識別問題的 CNN,在 MNIST 數據集中的正確率可以高達 99.2%,也標志著 CNN 的開端。但直到 2012 年 AlexNet 的成功才奠定了 CNN 在深度學習應用中的重要地位,同時也成為了計算機視覺中的重點研究對象并且逐漸演化了眾多經典模型,包括 GoogLeNet、VGGNet、ResNet 以及 DenseNet 等,且廣泛應用于圖像處理、計算機視覺等領域。
1.2 CNN 的基本結構
與普通神經網絡非常相似,CNN 也是由具有可學習的權重和偏置常量的神經元組成。每個神經元都接收一些輸入,并做點積計算,輸出是每個分類的分數,而它成功的原因關鍵在于所采用的局部連接和共享權值的方式,一方面減少了的權值數量使得網絡易于優化,另一方面降低了過擬合的風險。該優點在網絡的輸入是多維圖像時表現得更為明顯,使圖像可以直接作為網絡的輸入,避免了傳統識別算法中復雜的特征提取和數據重建過程。
CNN 的基本結構一般劃分為 5 層:輸入層、卷積層、池化層、全連接層以及輸出層,結構如圖 1 所示。在圖像處理時,首先將原始數據送入輸入層經過去均值、歸一化、主成分分析(principal component analysis,PCA)和白化等預處理,其次經過卷積層與池化層交替操作對圖像進行特征提取與壓縮,之后經過全連接層輸出數據。

1.3 CNN 在醫學影像分析中的應用
近年來,使用深度學習方法進行數據分析呈迅猛增長趨勢,它已成為計算機視覺領域中領先的機器學習工具,其中 CNN 提取的信息在目標識別和定位方面效果優異。CNN 和其他深度學習方法結合用于醫學圖像分析,減少了特征選擇及特征提取的步驟,直接將圖像作為網絡的輸入,降低了醫學診斷錯誤率,在病變檢測、圖像分割、圖像配準及圖像融合等方面已有突出表現。醫學圖像處理基本流程是圖像預處理、圖像分割、特征提取、特征選擇、訓練分類器及對測試集進行測試。
CNN 在 AD 腦影像診斷應用中的大部分醫學數據,一是來自 ADNI 數據庫(http://adni.loni.usc.edu/),由美國加利福尼亞大學放射學和生物醫學成像中心創建于 2004 年,該計劃致力于確定 AD 的進展;另一個是影像研究開放獲取系列(Open Access Series of lmaging Studies,OASIS),是一個旨在向科學界免費提供大腦的神經影像數據集的項目,通過匯編和自由分享神經影像數據集,促進基礎和臨床神經科學方面的新發現。獲取到神經影像數據后,將圖像進行預處理,如時間層校正、頭動校正、配準、標準化、分割以及平滑處理等。SPM 和 FSL 是主要的腦影像處理工具,可以對核磁圖像進行一系列的預處理[15-16]。其中 FSL 是牛津大學研究人員開發的一種全面分析大腦圖像數據的軟件,可實現圖像預處理的各種任務。一般腦影像數據經過預處理后會送入 CNN 輸入層開始訓練,之后進行測試并分析評價分類效果。CNN 在 AD 腦影像診斷中的基本流程如圖 2 所示。

2 卷積神經網絡不同模型在 AD 診斷中的研究進展
從 1998 年 LeCun 等[14]發表論文確立了第一個真正意義上的 CNN 結構,到 2012 年 AlexNet 的成功,越來越多的研究者致力于該方向的研究,逐漸發展了許多經典的 CNN 模型,且應用于語音識別及圖像處理等領域。如今 CNN 在醫學圖像處理中占據著舉足輕重的地位,從最開始的 LeNet 到目前的 DenseNet,都有用于 AD 的早期診斷研究,并取得了很好的分類效果。各類 CNN 模型的特點及其在 AD 早期診斷中的大致流程如圖 3 所示。

2.1 LeNet
CNN 的發展簡述中提到,LeNet 的實現確立了 CNN 的結構如圖 1 所示,現在的神經網絡中都能看到它的身影,例如卷積層、池化層等。但由于當時缺乏大規模的訓練數據,計算機硬件的性能也較低,因此 LeNet 神經網絡在處理復雜問題時效果并不理想。之后 LeCun 等對其進行完善,設計了一種多層的人工神經網絡 LeNet-5。它通過巧妙的設計,利用卷積、參數共享、池化等操作提取特征,減少了計算成本,最后用全連接神經網絡進行分類識別。
Sarraf 等[17]應用 LeNet-5 架構對 AD 和正常對照組受試者的功能磁共振成像數據進行分類,分類準確率達到 96.86%。此外,Dai 等[18]改進現有 LeNet-5 模型,設計了 10 層的 CNN,對 MRI、PET 和多模式融合圖像分別進行訓練和測試,在網絡輸出層結合貝葉斯方法對臨床簡易智力狀態檢查量表(Mini-Mental State Examination,MMSE)分類的結果,最終顯示多模態成像與臨床數據相結合的深度學習診斷方法性能最優,平均準確率達到了 88.244%。由于 LeNet 的設計較為簡單,因此其處理復雜數據的能力有限,近年研究中較少將其應用在 AD 病程分類的研究中。
2.2 AlexNet
2012 年,Krizhevsky 等[19]提出的 AlexNet 以絕對的優勢贏得了 ImageNet 競賽的冠軍。它將 LeNet 的思想擴展到了更大的、能學習到更復雜對象層次的神經網絡上。其突出貢獻是使用修正線性單元(rectified linear unit,ReLU)、在訓練的時候使用 Dropout[20]技術有選擇地忽視單個神經元從而避免過擬合,AlexNet 的出現被稱為一個經典之作,激發了更多研究者的興趣,隨之更多更深的神經網絡被提出。
AlexNet 原模型對醫學圖像沒有針對性,Shakarami 等[21]在 AlexNet 末端添加全連接層,以減少特征向量長度,并用支持向量機(support vector machine,SVM)替換原有的分類輸出層作為分類器,平均分類精度達到 96.39%。另一項研究中,基于 AlexNet 提出了一種數據排列方案,包括離群值去除和基于熵的 MRI 切片選擇等對 OASIS 和 ADNI 數據集上的 MRI 圖像進行分類,取得平均分類準確率為 97.05%的分類效果[22]。
Kazemi 等[23]采用 AlexNet 模型,用隨機梯度下降求解方法更新權重,首次用深度學習方法對 AD 的不同階段即正常健康對照(NC)、顯著記憶關注(SMCI)、早期輕度認知障礙(EMCI)、晚期輕度認知損傷(LMCI)以及 AD 進行分類,平均準確度達到 97.63%。
2.3 GoogleNet
2014 年,Szegedy 團隊[24]提出的 GoogleNet 獲得了 ImageNet 競賽的冠軍。該模型創新之處是提出一種網中網的 Inception 結構,其中采用 1*1 卷積主要用來降維。用 Inception 之后整個網絡結構的寬度和深度都可擴大,但又不會增加計算量,且稀疏連接的方式有助于減少過擬合,因此它的設計目的在于用稀疏、分散的網絡來取代龐大、密集、臃腫的網絡。
在文獻[25]中,研究人員提出了一個使用 inceptionV3 架構的深度學習模型,將 CN、AD 及 MCI 患者 18F-FDG PET 腦圖像的 90% ADNI 數據集進行訓練,并在其余 10% 的數據集以及獨立的測試集上進行測試,對 AD 與 CN 的分類預測能力較強,準確率達到 97.58%,但對 MCI 的識別準確度相對較低,可能是因為最終診斷為 MCI 的患者尚處于早期狀態,無法顯示 AD 的臨床跡象,或者還有些屬于不會進展到 AD 的患者。
2.4 VGGNet
VGG 網絡由著名的牛津大學視覺組提出[26],并取得了 ILSVRC 2014 比賽分類任務的第 2 名和定位任務的第 1 名。VGGNet 整個網絡都使用了同樣大小的卷積核尺寸(3 × 3)和池化尺寸(2 × 2),通過不斷加深網絡深度來提升性能。VGGNet 的拓展性很強,遷移到其他圖片數據上的泛化性非常好。Mehmood 等[27]在 VGG-16 中插入額外的卷積層有效地獲取了數據集上的最大特征,在 AD 病程階段的分類中達到了 99.05% 的測試準確性。
還有研究者提出了一種將 VGGNet 和 SVM 相結合來更有效地區分 EMCI 和 NC 的方法。結果表明,與以往的研究相比,分類性能有了顯著的提高,平均準確率達到了前所未有的 89.4%[28]。
VGGNet 包含多層網絡,深度從 11 層到 19 層不等,較為常用的是 VGG16 和 VGG19。Jain 等[29]研究中采用了一種基于遷移學習的數學模型名為 PFSECTL,該模型使用 ImageNet 數據集中 VGG-16 作為分類任務的特征提取器,在 ADNI 數據庫收集的 MRI 數據驗證集部分三分類的準確率達到了 95.73%。Khan 研究團隊[30]也用同樣的遷移學習方法,使用 VGG 模型對 CN、AD 和 MCI 的 MRI 數據進行分類,且獲得了非常高的分類性能,AD 與 NC 以及 MCI 與 NC 的分類準確率分別為 99.36% 和 99.04%,三分類的總體準確率為 99.20%。
2.5 RestNet
2015 年,微軟亞洲研究院 He 等[31]使用 ResNet 在 ILSVRC 比賽中取得冠軍。該模型在增加網絡深度的情況下有效地解決了梯度消失的問題。殘差單元的引入使得在輸入和輸出之間建立了一個直接的連接,這樣新增的層僅僅需要在原來輸入層基礎上學習新的特征,解決了層次比較深時無法訓練的問題,殘差單元結構如圖 4 所示。與 GoogleLeNet 類似,ResNet 最后也使用了全局均值池化層,同時利用殘差模塊,可以訓練 152 層的殘差網絡,其準確度高于 VGG 和 GoogleNet。

Menikdiwela 等[32]基于 ResNet,首次探討了基于 MRI 皮質表面數據的 cMCI 和 sMCI 患者分類。該模型中特征向量對應于每次 MRI 掃描整個皮質厚度的測量值,最終獲得了 81% 的準確度,而基于類似網絡的 MRI 切片分類準確率為 68%。同時結果表明與切片數據相比,皮質數據在 cMCI 分類中表現良好。該團隊是第一個將深度學習網絡應用于 MRI 成像的大腦皮質圖研究中的。
Yee 等[33]使用 ResNet 中殘差結構設計的算法對 NC 和 AD 的分類準確率達到 93.5%。另外對 sMCI 在 3 年內轉化為 AD 的預測準確率為 74.0%,準確率下降的原因主要是 NC 和 sMCI 的錯誤分類。Fulton 等[34]在改進的 50 層殘差網絡即 ResNet-50 中對 AD 及 MCI 進行分類,達到了 98.99% 的分類準確率。
2.6 DenseNet
隨著網絡結構的加深,為解決梯度與信息消失現象以及巨量的網絡參數與網絡結構利用率不高的問題,由康奈爾大學、清華大學、Facebook 的研究者[35]共同研究并提出了 DenseNet 網絡結構,利用當前層與后面層的連接使得每一層的信息得到充分的利用,緩解梯度消失的同時極大地減少了參數,如圖 5 所示為一個 4 層的 Dense Block 示意圖。

DenseNet 盡管借鑒了 ResNet 及 Inception 網絡的思想,但是呈現了全新的結構。它是一種具有密集連接的 CNN。該研究團隊從特征圖入手,讓網絡中的每一層都直接與其前面層相連,實現特征圖(feature map)的重復利用。同時把網絡的每一層設計得特別“窄”,即只學習非常少的特征圖,實現降低冗余性的目的,最終使用更少的參數取得了更好的效果,而且減少了梯度消失的問題。
DenseNet[36]是比較新的 CNN 模型,它引入密集連接,解決了訓練數據有限的問題,隨著該模型深度的研究不斷提出了不同的改進模型以提升分類性能[37-38]。Wang 等[39]以 3D-MRI 為基礎采用 DenseNet 模型,進行了一系列超參數優化實驗,選擇多個優化的 3D-DenseNet 分類器,之后對各分類器結果進行集成最終證明了集成方法的優越性。
在文獻[40]的研究中提出了一種結合 3D DenseNets 和雙向門控遞歸單元(bi-directional gated recurrent unit,BGRU)的卷積遞歸混合神經網絡,利用 sMRI 圖像進行海馬特征提取分析從而進行 AD 病程分類診斷。在 ADNI 數據集上 AD 與 NC、MCI 與 NC、pMCI 與 sMCI 的分類中,ROC 曲線下面積分別達到 91.0%、75.8% 和 74.6%,可見該方法在 AD 和 NC 分類中顯示了良好的性能。
以上對不同 CNN 模型在 AD 診斷中的應用進行了簡要概述,通過對近幾年相關文獻的閱讀,對不同模型的分類診斷效果進行了對比,如表 1 所示。由于不同研究中所用數據、預處理以及算法改進優化方式不同,因此對于最后的分類準確率只是一個相對的比較。

3 CNN 在 AD 診斷中的應用分析
不同的經典 CNN 模型被廣泛應用于 AD 的早期診斷中,各類模型的分類診斷效果各有所長。本節將從三個方面總結 CNN 在 AD 診斷中提升分類準確率的研究方向,如圖 6 所示,首先是 CNN 算法結構優化,其次是與傳統機器學習方法相結合,最后是多模態數據融合的方法。

3.1 算法結構優化
CNN 應用于 AD 腦影像識別的分類任務時,通常都會根據目標任務對模型進行優化。首先常采用遷移學習的方法使用在 ImageNet 數據集中預訓練的 CNN 模型進行分類,這樣可以減少訓練時間。其次最初的研究中往往使用二維切片數據作為輸入層,但為了更好地利用腦影像信息提出了 3D-CNN 結構及多任務學習的方法,同時針對整體網絡對超參數進行調整,如學習率(Learning rate)、批處理大小(Batch size)的選擇[41],以及采用歸一化和 Dropout 技術進行優化以防止過擬合,提升 CNN 算法性能[42]。此外針對醫學數據樣本量小的問題提出數據增強的方法以擴充數據集[43]。最近的一項研究中提出了一種新的框架,該框架包含了 GoogleNet、ResNet 以及 DenseNet 三個先進的深度卷積神經網絡,各模型輸出層結果通過 Adaboost 集成分類器得出最后的判斷,在 AD 與 NC 的分類中準確率達到 99.27%,靈敏度達到 95.89%,特異度達到 98.72%[44]。另一項研究提出一種孿生卷積神經網絡(Siamese Convolution Neural Network),它借鑒孿生神經網絡(Siamese Neural Network)的結構[45],用改進的 VGG-16 并行計算,更有效地獲取到數據集的重要特征,總體分類準確率達到 99.05%[27],這項研究給 CNN 在 AD 病程分類應用的結構改進帶來了新的啟發。此外,Liu 等[46]使用深層孿生神經網絡研究了 AD 和 MCI 中腦不對稱預測的問題并取得了很好的預測精度。目前,很多研究表明與單一模型相比,不同 CNN 模型聯合用于 AD 病程的分類可以獲得更高的準確率[47-48]。
3.2 與傳統機器學習方法相結合
CNN 與傳統機器學習的方法結合,在 AD 分類中也有很好的表現。在幾項研究中,CNN 僅被用作特征提取器,而分類時則使用隨機森林[49]、線性或多項式核的 SVM 和邏輯回歸[50]。Duc 等[51]開發了一種 3D CNN 結構用于 AD 和 CN 的 MRI 圖像分類任務,同時結合線性最小二乘回歸(linear least squares regression,LLSR)、支持向量回歸及具有組獨立成分分析(group independent component analysis,gICA)特征的樹回歸等方法預測 MMSE 分數以綜合判斷疾病狀態。另有研究團隊提出基于深度 CNN 和 SVM 的混合診斷方法,將每個目標的切片特征融合成一個特征向量,采用套索的特征選擇方法,最后用 SVM 進行分類。實驗結果表明,由于 CNN 和 SVM 的結合以及冗余特征的消除,該方法大大提高了分類性能。此外,遷移學習技術有效地緩解了小數據集帶來的問題,減少了大量的訓練時間[28]。
在國際 Kaggle 平臺上提出了一項科學挑戰,以評估預測 MCI 及 cMCI 不同方法的性能。第三名的參賽團隊提出了一種基于隨機森林特征選擇和深度神經網絡分類的分類策略,使用包含 NC、AD、MCI 和 cMCI 四種分類問題的混合隊列來訓練模型。此外該方法與一種新的基于模糊邏輯的分類策略進行了比較,發現模糊邏輯在 cMCI 分類中尤其準確,表明這些方法的結合可能會帶來更優的分類效果[52]。CNN 與傳統機器學習方法相結合,為 AD 病程的分類研究提供了新的思路和方向。
3.3 多模態數據融合
晚期 AD 患者在臨床中很好鑒別,但是 MCI 的早期診斷較為困難,因此臨床醫生通常參考各類神經影像學檢查以及神經心理學診斷結果,綜合判斷病程階段。在基于 CNN 的 AD 病程分類中考慮多模態數據結合同樣有助于提高該疾病的診斷準確率。研究中通常選取 MRI 與 PET 影像與臨床簡易智力狀態檢查量表(Mini-mental State Examination,MMSE)、臨床癡呆評估量表(Clinical Dementia Rating Scale,CDR)或邏輯記憶測驗(logical memory,LM)等臨床信息進行融合分類。在一項研究中采用兩個獨立的 CNN 對 MRI 和 PET 醫學圖像進行訓練,通過相關分析判斷兩個網絡輸出的一致性,最后將多模態神經影像診斷結果與臨床神經心理診斷結果相結合,顯著提高了輔助診斷的準確性,也使診斷過程更加接近臨床醫生的診斷流程。在 ADNI 數據集實驗中,AD 與 MCI 分類靈敏度為 97.39%,特異度為 84.27%,準確度為 88.25%,AUC 值為 0.886 4。實驗結果表明多模態輔助診斷方法能夠達到很好的診斷效果[53]。此外,MRI 不同成像方式的融合也有利于提高分類精度,如結構 MRI 與彌散張量成像(diffusion tensor imaging,DTI)結合[54]。未來的研究中,更趨向將不同神經成像技術及臨床文本信息充分結合以提高算法分類性能。
4 CNN 在 AD 診斷中的挑戰
由于 AD 的不可治愈性,早期診斷變得尤為重要。近年來,深度學習方法中的 CNN 逐漸成為分析小數據集醫學圖像的熱門工具,廣泛應用于醫學圖像分割、識別等方面。本文通過系統地回顧近五年 CNN 在 AD 診斷方面的應用,了解到在該領域研究中 CNN 表現優異。在沒有臨床專家的情況下,自動分類疾病不同階段的方法可以為 MCI 的早期診斷提供客觀的依據。雖然目前在 AD、MCI、CN 甚至 MCI 早期的預測中已經取得了很好的分類效果,但仍然存在很多尚未解決的問題,而且研究成果還沒有真正應用于臨床以輔助醫生診斷。CNN 分類診斷 AD 需要在各種條件下表現出一致的性能,才能為臨床中的實際應用做好準備,但目前仍存在不足與挑戰,主要分以下幾點闡述。
4.1 可解釋性
傳統機器學習方法可能需要專家參與預處理步驟,以便從圖像中提取和選擇特征。然而,由于深度學習不需要人工干預,而是直接從輸入圖像中提取特征,相對于依賴預處理的傳統機器學習可以實現更好的性能。但是深度學習這一特點帶來了不確定性,即在每個時期會提取哪些特征,除非對特征有特殊的設計,否則很難顯示哪些特定特征是在網絡中提取的。同時因為深度學習算法的復雜性,具有多個隱含層,很難確定這些選擇的特征是如何得出結論的,以及特定特征或特征子類的相對重要性。正因為 CNN 分類 AD 過程缺乏解釋性,無法像臨床專家在診斷中一樣直接提供推理和解釋,因此臨床醫生也很難完全信任此類系統。
如果 CNN 模型具備可解釋性,算法研發者可根據其輸出結果優劣的原因所在,對算法進行改良。但如果算法不具備解釋性,則改良算法變得異常艱難。研究中提出利用反卷積可以重構每層的輸入特征并實現可視化,分析每層對整體分類性能的貢獻,解釋 CNN 學習到的特征如何,并對不足之處進行改進,由此來分析如何建立更好的網絡結構[55]。近年來研究者們不斷對 CNN 可視化進行探索,在一項研究中從不同角度對 3D-CNN 在 AD 分類中的機制進行了可視化解釋,提高了對 3D-CNN 在 AD 分類中的可解釋性[56]。
4.2 泛化性
由于不同醫院成像設備不同,掃描的參數也不盡相同,因此會影響 CNN 對疾病的分類效果,會出現模型在某個數據集上訓練效果很好,但用于另一個數據集時效果突然下降的情況。針對這個問題,在目前研究中一方面通過擴大數據集的來源以緩解在實際應用中的泛化困難,另一方面通過技術上的手段加以克服,如遷移學習,即先在數量大的數據集預訓練,再到數量小的數據集上微調,或者通過多任務學習(multi-task learning,MTL)的方法[57-59]。但目前該問題尚未得到有效的解決,仍在探索研究中。
4.3 準確率
醫學影像分類不同于其他的分類問題,預測準確性不僅對提升臨床醫生診斷信心有價值,而且對患者更是意義重大,因此將該模型應用于臨床實際診斷也需要更加慎重。任何一項關于 AD 分類模型最重要的目標就是提升準確率,有的算法表現很優異但是并不穩定,魯棒性較差。在許多研究中已經證實使用兩種或兩種以上多模式神經成像數據比單一神經成像數據的分類準確性更高,即多模態數據融合,這是從輸入數據的角度提高分類準確率。另外 CNN 各類模型在 AD 診斷中都有不錯的表現,從算法結構優化、數據增強、遷移學習、數據預訓練、CNN 與傳統機器學習方法的結合以及注意力機制[60]的運用上,都在一定程度上提升了分類性能。該領域的研究者通過不斷對 CNN 模型進行優化,致力于構建一個準確度高、性能穩定、可供臨床應用的模型,為延緩 AD 的發展做出貢獻。
5 總結與展望
隨著全球 AD 數量的迅速增加,在發達國家它已是主要死亡原因之一,而且 AD 患者不僅自己痛苦,也給家庭也帶來了沉重的負擔,因此早期發現、早期干預對于延緩疾病發展十分關鍵。本文以 CNN 的發展為軸,系統地回顧了它在 AD 診斷中的應用現狀,研究表明 AD 的早期診斷是完全可以實現的,但是仍存在一些待解決的問題,如模型泛化性、算法魯棒性及可視化等。本文參閱的文獻中,由于各個文獻研究所用數據的來源、類型以及預處理方法等并不一致,所以對于各類模型最終分類結果的正確率只是作為大致的參考與對比,并沒有詳細比較各個研究中的分類結果。目前 CNN 在 AD 早期診斷方面的研究仍然在不斷發展中,研究者們嘗試探索不同生物標志物最佳的融合方式,以及算法結構的優化改進,如注意力機制與 CNN 的結合。同時,加強理論技術人員與臨床工作者的交流對 AD 早期診斷的研究也大有益處。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。