β 淀粉樣蛋白(Aβ)沉積是阿爾茨海默癥(AD)的重要防治靶點,在腦中及早發現 Aβ 蛋白沉積是 AD 早期診斷的關鍵。磁共振成像(MRI)是一種理想成像方式,但不能直接顯示圖像中存在的沉積信息。本文基于過濾式和封裝式的選擇模式引入鏈式智能體遺傳算法(CAGA)、主成分分析(PCA)、支持向量機(SVM)和隨機森林(RF),構建 6 種特征學習分類算法,通過像素特征優選來實現 Aβ 蛋白沉積信息(分布)的檢測。首先,分割腦磁共振(MR)圖像中的腦組織;然后提取腦組織中的像素值形成像素特征向量;接著設計特征學習分類算法對像素實現特征優選,并基于投票機制得到一組最終最優特征向量;最后采用彈性映射方法將最優像素特征向量映射到腦MR圖像上,并標記出對應的像素點,從而顯示出 Aβ 蛋白沉積的分布。實驗結果表明,本文的像素特征學習方法可提取并顯示 Aβ 蛋白沉積信息,最高分類準確率可達到 80% 以上,表明該方法是可行和有效的。本文從腦 MR 圖像中檢測的 Aβ 沉積信息將有助于提高基于 MR 的 AD 診斷準確率。
引用本文: 顏芳, 李勇明, 朱雪茹, 汪潔, 王品, 李帆, 邱明國, 覃劍. 基于像素特征學習的磁共振圖像中 β 淀粉樣蛋白沉積信息檢測算法. 生物醫學工程學雜志, 2017, 34(3): 431-438. doi: 10.7507/1001-5515.201603061 復制
引言
阿爾茨海默癥(Alzheimer’s disease,AD)是常見的早老性癡呆疾病。AD 患者的最終結局是癡呆,它是一種原因不明的、進行性的、中樞神經系統的退行性疾病,其重要病理特征為大腦皮層和海馬出現 β 淀粉樣蛋白(amyloid β-protein,Aβ)沉積,逐漸聚集形成老年斑(senile plaques,SP)。已有研究表明,Aβ 蛋白的神經毒性強,是 AD 的核心致病物質,也是 AD 防治最重要的靶點[1]。德國的研究人員稱,在 AD 患者癥狀出現前 15~20 年即開始發生 Aβ 蛋白沉積[2]。當 Aβ 蛋白沉積超過一定量時,則進入 AD 早期階段,因此結合 Aβ 蛋白沉積的檢測,將有望提高 AD 無創早期診斷準確率。目前,針對或結合 Aβ 的早期診斷與治療的研究取得了令人鼓舞的結果,這包括 Aβ 蛋白組化的診斷、免疫治療、神經因子治療等[3-6]。但由于缺乏對 Aβ 蛋白沉積的早期無創檢測技術,因此難以實現臨床應用研究,無法及時早期診斷和干預治療。由此可見,建立腦內 Aβ 蛋白沉積早期無創檢測技術顯得格外重要和緊迫。
臨床研究表明,采用示蹤劑 B 型匹茲堡復合物(Pittsburgh compound-B,PIB)配體(11C)11C-PIB,正電子發射型斷層顯像(positron emission tomo-graphy,PET)可以顯示 AD 小鼠腦皮層上的 Aβ 蛋白沉積信息[7-8]。但是該成像方式有如下問題:① 對比劑有輻射,患者對基于對比劑的成像技術都比較抵觸;② 無法顯示較小的病灶,缺乏解剖參考;③ 價格通常比較昂貴,由于癡呆屬于慢性非致命性疾病,患者通常傾向于便宜的檢測手段[9-11]。
磁共振成像(magnetic resonance imaging,MRI)是利用人體組織中氫原子核(質子)在特殊的磁場中受無線電射頻脈沖的激勵而發生核磁共振的現象,經電子計算機處理,重建出人體某一層面圖像的成像技術[12]。近年來研究發現 AD 患者或 AD 轉基因鼠腦內 Aβ 蛋白沉積及周圍鐵質過度沉積,會改變局部磁場均勻性引起失相位,導致 T2 信號的降低,起到自然對比劑作用。因此,采用 MRI 可以探測 Aβ 蛋白的沉積信息(分布、數量等)[13]。當不借助對比劑時,采用高場強磁共振(magnetic resonance,MR)和對鐵敏感的序列,Aβ 蛋白斑塊可以被 MRI 探測到[14-15]。研究發現,MR 圖像可以反映小鼠模型中存在丘腦、海馬區、新腦皮層中的 Aβ 蛋白沉積信息[16-17]。Aβ 蛋白沉積所導致的不溶性纖維會引起快速的質子橫磁化衰減,在 MR 圖像中,相關區域亮度將明顯減低,對比度會發生變化[18]。2004 年 Zhang 等[19]和 Lee 等[20]分別采用自旋回波和快速自旋回波顯示了 AD 的轉基因動物模型[APP(淀粉樣前體蛋白,amyloid precursor protein)/S1 小鼠]的離體腦切片的 Aβ 斑塊,但 Aβ 斑塊的 MRI 檢測對分辨率要求很高,且掃描耗時長(分別為 8~24 h 和 10~11 h),無法廣泛應用。
以上文獻充分說明了 MRI 可以探測 Aβ 蛋白沉積信息,但沒有涉及到如何采用圖像處理方法將該信息檢測出來,以便用于 Aβ 蛋白沉積信息的觀察、AD 診斷等。通常,圖像像素的灰度值最能直觀地表現每個區域的變化,因此本文擬通過像素特征學習方法解決這一問題。就 AD 和正常對照(control,CTL)小鼠而言,前者含有 Aβ 蛋白沉積,而后者沒有,但是從腦 MR 圖像中無法觀測到這一差異。由于 Aβ 蛋白沉積與小鼠病變狀態緊密相關,因此可將 Aβ 蛋白沉積的檢測轉化為 AD 和 CTL 的分類問題,通過優選 MR 像素,最大化分類準確率,從而獲取最能反映 Aβ 蛋白沉積信息的腦 MR 圖像像素特征。
1 基于像素特征的 MR 圖像中 Aβ 蛋白沉積檢測方法
1.1 圖像分析與方法流程圖
如圖 1 所示,左列圖像是來自于相同層的兩種類別,即 AD 鼠和 CTL 鼠的腦 MR 圖像,從圖像上并不能直接觀測到它們的差別;中間兩幅圖像為左海馬體的 MR 圖像,從中也不能判斷其是否含有 Aβ 蛋白沉積;右列兩幅圖是對應的海馬體組織切片圖像,由組織切片圖像可以發現,針對 AD,腦組織切片中含有 Aβ 蛋白沉積(圖中的褐色斑點),而對于 CTL 小鼠來說,切片中幾乎不含 Aβ 蛋白沉積。

圖 2 是本文方法的流程圖。首先利用 MRIcro 軟件手動分割腦 MR 圖像,得到小鼠的腦組織圖像;提取腦組織圖像的像素值形成像素特征矩陣,即數據樣本;隨機劃分樣本為訓練集、驗證集和測試集三部分,分別用于訓練、優化和測試本文的特征選擇分類模型;然后通過最大化 AD 的分類準確率獲取最優像素特征集,再利用投票機制得到最終的優選特征集;基于最終的優選特征集,計算測試集樣本的分類準確率;最后彈性映射最終優選特征集到 AD 鼠的 MR 圖像上,從而顯示出 Aβ 蛋白沉積的分布信息。

1.2 本文算法原理
1.2.1 腦組織圖像分割 本文采用 MRIcro 軟件對小鼠的腦 MR 圖像進行處理。由于 Aβ 蛋白沉積位于腦組織區域,因此小鼠的腦組織區域是本文分析的感興趣區(region of interest,ROI)。為了保證分割的準確性,本文通過 MRIcro,在醫生指導下手動描繪腦組織輪廓,并進行填充操作,將 ROI 作為解析圖像輸出(見圖 3),分割準確性滿足要求。

1.2.2 特征提取 基于分割后的腦組織區域,提取其像素點的灰度值形成像素特征。由于 MR 圖像是通過掃描小鼠大腦不同區域獲得的,而腦組織圖像又由這些 MR 圖像分割得到,故提取腦組織區域的像素點數目不同,特征向量的維度也不相同。為了保證特征向量維度的一致性,我們以最短的特征向量為基準,將不同長度的特征向量彈性映射到最短特征向量上。因此,特征向量集的長度取決于最短的特征向量。
1.2.3 特征選擇
(1)特征選擇模式:本文采用了兩種特征選擇模式:Wrapper 模式和 Filter 模式,前者以分類器的分類準確率為評價準則,屬于有監督學習算法;后者通過分析特征子集內部信息來衡量其好壞,屬于無監督學習算法。
(2)搜索算法:本文采用主成分分析(principal component analysis,PCA)和作者前期提出的鏈式智能體遺傳算法(chain-like agent genetic algorithm,CAGA)作為特征選擇中的搜索算法。前者通過最小化協方差矩陣對應的特征值從而獲得方差大的特征組合。后者是尋找基于最大化某個適應度函數的特征組合。PCA 已被廣泛采用,而CAGA作為一種改進智能體遺傳算法,其搜索精度和穩定性都較好,詳細信息參見文獻[21]。
(3)評價準則:Wrapper 模式下評價準則為分類器的分類準確率;Filter 模式下評價準則為特征內部信息測度準則,本文采用可分性距離判據。
本文 Filter 模式下的評價準則是可分性距離判據,是表征分類能力的評價準則之一,是評價可分性的主流標準,可替代分類準確率用于特征選擇中,其值與分類能力成正比。本文為二分類問題,幾何距離設計可分性判據作為適應度函數,即是基于幾何距離的類間距離 Sb 與類內距離 Sw 之比 ,計算式如下:
${{λ}} = \frac{{{S_b}}}{{{S_w}}}$ |
${S_b} = {({\bar c_1} - {\bar c_2})^2}$ |
${S_w} \!=\! \frac{{{P_1}}}{{{N_1}}} \! \sum\limits_{i = 1}^{{N_1}} \! {\sum\limits_{k = 1}^M {{{\left( {{c_{1ik}} \!-\! {{\bar c}_1}} \right)}^2}} } \!+\! \frac{{{P_2}}}{{{N_2}}} \! \sum\limits_{j = 1}^{{N_2}}\! {\sum\limits_{k = 1}^M {{{\left( {{c_{2jk}} \!-\! {{\bar c}_2}} \right)}^2}} } $ |
其中 Sb 表示類間方差,Sw 表示類內方差; 表示第一類樣本占總樣本的比值, 表示第二類樣本占總樣本的比值; 表示第一類樣本中第 i 個樣本的第 k 列灰度值, 表示第二類樣本中第 j 個樣本的第 k 列灰度值; 表示第一類樣本的類中心值, 表示第二類樣本類中心值。
1.2.4 投票機制 本文通過特征選擇算法獲取最優像素特征,針對同一特征選擇算法重復 m 次。對于單個特征,計算其被選中的次數 。假設閾值為 ,如果 ,則特征被選擇,否則,特征不被選擇。通常 的范圍為 。
基于投票后的最終像素特征向量,將選中的特征彈性映射到 MR 圖像中相應的像素點并標記出來,主要過程如下所述:
(1)重復 m 次特征選擇算法,得到 m 個最優特征子集;
(2)利用投票機制獲取最終最優特征向量;
(3)根據最終最優特征向量,彈性映射到原始像素特征向量上;
(4)在 MR 圖像上標記出相應的像素點;
(5)重復步驟 1–4,直至所有 AD 鼠的全部 MR 圖像被標記。
彈性映射標記 MR 圖像的具體過程如圖 4 所示。從圖中可知,0 表示該位置的特征沒有被選中,1 則表示選中,特征子集是通過二進制編碼獲取的,n 表示樣本總數。基于所有的特征子集,通過投票機制得到最終的最優特征集,而具有不同維度的原始像素特征向量又基于投票后的最優特征向量,利用彈性映射獲得。進而根據映射后的像素向量來標記出 MR 圖像上的 Aβ 蛋白沉積。

2 實驗與分析
2.1 實驗條件
本文中小鼠的 MR 圖像和組織切片圖像來源于中國科學院北京動物研究所,數據真實可靠,并經過醫學專家認可。數據信息簡述如下:該數據為兩種類別(CTL 和 AD)的小鼠模型的 MR 圖像,圖像序列為 T2 加權(TE first echo),TR:4 000 ms,ETL:8,ESP:10,數據大小 128×128。實驗中共采集了 22 只小鼠(10 只患有 AD,12 只為 CTL)的腦 MR 圖像。每只小鼠有 12 片二維圖像(DICOM 格式),由于前后幾片圖像中腦組織區域較小,因此選取每只小鼠的腦 MR 圖像中第 4~9 片圖像。此外,每只小鼠對應的腦組織切片圖像有 200 多片,根據比例關系選取與 MR 中第 4~9 圖對應的腦組織切片,這樣共得到 132 個二維圖像對(其中 MR 圖像記為樣本,6×22=132),其中 72 個樣本屬于正常小鼠,60 個樣本屬于癡呆小鼠。每個圖像樣本腦組織部分的像素被提取出來,形成 1 個特征矢量,每個特征代表 1 個像素點的灰度值,并經彈性映射與特征矢量模板進行對齊。由于模板矢量長度為 2 911,因此 132 個圖像樣本就被轉化為 132×2 911 的像素特征矩陣,其中 132 為數據樣本數,2 911 為特征數。對于隨后的像素特征選擇,這 132 個樣本被隨機分為三部分:訓練集、驗證集和測試集。這三部分互不重疊,隨機重復分配 8 次,建立 8 組樣本數據集。此外,由于每只小鼠的每層 MR 圖像均有一一對應的腦組織切片,故本文將小鼠的腦組織切片圖像作為金標準,來驗證所提算法對 MR 圖像中 Aβ 蛋白沉積信息檢測的有效性。
本文擬從如下幾個途徑來驗證本文方法的有效性:① 將由本文方法優選的 MR 像素通過彈性映射回原腦 MR 圖像,將對應的 MR 像素標記出來,標記的像素就反映了 Aβ 蛋白的沉積。將這些像素與對應的腦組織切片圖像中 Aβ 蛋白沉積斑塊進行對比,通過對比觀察來表明本文方法有效性。② 將由本文方法優選的 MR 像素特征用于分類,通過分類準確率高低來反映本文方法有效性。分類準確率高于 50%,說明有效;準確率越高,有效性越強[22]。③ 對本文設計的 6 種特征學習分類算法進行統計學分析,反映本文方法與隨機標記 MR 像素方法的差異,從而間接說明本文方法的有效性具有統計學意義。
本文實驗平臺的軟件部分:Window7 版本、64 位操作系統,開發工具 MATLAB 2012a,腦組織圖像提取工具 MRIcro medical image viewer;硬件部分:Intel(R)Core(TM)CPU i5-2310,2.9 GHz,內存 4 GB。
針對 CAGA,為了較好地平衡時間代價和優化精度,通過多次實驗統計結果確定初始種群規模為 50,初始交叉概率為 0.8,初始變異概率為 0.05,最大迭代次數設置為 30。
針對支持向量機(support vector machine,SVM),選用線性核函數。隨機森林(random forest,RF)中包含的決策樹數目的不同,對其泛化性能有一定的影響,本文通過統計實驗來選擇準確率最高時所對應的決策樹數目。兩種特征選擇模式下,針對 CAGA_RF 算法選擇 500 棵決策樹時,驗證集分類結果最高;針對 PCA_RF 算法選擇 650 棵決策樹時,驗證集結果最好。對于投票機制,運行次數 m=10, 。
2.2 實驗結果與分析
2.2.1 性能評估指標 本文采用對測試樣本分類的準確率(accuracy,Acc)、靈敏度(sensitivity,Sen)和特異度(specificity,Spe)來評估本文方法檢測 Aβ 蛋白沉積信息的準確性。TP 為真陽性,即實際為 AD 鼠圖像并且被判定為 AD 鼠圖像;TN 為真陰性,即實際為 CTL 鼠圖像并且被判定為 CTL 鼠圖像;FP 為假陽性,即實際為 CTL 鼠圖像但被判為 AD 鼠圖像;FN 為假陰性,即實際為 AD 鼠圖像但被判為 CTL 鼠圖像。計算公式如下:
${\rm{Acc}} = \frac{{{\rm{TP}} + {\rm{TN}}}}{{{\rm{TP}} + {\rm{FP}} + {\rm{TN}} + {\rm{FN}}}}$ |
${\rm{Sen}} = \frac{\rm{TP}}{\rm{TP + FN}}$ |
${\rm{Spe}} = \frac{\rm{TN}}{\rm{TN + FP}}$ |
2.2.2 Aβ 蛋白沉積信息檢測效果分析 本文通過 MR 圖像的 AD 和 CTL 分類結果,間接檢測 MR 圖像中的 Aβ 蛋白沉積信息。表 1 給出了在 Filter 和 Wrapper 兩種特征選擇模式下,SVM 和 RF 兩種分類器在 8 組原始像素數據集上的平均分類結果、最優分類結果及用于分類的特征數目。

從表 1 可以看出,6 種算法基本上取得了高于 50% 的準確率,這說明基于 MR 圖像檢測是否含有 Aβ 蛋白沉積這一方式是有效的。基于 Filter 模式下的 CAGA_SVM 取得了最高約 77%、平均約 73% 的準確率,這已經可以形成一個強分類器了。本文檢測 Aβ 蛋白沉積信息的方法可以提高基于 MR 圖像判斷 AD 的準確率,這為相關研究提供了新的思路和方法。
圖 5 顯示了 6 種算法重復 8 次的分類準確率曲線。從圖 5 可以看出,除了 PCA_SVM 的準確率在 50% 附近波動,其他 5 種算法均顯著高于 50%,因此是有效的。Filter 模式下,CAGA+SVM 的分類準確率比較穩定;基于 Wrapper 模式下的 CAGA+SVM 的單次分類準確率最高,達到 80.77%。值得注意的是,基于 Filter 模式下的 CAGA+SVM 好于基于 Wrapper 模式下的分類準確率,這說明本文采用的可分性距離判據性能較好。進一步比較 Filter 模式下基于 SVM 和 RF 兩種分類器下 CAGA 的特征選擇能力,從表 1和圖 5 均可看出,相較于 RF,基于 SVM 分類器的分類準確率較優,平均準確率為 72.60%,單次運行最高準確率為 76.92%。此外,8 次實驗結果表明,CAGA_SVM 的穩定性較好,可能的原因是 SVM 較 RF 更適合于本文設計的可分性距離判據,基于可分性距離判據獲得的最優特征子集更適合 SVM 的訓練和測試。

2.2.3 統計學分析 為了表明本文算法的分類準確率較隨機分類算法具有顯著的差異,將這六種算法的分類準確率與隨機分類的準確率進行了 t 檢驗。六種算法的 P 值分別如下:CAGA_SVM(Filter)算法為 0.004 7,CAGA_RF(Filter)算法為 0.024 7,PCA_SVM(Filter)算法為 0.426 1,PCA_RF(Filter)算法為 0.033 3,CAGA_SVM(Wrapper)算法為 0.007 1,CAGA_RF(Wrapper)算法為 0.044 3。除PCA_SVM(Filter)以外,其他五種算法的 P 值均小于 0.05,其中 CAGA_SVM(Filter)和 CAGA_SVM(Wrapper)的 P 值小于 0.01。
2.2.4 MR 圖像中 Aβ 蛋白沉積信息檢測的可視化效果 本節實驗根據 CAGA 優選出的最優特征子集,即最優像素特征集,及其坐標信息,標記出小鼠的腦 MR 圖像中相應的像素點,通過與其對應的海馬體組織切片相對應,從而檢測 Aβ 蛋白沉積位置。圖 6 中左列圖像分別是小鼠的左、右海馬體的 MR 圖像;中間列為 Filter 模式下利用 CAGA+SVM 集成分類算法檢測到的 Aβ 蛋白沉積在海馬區的分布圖像;右列分別是對應的左、右海馬體組織切片圖像。通過比較 MR 圖像中海馬區的 Aβ 蛋白沉積信息區域和對應的海馬體組織切片中 Aβ 蛋白沉積的分布,發現兩者具有較大的一致性(相同顏色圓圈標記處)。這說明,本文方法能較為準確地檢測出 Aβ 蛋白沉積信息,實現了 MR 圖像中 Aβ 蛋白沉積信息檢測的可視化。

從圖 6 中還可以看出,左右海馬體的 MR 圖像上并不能直觀地像組織切片圖像那樣發現 Aβ 蛋白沉積信息,而通過本文的方法可以基于 MR 圖像,將腦組織切片圖像中海馬體區域的主要 Aβ 蛋白沉積斑塊區域都顯示在 MR 圖像中,幾乎沒有漏檢。圖中用不同顏色的橢圓分別標記出 4 個區域的 Aβ 蛋白沉積,因此采用本文方法可以通過腦 MR 圖像檢測出 Aβ 蛋白沉積的相關信息。由于 MR 圖像具有無創、無損、性價比高等優點,因此本文方法容易實現臨床推廣。但是,從本文方法標記的圖像中可以發現,在 MR 圖像中還存在一些被誤判為 Aβ 蛋白沉積的像素點,圖中用紫色圓圈標記。出現問題的一個原因可能是本文方法僅僅根據 CTL 和 AD 的標簽來實現像素特征選擇,由于本文采用的 AD 小鼠屬于早期病變 APP 模型,因此 Aβ 蛋白沉積信息較少,加大了檢測精度的難度。
3 結論
Aβ 蛋白沉積是 AD 早期診斷和療效評估的重要靶點,Aβ 蛋白沉積信息是區分健康與癡呆病變的標志。MR 是目前無創、無輻射、性價比較高的成像方式,是 AD 早期診斷、篩查與療效評估的理想影像手段。但是,目前從 MR 圖像中檢測 Aβ 蛋白沉積信息的研究還很少,因此亟待解決。本文基于機器學習方法有效地解決了這一問題。首先將腦組織區域分割出來,然后基于像素點的灰度值形成特征數據樣本,其次設計了 6 種特征選擇分類算法進行特征的優選,通過重復操作得到最優特征集,接著基于投票法選出最終最優特征集,最后基于最終最優特征集和彈性映射方法,標記出 MR 中對應的像素點,通過與小鼠的腦組織切片圖像對應從而驗證本文方法的有效性。實驗結果表明,本文算法中 Wrapper 模式下 CAGA_SVM 算法獲得單次運行 80% 以上的分類準確率,Wrapper 模式下 CAGA_SVM 算法獲得平均約 73% 的分類準確率,且與隨機標志像素點方法比較,差異具有統計學意義,因此本文方法是有效的。
下一步工作將是采集更多小鼠腦 MR 圖像樣本和腦組織切片圖像樣本,形成基于像素的訓練對,通過集成學習建立腦 MR 圖像樣本與腦組織切片圖像樣本中的 Aβ 蛋白沉積的相關關系,以期能進一步檢測出腦 MR 圖像樣本中 Aβ 蛋白沉積的分布,從而為研究 Aβ 蛋白沉積在 AD 病變過程中的發展機制以及提高無創診斷準確率提供更有效的定量檢測手段。
引言
阿爾茨海默癥(Alzheimer’s disease,AD)是常見的早老性癡呆疾病。AD 患者的最終結局是癡呆,它是一種原因不明的、進行性的、中樞神經系統的退行性疾病,其重要病理特征為大腦皮層和海馬出現 β 淀粉樣蛋白(amyloid β-protein,Aβ)沉積,逐漸聚集形成老年斑(senile plaques,SP)。已有研究表明,Aβ 蛋白的神經毒性強,是 AD 的核心致病物質,也是 AD 防治最重要的靶點[1]。德國的研究人員稱,在 AD 患者癥狀出現前 15~20 年即開始發生 Aβ 蛋白沉積[2]。當 Aβ 蛋白沉積超過一定量時,則進入 AD 早期階段,因此結合 Aβ 蛋白沉積的檢測,將有望提高 AD 無創早期診斷準確率。目前,針對或結合 Aβ 的早期診斷與治療的研究取得了令人鼓舞的結果,這包括 Aβ 蛋白組化的診斷、免疫治療、神經因子治療等[3-6]。但由于缺乏對 Aβ 蛋白沉積的早期無創檢測技術,因此難以實現臨床應用研究,無法及時早期診斷和干預治療。由此可見,建立腦內 Aβ 蛋白沉積早期無創檢測技術顯得格外重要和緊迫。
臨床研究表明,采用示蹤劑 B 型匹茲堡復合物(Pittsburgh compound-B,PIB)配體(11C)11C-PIB,正電子發射型斷層顯像(positron emission tomo-graphy,PET)可以顯示 AD 小鼠腦皮層上的 Aβ 蛋白沉積信息[7-8]。但是該成像方式有如下問題:① 對比劑有輻射,患者對基于對比劑的成像技術都比較抵觸;② 無法顯示較小的病灶,缺乏解剖參考;③ 價格通常比較昂貴,由于癡呆屬于慢性非致命性疾病,患者通常傾向于便宜的檢測手段[9-11]。
磁共振成像(magnetic resonance imaging,MRI)是利用人體組織中氫原子核(質子)在特殊的磁場中受無線電射頻脈沖的激勵而發生核磁共振的現象,經電子計算機處理,重建出人體某一層面圖像的成像技術[12]。近年來研究發現 AD 患者或 AD 轉基因鼠腦內 Aβ 蛋白沉積及周圍鐵質過度沉積,會改變局部磁場均勻性引起失相位,導致 T2 信號的降低,起到自然對比劑作用。因此,采用 MRI 可以探測 Aβ 蛋白的沉積信息(分布、數量等)[13]。當不借助對比劑時,采用高場強磁共振(magnetic resonance,MR)和對鐵敏感的序列,Aβ 蛋白斑塊可以被 MRI 探測到[14-15]。研究發現,MR 圖像可以反映小鼠模型中存在丘腦、海馬區、新腦皮層中的 Aβ 蛋白沉積信息[16-17]。Aβ 蛋白沉積所導致的不溶性纖維會引起快速的質子橫磁化衰減,在 MR 圖像中,相關區域亮度將明顯減低,對比度會發生變化[18]。2004 年 Zhang 等[19]和 Lee 等[20]分別采用自旋回波和快速自旋回波顯示了 AD 的轉基因動物模型[APP(淀粉樣前體蛋白,amyloid precursor protein)/S1 小鼠]的離體腦切片的 Aβ 斑塊,但 Aβ 斑塊的 MRI 檢測對分辨率要求很高,且掃描耗時長(分別為 8~24 h 和 10~11 h),無法廣泛應用。
以上文獻充分說明了 MRI 可以探測 Aβ 蛋白沉積信息,但沒有涉及到如何采用圖像處理方法將該信息檢測出來,以便用于 Aβ 蛋白沉積信息的觀察、AD 診斷等。通常,圖像像素的灰度值最能直觀地表現每個區域的變化,因此本文擬通過像素特征學習方法解決這一問題。就 AD 和正常對照(control,CTL)小鼠而言,前者含有 Aβ 蛋白沉積,而后者沒有,但是從腦 MR 圖像中無法觀測到這一差異。由于 Aβ 蛋白沉積與小鼠病變狀態緊密相關,因此可將 Aβ 蛋白沉積的檢測轉化為 AD 和 CTL 的分類問題,通過優選 MR 像素,最大化分類準確率,從而獲取最能反映 Aβ 蛋白沉積信息的腦 MR 圖像像素特征。
1 基于像素特征的 MR 圖像中 Aβ 蛋白沉積檢測方法
1.1 圖像分析與方法流程圖
如圖 1 所示,左列圖像是來自于相同層的兩種類別,即 AD 鼠和 CTL 鼠的腦 MR 圖像,從圖像上并不能直接觀測到它們的差別;中間兩幅圖像為左海馬體的 MR 圖像,從中也不能判斷其是否含有 Aβ 蛋白沉積;右列兩幅圖是對應的海馬體組織切片圖像,由組織切片圖像可以發現,針對 AD,腦組織切片中含有 Aβ 蛋白沉積(圖中的褐色斑點),而對于 CTL 小鼠來說,切片中幾乎不含 Aβ 蛋白沉積。

圖 2 是本文方法的流程圖。首先利用 MRIcro 軟件手動分割腦 MR 圖像,得到小鼠的腦組織圖像;提取腦組織圖像的像素值形成像素特征矩陣,即數據樣本;隨機劃分樣本為訓練集、驗證集和測試集三部分,分別用于訓練、優化和測試本文的特征選擇分類模型;然后通過最大化 AD 的分類準確率獲取最優像素特征集,再利用投票機制得到最終的優選特征集;基于最終的優選特征集,計算測試集樣本的分類準確率;最后彈性映射最終優選特征集到 AD 鼠的 MR 圖像上,從而顯示出 Aβ 蛋白沉積的分布信息。

1.2 本文算法原理
1.2.1 腦組織圖像分割 本文采用 MRIcro 軟件對小鼠的腦 MR 圖像進行處理。由于 Aβ 蛋白沉積位于腦組織區域,因此小鼠的腦組織區域是本文分析的感興趣區(region of interest,ROI)。為了保證分割的準確性,本文通過 MRIcro,在醫生指導下手動描繪腦組織輪廓,并進行填充操作,將 ROI 作為解析圖像輸出(見圖 3),分割準確性滿足要求。

1.2.2 特征提取 基于分割后的腦組織區域,提取其像素點的灰度值形成像素特征。由于 MR 圖像是通過掃描小鼠大腦不同區域獲得的,而腦組織圖像又由這些 MR 圖像分割得到,故提取腦組織區域的像素點數目不同,特征向量的維度也不相同。為了保證特征向量維度的一致性,我們以最短的特征向量為基準,將不同長度的特征向量彈性映射到最短特征向量上。因此,特征向量集的長度取決于最短的特征向量。
1.2.3 特征選擇
(1)特征選擇模式:本文采用了兩種特征選擇模式:Wrapper 模式和 Filter 模式,前者以分類器的分類準確率為評價準則,屬于有監督學習算法;后者通過分析特征子集內部信息來衡量其好壞,屬于無監督學習算法。
(2)搜索算法:本文采用主成分分析(principal component analysis,PCA)和作者前期提出的鏈式智能體遺傳算法(chain-like agent genetic algorithm,CAGA)作為特征選擇中的搜索算法。前者通過最小化協方差矩陣對應的特征值從而獲得方差大的特征組合。后者是尋找基于最大化某個適應度函數的特征組合。PCA 已被廣泛采用,而CAGA作為一種改進智能體遺傳算法,其搜索精度和穩定性都較好,詳細信息參見文獻[21]。
(3)評價準則:Wrapper 模式下評價準則為分類器的分類準確率;Filter 模式下評價準則為特征內部信息測度準則,本文采用可分性距離判據。
本文 Filter 模式下的評價準則是可分性距離判據,是表征分類能力的評價準則之一,是評價可分性的主流標準,可替代分類準確率用于特征選擇中,其值與分類能力成正比。本文為二分類問題,幾何距離設計可分性判據作為適應度函數,即是基于幾何距離的類間距離 Sb 與類內距離 Sw 之比 ,計算式如下:
${{λ}} = \frac{{{S_b}}}{{{S_w}}}$ |
${S_b} = {({\bar c_1} - {\bar c_2})^2}$ |
${S_w} \!=\! \frac{{{P_1}}}{{{N_1}}} \! \sum\limits_{i = 1}^{{N_1}} \! {\sum\limits_{k = 1}^M {{{\left( {{c_{1ik}} \!-\! {{\bar c}_1}} \right)}^2}} } \!+\! \frac{{{P_2}}}{{{N_2}}} \! \sum\limits_{j = 1}^{{N_2}}\! {\sum\limits_{k = 1}^M {{{\left( {{c_{2jk}} \!-\! {{\bar c}_2}} \right)}^2}} } $ |
其中 Sb 表示類間方差,Sw 表示類內方差; 表示第一類樣本占總樣本的比值, 表示第二類樣本占總樣本的比值; 表示第一類樣本中第 i 個樣本的第 k 列灰度值, 表示第二類樣本中第 j 個樣本的第 k 列灰度值; 表示第一類樣本的類中心值, 表示第二類樣本類中心值。
1.2.4 投票機制 本文通過特征選擇算法獲取最優像素特征,針對同一特征選擇算法重復 m 次。對于單個特征,計算其被選中的次數 。假設閾值為 ,如果 ,則特征被選擇,否則,特征不被選擇。通常 的范圍為 。
基于投票后的最終像素特征向量,將選中的特征彈性映射到 MR 圖像中相應的像素點并標記出來,主要過程如下所述:
(1)重復 m 次特征選擇算法,得到 m 個最優特征子集;
(2)利用投票機制獲取最終最優特征向量;
(3)根據最終最優特征向量,彈性映射到原始像素特征向量上;
(4)在 MR 圖像上標記出相應的像素點;
(5)重復步驟 1–4,直至所有 AD 鼠的全部 MR 圖像被標記。
彈性映射標記 MR 圖像的具體過程如圖 4 所示。從圖中可知,0 表示該位置的特征沒有被選中,1 則表示選中,特征子集是通過二進制編碼獲取的,n 表示樣本總數。基于所有的特征子集,通過投票機制得到最終的最優特征集,而具有不同維度的原始像素特征向量又基于投票后的最優特征向量,利用彈性映射獲得。進而根據映射后的像素向量來標記出 MR 圖像上的 Aβ 蛋白沉積。

2 實驗與分析
2.1 實驗條件
本文中小鼠的 MR 圖像和組織切片圖像來源于中國科學院北京動物研究所,數據真實可靠,并經過醫學專家認可。數據信息簡述如下:該數據為兩種類別(CTL 和 AD)的小鼠模型的 MR 圖像,圖像序列為 T2 加權(TE first echo),TR:4 000 ms,ETL:8,ESP:10,數據大小 128×128。實驗中共采集了 22 只小鼠(10 只患有 AD,12 只為 CTL)的腦 MR 圖像。每只小鼠有 12 片二維圖像(DICOM 格式),由于前后幾片圖像中腦組織區域較小,因此選取每只小鼠的腦 MR 圖像中第 4~9 片圖像。此外,每只小鼠對應的腦組織切片圖像有 200 多片,根據比例關系選取與 MR 中第 4~9 圖對應的腦組織切片,這樣共得到 132 個二維圖像對(其中 MR 圖像記為樣本,6×22=132),其中 72 個樣本屬于正常小鼠,60 個樣本屬于癡呆小鼠。每個圖像樣本腦組織部分的像素被提取出來,形成 1 個特征矢量,每個特征代表 1 個像素點的灰度值,并經彈性映射與特征矢量模板進行對齊。由于模板矢量長度為 2 911,因此 132 個圖像樣本就被轉化為 132×2 911 的像素特征矩陣,其中 132 為數據樣本數,2 911 為特征數。對于隨后的像素特征選擇,這 132 個樣本被隨機分為三部分:訓練集、驗證集和測試集。這三部分互不重疊,隨機重復分配 8 次,建立 8 組樣本數據集。此外,由于每只小鼠的每層 MR 圖像均有一一對應的腦組織切片,故本文將小鼠的腦組織切片圖像作為金標準,來驗證所提算法對 MR 圖像中 Aβ 蛋白沉積信息檢測的有效性。
本文擬從如下幾個途徑來驗證本文方法的有效性:① 將由本文方法優選的 MR 像素通過彈性映射回原腦 MR 圖像,將對應的 MR 像素標記出來,標記的像素就反映了 Aβ 蛋白的沉積。將這些像素與對應的腦組織切片圖像中 Aβ 蛋白沉積斑塊進行對比,通過對比觀察來表明本文方法有效性。② 將由本文方法優選的 MR 像素特征用于分類,通過分類準確率高低來反映本文方法有效性。分類準確率高于 50%,說明有效;準確率越高,有效性越強[22]。③ 對本文設計的 6 種特征學習分類算法進行統計學分析,反映本文方法與隨機標記 MR 像素方法的差異,從而間接說明本文方法的有效性具有統計學意義。
本文實驗平臺的軟件部分:Window7 版本、64 位操作系統,開發工具 MATLAB 2012a,腦組織圖像提取工具 MRIcro medical image viewer;硬件部分:Intel(R)Core(TM)CPU i5-2310,2.9 GHz,內存 4 GB。
針對 CAGA,為了較好地平衡時間代價和優化精度,通過多次實驗統計結果確定初始種群規模為 50,初始交叉概率為 0.8,初始變異概率為 0.05,最大迭代次數設置為 30。
針對支持向量機(support vector machine,SVM),選用線性核函數。隨機森林(random forest,RF)中包含的決策樹數目的不同,對其泛化性能有一定的影響,本文通過統計實驗來選擇準確率最高時所對應的決策樹數目。兩種特征選擇模式下,針對 CAGA_RF 算法選擇 500 棵決策樹時,驗證集分類結果最高;針對 PCA_RF 算法選擇 650 棵決策樹時,驗證集結果最好。對于投票機制,運行次數 m=10, 。
2.2 實驗結果與分析
2.2.1 性能評估指標 本文采用對測試樣本分類的準確率(accuracy,Acc)、靈敏度(sensitivity,Sen)和特異度(specificity,Spe)來評估本文方法檢測 Aβ 蛋白沉積信息的準確性。TP 為真陽性,即實際為 AD 鼠圖像并且被判定為 AD 鼠圖像;TN 為真陰性,即實際為 CTL 鼠圖像并且被判定為 CTL 鼠圖像;FP 為假陽性,即實際為 CTL 鼠圖像但被判為 AD 鼠圖像;FN 為假陰性,即實際為 AD 鼠圖像但被判為 CTL 鼠圖像。計算公式如下:
${\rm{Acc}} = \frac{{{\rm{TP}} + {\rm{TN}}}}{{{\rm{TP}} + {\rm{FP}} + {\rm{TN}} + {\rm{FN}}}}$ |
${\rm{Sen}} = \frac{\rm{TP}}{\rm{TP + FN}}$ |
${\rm{Spe}} = \frac{\rm{TN}}{\rm{TN + FP}}$ |
2.2.2 Aβ 蛋白沉積信息檢測效果分析 本文通過 MR 圖像的 AD 和 CTL 分類結果,間接檢測 MR 圖像中的 Aβ 蛋白沉積信息。表 1 給出了在 Filter 和 Wrapper 兩種特征選擇模式下,SVM 和 RF 兩種分類器在 8 組原始像素數據集上的平均分類結果、最優分類結果及用于分類的特征數目。

從表 1 可以看出,6 種算法基本上取得了高于 50% 的準確率,這說明基于 MR 圖像檢測是否含有 Aβ 蛋白沉積這一方式是有效的。基于 Filter 模式下的 CAGA_SVM 取得了最高約 77%、平均約 73% 的準確率,這已經可以形成一個強分類器了。本文檢測 Aβ 蛋白沉積信息的方法可以提高基于 MR 圖像判斷 AD 的準確率,這為相關研究提供了新的思路和方法。
圖 5 顯示了 6 種算法重復 8 次的分類準確率曲線。從圖 5 可以看出,除了 PCA_SVM 的準確率在 50% 附近波動,其他 5 種算法均顯著高于 50%,因此是有效的。Filter 模式下,CAGA+SVM 的分類準確率比較穩定;基于 Wrapper 模式下的 CAGA+SVM 的單次分類準確率最高,達到 80.77%。值得注意的是,基于 Filter 模式下的 CAGA+SVM 好于基于 Wrapper 模式下的分類準確率,這說明本文采用的可分性距離判據性能較好。進一步比較 Filter 模式下基于 SVM 和 RF 兩種分類器下 CAGA 的特征選擇能力,從表 1和圖 5 均可看出,相較于 RF,基于 SVM 分類器的分類準確率較優,平均準確率為 72.60%,單次運行最高準確率為 76.92%。此外,8 次實驗結果表明,CAGA_SVM 的穩定性較好,可能的原因是 SVM 較 RF 更適合于本文設計的可分性距離判據,基于可分性距離判據獲得的最優特征子集更適合 SVM 的訓練和測試。

2.2.3 統計學分析 為了表明本文算法的分類準確率較隨機分類算法具有顯著的差異,將這六種算法的分類準確率與隨機分類的準確率進行了 t 檢驗。六種算法的 P 值分別如下:CAGA_SVM(Filter)算法為 0.004 7,CAGA_RF(Filter)算法為 0.024 7,PCA_SVM(Filter)算法為 0.426 1,PCA_RF(Filter)算法為 0.033 3,CAGA_SVM(Wrapper)算法為 0.007 1,CAGA_RF(Wrapper)算法為 0.044 3。除PCA_SVM(Filter)以外,其他五種算法的 P 值均小于 0.05,其中 CAGA_SVM(Filter)和 CAGA_SVM(Wrapper)的 P 值小于 0.01。
2.2.4 MR 圖像中 Aβ 蛋白沉積信息檢測的可視化效果 本節實驗根據 CAGA 優選出的最優特征子集,即最優像素特征集,及其坐標信息,標記出小鼠的腦 MR 圖像中相應的像素點,通過與其對應的海馬體組織切片相對應,從而檢測 Aβ 蛋白沉積位置。圖 6 中左列圖像分別是小鼠的左、右海馬體的 MR 圖像;中間列為 Filter 模式下利用 CAGA+SVM 集成分類算法檢測到的 Aβ 蛋白沉積在海馬區的分布圖像;右列分別是對應的左、右海馬體組織切片圖像。通過比較 MR 圖像中海馬區的 Aβ 蛋白沉積信息區域和對應的海馬體組織切片中 Aβ 蛋白沉積的分布,發現兩者具有較大的一致性(相同顏色圓圈標記處)。這說明,本文方法能較為準確地檢測出 Aβ 蛋白沉積信息,實現了 MR 圖像中 Aβ 蛋白沉積信息檢測的可視化。

從圖 6 中還可以看出,左右海馬體的 MR 圖像上并不能直觀地像組織切片圖像那樣發現 Aβ 蛋白沉積信息,而通過本文的方法可以基于 MR 圖像,將腦組織切片圖像中海馬體區域的主要 Aβ 蛋白沉積斑塊區域都顯示在 MR 圖像中,幾乎沒有漏檢。圖中用不同顏色的橢圓分別標記出 4 個區域的 Aβ 蛋白沉積,因此采用本文方法可以通過腦 MR 圖像檢測出 Aβ 蛋白沉積的相關信息。由于 MR 圖像具有無創、無損、性價比高等優點,因此本文方法容易實現臨床推廣。但是,從本文方法標記的圖像中可以發現,在 MR 圖像中還存在一些被誤判為 Aβ 蛋白沉積的像素點,圖中用紫色圓圈標記。出現問題的一個原因可能是本文方法僅僅根據 CTL 和 AD 的標簽來實現像素特征選擇,由于本文采用的 AD 小鼠屬于早期病變 APP 模型,因此 Aβ 蛋白沉積信息較少,加大了檢測精度的難度。
3 結論
Aβ 蛋白沉積是 AD 早期診斷和療效評估的重要靶點,Aβ 蛋白沉積信息是區分健康與癡呆病變的標志。MR 是目前無創、無輻射、性價比較高的成像方式,是 AD 早期診斷、篩查與療效評估的理想影像手段。但是,目前從 MR 圖像中檢測 Aβ 蛋白沉積信息的研究還很少,因此亟待解決。本文基于機器學習方法有效地解決了這一問題。首先將腦組織區域分割出來,然后基于像素點的灰度值形成特征數據樣本,其次設計了 6 種特征選擇分類算法進行特征的優選,通過重復操作得到最優特征集,接著基于投票法選出最終最優特征集,最后基于最終最優特征集和彈性映射方法,標記出 MR 中對應的像素點,通過與小鼠的腦組織切片圖像對應從而驗證本文方法的有效性。實驗結果表明,本文算法中 Wrapper 模式下 CAGA_SVM 算法獲得單次運行 80% 以上的分類準確率,Wrapper 模式下 CAGA_SVM 算法獲得平均約 73% 的分類準確率,且與隨機標志像素點方法比較,差異具有統計學意義,因此本文方法是有效的。
下一步工作將是采集更多小鼠腦 MR 圖像樣本和腦組織切片圖像樣本,形成基于像素的訓練對,通過集成學習建立腦 MR 圖像樣本與腦組織切片圖像樣本中的 Aβ 蛋白沉積的相關關系,以期能進一步檢測出腦 MR 圖像樣本中 Aβ 蛋白沉積的分布,從而為研究 Aβ 蛋白沉積在 AD 病變過程中的發展機制以及提高無創診斷準確率提供更有效的定量檢測手段。