隨著中國人口老齡化程度的加劇,阿爾茨海默癥(AD)患者數量迅速增加。AD 是一種發病進程緩慢但不可逆的持續性神經功能障礙,目前無法根治。近年來大量研究者開始探索如何盡早發現 AD,從而提前干預 AD 患者病程,為 AD 的有效治療提供幫助。影像遺傳組學是近年來發展起來的一種將醫學影像數據和遺傳組學數據相結合的研究診斷方法,它可以從高通量醫學影像數據和遺傳組學數據中挖掘出有效信息來研究 AD 患者的認知功能狀態變化情況,對 AD 患者的早期發現和治療提供有效的引導。本文概述了磁共振圖像(MRI)與遺傳變異的關聯分析及其在 AD 上的研究進展,具體根據關聯分析對象的復雜程度將其分類為候選腦表型、候選遺傳變異、全基因組遺傳變異和全腦體素,并分別簡述分類后的腦表型和遺傳變異關聯分析所對應的具體方法。最后提出了一些目前仍未解決的問題,如表型的選取以及候選基因多態性有限等。
引用本文: 鄧嵐, 王遠軍. 阿爾茨海默癥的影像遺傳組學研究進展. 生物醫學工程學雜志, 2019, 36(1): 140-145. doi: 10.7507/1001-5515.201805061 復制
引言
阿爾茨海默癥(Alzheimer's disease,AD)或稱腦退化癥,俗稱老年癡呆癥,是一種發病進程緩慢且隨著時間不斷惡化的持續性神經功能障礙。最常見的早期癥狀是難以記住近期發生過的事情,隨著疾病的惡化,患者逐漸喪失生活自理能力,最終死于感染等并發癥。 AD 的真正成因至今不明,但它有一個長期的臨床前期特征:在輕度認知障礙(mild cognitive impairment,MCI)階段前期,也就是出現失憶癥狀的前十年中,大腦影像特征和腦脊液生物標志隨著記憶的輕微下降而持續改變[1-2]。早期基于分子的 AD 研究發現,在 AD 受試者中淀粉樣前體蛋白(amyloid precursor protein,APP)和早老素(psen1 和 psen2)進行基因編碼時出現罕見的高度滲透突變,表現為可預測的顯性常染色體的轉變。這些突變直接影響了 APP 的編碼過程,從而導致淀粉樣 β 肽(amyloid-β peptide,A-β)在大腦集中沉積。除了這些罕見的突變,還存在很大一部分頻繁的突變,并且表現為風險修正而不是因果因素,這些頻繁的突變已經被研究者鑒定為與遲發性阿爾茨海默癥(late-onset Alzheimer’s disease,LOAD)有關。這些結果表明 AD 受遺傳因素影響很大[3]。此后,研究者為發現 AD 的遺傳生物標志而對影像遺傳組學投入了大量的研究。如 Khondoker 等[4]發現 HOMER2(rs1256429;intronic,P = 8.7 × 10–10)、EOMES(rs2724509;flanking)、JAM2(rs2829841;intronic)和 WEE1(rs10770042;coding)等與 AD 相關的遺傳標志物。隨著中國人口老齡化程度的加劇,AD 患者數量逐漸增加,大量研究者開始探尋預后生物標志,這些標志能識別出有認知下降風險的受試者,從而為 AD 的預防和治療提供幫助。目前,已有研究證明了各種個體生物標志物(如認知測試、流體標記、成像措施)和一些單獨的遺傳標記[如載脂蛋白 E(apolipoprotein E,APOE)、成像標記的海馬體積和形狀、皮質區域體積和厚度、正電子發射斷層掃描(positron emission computed tomography,PET)異常等]的有效性[5]。本文主要介紹了 MRI 腦圖像數據與遺傳變異數據關聯分析的方法以及目前在 AD 上的研究進展。根據關聯分析對象的復雜程度將其分類為候選腦表型、候選遺傳變異、全基因組遺傳變異和全腦體素,并分別簡述兩兩關聯分析的方法及其在 AD 上的研究進展。本文最后還提出了一些目前仍未解決的問題,如表型的選取以及候選基因多態性有限等。
1 影像遺傳組學
影像遺傳組學是隨著高通量組學數據和多模態成像數據的發展而出現的一個新興的研究領域。主要目的是從高通量成像數據[如癌癥研究中的病理組織學圖像、腦研究中的磁共振圖像(magnetic resonance imaging,MRI)和 PET 圖像數據]與組學數據[如單核苷酸多態性(single nucleotide polymorphisms,SNPs)、脫氧核糖核苷酸(deoxyribonucleic acid,DNA)序列、核糖核酸(ribonucleic acid,RNA)表達、甲基化、表觀遺傳標記、蛋白質組學和代謝組學數據等]中獲取有效信息[6]。橋接成像和遺傳變異并探索它們的聯系將為正常或無序的生物結構和功能的表型特征和遺傳機制提供重要的新見解,這也將為新的疾病診斷、治療和預防模式提供依據[7]。早期的影像遺傳組學以明確遺傳變異與人腦結構和功能的關聯為目的,即人腦結構和功能特性受哪些基因調控以及遺傳變異對人腦結構和功能特性的影響,而之后的神經影像遺傳組學擴展到了遺傳與環境因素(病因)以及人腦結構和功能指標(內表型)與疾病或行為(外表型)之間的關系,包括兩兩關系、遺傳與環境的交互作用以及病因-內表型-外表型的傳遞通路研究(見圖 1)。闡明病因-內表型-外表型的異常通路,有助于進行神經精神疾病的客觀生物學分類,明確遺傳變異導致腦疾病的神經機制,發現通路特異性影像評估指標,制訂個體化的治療方案,指導治療新手段的研發以及設計新一代疾病動物模型。總的來說,影像遺傳組學的研究,是將影像學和基因組學的信息相結合,試圖發現特定遺傳學標記對腦結構、功能和腦網絡組的調控機制,從而解析腦功能及腦疾病的神經機制和內在遺傳機制,以達到預測疾病的目的。通過基因影像水平的腦結構、功能和腦網絡組的研究方法,可以發現 AD 所對應的特定遺傳學標記。影像遺傳組學從基因、腦影像以及行為等多層次相結合的角度進行系統研究,開辟了從微觀到宏觀不同層次間研究的橋梁。

影像遺傳組學是一個比較新穎的研究領域,研究進展很快。早期的研究使用最簡單的方法來研究遺傳標記和成像表型之間的成對單變量關聯。為了適應涉及多個遺傳標記和多個成像表型之間更靈活的關聯,最近的研究采用多元回歸和多變量模型,同時結合機器學習方法和先驗知識。其中,為了提高統計準確性和減少假陽性,研究者進行了元分析研究,以定量地合成來自多個獨立分析的成像基因組結果。為了尋找“缺失遺傳力”(即科研人員在經年累月地進行研究后還是未能找到許多人類疾病和特征背后的遺傳因素),進行了上位性研究,以研究遺傳相互作用對成像表型的影響。為了識別具有統計學效力的生物學意義上的發現,提出了成像遺傳富集分析,以在成像和基因組域中尋找關聯[8]。
隨著影像遺傳組學的興起,國內外相繼推出了多個大規模影像遺傳組學研究計劃。如神經影像遺傳學研究計劃(Alzheimer's Disease Neuroimaging Initiative,ADNI)是 2003 年在美國發起的針對 AD 的神經影像遺傳組學多中心協作組研究計劃,包含健康老年人、MCI 及 AD 患者的神經影像、遺傳、神經認知、血液和腦脊液生物標記物數據。ADNI 的目標是研究 AD 的發生機制、進展機制及潛在的治療手段。目前,研究最多的影像指標是反映人腦結構、功能和連接特性的神經影像指標。增強神經影像遺傳組學元分析計劃(Enhancing Neuroimaging Genetics through Meta-analysis,ENIGMA)是 2009 年由美國南加州大學 Paul Thompson 教授等發起的神經影像遺傳組學元分析協作組,全世界超過 300 名研究者和 185 個機構參與,匯集了超過 30 000 例的健康或神經精神疾病被試。ENIGMA 協作組把全世界的神經影像遺傳組學數據匯集到一起,以了解遺傳與人腦結構和功能的關聯。目前形成了 30 多個工作組,包括疾病工作組、基因組學工作組、算法開發組、健康變異組以及與其他協作組合作小組等。
2 影像遺傳組學的分析方法
本文將進行關聯分析的對象分為候選腦表型(指特定的腦表型,如海馬體積和形狀)、候選遺傳變異(指特定的基因或特定的基因變異)、全基因組遺傳變異和全腦體素四類。因此,遺傳變異與腦表型的關聯分析(流程如圖 2 所示)可以歸納為 4 類:候選遺傳變異與候選腦表型的關聯分析;全基因組遺傳變異與候選腦表型的關聯分析;候選遺傳變異與全腦體素的關聯分析;全基因組遺傳變異與全腦體素的關聯分析。

2.1 候選遺傳變異與候選腦表型的關聯分析
候選遺傳變異與候選腦表型的關聯分析是一種單對單的分析方法,采用單變量統計分析研究候選遺傳變異和候選腦表型之間的關系,是最簡單的一種影像遺傳組學研究方法。候選遺傳變異和候選腦表型的選取需要明確的科學假設。例如,APOE 是 AD 的風險基因,海馬萎縮是該病最重要的病理特征,據此假設 APOE 基因是通過控制海馬體積來影響 AD 的,即可以通過研究正常人和 AD 患者中 APOE 基因與海馬體積的關聯驗證該假設。Habes 等[9]假設 APOE ε4 通過控制腦體積來影響 AD,并通過構建線性回歸模型來研究 APOE ε4 與腦萎縮之間的關系。其中總顱內體積歸一化感興趣區(region of interest,ROI)體積作為輸出,年齡、APOE ε4 載體狀態、性別作為預測因子,以此來調整研究隊列。
該方法既可以研究單個遺傳變異與單個腦表型的關聯,也可以逐個研究多個遺傳變異與多個腦表型的關聯,后者需要進行多重比較校正。如 Ramirez 等[10]在小樣本中通過線性回歸計算皮質厚度和海馬橈骨距離來研究 AD 風險等位基因狀態和基因表達水平之間的關系。用置換分析(置換預測變量)對得到的三維(3-dimension,3D)統計圖譜進行多重矯正。該方法應用集合級推理方法,并且基于通過了特定先驗閾值(該實驗中設置為 0.01)的點的數目定義每個映射的單個校正 p 值[11]。結果發現風險基因 MS4A6A 的一個 SNP(rs610932)和風險基因 ABCA7 的一個 SNP(rs3764650)與皮質和海馬萎縮表現出顯著的相關性。
2.2 全基因組遺傳變異與候選腦表型的關聯分析
全基因組遺傳變異與候選腦表型的關聯分析是一種多對單的分析方法,研究多個遺傳變異與單個腦表型的關系。根據關聯分析的方法又可細分為以下幾種。
全基因組關聯分析(genome-wide association study,GWAS)是識別疾病相關遺傳變異的重要研究方法,以疾病作為表型,在全基因組水平尋找與疾病相關聯的遺傳變異位點。如 Gibson 等[12]利用全基因組關聯數據探索 AD 和重度抑郁癥(major depressive disorder,MDD)之間的關聯以及是否有共享遺傳結構的存在。Nho 等[13]利用 GWAS 發現了 PSEN1 中罕見變異與早發性阿爾茨海默癥(early-onset Alzheimer’s disease,EOAD)的顯著關聯。同樣的研究思路也可以用于尋找與腦表型相關聯的遺傳變異。例如,Kim 等[14]以內嗅皮質厚度的雙側均值作為 AD 相關的候選內表型與 GWAS 進行關聯分析。實驗結果為: FANCC 基因中有 16 個外顯子的罕見變異與內嗅皮質厚度顯著相關。使用分散的方法將 FAF1、RFX7、LYPLAL1 和 GALGA3 映射到 7 個進化保守區后,發現這些基因與內嗅皮質厚度顯著相關。在進一步的分析中發現 FANCC 中的功能外顯子的罕見變異體與海馬體積和腦脊液(cerebrospinal fluid,CSF)Aβ1-42 也顯著相關。
由于 GWAS 分析需要進行嚴格的多重比較校正,使得很多有意義的微效位點被忽略掉。為此,多種基于先驗知識和數據驅動的更為復雜的分析方法被用來解決該問題。基因集富集分析(gene set enrichment analysis,GSEA)與多基因風險分數(polygenic risk scores,PRSs)分析是最具有代表性的基于先驗知識研究多位點聯合效應的方法。GSEA 的基本原理是先根據共同的生物學屬性定義基因集,將不同位點歸入基因集,然后計算每個基因集與腦表型的富集分數,檢驗其顯著性。若結果呈顯著性,則說明這個基因集及其對應的位點與所選擇的腦表型有關聯。Yao 等[8]通過成像遺傳富集分析(analysis of imaging genetic enrichment,IGEA)聯合考慮有意義的基因集(gene set,GS)和腦回路(brain circuit,BC)之間的關聯,通過定量特征(quantitative traits,QT)檢查給定的 GS-BC 對是否富集在基因列表中。
PRSs 分析方法依據不斷更新的 GWAS 的元分析結果來計算全基因組范圍內的 SNPs 加性效應。PRSs 是一個基于多個遺傳位點的變異及其相關權重的數值,當考慮到多種基因變異時,它是對這種特性的最佳預測。Mormino 等[15]使用來自阿爾茨海默病國際基因組學(the International Genomics of Alzheimer’s Project,IGAP)匯總統計的數據進行關于 AD 的全基因組關聯研究:計算 PRSs 并評估 PRSs 與 AD 標志物之間的關聯。研究結果發現在沒有癡呆的個體中檢測到與分布在整個基因組中的共同遺傳風險位點相關的效應。說明這種遺傳風險在早期生活中就影響著患者,并使個體更容易受到晚年認知障礙的影響。Desikan 等[16]評估了將 AD 相關的 SNPs 和 APOE 狀態結合到多基因危險評分(polygenic hazard scores,PHS)中用于預測年齡特異性發展 AD 的風險的可行性。Chauhan 等[17]基于大樣本研究了 AD 患者的 24 個風險位點與腦表型的關聯。研究結果發現新的 AD 遺傳風險變異體可能會導致正常老年人大腦老化。Foley 等[18]使用 T1 加權結構和擴散加權掃描分析 AD PRSs 與腦成像參數之間的關聯性。Darst 等[19]探索了使用途徑特異性 PRSs 作為 AD 相關生物標志物和認知功能早期改變預測因子的潛力。
以上這兩種方法均可以合并多個微效 SNPs 的效應以提高總體效應,但都不能研究 SNPs 之間的交互效應。數據驅動方法則可以彌補這一不足,這是一種從數據抽象出模型的方法。Kong 等[20]在 ADNI 中獲取了 343 個 MCI 受試者的磁共振(magnetic resonance,MR)數據和全基因數據,并使用 R 函數“coxph”來擬合 Cox 回歸模型(Cox proportional hazards model)。該實驗分別擬合了三個模型:① 臨床認知模型:將 Cox 回歸模型與人口統計、臨床和認知(ADAS-Cog 評分)預測因子以及 APOE 擬合。② 成像遺傳學模型:將 Cox 回歸模型與人口統計學、影像學和染色體組擬合。③ 傳統的成像遺傳學模型:將從 GWAS 中獲得的全基因組中前 101 個 SNP 的主成分添加到模型 2 中。接著使用接受操作特性(receiving operating characteristic,ROC)來研究候選模型的預測性能,該文獻通過計算曲線下面積(area under the curve,AUC)來測量生存模型的預測性能,最后發現模型 2(AUC = 0.95)和模型 3(AUC = 0.90)具有相對模型 1(AUC = 0.75)較高的預測性能。它不依賴于先驗假設,而是應用諸如多因子降維法、主成分分析法、獨立成分分析法等方法研究基因的生物學效應、基因之間的交互效應以及表型的多基因遺傳屬性等[21-22]。
2.3 候選遺傳變異與全腦體素的關聯分析
候選遺傳變異與全腦體素的關聯分析是一種單對多的分析方法,研究特定遺傳變異與全腦體素水平的腦表型的關系。全腦體素水平的腦表型可以用多種方法刻畫,如基于體素的灰質體積分析、功能連接分析、腦激活分析等。在此方面,國內學者做了大量研究工作。Zhang 等[23]通過用大樣本中國人的成像遺傳策略發現 RS74337 本身或連鎖不平衡的變化可以為橋接整合因子 1(bridging integrator 1,BIN1)提供神經發生機制,從而進一步證實遺傳和神經成像結合檢測 AD 風險個體的可能性。Zhang 等[24]研究了 APOE 和 KIBRA(RS17070145)對 267 名健康青年腦功能連接性密度(functional connectivity density,FCD)的加性和上位性作用。通過基于體素的 FCD 分析來識別與 APOE-KIBRA 相互作用有關的腦區。加性效應顯示隨著 APOE 和 KIBRA 等位基因數目的增加,左側海馬旁回和右側顳中回 FCD 降低,雙側枕中回 FCD 升高。上位性效應顯示背外側前額葉皮質(dorsolateral prefrontal cortex,DLPFC)的 FCD 中有 APOE-KIBRA 相互作用。DLPFC 的 FCD 在 KIBLT TT 純合子中顯示 APOE 風險等位基因依賴性降低(ε2 > ε3 > ε4),但在 KiBax C 載體中 APOE 風險等位基因依賴性增加(ε2 < ε3 < ε4)。FCD 僅在 2 個極端亞組的加性和上位性分析中出現顯著差異。這些結果表明,APOE 和 KIBRA 在健康青年中對腦連接性具有區域依賴性和上位性作用。
2.4 全基因組遺傳變異與全腦體素的關聯分析
全基因組遺傳變異與全腦體素的關聯分析是一種多對多的分析方法,研究多個遺傳變異與多個腦表型的關系。這類分析包括大規模單變量線性模型和多變量分析方法。多變量分析法較為常見,因為無論是一組 SNPs 還是全腦體素,它們都不是互相獨立的,因而需要用多變量分析方法來研究它們之間的關系。例如,并行獨立成分分析方法分別提取遺傳和影像的獨立成分,之后計算遺傳和影像獨立成分之間的關聯。并行獨立成分分析方法也可以結合已知基因功能的先驗知識來提高性能。此外,多變量分析方法還有偏最小二乘法、典型相關分析和減秩回歸等[25]。這些方法常常被綜合或改進后使用。Zille 等[26]結合稀疏回歸模型和典型相關分析模型分析 SNPs 與功能磁共振(functional magnetic resonance imaging,fMRI)數據來研究腦表型與基因的相關性。Yan 等[27]基于稀疏典型相關分析(sparse canonical correlation analysis,SCCA)提出一個新的模型——稀疏聯合多類分類和關聯分析(sparse joint multi-class classification and association analysis,SMCA),用以探索表型與基因的關聯。
3 總結和展望
影像遺傳組學是一門新興的融合了多門學科的交叉研究領域,其主要目的是從高通量成像(如癌癥研究中的病理組織學圖像、腦研究中的 MRI 和 PET 圖像)數據和組學(如 SNPs、DNA 序列、RNA 表達、甲基化、表觀遺傳標記、蛋白質組學和代謝組學)數據中獲取有效信息。它通過對多個層面的考量來盡量展現遺傳與表型的關系,以推動對疾病的早期發現、預防甚至治療,目前主要用于神經精神疾病的相關研究。本文從醫學影像與基因組學的結合方法入手,選取了影像中的 MRI 與基因組學中的基因變異作為關聯分析的數據。分別根據使用數據的復雜程度將關聯分析分為四類。簡單介紹了具體將數據進行關聯分析的方法并列舉了其在 AD 上的研究。
盡管目前世界各國的研究者在遺傳影像組學取得了一些重要成果。但仍然存在一些不確定性問題。本文從兩個方面對其進行闡述:① 從表型概念考慮。在內表型的理論討論中,即遺傳變異-腦表型(內表型)-疾病或行為(外表型),最主要的是討論如何確定表型,即規定與神經精神疾病和遺傳有關的內表型。很多神經精神疾病的癥狀互相融合,不同潛在病因的診斷可能是相同的,這種診斷異質性很可能會削弱甚至消除內表型和疾病的關聯。因此,太過依賴于臨床診斷有可能忽略與其癥狀相同的其他病因的影響。② 從單個遺傳變異的數據處理方面考慮。大多數的成像遺傳學研究是在已知的候選基因框架內進行的,并且大多集中在有限數量的功能性基因多態性。這種基因多態性是在基因編碼產生能夠影響特定的神經系統的蛋白時出現的,并且這些遺傳變異與神經表型和精神病理學的關聯大部分跟報道過的正關聯或空關聯都不一致。最近 GWAS 已成功確定新的候選基因(如 KTN1(16)),并證實了之前不確定的基因[如 SIRT1(33,62,63)],有望擴大候選基因框架。
引言
阿爾茨海默癥(Alzheimer's disease,AD)或稱腦退化癥,俗稱老年癡呆癥,是一種發病進程緩慢且隨著時間不斷惡化的持續性神經功能障礙。最常見的早期癥狀是難以記住近期發生過的事情,隨著疾病的惡化,患者逐漸喪失生活自理能力,最終死于感染等并發癥。 AD 的真正成因至今不明,但它有一個長期的臨床前期特征:在輕度認知障礙(mild cognitive impairment,MCI)階段前期,也就是出現失憶癥狀的前十年中,大腦影像特征和腦脊液生物標志隨著記憶的輕微下降而持續改變[1-2]。早期基于分子的 AD 研究發現,在 AD 受試者中淀粉樣前體蛋白(amyloid precursor protein,APP)和早老素(psen1 和 psen2)進行基因編碼時出現罕見的高度滲透突變,表現為可預測的顯性常染色體的轉變。這些突變直接影響了 APP 的編碼過程,從而導致淀粉樣 β 肽(amyloid-β peptide,A-β)在大腦集中沉積。除了這些罕見的突變,還存在很大一部分頻繁的突變,并且表現為風險修正而不是因果因素,這些頻繁的突變已經被研究者鑒定為與遲發性阿爾茨海默癥(late-onset Alzheimer’s disease,LOAD)有關。這些結果表明 AD 受遺傳因素影響很大[3]。此后,研究者為發現 AD 的遺傳生物標志而對影像遺傳組學投入了大量的研究。如 Khondoker 等[4]發現 HOMER2(rs1256429;intronic,P = 8.7 × 10–10)、EOMES(rs2724509;flanking)、JAM2(rs2829841;intronic)和 WEE1(rs10770042;coding)等與 AD 相關的遺傳標志物。隨著中國人口老齡化程度的加劇,AD 患者數量逐漸增加,大量研究者開始探尋預后生物標志,這些標志能識別出有認知下降風險的受試者,從而為 AD 的預防和治療提供幫助。目前,已有研究證明了各種個體生物標志物(如認知測試、流體標記、成像措施)和一些單獨的遺傳標記[如載脂蛋白 E(apolipoprotein E,APOE)、成像標記的海馬體積和形狀、皮質區域體積和厚度、正電子發射斷層掃描(positron emission computed tomography,PET)異常等]的有效性[5]。本文主要介紹了 MRI 腦圖像數據與遺傳變異數據關聯分析的方法以及目前在 AD 上的研究進展。根據關聯分析對象的復雜程度將其分類為候選腦表型、候選遺傳變異、全基因組遺傳變異和全腦體素,并分別簡述兩兩關聯分析的方法及其在 AD 上的研究進展。本文最后還提出了一些目前仍未解決的問題,如表型的選取以及候選基因多態性有限等。
1 影像遺傳組學
影像遺傳組學是隨著高通量組學數據和多模態成像數據的發展而出現的一個新興的研究領域。主要目的是從高通量成像數據[如癌癥研究中的病理組織學圖像、腦研究中的磁共振圖像(magnetic resonance imaging,MRI)和 PET 圖像數據]與組學數據[如單核苷酸多態性(single nucleotide polymorphisms,SNPs)、脫氧核糖核苷酸(deoxyribonucleic acid,DNA)序列、核糖核酸(ribonucleic acid,RNA)表達、甲基化、表觀遺傳標記、蛋白質組學和代謝組學數據等]中獲取有效信息[6]。橋接成像和遺傳變異并探索它們的聯系將為正常或無序的生物結構和功能的表型特征和遺傳機制提供重要的新見解,這也將為新的疾病診斷、治療和預防模式提供依據[7]。早期的影像遺傳組學以明確遺傳變異與人腦結構和功能的關聯為目的,即人腦結構和功能特性受哪些基因調控以及遺傳變異對人腦結構和功能特性的影響,而之后的神經影像遺傳組學擴展到了遺傳與環境因素(病因)以及人腦結構和功能指標(內表型)與疾病或行為(外表型)之間的關系,包括兩兩關系、遺傳與環境的交互作用以及病因-內表型-外表型的傳遞通路研究(見圖 1)。闡明病因-內表型-外表型的異常通路,有助于進行神經精神疾病的客觀生物學分類,明確遺傳變異導致腦疾病的神經機制,發現通路特異性影像評估指標,制訂個體化的治療方案,指導治療新手段的研發以及設計新一代疾病動物模型。總的來說,影像遺傳組學的研究,是將影像學和基因組學的信息相結合,試圖發現特定遺傳學標記對腦結構、功能和腦網絡組的調控機制,從而解析腦功能及腦疾病的神經機制和內在遺傳機制,以達到預測疾病的目的。通過基因影像水平的腦結構、功能和腦網絡組的研究方法,可以發現 AD 所對應的特定遺傳學標記。影像遺傳組學從基因、腦影像以及行為等多層次相結合的角度進行系統研究,開辟了從微觀到宏觀不同層次間研究的橋梁。

影像遺傳組學是一個比較新穎的研究領域,研究進展很快。早期的研究使用最簡單的方法來研究遺傳標記和成像表型之間的成對單變量關聯。為了適應涉及多個遺傳標記和多個成像表型之間更靈活的關聯,最近的研究采用多元回歸和多變量模型,同時結合機器學習方法和先驗知識。其中,為了提高統計準確性和減少假陽性,研究者進行了元分析研究,以定量地合成來自多個獨立分析的成像基因組結果。為了尋找“缺失遺傳力”(即科研人員在經年累月地進行研究后還是未能找到許多人類疾病和特征背后的遺傳因素),進行了上位性研究,以研究遺傳相互作用對成像表型的影響。為了識別具有統計學效力的生物學意義上的發現,提出了成像遺傳富集分析,以在成像和基因組域中尋找關聯[8]。
隨著影像遺傳組學的興起,國內外相繼推出了多個大規模影像遺傳組學研究計劃。如神經影像遺傳學研究計劃(Alzheimer's Disease Neuroimaging Initiative,ADNI)是 2003 年在美國發起的針對 AD 的神經影像遺傳組學多中心協作組研究計劃,包含健康老年人、MCI 及 AD 患者的神經影像、遺傳、神經認知、血液和腦脊液生物標記物數據。ADNI 的目標是研究 AD 的發生機制、進展機制及潛在的治療手段。目前,研究最多的影像指標是反映人腦結構、功能和連接特性的神經影像指標。增強神經影像遺傳組學元分析計劃(Enhancing Neuroimaging Genetics through Meta-analysis,ENIGMA)是 2009 年由美國南加州大學 Paul Thompson 教授等發起的神經影像遺傳組學元分析協作組,全世界超過 300 名研究者和 185 個機構參與,匯集了超過 30 000 例的健康或神經精神疾病被試。ENIGMA 協作組把全世界的神經影像遺傳組學數據匯集到一起,以了解遺傳與人腦結構和功能的關聯。目前形成了 30 多個工作組,包括疾病工作組、基因組學工作組、算法開發組、健康變異組以及與其他協作組合作小組等。
2 影像遺傳組學的分析方法
本文將進行關聯分析的對象分為候選腦表型(指特定的腦表型,如海馬體積和形狀)、候選遺傳變異(指特定的基因或特定的基因變異)、全基因組遺傳變異和全腦體素四類。因此,遺傳變異與腦表型的關聯分析(流程如圖 2 所示)可以歸納為 4 類:候選遺傳變異與候選腦表型的關聯分析;全基因組遺傳變異與候選腦表型的關聯分析;候選遺傳變異與全腦體素的關聯分析;全基因組遺傳變異與全腦體素的關聯分析。

2.1 候選遺傳變異與候選腦表型的關聯分析
候選遺傳變異與候選腦表型的關聯分析是一種單對單的分析方法,采用單變量統計分析研究候選遺傳變異和候選腦表型之間的關系,是最簡單的一種影像遺傳組學研究方法。候選遺傳變異和候選腦表型的選取需要明確的科學假設。例如,APOE 是 AD 的風險基因,海馬萎縮是該病最重要的病理特征,據此假設 APOE 基因是通過控制海馬體積來影響 AD 的,即可以通過研究正常人和 AD 患者中 APOE 基因與海馬體積的關聯驗證該假設。Habes 等[9]假設 APOE ε4 通過控制腦體積來影響 AD,并通過構建線性回歸模型來研究 APOE ε4 與腦萎縮之間的關系。其中總顱內體積歸一化感興趣區(region of interest,ROI)體積作為輸出,年齡、APOE ε4 載體狀態、性別作為預測因子,以此來調整研究隊列。
該方法既可以研究單個遺傳變異與單個腦表型的關聯,也可以逐個研究多個遺傳變異與多個腦表型的關聯,后者需要進行多重比較校正。如 Ramirez 等[10]在小樣本中通過線性回歸計算皮質厚度和海馬橈骨距離來研究 AD 風險等位基因狀態和基因表達水平之間的關系。用置換分析(置換預測變量)對得到的三維(3-dimension,3D)統計圖譜進行多重矯正。該方法應用集合級推理方法,并且基于通過了特定先驗閾值(該實驗中設置為 0.01)的點的數目定義每個映射的單個校正 p 值[11]。結果發現風險基因 MS4A6A 的一個 SNP(rs610932)和風險基因 ABCA7 的一個 SNP(rs3764650)與皮質和海馬萎縮表現出顯著的相關性。
2.2 全基因組遺傳變異與候選腦表型的關聯分析
全基因組遺傳變異與候選腦表型的關聯分析是一種多對單的分析方法,研究多個遺傳變異與單個腦表型的關系。根據關聯分析的方法又可細分為以下幾種。
全基因組關聯分析(genome-wide association study,GWAS)是識別疾病相關遺傳變異的重要研究方法,以疾病作為表型,在全基因組水平尋找與疾病相關聯的遺傳變異位點。如 Gibson 等[12]利用全基因組關聯數據探索 AD 和重度抑郁癥(major depressive disorder,MDD)之間的關聯以及是否有共享遺傳結構的存在。Nho 等[13]利用 GWAS 發現了 PSEN1 中罕見變異與早發性阿爾茨海默癥(early-onset Alzheimer’s disease,EOAD)的顯著關聯。同樣的研究思路也可以用于尋找與腦表型相關聯的遺傳變異。例如,Kim 等[14]以內嗅皮質厚度的雙側均值作為 AD 相關的候選內表型與 GWAS 進行關聯分析。實驗結果為: FANCC 基因中有 16 個外顯子的罕見變異與內嗅皮質厚度顯著相關。使用分散的方法將 FAF1、RFX7、LYPLAL1 和 GALGA3 映射到 7 個進化保守區后,發現這些基因與內嗅皮質厚度顯著相關。在進一步的分析中發現 FANCC 中的功能外顯子的罕見變異體與海馬體積和腦脊液(cerebrospinal fluid,CSF)Aβ1-42 也顯著相關。
由于 GWAS 分析需要進行嚴格的多重比較校正,使得很多有意義的微效位點被忽略掉。為此,多種基于先驗知識和數據驅動的更為復雜的分析方法被用來解決該問題。基因集富集分析(gene set enrichment analysis,GSEA)與多基因風險分數(polygenic risk scores,PRSs)分析是最具有代表性的基于先驗知識研究多位點聯合效應的方法。GSEA 的基本原理是先根據共同的生物學屬性定義基因集,將不同位點歸入基因集,然后計算每個基因集與腦表型的富集分數,檢驗其顯著性。若結果呈顯著性,則說明這個基因集及其對應的位點與所選擇的腦表型有關聯。Yao 等[8]通過成像遺傳富集分析(analysis of imaging genetic enrichment,IGEA)聯合考慮有意義的基因集(gene set,GS)和腦回路(brain circuit,BC)之間的關聯,通過定量特征(quantitative traits,QT)檢查給定的 GS-BC 對是否富集在基因列表中。
PRSs 分析方法依據不斷更新的 GWAS 的元分析結果來計算全基因組范圍內的 SNPs 加性效應。PRSs 是一個基于多個遺傳位點的變異及其相關權重的數值,當考慮到多種基因變異時,它是對這種特性的最佳預測。Mormino 等[15]使用來自阿爾茨海默病國際基因組學(the International Genomics of Alzheimer’s Project,IGAP)匯總統計的數據進行關于 AD 的全基因組關聯研究:計算 PRSs 并評估 PRSs 與 AD 標志物之間的關聯。研究結果發現在沒有癡呆的個體中檢測到與分布在整個基因組中的共同遺傳風險位點相關的效應。說明這種遺傳風險在早期生活中就影響著患者,并使個體更容易受到晚年認知障礙的影響。Desikan 等[16]評估了將 AD 相關的 SNPs 和 APOE 狀態結合到多基因危險評分(polygenic hazard scores,PHS)中用于預測年齡特異性發展 AD 的風險的可行性。Chauhan 等[17]基于大樣本研究了 AD 患者的 24 個風險位點與腦表型的關聯。研究結果發現新的 AD 遺傳風險變異體可能會導致正常老年人大腦老化。Foley 等[18]使用 T1 加權結構和擴散加權掃描分析 AD PRSs 與腦成像參數之間的關聯性。Darst 等[19]探索了使用途徑特異性 PRSs 作為 AD 相關生物標志物和認知功能早期改變預測因子的潛力。
以上這兩種方法均可以合并多個微效 SNPs 的效應以提高總體效應,但都不能研究 SNPs 之間的交互效應。數據驅動方法則可以彌補這一不足,這是一種從數據抽象出模型的方法。Kong 等[20]在 ADNI 中獲取了 343 個 MCI 受試者的磁共振(magnetic resonance,MR)數據和全基因數據,并使用 R 函數“coxph”來擬合 Cox 回歸模型(Cox proportional hazards model)。該實驗分別擬合了三個模型:① 臨床認知模型:將 Cox 回歸模型與人口統計、臨床和認知(ADAS-Cog 評分)預測因子以及 APOE 擬合。② 成像遺傳學模型:將 Cox 回歸模型與人口統計學、影像學和染色體組擬合。③ 傳統的成像遺傳學模型:將從 GWAS 中獲得的全基因組中前 101 個 SNP 的主成分添加到模型 2 中。接著使用接受操作特性(receiving operating characteristic,ROC)來研究候選模型的預測性能,該文獻通過計算曲線下面積(area under the curve,AUC)來測量生存模型的預測性能,最后發現模型 2(AUC = 0.95)和模型 3(AUC = 0.90)具有相對模型 1(AUC = 0.75)較高的預測性能。它不依賴于先驗假設,而是應用諸如多因子降維法、主成分分析法、獨立成分分析法等方法研究基因的生物學效應、基因之間的交互效應以及表型的多基因遺傳屬性等[21-22]。
2.3 候選遺傳變異與全腦體素的關聯分析
候選遺傳變異與全腦體素的關聯分析是一種單對多的分析方法,研究特定遺傳變異與全腦體素水平的腦表型的關系。全腦體素水平的腦表型可以用多種方法刻畫,如基于體素的灰質體積分析、功能連接分析、腦激活分析等。在此方面,國內學者做了大量研究工作。Zhang 等[23]通過用大樣本中國人的成像遺傳策略發現 RS74337 本身或連鎖不平衡的變化可以為橋接整合因子 1(bridging integrator 1,BIN1)提供神經發生機制,從而進一步證實遺傳和神經成像結合檢測 AD 風險個體的可能性。Zhang 等[24]研究了 APOE 和 KIBRA(RS17070145)對 267 名健康青年腦功能連接性密度(functional connectivity density,FCD)的加性和上位性作用。通過基于體素的 FCD 分析來識別與 APOE-KIBRA 相互作用有關的腦區。加性效應顯示隨著 APOE 和 KIBRA 等位基因數目的增加,左側海馬旁回和右側顳中回 FCD 降低,雙側枕中回 FCD 升高。上位性效應顯示背外側前額葉皮質(dorsolateral prefrontal cortex,DLPFC)的 FCD 中有 APOE-KIBRA 相互作用。DLPFC 的 FCD 在 KIBLT TT 純合子中顯示 APOE 風險等位基因依賴性降低(ε2 > ε3 > ε4),但在 KiBax C 載體中 APOE 風險等位基因依賴性增加(ε2 < ε3 < ε4)。FCD 僅在 2 個極端亞組的加性和上位性分析中出現顯著差異。這些結果表明,APOE 和 KIBRA 在健康青年中對腦連接性具有區域依賴性和上位性作用。
2.4 全基因組遺傳變異與全腦體素的關聯分析
全基因組遺傳變異與全腦體素的關聯分析是一種多對多的分析方法,研究多個遺傳變異與多個腦表型的關系。這類分析包括大規模單變量線性模型和多變量分析方法。多變量分析法較為常見,因為無論是一組 SNPs 還是全腦體素,它們都不是互相獨立的,因而需要用多變量分析方法來研究它們之間的關系。例如,并行獨立成分分析方法分別提取遺傳和影像的獨立成分,之后計算遺傳和影像獨立成分之間的關聯。并行獨立成分分析方法也可以結合已知基因功能的先驗知識來提高性能。此外,多變量分析方法還有偏最小二乘法、典型相關分析和減秩回歸等[25]。這些方法常常被綜合或改進后使用。Zille 等[26]結合稀疏回歸模型和典型相關分析模型分析 SNPs 與功能磁共振(functional magnetic resonance imaging,fMRI)數據來研究腦表型與基因的相關性。Yan 等[27]基于稀疏典型相關分析(sparse canonical correlation analysis,SCCA)提出一個新的模型——稀疏聯合多類分類和關聯分析(sparse joint multi-class classification and association analysis,SMCA),用以探索表型與基因的關聯。
3 總結和展望
影像遺傳組學是一門新興的融合了多門學科的交叉研究領域,其主要目的是從高通量成像(如癌癥研究中的病理組織學圖像、腦研究中的 MRI 和 PET 圖像)數據和組學(如 SNPs、DNA 序列、RNA 表達、甲基化、表觀遺傳標記、蛋白質組學和代謝組學)數據中獲取有效信息。它通過對多個層面的考量來盡量展現遺傳與表型的關系,以推動對疾病的早期發現、預防甚至治療,目前主要用于神經精神疾病的相關研究。本文從醫學影像與基因組學的結合方法入手,選取了影像中的 MRI 與基因組學中的基因變異作為關聯分析的數據。分別根據使用數據的復雜程度將關聯分析分為四類。簡單介紹了具體將數據進行關聯分析的方法并列舉了其在 AD 上的研究。
盡管目前世界各國的研究者在遺傳影像組學取得了一些重要成果。但仍然存在一些不確定性問題。本文從兩個方面對其進行闡述:① 從表型概念考慮。在內表型的理論討論中,即遺傳變異-腦表型(內表型)-疾病或行為(外表型),最主要的是討論如何確定表型,即規定與神經精神疾病和遺傳有關的內表型。很多神經精神疾病的癥狀互相融合,不同潛在病因的診斷可能是相同的,這種診斷異質性很可能會削弱甚至消除內表型和疾病的關聯。因此,太過依賴于臨床診斷有可能忽略與其癥狀相同的其他病因的影響。② 從單個遺傳變異的數據處理方面考慮。大多數的成像遺傳學研究是在已知的候選基因框架內進行的,并且大多集中在有限數量的功能性基因多態性。這種基因多態性是在基因編碼產生能夠影響特定的神經系統的蛋白時出現的,并且這些遺傳變異與神經表型和精神病理學的關聯大部分跟報道過的正關聯或空關聯都不一致。最近 GWAS 已成功確定新的候選基因(如 KTN1(16)),并證實了之前不確定的基因[如 SIRT1(33,62,63)],有望擴大候選基因框架。