英國生物銀行(UKB)是一項前瞻性流行病學研究計劃,招募了逾 50 萬名年齡在 40~69 歲之間的參與者。其影像擴展項目共邀請了 10 萬名 UKB 參與者進行多模態大腦磁共振成像掃描。這些海量的多模態成像與大量的表型、遺傳數據結合,為腦健康相關研究領域提供了很好的資源。本文就 UKB 在神經影像領域的研究進展展開綜述。首先概括了 UKB 中神經影像的數據采集和影像學衍生表型,隨后從心血管疾病風險因素、調節性因素、腦年齡預測、常態、成功和病態腦老化、環境與遺傳因素、認知能力及性別等多個應用層面,分別介紹了 UKB 中的一些典型研究,并對研究中存在的問題和未來發展方向進行了探討,以期為神經系統疾病的預防和治療開辟新的研究領域。
引用本文: 林嵐, 熊敏, 吳水才. 英國生物銀行在神經影像領域應用的研究綜述. 生物醫學工程學雜志, 2021, 38(3): 594-601. doi: 10.7507/1001-5515.202012059 復制
引言
英國生物銀行(UK Biobank,UKB)[1](網址為:https://www.ukbiobank.ac.uk/)是一項前瞻性流行病學科學研究計劃,該項目收集了全英國年齡在 40~69 歲之間的 50 萬名志愿者(占英國總人口的 0.8%)的基因信息樣本、生活方式(包括營養、生活方式和藥物使用等)以及親屬關系數據,并對他們多年來在醫療檔案中記錄的健康信息進行長期跟蹤。該研究不僅收集了來自參與者的有價值的基準數據,還將在未來 30 年內追蹤他們的健康狀況。項目的目標旨在為研究一系列與公共衛生密切相關的疾病,如癌癥、心臟病、糖尿病、中風、癡呆、抑郁、關節炎、骨質疏松癥、皮膚病和肺病等提供一個強大的平臺,以探討某些特定基因、生活方式和健康狀況之間的關系,提高人們對某些遺傳性疾病致病基因的認識,幫助下一代改善健康。經過近 7 年的準備,該項目于 2007 年 4 月在英國的曼徹斯特啟動,并首次建立了評估中心。作為一個公共實體,UKB 項目資源向所有符合有關倫理和科學標準的研究人員開放[2-3]。
UKB 的影像擴展項目于 2016 年獲得資助,計劃到 2023 年初步完成[4]。該項目擬掃描 100 000 個現有的 UKB 隊列對象。影像學檢查包括大腦、心臟和身體的磁共振成像(magnetic resonance imaging,MRI)、低劑量 X 射線骨和關節掃描以及頸動脈超聲檢查。所有掃描成像隊列中受試者的影像數據采集在三個專業影像檢查中心完成。預計到 2022 年,成像隊列中將有 1 800 名受試者患有阿爾茨海默病(Alzheimer’s disease,AD);1 200~2 800 人將患有帕金森病。2020 年初,UKB 已經處理并公布了超過 40 000 人的神經影像數據。包括健康中、老年受試者在內的大量神經影像資料為研究增齡性大腦和認知退化并發現神經退行性疾病的生物標記物提供了必要的研究基礎。
目前,研究者們已經對從海量神經影像數據中檢測大腦結構和功能的差異,以及探究行為與臨床結果之間關系的重要性達成廣泛共識。隨著 UKB 在神經影像方面的資源日益豐富,它在常態與病態老化研究領域具有巨大潛力,本文對 UKB 在神經影像領域的研究進行綜述,概括了 UKB 中神經影像的數據采集和影像學衍生表型(imaging-derived phenotypes,IDPs),并從心血管疾病的風險因素、調節性因素、腦年齡預測、常態、成功和病態腦老化、環境與遺傳因素、認知能力及性別等多個應用層面,分別介紹了 UKB 的一些典型研究,并對研究中存在的問題和未來發展方向進行了探討,以期為神經系統疾病的預防和治療開辟新的研究領域。
1 神經影像采集和 IDPs
在 UKB 中,由于采集對象的數量眾多,在綜合考慮采集時間、圖像質量和魯棒性等因素后,將整個腦神經圖像的采集時間限定于 35 min。成像方案包含三種結構 MRI 模態:T1 加權 MRI、T2 加權 MRI 和以 T2*加權梯度回波序列作為序列基礎的磁敏感加權成像(susceptibility-weighted imaging,SWI);還有彌散 MRI(diffusion MRI,dMRI)以及兩種功能 MRI(functional MRI,fMRI)成像模態:靜息態 fMRI(resting-state fMRI,rfMRI)和任務態 fMRI(task fMRI,tfMRI)。所有的影像都是由標準的西門子 3T 超導型 MRI 掃描儀(Skyra 3T,Siemens Healthcare GmbH,德國)進行掃描,并對掃描后的圖像進行初步處理和分析。圖像采集的具體描述和參數如表 1 所示[5]。多模圖像采集順序為:① T1、② rfMRI、③ tfMRI、④ T2、⑤ dMRI、⑥ SWI,以便于從解剖和神經病理學結構、腦功能活動和局部組織微結構等多方面來反映大腦變化。影像采集過程中采用最新的 MRI 采集技術,嚴格限定時間,提升了高空間分辨率 dMRI 和 fMRI 的場向梯度和時間分辨率。

在臨床研究中,神經影像往往需要經過多種復雜的圖像處理,如體素分析、皮質表面分析等,才能將原始神經影像轉化為有用特征。所以,UKB 采用了一套復雜的全自動圖像處理流程,共提取出 4 350 個反映大腦結構和功能特征的 IDPs,詳細描述如表 2 所示。這些 IDPs 可以使臨床研究者在一定程度上擺脫復雜的算法分析流程的約束。

2 神經影像領域的具體應用
2.1 心血管疾病風險因素
高血壓(hypertension,HT)、高血脂、高血糖分別由血壓、甘油三酯和空腹血糖水平的直接測量確定,是心血管疾病的主要危險因素之一。在全球范圍內,心血管疾病是死亡的主要原因,且與 AD 等神經退行性疾病高度相關[6]。
在 UKB 的數據集中,大約有 10% 的受試者被診斷患有 HT。Sundaresan 等[7]提出了一個基于 WMH 分布與年齡關系的概率模型,用于提取參數損傷概率圖。他們從 UKB 中隨機抽取了 1 000 名參與者的 T2 加權 MRI,其中 HT 組為 500 人(年齡范圍為 45.5~78.3 歲,平均年齡為 66.3 歲,男女比例為 298∶202),非 HT 組為 500 人(年齡范圍為 45.5~78.4 歲,平均年齡為 62.0 歲,男女比例為 243∶257)。結果顯示,WMH 的分布概率隨著年齡的增加而增大,且 HT 組的深部 WMH 的分布概率明顯高于非 HT 組。此外,Feng 等[8]也對 HT、記憶和腦區的關系進行了研究。他們利用大腦圖譜將 T2 加權 MRI 劃分為 94 個腦區,通過在 rfMRI 的 490 個時間點上測量每個腦區的體素信號均值,提取時間序列,計算所有腦區間信號的相關性,得到功能連接。該研究包括 19 507 名 UKB 的受試者,并且還使用了 1 002 名人類連接組項目受試者和 13 441 名 UKB 神經影像第二次發布版本中的受試者進行交叉驗證。研究結果表明,HT 病史與海馬功能連接以及前瞻記憶評分降低有關。
近幾十年來,肥胖患者數量急劇增加,由肥胖引發的代謝綜合征已經成為全球重要的公共健康問題之一。肥胖癥患者的中樞神經系統的炎癥以及不同腦區結構中少量膠質細胞激活,可導致認知能力下降,增加神經退行性疾病的風險[9]。Dekkers 等[10]基于 UKB 中 12 087 名受試者(平均年齡為 62 歲,年齡范圍為 45~76 歲,女性占比為 52.8%)的 T1 加權 MRI 和 dMRI,研究了肥胖癥與全腦體積、腦區體積和白質微觀結構之間的關系。研究發現,總脂肪百分比(percentage of total body fat,TBF)與丘腦、尾狀核、殼狀核、蒼白球、海馬等腦區的體積呈負相關關系。無論男女,TBF 均與各向異性指數呈正相關,但 TBF 也與女性平均擴散率呈負相關。Hamer 等[11]用 UKB [n = 9 652,年齡(55.4 ± 7.5)歲,男性占比為 47.9%]T1 加權 MRI 對體質指數和腰臀比與腦容量之間的關系進行了研究。經一系列協變量調整后發現,肥胖癥測量值的水平越高,其灰質體積越小。邦弗朗尼校正后的無假設檢驗表明,肥胖癥與尾狀核、殼核、蒼白球和伏隔核腦容量有關。
心血管疾病的風險因素可能會增加腦血管疾病和神經退行性疾病的風險,但它們與大腦宏觀結構和微觀結構間的關聯性證據有限。Cox 等[12]在 UKB 中(n = 9 722,年齡范圍為 44~79 歲),研究了吸煙、HT、脈壓、糖尿病、高膽固醇血癥、體質指數和腰臀比等與 T1 加權 MRI 和 dMRI 中 IDPs 之間的關系,發現大多數心血管風險因素與更嚴重的腦萎縮和白質完整性下降有關。Veldsman 等[13]在 22 059 名 UKB 受試者的基礎上進行了一項研究,結果發現健康人的認知能力受到腦血管風險因素的負面影響。結構方程模型顯示腦血管疾病風險與執行功能的額頂腦網絡中的大腦灰質和白質完整性降低有關。
2.2 調節性因素
隨著越來越多的老年人患有神經退行性疾病,研究者們開始關注使用調節性因素對該類疾病進程的影響。營養、生活習慣、睡眠質量、體育活動和認知訓練等都可能對大腦認知產生積極影響[14],但其具體作用機制尚不明確。Hamer 等[15]使用來自 UKB 中[n = 5 272,年齡(55.4 ± 7.5)歲,男性占比為 45.6%]的 T1 加權 MRI 數據來檢測體育活動與大腦結構之間的聯系。受試者需要佩戴腕帶三軸加速度計(Axivity AX3,Newcastle-upon-Tyne,英國)測量運動強度,佩戴時長約 7 d[(6.4 ± 1.4)d]。經過多個協變量修正,研究者發現運動強度與腦灰質體積之間存在相關關系。此外,他們還觀察到,經過協變量校正后的多元線性回歸模型中,體育活動水平與左、右海馬體積間存在相關關系。
根據社會大腦假說,人類大腦的復雜程度隨著社交活動的復雜程度而協同發展。Taebi 等[16]通過將貝葉斯層次模型與來自 UKB 的大量樣本(n = 10 000)相結合,探討了大腦形態和社交圈豐富程度之間的關系。研究人員發現,對于社交圈豐富并與他人建立有良好友誼的個體,視覺感覺網絡存在很強的群體效應。另外,對于缺乏社交能力的人來說,邊緣網絡的幾個腦區的體積會發生較大變化。由此可見,社交活動能夠提高社會大腦的長期可塑性。
睡眠質量好對大腦認知有積極影響,而睡眠質量差則可能導致抑郁。了解并調整它們之間的聯系,可以對抑郁和相關睡眠問題的治療提供指導。在一項基于人類連接組項目參與者的睡眠質量調查和 fMRI 的研究中[17],研究人員對來自 UKB 的 8 718 名受試者進行了睡眠研究結果的交叉驗證。研究表明,睡眠質量差和抑郁癥與功能性連接存在密切關系。在人類連接組項目和 UKB 數據集中,功能連接與睡眠時間的關聯模式非常類似。
2.3 腦年齡預測
衰老會嚴重影響人腦功能,導致認知能力下降,增加患神經退行性疾病的風險。個體對象的大腦年齡預測已被證明在探索與衰老有關的疾病方面起著重要作用[18]。Dinsdale 等[19]利用 UKB 中的 19 687 個 T1 加權 MRI(訓練集 12 802,測試集 6 885)構建數據集,開發了一個類似于視覺幾何組(visual geometry group,VGG)架構的三維卷積神經網絡(convolutional neural networks,CNN)模型,與集成學習相結合來預測腦年齡。男性和女性大腦年齡預測模型的平均絕對誤差分別為 2.91 年和 2.71 年。大腦年齡估值差(brain age gap estimation,BrainAGE)與許多臨床測量指標結果相關,多種模態的 IDPs 也是如此。Peng 等[20]設計了一種類似于 VGG 網絡的三維網絡結構,使用 T1 加權 MRI 數據預測腦年齡,設計中采用了數據擴充、預訓練、模型正則化、模型集成和預測偏差校正等多種方法。其優良的性能在 UKB 數據集(n = 14 503,訓練集 12 949)中得到體現,平均絕對誤差為 2.14 年。
大多數大腦年齡預測模型僅用 T1 加權 MRI 進行預測。Cole[21]對 UKB 中的 17 461 名受試者進行了研究,其中訓練集為 2 205 名健康受試者,測試集為 520 名健康受試者,剩下的受試者用于 BrainAGE 研究。他們使用 UKB 的六種成像模態的神經影像,利用套索回歸建立了一個腦年齡預測模型,該模型對測試集數據的平均絕對誤差為 3.55 年。隨后,他們對 14 701 名受試者進行了進一步的研究,發現 BrainAGE 的增加與高的舒張壓和收縮壓以及中風史、糖尿病史、吸煙和飲酒習慣有關。Smith 等[22]認為從多模態角度出發,構建多個基于單模態的腦年齡預測模型具有更大價值。他們從 21 407 名 UKB 受試者的多模態腦成像數據中識別出 62 種大腦老化模式。這些模式分別代表了大腦老化的不同方面,顯示了腦功能和結構的不同變化,以及與遺傳、生活方式、認知、生理測量和疾病的關聯程度。盡管多模態的大腦年齡預測模型未發現遺傳關聯,但其中許多單模態模型卻可以找到在生物學上可解釋的遺傳關聯。Smith 等[22]認為,大腦老化并非單一的均勻過程,對結構和功能變化的不同模式進行建模將更具有生物學意義。
研究人員們提出了一系列估計大腦年齡和使用 BrainAGE 預測疾病的方法[23]。Kolbeinsson 等[24]將 UKB 中的 21 382 個 T1 加權 MRI 分為四組:訓練集(n = 3 067)、驗證集(n = 3 962)、健康測試人群(n = 2 057)和未選擇測試人群(n = 12 296),使用三維殘差網絡結構的 CNN 建立大腦年齡預測模型(n = 3 067,模型平均絕對誤差為 1.71 年)。隨后,研究人員將模型應用在未選擇測試人群上,與 1 410 個疾病及相關健康問題編碼、自我報告的臨床狀態以及身體、生活方式和環境表型進行相關分析,發現 BrainAGE 中的 24 種診斷和特征之間存在相關性。BrainAGE 相關的診斷和特征為心血管代謝病及其危險因素、認知功能和體育運動等。雖然 BrainAGE 已被用于疾病研究,但是腦年齡預測模型的準確度與 BrainAGE 間關系還不夠明確。Smith 等[25]根據模擬和真實數據,評估了不同的腦年齡估計方法對于 BrainAGE 的影響。研究者使用來自 UKB 的 19 000 名受試者的結構 MRI、dMRI 和 fMRI 中的 2 641 個 IDPs 來預測大腦年齡。結果表明,BrainAGE 與 5 792 個非成像變量(非大腦物理測量值、生活因素測量值、認知測試分數等)相關。腦年齡預測模型誤差較小并不能意味著模型具有更高臨床應用價值,需要結合非成像變量進行綜合考慮。
2.4 常態、成功和病態腦老化
老年人的認知老化可分為三種類型:常態老化、成功老化和病態老化[26-27]。常態老化是最常見的認知老化類型,盡管隨著年齡增加,認知能力逐漸下降,但認知能力較病態老化更好。Tseng 等[28]以 UKB 中的 7 167 名健康的中老年受試者(年齡范圍為 47~76 歲)的 dMRI 數據為基礎,探討了白質纖維束的異質老化效應。他們從 76 個預定義的主要纖維束中提取彌散量化指標。利用這些指標對年齡進行線性擬合估計,得到與增齡相關的白質變化。研究顯示了 4 種不同類型的白質老化模式。白質老化的主要模式涉及前額葉的聯合、聯絡和投射纖維,表現為較低的各向異性分數和較高的軸向擴散系數、徑向擴散系數和平均擴散系數。其它三種類型主要涉及頂葉、枕葉和顳葉皮質間連接。通過 dMRI 和概率纖維束追蹤技術,可建立全腦結構網絡,但會產生一定比例的虛假連接。閾值法被廣泛應用于去除虛假連接,但是不同的閾值策略是如何影響網絡的基本屬性及其與年齡等人口統計變量之間的關系,目前尚不明確。Buchanan 等[29]利用 UKB 中 3 153 名健康受試者(年齡范圍為 44~77 歲)的 dMRI 數據構建了一個全腦結構網絡,并采用兩種閾值方法在六種不同的網絡權重和四種常見的網絡度量上進行研究。研究結果表明,與未設閾值的網絡相比,較嚴格的閾值劃分具有更強的年齡關聯。另外一項在相同數據集上的研究發現,平均擴散率對年齡最為敏感,而丘腦輻射和相關纖維與年齡間負相關性最強[30]。
成功老化是指個體在老化過程中,認知功能保持較好,AD 風險較低。一般認為,父母長壽,其子女一般具有較高的成功老化幾率。Tian 等[31]在 UKB 中確定了 12 970 名受試者(平均年齡為 64.4 歲,女性占比為 51.5%)。根據父母中是否有一方壽命超過 85 歲,將受試者劃分為父母長壽組(占比為 57%)和非長壽組(占比為 43%)。父母的長壽與其子女的主要感覺運動皮層和包括海馬在內的顳區萎縮減慢有關。病態老化的大腦中一般存在 AD 等神經退行性疾病。海馬體積是 AD 的重要生物學指標,AD 的遺傳風險與海馬萎縮密切相關。雖然對患者海馬體積的客觀評價可為 AD 的診斷和風險分級提供重要信息,但臨床醫生需要獲得海馬體積隨年齡變化的完整數據來進行客觀評價。Nobis 等[32]用 19 793 名 UKB 中的健康受試者構建了最大的跨年齡海馬體積標準數據庫。該研究的一個重要發現是,中年人海馬的體積萎縮速度明顯加快,女性更為明顯。海馬是一個由多個亞域構成的統一結構。基于 17 161 名認知正常的 UKB 受試者(年齡范圍為 44~80 歲)的影像數據,Foo 等[33]研究了海馬子區與年齡、性別和 AD 多基因風險評分之間的關系。結果顯示,年齡與海馬各亞區體積呈負相關。AD 的多基因風險評分的水平與雙側全海馬、海馬杏仁核過渡區、海馬尾部、右側基底膜等海馬子區的萎縮程度相關。與中年組(n = 8 177)相比,老年組(中位年齡 63 歲,n = 8 984)在高風險評分時表現出更大的海馬子域損傷。
2.5 環境與遺傳因素
空氣污染會導致認知能力下降和神經退行性疾病。接觸空氣污染,特別是暴露于二氧化氮和氮氧化物中,會引發青少年心理疾病[34]。在一項包含了 18 288 名 UKB 參與者的研究中,Gale 等[35]基于 T1 加權 MRI,研究了空氣污染和前額葉皮質灰質之間的關系。通過對年齡、性別、教育程度等協變量的調整,在多元回歸模型中發現顆粒物(particulate matter,PM)2.5、PM10 與一氧化氮濃度和前額葉體積呈負相關關系。另外,他們還發現教育可以減少空氣污染對前額葉的傷害。Hedges 等[36]用 18 278 名 UKB 參與者的數據研究了空氣污染對海馬體積的影響。除去年齡、性別等協變量影響后,PM2.5 濃度與左海馬萎縮程度呈正相關。PM2.5 濃度每增加一個單位,左海馬體積將萎縮 0.28%。
腦結構和功能的遺傳機制尚不十分清楚。通過對 UKB 中的基因信息和腦成像數據集進行綜合分析,可為揭示腦發育、衰老和疾病等方面的結構和功能變化提供遺傳依據。Elliott 等[37]對 UKB 中 8 428 名受試者的 3 144 種結構和功能 IDPs 進行了全基因組關聯研究,結果發現其中很多 IDPs 具有可遺傳性。他們發現,在 148 個簇中,單核苷酸多態性與 IDPs 之間存在相關關系。這些相關因素包括:鐵運輸和存儲基因與皮層下腦組織的磁化率有關,細胞外基質和表皮生長因子基因與白質的微結構和病變有關等。大腦皮層下的腦區對運動、意識、情緒和學習起著重要作用。Satizabal 等[38]對心臟與衰老的基因組流行病學研究(cohorts of heart and aging research in genomic epidemiology,CHARGE)、基于薈萃分析增強神經影像遺傳學聯盟(enhancing neuro imaging genetics through meta-analysis consortium,ENIGMA)和 UKB 中近 40 000 名受試者進行了全基因組關聯分析,確定了伏隔核、杏仁核、腦干、尾狀核、蒼白球和丘腦體積相關的常見遺傳變異,并確定了 48 個相關的位點。利用基因表達、甲基化和神經病理學數據對這些位點進行分析,發現 199 個位點可能與神經發育、突觸信號傳導、軸突傳遞、細胞凋亡、炎癥/感染以及神經系統疾病易感性等有關。
2.6 認知能力、性別等其他因素
腦容量與智力的關系一直是認知神經科學研究的熱點問題之一。Cox 等[39]基于 29 004 名年齡范圍為 44~81 歲的 UKB 研究對象(7 201 名受試者同時具有腦影像和完整的四項認知測試數據),根據認知能力測試創建了一個一般智力因素 g,并估算了其與大腦總容量及其他局部結構指標之間的關系。腦容積與 g 之間的相關系數為 0.276。此外,他們還建立了一個包括整體灰質和白質的宏觀和微觀結構的認知能力評估模型,該模型對老年人群的解釋力比中年人群更好。年齡和大腦的相互作用對 g 值有調節作用。關聯最密切的腦區包括腦島、額葉、顳前/上和內側顳葉、后扣帶和副扣帶、枕外側皮質、丘腦體積以及丘腦和聯合纖維等白質微結構。
許多神經影像學研究并未考慮到性別差異的潛在影響。從結構和功能上全面理解性別差異,有助于解釋行為層面的差異,并為與性別有關的精神病研究提供了重要線索。Ritchie 等[40]基于 UKB 中的 5 216 名受試者(2 750 名女性和 2 466 名男性受試者,年齡范圍為 44~77 歲),研究了大腦結構和功能的性別差異。研究結果顯示,男性受試者大腦皮層和次皮層體積較大,皮質表面積較大,白質擴散傾向明顯;女性受試者大腦皮層較厚,白質纖維束復雜度較高。在兩個認知測試中,男性的認知得分較高,部分是受性別結構差異的影響。功能連接顯示男性在單峰感覺運動皮層中具有較強的連通性,女性在默認模式網絡下具有較強的連通性。
3 討論與總結
UKB 是一項大型前瞻性群體研究,旨在研究中老年人群體的健康狀況。該研究包含了目前世界上最大的由健康人群組成的神經影像數據庫,提供有關解剖和生理過程的結構和功能信息。在 UKB 中的所有 MRI 數據都是用同一種 MRI 掃描儀獲取的,并使用相同的分析軟件進行分析,從而避免了由于使用不同的掃描儀或分析技術而造成的差異。通過嚴格的數據采集和分析程序,UKB 中的大量同質數據可以為大規模神經影像學分析提供新的重要證據。迄今為止,已發表的成果主要集中于心血管疾病危險因素、調節性因素、腦年齡預測、常態、成功和病態腦老化、環境與遺傳因素以及認知能力和性別等問題的橫斷研究。
目前已發表的腦影像學研究大多基于 UKB 提供的結構和功能的 IDPs,研究者無需對復雜的神經影像進行處理和分析,大幅度簡化了分析處理過程。但是這些 IDPs 反映的是腦區的平均特征,依賴于前期的人工選擇,特征靈敏度一般比較低,一定程度上減弱了 UKB 大數據帶來的優勢。從體素水平或皮質頂點分析神經影像,可以從細微尺度上反映大腦的變化。海量的神經影像數據與最新人工智能算法的結合,將進一步促進神經影像分析的發展。當前,研究者們已將最新 CNN 模型結合 UKB 中的原始神經影像數據應用到腦年齡預測領域,模型的誤差相對于以往的經典模型降低了 50%。最新人工智能技術與神經影像大數據的結合[41-43],將會在神經影像分割、神經影像分類與神經影像預測等很多領域取得很好的效果。
因為 UKB 中包含數萬名受試者的數據,所以在分析時必須考慮適當的數據選擇策略。利用 UKB 對滿足實驗設計方案的全部數據進行分析,能得到具有較高統計性能的結果。但完整的腦影像數據集數據量有數十 TB,每 6~12 個月就會有 5 000~10 000 名新受試者的影像數據加入。對完整數據集進行分析會給數據傳輸和數據處理帶來巨大壓力。從結果可復現性和數據傳輸與計算量兩方面考慮,本文認為數據選擇策略包含三個決策點。首先,如果在影像分析中采用的是 IDPs,每個實驗對象只包含數千個 IDPs 特征,可以采用滿足實驗設計的數據全集。其次,如果需要對神經影像直接進行處理,可以基于 UKB 中圖像的不同發放,或基于采集時間順序來構建子集,分段對數據進行分析。最后,如果是項目研究初期,進行可行性分析時,可以在前一決策點構建的子集中通過隨機采樣抽取一定數據來構建數據集。
擁有海量的受試者的 UKB 是研究影像數據和非影像測量之間關系的有力資源。但是,它在提升統計效率的同時,也會帶來嚴重的混淆效應[44]。在研究因果關系時,混淆變量會同時影響假定的原因和假定的結果。如果不能正確處理混淆效應,則可能在配對的獨立變量對之間產生虛假關聯,最終結果并不能反映實際關系。對于混淆變量,通常需要在模型中進行修正估計,以消除受混淆因素的影響。判斷哪些因素是混淆因素是一個復雜的問題。舉例來說,年齡可能是某些研究中的一個混淆因素,但在其它一些研究中卻是一個關鍵變量。另外一個例子是性別,性別與潛在的混淆因素(如頭部尺寸)相關,并且還可能以復雜的方式影響目標變量,因此研究人員有時需要獨立地對不同性別進行關聯分析。此外,UKB 成像數據受掃描儀的位置、其他參數和配置等因素的影響,海量數據也意味著即使是很小的雜音也會導致統計問題。在提出科學問題并進行研究前,要從實際問題出發,考慮如何消除實驗設計中的混淆效應影響。
雖然目前的 UKB 已經涉及了相當廣泛的科學問題,但 UKB 的影像擴展項目嚴格說還是處于起步階段。目前,主要研究還是針對認知能力正常的健康人群進行橫斷研究。隨著時間的推移,影像隊列中會出現越來越多的各種增齡性神經退行性疾病患者。屆時,縱向隨訪研究可以幫助研究者研究疾病的發生與發展過程。舉例來說,新冠肺炎當前正在全球流行,UKB 中患有新冠的受試者的后續隨訪數據就可以為研究新冠對腦結構、功能和認知的長期影響提供必要的依據。另外,由于 UKB 中包含海量的腦成像數據與高通量基因組學數據,因此,對 UKB 進行影像基因組學研究也是其一個重要研究發展方向。將腦神經影像與基因組影像進行整合,挖掘它們之間的關系,可以發現能夠反映基因多態性或表達多態性的圖像特征。在此基礎上,可以深入了解腦表型特征、遺傳變異和分子機制,以及它們對正常和紊亂大腦功能和行為的影響。隨著 UKB 的影像擴展項目的逐漸成熟,大量新的科學研究也會不斷開展。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
英國生物銀行(UK Biobank,UKB)[1](網址為:https://www.ukbiobank.ac.uk/)是一項前瞻性流行病學科學研究計劃,該項目收集了全英國年齡在 40~69 歲之間的 50 萬名志愿者(占英國總人口的 0.8%)的基因信息樣本、生活方式(包括營養、生活方式和藥物使用等)以及親屬關系數據,并對他們多年來在醫療檔案中記錄的健康信息進行長期跟蹤。該研究不僅收集了來自參與者的有價值的基準數據,還將在未來 30 年內追蹤他們的健康狀況。項目的目標旨在為研究一系列與公共衛生密切相關的疾病,如癌癥、心臟病、糖尿病、中風、癡呆、抑郁、關節炎、骨質疏松癥、皮膚病和肺病等提供一個強大的平臺,以探討某些特定基因、生活方式和健康狀況之間的關系,提高人們對某些遺傳性疾病致病基因的認識,幫助下一代改善健康。經過近 7 年的準備,該項目于 2007 年 4 月在英國的曼徹斯特啟動,并首次建立了評估中心。作為一個公共實體,UKB 項目資源向所有符合有關倫理和科學標準的研究人員開放[2-3]。
UKB 的影像擴展項目于 2016 年獲得資助,計劃到 2023 年初步完成[4]。該項目擬掃描 100 000 個現有的 UKB 隊列對象。影像學檢查包括大腦、心臟和身體的磁共振成像(magnetic resonance imaging,MRI)、低劑量 X 射線骨和關節掃描以及頸動脈超聲檢查。所有掃描成像隊列中受試者的影像數據采集在三個專業影像檢查中心完成。預計到 2022 年,成像隊列中將有 1 800 名受試者患有阿爾茨海默病(Alzheimer’s disease,AD);1 200~2 800 人將患有帕金森病。2020 年初,UKB 已經處理并公布了超過 40 000 人的神經影像數據。包括健康中、老年受試者在內的大量神經影像資料為研究增齡性大腦和認知退化并發現神經退行性疾病的生物標記物提供了必要的研究基礎。
目前,研究者們已經對從海量神經影像數據中檢測大腦結構和功能的差異,以及探究行為與臨床結果之間關系的重要性達成廣泛共識。隨著 UKB 在神經影像方面的資源日益豐富,它在常態與病態老化研究領域具有巨大潛力,本文對 UKB 在神經影像領域的研究進行綜述,概括了 UKB 中神經影像的數據采集和影像學衍生表型(imaging-derived phenotypes,IDPs),并從心血管疾病的風險因素、調節性因素、腦年齡預測、常態、成功和病態腦老化、環境與遺傳因素、認知能力及性別等多個應用層面,分別介紹了 UKB 的一些典型研究,并對研究中存在的問題和未來發展方向進行了探討,以期為神經系統疾病的預防和治療開辟新的研究領域。
1 神經影像采集和 IDPs
在 UKB 中,由于采集對象的數量眾多,在綜合考慮采集時間、圖像質量和魯棒性等因素后,將整個腦神經圖像的采集時間限定于 35 min。成像方案包含三種結構 MRI 模態:T1 加權 MRI、T2 加權 MRI 和以 T2*加權梯度回波序列作為序列基礎的磁敏感加權成像(susceptibility-weighted imaging,SWI);還有彌散 MRI(diffusion MRI,dMRI)以及兩種功能 MRI(functional MRI,fMRI)成像模態:靜息態 fMRI(resting-state fMRI,rfMRI)和任務態 fMRI(task fMRI,tfMRI)。所有的影像都是由標準的西門子 3T 超導型 MRI 掃描儀(Skyra 3T,Siemens Healthcare GmbH,德國)進行掃描,并對掃描后的圖像進行初步處理和分析。圖像采集的具體描述和參數如表 1 所示[5]。多模圖像采集順序為:① T1、② rfMRI、③ tfMRI、④ T2、⑤ dMRI、⑥ SWI,以便于從解剖和神經病理學結構、腦功能活動和局部組織微結構等多方面來反映大腦變化。影像采集過程中采用最新的 MRI 采集技術,嚴格限定時間,提升了高空間分辨率 dMRI 和 fMRI 的場向梯度和時間分辨率。

在臨床研究中,神經影像往往需要經過多種復雜的圖像處理,如體素分析、皮質表面分析等,才能將原始神經影像轉化為有用特征。所以,UKB 采用了一套復雜的全自動圖像處理流程,共提取出 4 350 個反映大腦結構和功能特征的 IDPs,詳細描述如表 2 所示。這些 IDPs 可以使臨床研究者在一定程度上擺脫復雜的算法分析流程的約束。

2 神經影像領域的具體應用
2.1 心血管疾病風險因素
高血壓(hypertension,HT)、高血脂、高血糖分別由血壓、甘油三酯和空腹血糖水平的直接測量確定,是心血管疾病的主要危險因素之一。在全球范圍內,心血管疾病是死亡的主要原因,且與 AD 等神經退行性疾病高度相關[6]。
在 UKB 的數據集中,大約有 10% 的受試者被診斷患有 HT。Sundaresan 等[7]提出了一個基于 WMH 分布與年齡關系的概率模型,用于提取參數損傷概率圖。他們從 UKB 中隨機抽取了 1 000 名參與者的 T2 加權 MRI,其中 HT 組為 500 人(年齡范圍為 45.5~78.3 歲,平均年齡為 66.3 歲,男女比例為 298∶202),非 HT 組為 500 人(年齡范圍為 45.5~78.4 歲,平均年齡為 62.0 歲,男女比例為 243∶257)。結果顯示,WMH 的分布概率隨著年齡的增加而增大,且 HT 組的深部 WMH 的分布概率明顯高于非 HT 組。此外,Feng 等[8]也對 HT、記憶和腦區的關系進行了研究。他們利用大腦圖譜將 T2 加權 MRI 劃分為 94 個腦區,通過在 rfMRI 的 490 個時間點上測量每個腦區的體素信號均值,提取時間序列,計算所有腦區間信號的相關性,得到功能連接。該研究包括 19 507 名 UKB 的受試者,并且還使用了 1 002 名人類連接組項目受試者和 13 441 名 UKB 神經影像第二次發布版本中的受試者進行交叉驗證。研究結果表明,HT 病史與海馬功能連接以及前瞻記憶評分降低有關。
近幾十年來,肥胖患者數量急劇增加,由肥胖引發的代謝綜合征已經成為全球重要的公共健康問題之一。肥胖癥患者的中樞神經系統的炎癥以及不同腦區結構中少量膠質細胞激活,可導致認知能力下降,增加神經退行性疾病的風險[9]。Dekkers 等[10]基于 UKB 中 12 087 名受試者(平均年齡為 62 歲,年齡范圍為 45~76 歲,女性占比為 52.8%)的 T1 加權 MRI 和 dMRI,研究了肥胖癥與全腦體積、腦區體積和白質微觀結構之間的關系。研究發現,總脂肪百分比(percentage of total body fat,TBF)與丘腦、尾狀核、殼狀核、蒼白球、海馬等腦區的體積呈負相關關系。無論男女,TBF 均與各向異性指數呈正相關,但 TBF 也與女性平均擴散率呈負相關。Hamer 等[11]用 UKB [n = 9 652,年齡(55.4 ± 7.5)歲,男性占比為 47.9%]T1 加權 MRI 對體質指數和腰臀比與腦容量之間的關系進行了研究。經一系列協變量調整后發現,肥胖癥測量值的水平越高,其灰質體積越小。邦弗朗尼校正后的無假設檢驗表明,肥胖癥與尾狀核、殼核、蒼白球和伏隔核腦容量有關。
心血管疾病的風險因素可能會增加腦血管疾病和神經退行性疾病的風險,但它們與大腦宏觀結構和微觀結構間的關聯性證據有限。Cox 等[12]在 UKB 中(n = 9 722,年齡范圍為 44~79 歲),研究了吸煙、HT、脈壓、糖尿病、高膽固醇血癥、體質指數和腰臀比等與 T1 加權 MRI 和 dMRI 中 IDPs 之間的關系,發現大多數心血管風險因素與更嚴重的腦萎縮和白質完整性下降有關。Veldsman 等[13]在 22 059 名 UKB 受試者的基礎上進行了一項研究,結果發現健康人的認知能力受到腦血管風險因素的負面影響。結構方程模型顯示腦血管疾病風險與執行功能的額頂腦網絡中的大腦灰質和白質完整性降低有關。
2.2 調節性因素
隨著越來越多的老年人患有神經退行性疾病,研究者們開始關注使用調節性因素對該類疾病進程的影響。營養、生活習慣、睡眠質量、體育活動和認知訓練等都可能對大腦認知產生積極影響[14],但其具體作用機制尚不明確。Hamer 等[15]使用來自 UKB 中[n = 5 272,年齡(55.4 ± 7.5)歲,男性占比為 45.6%]的 T1 加權 MRI 數據來檢測體育活動與大腦結構之間的聯系。受試者需要佩戴腕帶三軸加速度計(Axivity AX3,Newcastle-upon-Tyne,英國)測量運動強度,佩戴時長約 7 d[(6.4 ± 1.4)d]。經過多個協變量修正,研究者發現運動強度與腦灰質體積之間存在相關關系。此外,他們還觀察到,經過協變量校正后的多元線性回歸模型中,體育活動水平與左、右海馬體積間存在相關關系。
根據社會大腦假說,人類大腦的復雜程度隨著社交活動的復雜程度而協同發展。Taebi 等[16]通過將貝葉斯層次模型與來自 UKB 的大量樣本(n = 10 000)相結合,探討了大腦形態和社交圈豐富程度之間的關系。研究人員發現,對于社交圈豐富并與他人建立有良好友誼的個體,視覺感覺網絡存在很強的群體效應。另外,對于缺乏社交能力的人來說,邊緣網絡的幾個腦區的體積會發生較大變化。由此可見,社交活動能夠提高社會大腦的長期可塑性。
睡眠質量好對大腦認知有積極影響,而睡眠質量差則可能導致抑郁。了解并調整它們之間的聯系,可以對抑郁和相關睡眠問題的治療提供指導。在一項基于人類連接組項目參與者的睡眠質量調查和 fMRI 的研究中[17],研究人員對來自 UKB 的 8 718 名受試者進行了睡眠研究結果的交叉驗證。研究表明,睡眠質量差和抑郁癥與功能性連接存在密切關系。在人類連接組項目和 UKB 數據集中,功能連接與睡眠時間的關聯模式非常類似。
2.3 腦年齡預測
衰老會嚴重影響人腦功能,導致認知能力下降,增加患神經退行性疾病的風險。個體對象的大腦年齡預測已被證明在探索與衰老有關的疾病方面起著重要作用[18]。Dinsdale 等[19]利用 UKB 中的 19 687 個 T1 加權 MRI(訓練集 12 802,測試集 6 885)構建數據集,開發了一個類似于視覺幾何組(visual geometry group,VGG)架構的三維卷積神經網絡(convolutional neural networks,CNN)模型,與集成學習相結合來預測腦年齡。男性和女性大腦年齡預測模型的平均絕對誤差分別為 2.91 年和 2.71 年。大腦年齡估值差(brain age gap estimation,BrainAGE)與許多臨床測量指標結果相關,多種模態的 IDPs 也是如此。Peng 等[20]設計了一種類似于 VGG 網絡的三維網絡結構,使用 T1 加權 MRI 數據預測腦年齡,設計中采用了數據擴充、預訓練、模型正則化、模型集成和預測偏差校正等多種方法。其優良的性能在 UKB 數據集(n = 14 503,訓練集 12 949)中得到體現,平均絕對誤差為 2.14 年。
大多數大腦年齡預測模型僅用 T1 加權 MRI 進行預測。Cole[21]對 UKB 中的 17 461 名受試者進行了研究,其中訓練集為 2 205 名健康受試者,測試集為 520 名健康受試者,剩下的受試者用于 BrainAGE 研究。他們使用 UKB 的六種成像模態的神經影像,利用套索回歸建立了一個腦年齡預測模型,該模型對測試集數據的平均絕對誤差為 3.55 年。隨后,他們對 14 701 名受試者進行了進一步的研究,發現 BrainAGE 的增加與高的舒張壓和收縮壓以及中風史、糖尿病史、吸煙和飲酒習慣有關。Smith 等[22]認為從多模態角度出發,構建多個基于單模態的腦年齡預測模型具有更大價值。他們從 21 407 名 UKB 受試者的多模態腦成像數據中識別出 62 種大腦老化模式。這些模式分別代表了大腦老化的不同方面,顯示了腦功能和結構的不同變化,以及與遺傳、生活方式、認知、生理測量和疾病的關聯程度。盡管多模態的大腦年齡預測模型未發現遺傳關聯,但其中許多單模態模型卻可以找到在生物學上可解釋的遺傳關聯。Smith 等[22]認為,大腦老化并非單一的均勻過程,對結構和功能變化的不同模式進行建模將更具有生物學意義。
研究人員們提出了一系列估計大腦年齡和使用 BrainAGE 預測疾病的方法[23]。Kolbeinsson 等[24]將 UKB 中的 21 382 個 T1 加權 MRI 分為四組:訓練集(n = 3 067)、驗證集(n = 3 962)、健康測試人群(n = 2 057)和未選擇測試人群(n = 12 296),使用三維殘差網絡結構的 CNN 建立大腦年齡預測模型(n = 3 067,模型平均絕對誤差為 1.71 年)。隨后,研究人員將模型應用在未選擇測試人群上,與 1 410 個疾病及相關健康問題編碼、自我報告的臨床狀態以及身體、生活方式和環境表型進行相關分析,發現 BrainAGE 中的 24 種診斷和特征之間存在相關性。BrainAGE 相關的診斷和特征為心血管代謝病及其危險因素、認知功能和體育運動等。雖然 BrainAGE 已被用于疾病研究,但是腦年齡預測模型的準確度與 BrainAGE 間關系還不夠明確。Smith 等[25]根據模擬和真實數據,評估了不同的腦年齡估計方法對于 BrainAGE 的影響。研究者使用來自 UKB 的 19 000 名受試者的結構 MRI、dMRI 和 fMRI 中的 2 641 個 IDPs 來預測大腦年齡。結果表明,BrainAGE 與 5 792 個非成像變量(非大腦物理測量值、生活因素測量值、認知測試分數等)相關。腦年齡預測模型誤差較小并不能意味著模型具有更高臨床應用價值,需要結合非成像變量進行綜合考慮。
2.4 常態、成功和病態腦老化
老年人的認知老化可分為三種類型:常態老化、成功老化和病態老化[26-27]。常態老化是最常見的認知老化類型,盡管隨著年齡增加,認知能力逐漸下降,但認知能力較病態老化更好。Tseng 等[28]以 UKB 中的 7 167 名健康的中老年受試者(年齡范圍為 47~76 歲)的 dMRI 數據為基礎,探討了白質纖維束的異質老化效應。他們從 76 個預定義的主要纖維束中提取彌散量化指標。利用這些指標對年齡進行線性擬合估計,得到與增齡相關的白質變化。研究顯示了 4 種不同類型的白質老化模式。白質老化的主要模式涉及前額葉的聯合、聯絡和投射纖維,表現為較低的各向異性分數和較高的軸向擴散系數、徑向擴散系數和平均擴散系數。其它三種類型主要涉及頂葉、枕葉和顳葉皮質間連接。通過 dMRI 和概率纖維束追蹤技術,可建立全腦結構網絡,但會產生一定比例的虛假連接。閾值法被廣泛應用于去除虛假連接,但是不同的閾值策略是如何影響網絡的基本屬性及其與年齡等人口統計變量之間的關系,目前尚不明確。Buchanan 等[29]利用 UKB 中 3 153 名健康受試者(年齡范圍為 44~77 歲)的 dMRI 數據構建了一個全腦結構網絡,并采用兩種閾值方法在六種不同的網絡權重和四種常見的網絡度量上進行研究。研究結果表明,與未設閾值的網絡相比,較嚴格的閾值劃分具有更強的年齡關聯。另外一項在相同數據集上的研究發現,平均擴散率對年齡最為敏感,而丘腦輻射和相關纖維與年齡間負相關性最強[30]。
成功老化是指個體在老化過程中,認知功能保持較好,AD 風險較低。一般認為,父母長壽,其子女一般具有較高的成功老化幾率。Tian 等[31]在 UKB 中確定了 12 970 名受試者(平均年齡為 64.4 歲,女性占比為 51.5%)。根據父母中是否有一方壽命超過 85 歲,將受試者劃分為父母長壽組(占比為 57%)和非長壽組(占比為 43%)。父母的長壽與其子女的主要感覺運動皮層和包括海馬在內的顳區萎縮減慢有關。病態老化的大腦中一般存在 AD 等神經退行性疾病。海馬體積是 AD 的重要生物學指標,AD 的遺傳風險與海馬萎縮密切相關。雖然對患者海馬體積的客觀評價可為 AD 的診斷和風險分級提供重要信息,但臨床醫生需要獲得海馬體積隨年齡變化的完整數據來進行客觀評價。Nobis 等[32]用 19 793 名 UKB 中的健康受試者構建了最大的跨年齡海馬體積標準數據庫。該研究的一個重要發現是,中年人海馬的體積萎縮速度明顯加快,女性更為明顯。海馬是一個由多個亞域構成的統一結構。基于 17 161 名認知正常的 UKB 受試者(年齡范圍為 44~80 歲)的影像數據,Foo 等[33]研究了海馬子區與年齡、性別和 AD 多基因風險評分之間的關系。結果顯示,年齡與海馬各亞區體積呈負相關。AD 的多基因風險評分的水平與雙側全海馬、海馬杏仁核過渡區、海馬尾部、右側基底膜等海馬子區的萎縮程度相關。與中年組(n = 8 177)相比,老年組(中位年齡 63 歲,n = 8 984)在高風險評分時表現出更大的海馬子域損傷。
2.5 環境與遺傳因素
空氣污染會導致認知能力下降和神經退行性疾病。接觸空氣污染,特別是暴露于二氧化氮和氮氧化物中,會引發青少年心理疾病[34]。在一項包含了 18 288 名 UKB 參與者的研究中,Gale 等[35]基于 T1 加權 MRI,研究了空氣污染和前額葉皮質灰質之間的關系。通過對年齡、性別、教育程度等協變量的調整,在多元回歸模型中發現顆粒物(particulate matter,PM)2.5、PM10 與一氧化氮濃度和前額葉體積呈負相關關系。另外,他們還發現教育可以減少空氣污染對前額葉的傷害。Hedges 等[36]用 18 278 名 UKB 參與者的數據研究了空氣污染對海馬體積的影響。除去年齡、性別等協變量影響后,PM2.5 濃度與左海馬萎縮程度呈正相關。PM2.5 濃度每增加一個單位,左海馬體積將萎縮 0.28%。
腦結構和功能的遺傳機制尚不十分清楚。通過對 UKB 中的基因信息和腦成像數據集進行綜合分析,可為揭示腦發育、衰老和疾病等方面的結構和功能變化提供遺傳依據。Elliott 等[37]對 UKB 中 8 428 名受試者的 3 144 種結構和功能 IDPs 進行了全基因組關聯研究,結果發現其中很多 IDPs 具有可遺傳性。他們發現,在 148 個簇中,單核苷酸多態性與 IDPs 之間存在相關關系。這些相關因素包括:鐵運輸和存儲基因與皮層下腦組織的磁化率有關,細胞外基質和表皮生長因子基因與白質的微結構和病變有關等。大腦皮層下的腦區對運動、意識、情緒和學習起著重要作用。Satizabal 等[38]對心臟與衰老的基因組流行病學研究(cohorts of heart and aging research in genomic epidemiology,CHARGE)、基于薈萃分析增強神經影像遺傳學聯盟(enhancing neuro imaging genetics through meta-analysis consortium,ENIGMA)和 UKB 中近 40 000 名受試者進行了全基因組關聯分析,確定了伏隔核、杏仁核、腦干、尾狀核、蒼白球和丘腦體積相關的常見遺傳變異,并確定了 48 個相關的位點。利用基因表達、甲基化和神經病理學數據對這些位點進行分析,發現 199 個位點可能與神經發育、突觸信號傳導、軸突傳遞、細胞凋亡、炎癥/感染以及神經系統疾病易感性等有關。
2.6 認知能力、性別等其他因素
腦容量與智力的關系一直是認知神經科學研究的熱點問題之一。Cox 等[39]基于 29 004 名年齡范圍為 44~81 歲的 UKB 研究對象(7 201 名受試者同時具有腦影像和完整的四項認知測試數據),根據認知能力測試創建了一個一般智力因素 g,并估算了其與大腦總容量及其他局部結構指標之間的關系。腦容積與 g 之間的相關系數為 0.276。此外,他們還建立了一個包括整體灰質和白質的宏觀和微觀結構的認知能力評估模型,該模型對老年人群的解釋力比中年人群更好。年齡和大腦的相互作用對 g 值有調節作用。關聯最密切的腦區包括腦島、額葉、顳前/上和內側顳葉、后扣帶和副扣帶、枕外側皮質、丘腦體積以及丘腦和聯合纖維等白質微結構。
許多神經影像學研究并未考慮到性別差異的潛在影響。從結構和功能上全面理解性別差異,有助于解釋行為層面的差異,并為與性別有關的精神病研究提供了重要線索。Ritchie 等[40]基于 UKB 中的 5 216 名受試者(2 750 名女性和 2 466 名男性受試者,年齡范圍為 44~77 歲),研究了大腦結構和功能的性別差異。研究結果顯示,男性受試者大腦皮層和次皮層體積較大,皮質表面積較大,白質擴散傾向明顯;女性受試者大腦皮層較厚,白質纖維束復雜度較高。在兩個認知測試中,男性的認知得分較高,部分是受性別結構差異的影響。功能連接顯示男性在單峰感覺運動皮層中具有較強的連通性,女性在默認模式網絡下具有較強的連通性。
3 討論與總結
UKB 是一項大型前瞻性群體研究,旨在研究中老年人群體的健康狀況。該研究包含了目前世界上最大的由健康人群組成的神經影像數據庫,提供有關解剖和生理過程的結構和功能信息。在 UKB 中的所有 MRI 數據都是用同一種 MRI 掃描儀獲取的,并使用相同的分析軟件進行分析,從而避免了由于使用不同的掃描儀或分析技術而造成的差異。通過嚴格的數據采集和分析程序,UKB 中的大量同質數據可以為大規模神經影像學分析提供新的重要證據。迄今為止,已發表的成果主要集中于心血管疾病危險因素、調節性因素、腦年齡預測、常態、成功和病態腦老化、環境與遺傳因素以及認知能力和性別等問題的橫斷研究。
目前已發表的腦影像學研究大多基于 UKB 提供的結構和功能的 IDPs,研究者無需對復雜的神經影像進行處理和分析,大幅度簡化了分析處理過程。但是這些 IDPs 反映的是腦區的平均特征,依賴于前期的人工選擇,特征靈敏度一般比較低,一定程度上減弱了 UKB 大數據帶來的優勢。從體素水平或皮質頂點分析神經影像,可以從細微尺度上反映大腦的變化。海量的神經影像數據與最新人工智能算法的結合,將進一步促進神經影像分析的發展。當前,研究者們已將最新 CNN 模型結合 UKB 中的原始神經影像數據應用到腦年齡預測領域,模型的誤差相對于以往的經典模型降低了 50%。最新人工智能技術與神經影像大數據的結合[41-43],將會在神經影像分割、神經影像分類與神經影像預測等很多領域取得很好的效果。
因為 UKB 中包含數萬名受試者的數據,所以在分析時必須考慮適當的數據選擇策略。利用 UKB 對滿足實驗設計方案的全部數據進行分析,能得到具有較高統計性能的結果。但完整的腦影像數據集數據量有數十 TB,每 6~12 個月就會有 5 000~10 000 名新受試者的影像數據加入。對完整數據集進行分析會給數據傳輸和數據處理帶來巨大壓力。從結果可復現性和數據傳輸與計算量兩方面考慮,本文認為數據選擇策略包含三個決策點。首先,如果在影像分析中采用的是 IDPs,每個實驗對象只包含數千個 IDPs 特征,可以采用滿足實驗設計的數據全集。其次,如果需要對神經影像直接進行處理,可以基于 UKB 中圖像的不同發放,或基于采集時間順序來構建子集,分段對數據進行分析。最后,如果是項目研究初期,進行可行性分析時,可以在前一決策點構建的子集中通過隨機采樣抽取一定數據來構建數據集。
擁有海量的受試者的 UKB 是研究影像數據和非影像測量之間關系的有力資源。但是,它在提升統計效率的同時,也會帶來嚴重的混淆效應[44]。在研究因果關系時,混淆變量會同時影響假定的原因和假定的結果。如果不能正確處理混淆效應,則可能在配對的獨立變量對之間產生虛假關聯,最終結果并不能反映實際關系。對于混淆變量,通常需要在模型中進行修正估計,以消除受混淆因素的影響。判斷哪些因素是混淆因素是一個復雜的問題。舉例來說,年齡可能是某些研究中的一個混淆因素,但在其它一些研究中卻是一個關鍵變量。另外一個例子是性別,性別與潛在的混淆因素(如頭部尺寸)相關,并且還可能以復雜的方式影響目標變量,因此研究人員有時需要獨立地對不同性別進行關聯分析。此外,UKB 成像數據受掃描儀的位置、其他參數和配置等因素的影響,海量數據也意味著即使是很小的雜音也會導致統計問題。在提出科學問題并進行研究前,要從實際問題出發,考慮如何消除實驗設計中的混淆效應影響。
雖然目前的 UKB 已經涉及了相當廣泛的科學問題,但 UKB 的影像擴展項目嚴格說還是處于起步階段。目前,主要研究還是針對認知能力正常的健康人群進行橫斷研究。隨著時間的推移,影像隊列中會出現越來越多的各種增齡性神經退行性疾病患者。屆時,縱向隨訪研究可以幫助研究者研究疾病的發生與發展過程。舉例來說,新冠肺炎當前正在全球流行,UKB 中患有新冠的受試者的后續隨訪數據就可以為研究新冠對腦結構、功能和認知的長期影響提供必要的依據。另外,由于 UKB 中包含海量的腦成像數據與高通量基因組學數據,因此,對 UKB 進行影像基因組學研究也是其一個重要研究發展方向。將腦神經影像與基因組影像進行整合,挖掘它們之間的關系,可以發現能夠反映基因多態性或表達多態性的圖像特征。在此基礎上,可以深入了解腦表型特征、遺傳變異和分子機制,以及它們對正常和紊亂大腦功能和行為的影響。隨著 UKB 的影像擴展項目的逐漸成熟,大量新的科學研究也會不斷開展。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。