UK Biobank(英國生物銀行)是一個大型生物醫學數據庫和研究資源,包含來自50萬英國參與者的生物遺傳和健康信息,涵蓋了豐富的基本結構化數據、高通量的基因組學遺傳數據和多模態影像數據,但是由于其數據體量大,使用方式復雜,因此國內研究者使用的并不廣泛。本文首先介紹UK Biobank的健康相關結構數據、基因數據和影像數據等內容,隨后分別對不同數據的下載使用方法進行詳細描述,最后探索近幾年使用UK Biobank數據庫進行的最新研究,并圍繞將人工智能技術應用于UK Biobank數據的典型研究和發展方向進行探討,以期在人體解剖生理和遺傳變異、表型特征等方面有更多的科學研究成果出現。
引用本文: 黃夏璇, 黃韜, 楊瑞, 袁師其, 何寧霞, 徐安定, 呂軍. UK Biobank數據的應用介紹. 中國循證醫學雜志, 2022, 22(9): 1099-1107. doi: 10.7507/1672-2531.202204162 復制
1 引言
英國生物銀行(UK Biobank,UKB)[1-2]是一個大型的生物醫學數據庫和研究資源,作為一項前瞻性的流行病學科學研究計劃,共收集了英國各地年齡在40~69歲之間的50萬例志愿者數據信息,包括了志愿者的基因數據、多模態影像數據及健康相關數據。這項研究計劃的時間跨度從2006年延續至今,并且官方表示在未來30年內,將長期追蹤該人群的健康和醫療狀況信息。直至2020年初,UKB已處理并發布了超過45 000人的影像數據[3],為后續更長遠地從人體生理解剖和遺傳基因表型方面探討疾病的診斷和治療提供了大數據基礎。UKB數據庫不僅定期增加額外數據和更新,而且對全球符合有關倫理和科學標準的研究人員開放訪問,促成多項改善人類健康新項目的產生,并得到了一些新的發現。
UKB的研究領域不僅限于對人群的基因表型數據進行全基因組關聯分析,隨著多模態影像數據在神經系統方面的資源被深度開發[4],研究人員開始對大腦結構和功能,從行為學和臨床結果等方面對疾病的預后預測及風險因素進行探索。另外,深度學習作為機器學習中最新的研究方向[5-6],通過復雜的機器學習算法,主要目標是讓機器能夠像人一樣具有分析學習能力,通過學習樣本數據的內在規律和具體特征,進而能夠識別目標數據的文字、圖像和聲音等信息。本研究將對UKB數據庫進行基本介紹,分別闡述不同類型數據的使用方法,并圍繞將人工智能技術應用于UKB數據的典型研究和未來發展方向進行探討,期待更多的研究人員可從人體解剖生理角度和遺傳變異、表型特征等方面,為與公共衛生密切相關的疾病預防和治療開辟新的研究領域。
2 UKB數據庫整體介紹
UKB(數據庫官網:https://www.ukbiobank.ac.uk/)是全球最大的生物醫學樣本數據庫,也是世界上最詳細、最長期的前瞻性健康研究。在2006—2010年間,UKB作為一項縱向研究,從英國各地招募了50萬例年齡在40~69歲的志愿者,計劃收集大約1 500萬份血液、尿液和唾液的生物樣本,并對所有參與者進行基因分型和血液生化分析,調查志愿者的生活方式(包括營養、生活方式和藥物使用情況等)及親屬遺傳關系,長期追蹤他們的健康和醫療狀況信息,并要求每位參與者都參加在英格蘭或者蘇格蘭、威爾士的中心醫院進行的基線評估。另外,UKB的影像擴展項目[7]于2016年獲得資助,計劃到2023年初步完成,該項目擬掃描100 000個現有UKB隊列對象,包括對大腦、心臟和身體的磁共振成像檢查(magnetic resonance imaging,MRI)、骨和關節低劑量X射線掃描及頸動脈超聲檢查,掃描成像隊列中所有受試者的影像數據采集在3個專業影像檢查中心完成。從2017年6月公開至今,UKB數據庫收集并供使用的開放數據主要包括:所有參與者的健康相關數據(死亡數據、癌癥數據、初級保健記錄、住院記錄數據)、生化樣本分析、物理活動檢測、問卷調查、基線評估數據、多模態成像、全基因組基因分型的縱向隨訪數據。圖1展示了不同數據的開放時間和先后次序。目前,UKB仍在持續不斷地更新,表1展示了UKB未來2年內的數據發布細節和時間。另外,需要訪問該研究資源的研究人員必須在訪問管理系統(access management system,AMS)中填寫注冊表在英國生物銀行注冊,并且通過AMS系統申請訪問數據庫,填寫個人研究摘要及所需數據內容,待英國生物銀行批準審核完成后方可使用UKB的部分數據內容。總的來說,UKB數據庫不同于其他數據庫的特點就是,圍繞健康人群為主、具有豐富的樣本量和數據并且更新速度快。


3 UKB數據庫分布
3.1 基線評估
在2006—2010年從英國招募了40~69歲之間的健康人群,在蘇格蘭、英格蘭和威爾士的22個評估中心進行了基線評估,主要包括書面同意、飲食回憶記錄、肺活量和骨密度測量情況、血液、尿液和唾液樣本采集等內容[8],其中,血液數據覆蓋患者從貧血到血源性癌癥等血液疾病,和與癌癥及其他慢性非傳染性疾病相關的20種病原體血清學抗體反應,以及進行基于核磁共振成像(nuclear magnetic resonance,NMR)的代謝組學測定的200多種代謝產物,這些數據在未來幾年將持續提供及更新(具體內容詳見:https://www.ukbiobank.ac.uk/enable-your-research/about-our-data/baseline-assessment)。
3.2 在線問卷
英國生物銀行定期向330 000例參與者進行問卷調查,發送電子郵件地址,每份問卷的回復率達35%~50%,收集關于24小時飲食回憶、認知功能、職業經歷、終身和當前的心理健康、消化系統健康、慢性疼痛及食物偏好,未來計劃將對睡眠情況、神經發育情況及生活質量。
3.3 基因數據庫
1999年提議建設的UKB數據庫研究計劃,旨在建成世界上最大的有關致病或預防疾病的基因信息庫。從2017年7月開始更新基因數據,對所有英國生物銀行參與者進行全基因組基因分型、全外顯子組測序和全基因組測序,將大大改變研究人員研究各種健康結果的遺傳學決定因素的方式[9-10]。其中,英國生物樣本庫的遺傳數據包含了488 377例參與者的基因型,同時提供了人類白細胞抗原區(human leukocyfe antigen,HLA)的各種基因排列數據運算。據報道,UKB數據庫利用自主設計的基因分型芯片對50萬被試者進行全基因組單核苷酸多態性(single nucleotide polymorphism,SNP)數據搜集,并且自主開發了一套針對UKB數據的管理系統,從規模、多樣性及特異性等特點對其收集的基因數據進行質量控制,全部基因數據包括了50萬人的9 600萬個位點的基因變異信息[11]。現如今大部分的研究人員使用一種基于陣列的方法來確定基因數據的應用,收集遺傳數據的特制基因分型矩陣,進行基因的分型和估算遺傳相關性,可對UKB基因數據庫記錄的全部性狀與單個遺傳變異之間的關聯進行分析。目前主要涉及2個方面的研究,一方面,將基因數據進行優化,提取基因中的變異數據推算基因型和疾病的關系,了解疾病本身的生物學基礎、遺傳因素和生活方式因素之間的相互作用及疾病的潛在遺傳學特征[12]。另一方面,將UKB的基因數據和影像數據進行結合分析,通過對不同的影像結構功能特征指標進行全基因組關聯研究,觀察遺傳變異和成像特征之間的關聯集群,得到基因與疾病之間的相關性,從而在疾病的發生機制中發現更多的遺傳影響因素[13]。
3.4 影像數據庫
自2011年起,UKB成立了一個專家成像工作組,在與全球100多名成像專家協商后,開發了一種大規模的影像成像采集協議,旨在最大限度地提高收集成像數據的科學價值,同時也可在較短采集時間得到大規模實現。2014年,UKB啟動了一項新的醫療成像數據收集計劃,使用MRI和X射線技術對超過10萬例志愿者進行分析,該項目包括大腦、心臟和身體的MRI,骨骼和關節的全身雙能X線吸收測定法(dule energy X-ray absorptiometry,DEXA)掃描,頸動脈的超聲掃描,以及視網膜的光學相干斷層掃描成像。圖2展示了UKB此次項目所收集的影像數據的內容[3-4]。截至2020年初,超過45 000例參與者接受了評估,已經使UKB成像增強計劃成為迄今為止世界上最大的多模態成像研究,其中已經有10 000例在第一次檢查后2年返回進行重復成像,成像采集主要以多模態為主。所謂的多模態包括:3種模態的結構MRI數據,靜息態、任務態fMRI數據及diffusion MRI數據。UKB提供了對影像進行全自動處理的流程使得影像在不同模態與樣本間是可比較的,基于處理后的多模態影像數據生成上千個影像指標(imaging-derived phenotypes,IDPs)[14-15]來描述人體解剖器官的結構與功能,多模態數據是直接利用統一的硬件和軟件直接獲取反映所有影像特征的多模態IDPs指標。據不完全統計,截至2020年已經有超過1 750個關于UKB的研究持續進行中,也被不斷用于解決一系列新的研究難題。與其他數據庫不同的是,UKB是首個采用復雜的全自動圖像處理流程,提取了4 350個反映大腦不同結構功能特征的IDPs,并且在核磁共振成像掃描中采用了最新的MRI采集技術,縮短了采集時間,大大提高了圖像的空間分辨率[16-18]。UKB影像數據庫的一個獨特特點就是大樣本量人群及其多模態數據都是利用統一的硬件和軟件獲取,便于研究人員可在一定程度上不受分析和處理圖像的繁雜流程的限制,大大提升了統計效率。

3.5 健康相關數據
健康相關數據包括了UKB數據庫中各種與健康有關的電子記錄數據[19],主要有死亡、癌癥、住院和初級保健記錄數據,所有數據都在持續更新和隨訪,具體展示如下:① 死亡數據:UKB通過與國家死亡登記處的聯系定期收到死亡通知,每個參與者的主要死因由ICD-10代碼確定,自項目開放以來,已經有37 733例參與者死亡,平均死亡年齡約為69.6歲,男性占平均死亡人數的59%,其中主要死因是缺血性心臟病。② 癌癥數據:UKB囊括了最常見的癌癥診斷,其中25 503例參與者被診斷為癌癥,且診斷平均年齡為52.2歲,最常見的癌癥為乳腺癌、前列腺癌和結直腸癌。③ 住院記錄數據:醫院住院患者主要來自英格蘭(89%)、蘇格蘭(7%)和威爾士(4%)的醫院住院數據,分別由數據庫存取及檢索系統(database access and retrieval system,DARS)、安全匿名信息鏈接數據庫(secure anonymize information linkage,SAIL)、電子數據研究與創新服務數據庫(electronic data research and innovation service,eDRIS)等不同的數據源收集而來,其中,醫院住院患者數據中的所有臨床數據都根據世界衛生組織的ICD(國際疾病和相關健康問題分類)進行編碼,所有的操作和程序都根據OPCS(人口、人口普查和調查辦公室:干預措施和程序的分類)進行編碼。所有英國生物樣本庫關聯的英格蘭和大多數威爾士醫院數據都用ICD-10和OPCS-4編碼。然而,由于蘇格蘭數據的收集開始于更早的時間(1981年),早期的蘇格蘭住院數據(1997年之前收集的數據)采用ICD-9和OPCS-3編碼,只有少量的威爾士住院記錄用ICD-9編碼,所有的電子病歷數據一起收集了關于診斷和癥狀的類型和日期、程序和操作、處方、檢測結果和全科醫生轉診的信息。④ 初級保健記錄數據:從2019年到現在,共230 000例參與者,主要包括:診斷、實驗室檢查、處方藥、處方日期,藥物代碼、藥物名稱及數量等,并且定期提供最新的初級保健數據,甚至包括新型冠狀病毒肺炎(COVID-19)相關的數據可供研究,但須遵守患者信息控制法規。
3.6 生化標志物
UKB將所有500 000例參與者及2012—2013年參加重復評估訪問的20 000例參與者中收集的樣本中測量廣泛的生化檢查標志物。根據實驗室檢測度研究不同疾病的科學相關性,以血細胞計數(從所有參與者收集的新鮮血液樣本的血液學檢測)、傳染病標志物(測量10 000例參與者針對20種病原體的血清學抗體反應)、代謝組學(從所有參與者收集的血液樣本進行NMR代謝組學測定200多種代謝產物)、端粒長度(從所有參與者收集的血液樣本提取DNA測量的染色體標志物)為具體分類,總共納入34種生化標志物,包括:臨床上已確定的疾病危險因素、診斷相關未明確的因素或未得到良好評估的表型標志物。
3.7 活動檢測數據
在2013年6月至2016年1月之間,UKB通過腕帶式活動檢測器收集100 000例參與者的7天內的體力活動數據,主要針對個體身體運動活動的測量情況,并被要求每季度需重復4次檢查,包括聽力和動脈僵硬測試、心肺健康測試、各種視力測量及佩戴加速計收集7天的身體活動數據等。
4 UKB數據提取
UKB的數據提取較為復雜,基本步驟如表2所示。主要分為5個步驟,一是獲取數據校驗碼及密鑰文件,二是下載個人項目數據包,三是檢查數據完整性,四是解密解壓,最后才能使用不同的工具下載相應的數據。

需要注意的是,只有經過申請,并通過官方授權的項目相關數據才可提取出來,沒有通過授權的數據是無法下載的。授權密鑰每年更新一次,提取數據時需把.key文件放置在與數據包、提取工具相同的目錄內。密鑰除了規定哪些數據可下載外,還約束了數據的鍵值,不同項目的密鑰與數據鍵值不同。接下來本章主要介紹幾種不同數據類型的提取方式。
4.1 主數據提取
UKB中的主數據集是由結構化數據組成。第二章提到的健康相關數據、生化標志物、活動檢測、基線評估等都屬于這一部分,也包含有一些影像相關或者基因相關的指標。通俗的說,只要是能夠使用表格統計展示的數據,基本都屬于這一部分。使用ukbconv工具提取,需要搭配.enc_ukb后綴的數據包文件和.key后綴的密鑰文件使用,需放置在同一文件夾內。以windows系統下載數據為例:
下載單個指標命令:./ukbconv ukb45434.enc_ukb csv -s100021。其中100021為具體的指標,表示維生素D。提取的數據如表3所示,其中eid為患者ID(也即是數據鍵值),5個列的數據均是維生素D,只是其上線周期不同,具體參考官方說明(https://biobank.ctsu.ox.ac.uk/crystal/field.cgi?id=100021)。將編號替換成相應的指標代碼可下載自己需要的數據。

下載批量指標命令:./ukbconv ukb45434.enc_ukb csv -iid.txt 。其中id.txt是一個包含有多個指標代碼的文本文件,文件內指標代碼采用換行輸入。將得到與單個指標相同的數據文件,不同的指標在文件中往列的方向擴展。
CSV是研究人員常用的格式之一,同樣可導出其他格式,如bulk、docs、lims、r、sas、stata、txt等,只需將命令中的csv替換成相應的字符串即可。
4.2 大批量數據提取
大批量的數據主要包括身體各部位的MRI影像、超聲數據和ECG數據等。與提取主數據類似,需要將下載工具、.enc_ukb后綴的數據包文件和.key后綴的密鑰文件放置在同一文件夾內(密鑰文件建議改名為.ukbkey全名),使用ukbconv和ukbfetch工具提取。不同的是,提取大批量數據不像提取主數據那么直接,包括3個步驟:① 檢查電腦網絡,能打開UKB官方的數據存儲庫網址biota. ndph.ox. ac. uk或biota. ndph. ox. ac. uk即可。② 使用uknconv工具生成包含有數據下載鏈接的.bulk文件,命令為:ukbconv ukb23456.enc_ukb bulk -s20207;其中20207表示數據的編號。我們將會得到一個ukb23456.bulk文件,需要注意的是,無論數據的編號怎么換,這個.bulk文件的名字是不會變的,所以使用ukbconv下載新的編號前需要將此文件更名或者轉存。③ 使用ukbfetch工具下載數據文件。大批量數據下載后是以研究對象為單位,一個研究對象為一個壓縮包或一個文件。使用命令:./ukbfetch -ukb23456.bulk -s$CN -m1000;其中$CN表示下載開始的對象編號,m1000表示的是從開始編號逐1遞增的后1 000個對象數據。批量數據沒法一次性將所有數據下載下來,需要一批一批的下載。下載后的20207編號數據為多個壓縮包,解壓后為多個.dcm文件。
4.3 基因數據提取
基因數據的提取只能在Linux平臺中進行,使用命令為:./gfetch 22828 -c1 -ak12345r23456.key,并且需要把.enc_ukb后綴的數據包文件放在同一目錄下。其中22828是一個基因數據的編號,c1表示1號染色體。基因數據是根據指定染色體下載的,一個編號的大小最大可達200 G,根據具體的數據類型確定。比如單倍型22418全染色體總的占用空間為91.5G,但是基因插補數據22828的1號染色體就有181G,全染色體數據更是達到了2T的占用空間。總體來說,染色體編號越小,占用空間越大。詳細的基因數據介紹見相關參考文獻[20]。
4.4 其他數據提取
除了前述的幾個主要類型數據,UKB還包括了一些記錄級的醫院和初級保健數據—這可通過展示頁面的下載頁面中的數據門戶進行訪問。返回的數據集—來自研究者在研究中使用了UKB數據,但沒有直接納入主要資源,主要使用工具ukblink下載,下載方式可在官網檢索資源655中找到。
5 UKB數據庫研究方向
為了解目前使用UKB數據庫進行相關研究的現況,本研究圍繞UKB數據庫相關研究進行了可視化分析。以Web of Science 為例,以“UK Biobank*”為關鍵詞進行檢索,排除不相關文獻,最后將得到的所有文獻進行整合,并將近5年的整體文獻發表情況進行可視化分析。截至目前,UKB數據庫中主要的研究方向以基因遺傳學、神經科學、心血管系統、計算機科學等方向為主,見圖3。

從研究熱點的角度看,將滿足出現頻率大于3次的關鍵詞以關系網絡展示,見圖4。其中,每一個節點代表一個關鍵詞,節點的圓圈直徑越大則關鍵詞出現的頻次越高,不同關鍵詞之間連接的線越粗,表明兩者之間的關系越緊密。顯然,從已發表的文獻中可知,心血管疾病(cardiovascular disease)、新型冠狀病毒性肺炎(COVID-19)、房顫(atrial fibrillation)、慢性腎臟疾病(chronic kidney disease)、精神性疾病(mental health)是目前聚焦的疾病病種,并且關聯較為緊密的影響和調節因素中包括認知功能(cognition)、營養飲食(diet)、血壓(blood pressure)、睡眠質量(sleep duration)、體育活動(exercise)、教育水平(education)等[21]。

從研究方法的角度,孟德爾隨機化研究(Mendelian randomization)、全基因組關聯研究(genome-wide association study),機器學習(machine learning)、隊列研究(cohort study)等是目前UKB數據庫研究的熱點方法,孟德爾隨機化研究與全基因組關聯研究主要針對基因數據庫的GWAS數據,確定和評估不同疾病的相關遺傳學變異和位點,從而探索基因表達多態性的遺傳變異機制;機器學習作為人工智能技術與醫學圖像結合的學習方法,在影像分割、影像分類及預測腫瘤的良惡性等方面發展迅速,有助于實現基于圖像的個性化醫療決策;而隊列研究是國際上公認的探討常見重大疾病病因最有效的方法,也是研究遺傳和其他暴露因素與健康結局的重要臨床研究方法之一,尤其在UKB中的健康相關數據中應用最為廣泛。
由此,UKB作為一項前瞻性群體研究計劃,涉及了相當廣泛而豐富的多學科問題,并且在神經系統疾病和心血管疾病研究領域具有巨大的潛力,但仍存在很多新的研究方向需要研究人員去探討和思考。
6 人工智能與UKB數據結合
目前,圍繞代謝組學、生物信息學、醫學影像學、系統生物學等領域,結合人工智能的UKB數據庫挖掘推動了精準醫學的發展,因而將UKB和人工智能相關的主題詞作為關鍵詞,將所有文獻中出現3次以上的關鍵詞在可視化工具VOSviewer下轉化為密度熱圖展示見(圖5)。我們發現,機器學習和深度學習是最主要的人工智能學習方法,圖像分割、分類、預測模型等研究手段與MRI、FMRI聯系緊密。另外,研究領域囊括了心血管疾病、腦梗死、阿爾茨海默癥及抑郁癥等熱點問題。目前最新的研究成果揭示了UKB數據庫未來的發展方向,例如機器學習被應用于心臟MRI,識別主動脈瓣畸形和其他不良的心臟預后事件,同時進行了全自動左心室分析,試圖評估自動化左心室的質量和體積[22];使用機器學習方法對客觀測量的睡眠和身體活動行為進行最大的評估,有助于了解治療的有效性及與行為變異相關的疾病過程[23];基于UKB的遺傳數據建立心肌梗塞患病風險的預測模型[24];應用最新的卷積神經網絡模型結合UKB原始神經影像數據預測腦年齡、認知水平及老化程度等[25]。人工智能領域的技術,特別是深度學習方法作為最前沿的研究方向,囊括了計算機視覺、自然語言處理的研究手段,從計算機視覺的角度,不同于傳統的計算機輔助檢測,深度學習通過對目標圖像特征的提取和識別,實現圖像的分割、預測病灶的嚴重程度及定性定位;從自然語言處理的角度,不僅可通過UKB文本數據快速地進行語義分析,并且實現文本的轉換提取,將臨床電子數據和描述報告標簽化[26]。因而,如何更深入地將影像數據與基因數據進行結合,探究大腦結構和功能、遺傳突變、從遺傳到影像病理機制的因果聯系,是所有研究者們將不斷探討的重要研究方向。

7 討論
UKB是一項前瞻性的大規模以健康人群為基礎的研究,旨在評估40~69歲正常人群中、老年疾病的所有遺傳和非遺傳因素,UKB不僅提供了詳細的健康信息,并且收集了大量的基線數據和樣本,提供了血液、尿液樣本、認知測試、在線問卷、健康記錄、運動心電圖活動監測、全基因組基因表型數據,尤其在2013年起收集了10萬參與者的多模態成像數據,并將進行持續20年的隨訪記錄。目前已經囊括8 500多人死亡、750 000多例流行病和突發癌癥等共計60多萬人住院的相關數據,同時與一系列其他數據庫建立聯系。UKB正在開發對一系列疾病領域的結果和遺傳基因表型進行準確識別和亞分類,為影像基因組學研究提供了相關依據。UKB數據庫的優勢在于,有海量的健康人群高通量基因組學數據和神經影像數據,完整的影像數據足足有數十TB[3,17],并且研究者無需對復雜的神經影像再進行分析處理。另外,UKB中還包括了COVID-19患者數據,可結合神經系統疾病的預后和認知功能進行長期隨訪研究,將基因組學數據和影像數據進行整合[27-28]。
UKB數據庫作為一個大型的公共數據庫,目前向所有的符合有關倫理和科學標準的研究人員開放。從近幾年的研究來看,研究者們以基因表型數據和行為與臨床結局的相關性為主要研究方向,研究主題涵蓋了新型冠狀病毒性肺炎、心血管疾病、神經退行性疾病、精神性疾病等疾病。隨著影像數據庫的擴展和逐漸成熟,基因組和影像數據的結合將是未來可能的研究方向,研究者將嘗試探索從遺傳突變到影像指標和神經或精神疾病的機制,深入了解正常和紊亂大腦功能和行為在遺傳表型特征、遺傳變異的表現,利用最新的人工智能技術,使大數據與深度學習融合在基因影像學領域獲得突破性進展。
本研究對UKB進行了整體而系統的介紹,從UKB的數據庫內容、提取數據流程、具體研究應用和與人工智能結合的研究發展等方面探索,有助于更多研究人員系統了解UKB數據庫,以期為心血管疾病、神經系統疾病及傳染病等疾病的預防和治療開辟新的研究領域。
1 引言
英國生物銀行(UK Biobank,UKB)[1-2]是一個大型的生物醫學數據庫和研究資源,作為一項前瞻性的流行病學科學研究計劃,共收集了英國各地年齡在40~69歲之間的50萬例志愿者數據信息,包括了志愿者的基因數據、多模態影像數據及健康相關數據。這項研究計劃的時間跨度從2006年延續至今,并且官方表示在未來30年內,將長期追蹤該人群的健康和醫療狀況信息。直至2020年初,UKB已處理并發布了超過45 000人的影像數據[3],為后續更長遠地從人體生理解剖和遺傳基因表型方面探討疾病的診斷和治療提供了大數據基礎。UKB數據庫不僅定期增加額外數據和更新,而且對全球符合有關倫理和科學標準的研究人員開放訪問,促成多項改善人類健康新項目的產生,并得到了一些新的發現。
UKB的研究領域不僅限于對人群的基因表型數據進行全基因組關聯分析,隨著多模態影像數據在神經系統方面的資源被深度開發[4],研究人員開始對大腦結構和功能,從行為學和臨床結果等方面對疾病的預后預測及風險因素進行探索。另外,深度學習作為機器學習中最新的研究方向[5-6],通過復雜的機器學習算法,主要目標是讓機器能夠像人一樣具有分析學習能力,通過學習樣本數據的內在規律和具體特征,進而能夠識別目標數據的文字、圖像和聲音等信息。本研究將對UKB數據庫進行基本介紹,分別闡述不同類型數據的使用方法,并圍繞將人工智能技術應用于UKB數據的典型研究和未來發展方向進行探討,期待更多的研究人員可從人體解剖生理角度和遺傳變異、表型特征等方面,為與公共衛生密切相關的疾病預防和治療開辟新的研究領域。
2 UKB數據庫整體介紹
UKB(數據庫官網:https://www.ukbiobank.ac.uk/)是全球最大的生物醫學樣本數據庫,也是世界上最詳細、最長期的前瞻性健康研究。在2006—2010年間,UKB作為一項縱向研究,從英國各地招募了50萬例年齡在40~69歲的志愿者,計劃收集大約1 500萬份血液、尿液和唾液的生物樣本,并對所有參與者進行基因分型和血液生化分析,調查志愿者的生活方式(包括營養、生活方式和藥物使用情況等)及親屬遺傳關系,長期追蹤他們的健康和醫療狀況信息,并要求每位參與者都參加在英格蘭或者蘇格蘭、威爾士的中心醫院進行的基線評估。另外,UKB的影像擴展項目[7]于2016年獲得資助,計劃到2023年初步完成,該項目擬掃描100 000個現有UKB隊列對象,包括對大腦、心臟和身體的磁共振成像檢查(magnetic resonance imaging,MRI)、骨和關節低劑量X射線掃描及頸動脈超聲檢查,掃描成像隊列中所有受試者的影像數據采集在3個專業影像檢查中心完成。從2017年6月公開至今,UKB數據庫收集并供使用的開放數據主要包括:所有參與者的健康相關數據(死亡數據、癌癥數據、初級保健記錄、住院記錄數據)、生化樣本分析、物理活動檢測、問卷調查、基線評估數據、多模態成像、全基因組基因分型的縱向隨訪數據。圖1展示了不同數據的開放時間和先后次序。目前,UKB仍在持續不斷地更新,表1展示了UKB未來2年內的數據發布細節和時間。另外,需要訪問該研究資源的研究人員必須在訪問管理系統(access management system,AMS)中填寫注冊表在英國生物銀行注冊,并且通過AMS系統申請訪問數據庫,填寫個人研究摘要及所需數據內容,待英國生物銀行批準審核完成后方可使用UKB的部分數據內容。總的來說,UKB數據庫不同于其他數據庫的特點就是,圍繞健康人群為主、具有豐富的樣本量和數據并且更新速度快。


3 UKB數據庫分布
3.1 基線評估
在2006—2010年從英國招募了40~69歲之間的健康人群,在蘇格蘭、英格蘭和威爾士的22個評估中心進行了基線評估,主要包括書面同意、飲食回憶記錄、肺活量和骨密度測量情況、血液、尿液和唾液樣本采集等內容[8],其中,血液數據覆蓋患者從貧血到血源性癌癥等血液疾病,和與癌癥及其他慢性非傳染性疾病相關的20種病原體血清學抗體反應,以及進行基于核磁共振成像(nuclear magnetic resonance,NMR)的代謝組學測定的200多種代謝產物,這些數據在未來幾年將持續提供及更新(具體內容詳見:https://www.ukbiobank.ac.uk/enable-your-research/about-our-data/baseline-assessment)。
3.2 在線問卷
英國生物銀行定期向330 000例參與者進行問卷調查,發送電子郵件地址,每份問卷的回復率達35%~50%,收集關于24小時飲食回憶、認知功能、職業經歷、終身和當前的心理健康、消化系統健康、慢性疼痛及食物偏好,未來計劃將對睡眠情況、神經發育情況及生活質量。
3.3 基因數據庫
1999年提議建設的UKB數據庫研究計劃,旨在建成世界上最大的有關致病或預防疾病的基因信息庫。從2017年7月開始更新基因數據,對所有英國生物銀行參與者進行全基因組基因分型、全外顯子組測序和全基因組測序,將大大改變研究人員研究各種健康結果的遺傳學決定因素的方式[9-10]。其中,英國生物樣本庫的遺傳數據包含了488 377例參與者的基因型,同時提供了人類白細胞抗原區(human leukocyfe antigen,HLA)的各種基因排列數據運算。據報道,UKB數據庫利用自主設計的基因分型芯片對50萬被試者進行全基因組單核苷酸多態性(single nucleotide polymorphism,SNP)數據搜集,并且自主開發了一套針對UKB數據的管理系統,從規模、多樣性及特異性等特點對其收集的基因數據進行質量控制,全部基因數據包括了50萬人的9 600萬個位點的基因變異信息[11]。現如今大部分的研究人員使用一種基于陣列的方法來確定基因數據的應用,收集遺傳數據的特制基因分型矩陣,進行基因的分型和估算遺傳相關性,可對UKB基因數據庫記錄的全部性狀與單個遺傳變異之間的關聯進行分析。目前主要涉及2個方面的研究,一方面,將基因數據進行優化,提取基因中的變異數據推算基因型和疾病的關系,了解疾病本身的生物學基礎、遺傳因素和生活方式因素之間的相互作用及疾病的潛在遺傳學特征[12]。另一方面,將UKB的基因數據和影像數據進行結合分析,通過對不同的影像結構功能特征指標進行全基因組關聯研究,觀察遺傳變異和成像特征之間的關聯集群,得到基因與疾病之間的相關性,從而在疾病的發生機制中發現更多的遺傳影響因素[13]。
3.4 影像數據庫
自2011年起,UKB成立了一個專家成像工作組,在與全球100多名成像專家協商后,開發了一種大規模的影像成像采集協議,旨在最大限度地提高收集成像數據的科學價值,同時也可在較短采集時間得到大規模實現。2014年,UKB啟動了一項新的醫療成像數據收集計劃,使用MRI和X射線技術對超過10萬例志愿者進行分析,該項目包括大腦、心臟和身體的MRI,骨骼和關節的全身雙能X線吸收測定法(dule energy X-ray absorptiometry,DEXA)掃描,頸動脈的超聲掃描,以及視網膜的光學相干斷層掃描成像。圖2展示了UKB此次項目所收集的影像數據的內容[3-4]。截至2020年初,超過45 000例參與者接受了評估,已經使UKB成像增強計劃成為迄今為止世界上最大的多模態成像研究,其中已經有10 000例在第一次檢查后2年返回進行重復成像,成像采集主要以多模態為主。所謂的多模態包括:3種模態的結構MRI數據,靜息態、任務態fMRI數據及diffusion MRI數據。UKB提供了對影像進行全自動處理的流程使得影像在不同模態與樣本間是可比較的,基于處理后的多模態影像數據生成上千個影像指標(imaging-derived phenotypes,IDPs)[14-15]來描述人體解剖器官的結構與功能,多模態數據是直接利用統一的硬件和軟件直接獲取反映所有影像特征的多模態IDPs指標。據不完全統計,截至2020年已經有超過1 750個關于UKB的研究持續進行中,也被不斷用于解決一系列新的研究難題。與其他數據庫不同的是,UKB是首個采用復雜的全自動圖像處理流程,提取了4 350個反映大腦不同結構功能特征的IDPs,并且在核磁共振成像掃描中采用了最新的MRI采集技術,縮短了采集時間,大大提高了圖像的空間分辨率[16-18]。UKB影像數據庫的一個獨特特點就是大樣本量人群及其多模態數據都是利用統一的硬件和軟件獲取,便于研究人員可在一定程度上不受分析和處理圖像的繁雜流程的限制,大大提升了統計效率。

3.5 健康相關數據
健康相關數據包括了UKB數據庫中各種與健康有關的電子記錄數據[19],主要有死亡、癌癥、住院和初級保健記錄數據,所有數據都在持續更新和隨訪,具體展示如下:① 死亡數據:UKB通過與國家死亡登記處的聯系定期收到死亡通知,每個參與者的主要死因由ICD-10代碼確定,自項目開放以來,已經有37 733例參與者死亡,平均死亡年齡約為69.6歲,男性占平均死亡人數的59%,其中主要死因是缺血性心臟病。② 癌癥數據:UKB囊括了最常見的癌癥診斷,其中25 503例參與者被診斷為癌癥,且診斷平均年齡為52.2歲,最常見的癌癥為乳腺癌、前列腺癌和結直腸癌。③ 住院記錄數據:醫院住院患者主要來自英格蘭(89%)、蘇格蘭(7%)和威爾士(4%)的醫院住院數據,分別由數據庫存取及檢索系統(database access and retrieval system,DARS)、安全匿名信息鏈接數據庫(secure anonymize information linkage,SAIL)、電子數據研究與創新服務數據庫(electronic data research and innovation service,eDRIS)等不同的數據源收集而來,其中,醫院住院患者數據中的所有臨床數據都根據世界衛生組織的ICD(國際疾病和相關健康問題分類)進行編碼,所有的操作和程序都根據OPCS(人口、人口普查和調查辦公室:干預措施和程序的分類)進行編碼。所有英國生物樣本庫關聯的英格蘭和大多數威爾士醫院數據都用ICD-10和OPCS-4編碼。然而,由于蘇格蘭數據的收集開始于更早的時間(1981年),早期的蘇格蘭住院數據(1997年之前收集的數據)采用ICD-9和OPCS-3編碼,只有少量的威爾士住院記錄用ICD-9編碼,所有的電子病歷數據一起收集了關于診斷和癥狀的類型和日期、程序和操作、處方、檢測結果和全科醫生轉診的信息。④ 初級保健記錄數據:從2019年到現在,共230 000例參與者,主要包括:診斷、實驗室檢查、處方藥、處方日期,藥物代碼、藥物名稱及數量等,并且定期提供最新的初級保健數據,甚至包括新型冠狀病毒肺炎(COVID-19)相關的數據可供研究,但須遵守患者信息控制法規。
3.6 生化標志物
UKB將所有500 000例參與者及2012—2013年參加重復評估訪問的20 000例參與者中收集的樣本中測量廣泛的生化檢查標志物。根據實驗室檢測度研究不同疾病的科學相關性,以血細胞計數(從所有參與者收集的新鮮血液樣本的血液學檢測)、傳染病標志物(測量10 000例參與者針對20種病原體的血清學抗體反應)、代謝組學(從所有參與者收集的血液樣本進行NMR代謝組學測定200多種代謝產物)、端粒長度(從所有參與者收集的血液樣本提取DNA測量的染色體標志物)為具體分類,總共納入34種生化標志物,包括:臨床上已確定的疾病危險因素、診斷相關未明確的因素或未得到良好評估的表型標志物。
3.7 活動檢測數據
在2013年6月至2016年1月之間,UKB通過腕帶式活動檢測器收集100 000例參與者的7天內的體力活動數據,主要針對個體身體運動活動的測量情況,并被要求每季度需重復4次檢查,包括聽力和動脈僵硬測試、心肺健康測試、各種視力測量及佩戴加速計收集7天的身體活動數據等。
4 UKB數據提取
UKB的數據提取較為復雜,基本步驟如表2所示。主要分為5個步驟,一是獲取數據校驗碼及密鑰文件,二是下載個人項目數據包,三是檢查數據完整性,四是解密解壓,最后才能使用不同的工具下載相應的數據。

需要注意的是,只有經過申請,并通過官方授權的項目相關數據才可提取出來,沒有通過授權的數據是無法下載的。授權密鑰每年更新一次,提取數據時需把.key文件放置在與數據包、提取工具相同的目錄內。密鑰除了規定哪些數據可下載外,還約束了數據的鍵值,不同項目的密鑰與數據鍵值不同。接下來本章主要介紹幾種不同數據類型的提取方式。
4.1 主數據提取
UKB中的主數據集是由結構化數據組成。第二章提到的健康相關數據、生化標志物、活動檢測、基線評估等都屬于這一部分,也包含有一些影像相關或者基因相關的指標。通俗的說,只要是能夠使用表格統計展示的數據,基本都屬于這一部分。使用ukbconv工具提取,需要搭配.enc_ukb后綴的數據包文件和.key后綴的密鑰文件使用,需放置在同一文件夾內。以windows系統下載數據為例:
下載單個指標命令:./ukbconv ukb45434.enc_ukb csv -s100021。其中100021為具體的指標,表示維生素D。提取的數據如表3所示,其中eid為患者ID(也即是數據鍵值),5個列的數據均是維生素D,只是其上線周期不同,具體參考官方說明(https://biobank.ctsu.ox.ac.uk/crystal/field.cgi?id=100021)。將編號替換成相應的指標代碼可下載自己需要的數據。

下載批量指標命令:./ukbconv ukb45434.enc_ukb csv -iid.txt 。其中id.txt是一個包含有多個指標代碼的文本文件,文件內指標代碼采用換行輸入。將得到與單個指標相同的數據文件,不同的指標在文件中往列的方向擴展。
CSV是研究人員常用的格式之一,同樣可導出其他格式,如bulk、docs、lims、r、sas、stata、txt等,只需將命令中的csv替換成相應的字符串即可。
4.2 大批量數據提取
大批量的數據主要包括身體各部位的MRI影像、超聲數據和ECG數據等。與提取主數據類似,需要將下載工具、.enc_ukb后綴的數據包文件和.key后綴的密鑰文件放置在同一文件夾內(密鑰文件建議改名為.ukbkey全名),使用ukbconv和ukbfetch工具提取。不同的是,提取大批量數據不像提取主數據那么直接,包括3個步驟:① 檢查電腦網絡,能打開UKB官方的數據存儲庫網址biota. ndph.ox. ac. uk或biota. ndph. ox. ac. uk即可。② 使用uknconv工具生成包含有數據下載鏈接的.bulk文件,命令為:ukbconv ukb23456.enc_ukb bulk -s20207;其中20207表示數據的編號。我們將會得到一個ukb23456.bulk文件,需要注意的是,無論數據的編號怎么換,這個.bulk文件的名字是不會變的,所以使用ukbconv下載新的編號前需要將此文件更名或者轉存。③ 使用ukbfetch工具下載數據文件。大批量數據下載后是以研究對象為單位,一個研究對象為一個壓縮包或一個文件。使用命令:./ukbfetch -ukb23456.bulk -s$CN -m1000;其中$CN表示下載開始的對象編號,m1000表示的是從開始編號逐1遞增的后1 000個對象數據。批量數據沒法一次性將所有數據下載下來,需要一批一批的下載。下載后的20207編號數據為多個壓縮包,解壓后為多個.dcm文件。
4.3 基因數據提取
基因數據的提取只能在Linux平臺中進行,使用命令為:./gfetch 22828 -c1 -ak12345r23456.key,并且需要把.enc_ukb后綴的數據包文件放在同一目錄下。其中22828是一個基因數據的編號,c1表示1號染色體。基因數據是根據指定染色體下載的,一個編號的大小最大可達200 G,根據具體的數據類型確定。比如單倍型22418全染色體總的占用空間為91.5G,但是基因插補數據22828的1號染色體就有181G,全染色體數據更是達到了2T的占用空間。總體來說,染色體編號越小,占用空間越大。詳細的基因數據介紹見相關參考文獻[20]。
4.4 其他數據提取
除了前述的幾個主要類型數據,UKB還包括了一些記錄級的醫院和初級保健數據—這可通過展示頁面的下載頁面中的數據門戶進行訪問。返回的數據集—來自研究者在研究中使用了UKB數據,但沒有直接納入主要資源,主要使用工具ukblink下載,下載方式可在官網檢索資源655中找到。
5 UKB數據庫研究方向
為了解目前使用UKB數據庫進行相關研究的現況,本研究圍繞UKB數據庫相關研究進行了可視化分析。以Web of Science 為例,以“UK Biobank*”為關鍵詞進行檢索,排除不相關文獻,最后將得到的所有文獻進行整合,并將近5年的整體文獻發表情況進行可視化分析。截至目前,UKB數據庫中主要的研究方向以基因遺傳學、神經科學、心血管系統、計算機科學等方向為主,見圖3。

從研究熱點的角度看,將滿足出現頻率大于3次的關鍵詞以關系網絡展示,見圖4。其中,每一個節點代表一個關鍵詞,節點的圓圈直徑越大則關鍵詞出現的頻次越高,不同關鍵詞之間連接的線越粗,表明兩者之間的關系越緊密。顯然,從已發表的文獻中可知,心血管疾病(cardiovascular disease)、新型冠狀病毒性肺炎(COVID-19)、房顫(atrial fibrillation)、慢性腎臟疾病(chronic kidney disease)、精神性疾病(mental health)是目前聚焦的疾病病種,并且關聯較為緊密的影響和調節因素中包括認知功能(cognition)、營養飲食(diet)、血壓(blood pressure)、睡眠質量(sleep duration)、體育活動(exercise)、教育水平(education)等[21]。

從研究方法的角度,孟德爾隨機化研究(Mendelian randomization)、全基因組關聯研究(genome-wide association study),機器學習(machine learning)、隊列研究(cohort study)等是目前UKB數據庫研究的熱點方法,孟德爾隨機化研究與全基因組關聯研究主要針對基因數據庫的GWAS數據,確定和評估不同疾病的相關遺傳學變異和位點,從而探索基因表達多態性的遺傳變異機制;機器學習作為人工智能技術與醫學圖像結合的學習方法,在影像分割、影像分類及預測腫瘤的良惡性等方面發展迅速,有助于實現基于圖像的個性化醫療決策;而隊列研究是國際上公認的探討常見重大疾病病因最有效的方法,也是研究遺傳和其他暴露因素與健康結局的重要臨床研究方法之一,尤其在UKB中的健康相關數據中應用最為廣泛。
由此,UKB作為一項前瞻性群體研究計劃,涉及了相當廣泛而豐富的多學科問題,并且在神經系統疾病和心血管疾病研究領域具有巨大的潛力,但仍存在很多新的研究方向需要研究人員去探討和思考。
6 人工智能與UKB數據結合
目前,圍繞代謝組學、生物信息學、醫學影像學、系統生物學等領域,結合人工智能的UKB數據庫挖掘推動了精準醫學的發展,因而將UKB和人工智能相關的主題詞作為關鍵詞,將所有文獻中出現3次以上的關鍵詞在可視化工具VOSviewer下轉化為密度熱圖展示見(圖5)。我們發現,機器學習和深度學習是最主要的人工智能學習方法,圖像分割、分類、預測模型等研究手段與MRI、FMRI聯系緊密。另外,研究領域囊括了心血管疾病、腦梗死、阿爾茨海默癥及抑郁癥等熱點問題。目前最新的研究成果揭示了UKB數據庫未來的發展方向,例如機器學習被應用于心臟MRI,識別主動脈瓣畸形和其他不良的心臟預后事件,同時進行了全自動左心室分析,試圖評估自動化左心室的質量和體積[22];使用機器學習方法對客觀測量的睡眠和身體活動行為進行最大的評估,有助于了解治療的有效性及與行為變異相關的疾病過程[23];基于UKB的遺傳數據建立心肌梗塞患病風險的預測模型[24];應用最新的卷積神經網絡模型結合UKB原始神經影像數據預測腦年齡、認知水平及老化程度等[25]。人工智能領域的技術,特別是深度學習方法作為最前沿的研究方向,囊括了計算機視覺、自然語言處理的研究手段,從計算機視覺的角度,不同于傳統的計算機輔助檢測,深度學習通過對目標圖像特征的提取和識別,實現圖像的分割、預測病灶的嚴重程度及定性定位;從自然語言處理的角度,不僅可通過UKB文本數據快速地進行語義分析,并且實現文本的轉換提取,將臨床電子數據和描述報告標簽化[26]。因而,如何更深入地將影像數據與基因數據進行結合,探究大腦結構和功能、遺傳突變、從遺傳到影像病理機制的因果聯系,是所有研究者們將不斷探討的重要研究方向。

7 討論
UKB是一項前瞻性的大規模以健康人群為基礎的研究,旨在評估40~69歲正常人群中、老年疾病的所有遺傳和非遺傳因素,UKB不僅提供了詳細的健康信息,并且收集了大量的基線數據和樣本,提供了血液、尿液樣本、認知測試、在線問卷、健康記錄、運動心電圖活動監測、全基因組基因表型數據,尤其在2013年起收集了10萬參與者的多模態成像數據,并將進行持續20年的隨訪記錄。目前已經囊括8 500多人死亡、750 000多例流行病和突發癌癥等共計60多萬人住院的相關數據,同時與一系列其他數據庫建立聯系。UKB正在開發對一系列疾病領域的結果和遺傳基因表型進行準確識別和亞分類,為影像基因組學研究提供了相關依據。UKB數據庫的優勢在于,有海量的健康人群高通量基因組學數據和神經影像數據,完整的影像數據足足有數十TB[3,17],并且研究者無需對復雜的神經影像再進行分析處理。另外,UKB中還包括了COVID-19患者數據,可結合神經系統疾病的預后和認知功能進行長期隨訪研究,將基因組學數據和影像數據進行整合[27-28]。
UKB數據庫作為一個大型的公共數據庫,目前向所有的符合有關倫理和科學標準的研究人員開放。從近幾年的研究來看,研究者們以基因表型數據和行為與臨床結局的相關性為主要研究方向,研究主題涵蓋了新型冠狀病毒性肺炎、心血管疾病、神經退行性疾病、精神性疾病等疾病。隨著影像數據庫的擴展和逐漸成熟,基因組和影像數據的結合將是未來可能的研究方向,研究者將嘗試探索從遺傳突變到影像指標和神經或精神疾病的機制,深入了解正常和紊亂大腦功能和行為在遺傳表型特征、遺傳變異的表現,利用最新的人工智能技術,使大數據與深度學習融合在基因影像學領域獲得突破性進展。
本研究對UKB進行了整體而系統的介紹,從UKB的數據庫內容、提取數據流程、具體研究應用和與人工智能結合的研究發展等方面探索,有助于更多研究人員系統了解UKB數據庫,以期為心血管疾病、神經系統疾病及傳染病等疾病的預防和治療開辟新的研究領域。