癲癇是一種具有不同病因、表型和基因型特征的異質性疾病。因此,癲癇的臨床和研究方面也是多種多樣的,從流行病學到分子,其范圍涵蓋了臨床試驗和結果、基因和藥物發現、影像學、腦電圖、病理學、癲癇外科手術和數字技術等許多領域。當前,癲癇數據以 TB 和 PB 的形式收集,突破了其能力的極限。現代計算技術在機器和深度學習方面的優勢和進步已經在其他疾病中開創了先河,也為癲癇領域開辟了令人興奮的可能性。然而,若無精心設計的方法來獲取、標準化、管理和提供此類數據,則存在著失敗的風險。因此,通過利益相關者的密切投入,仔細構建相關的本體,為更雄心勃勃的大數據事業(如數據共享)提供了必要的支架。在本研究中,我們評估了大數據領域的癲癇臨床和研究前景、當前挑戰和未來方向,并提出了癲癇大數據的系統化處理方法。
引用本文: LhatooSamden D, BernasconiNeda, BlumckeIngmar, 郭崇倫, 慕潔 審. 癲癇大數據:臨床和研究考慮—來自國際抗癲癇聯盟癲癇大數據工作組的報告. 癲癇雜志, 2021, 7(2): 173-182. doi: 10.7507/2096-0247.20210029 復制
要點
? 癲癇數據是多模態的,需要大數據原則來正確處理
? 大數據方法提供了臨床和研究機會
? 癲癇大數據的結構化和原則化方法對于最大程度的影響必不可少
大數據是一個直觀的、通俗的術語—最初用于商業,后來用于科學和醫療保健。MetaGroup 在 2014 年的定義將大數據描述為高容量、高速度和多種類的信息資產,這些資產需通過經濟高效的創新信息處理形式來增強洞察力和決策力。除了這些“3 V”之外,作為第四個“ V”的數據準確性尤其重要,因為可疑的數據產生可疑的結論(圖 1)。在一個合作和資源共享空前繁榮的時代,大數據的前景既誘人又具有挑戰性,尤其是在癲癇領域,因其所固有的異質性和所涉及的科學學科眾多。該篇綜述研究了癲癇相關大數據方面,描述了當前的技術水平以及未來的發展方向。

EB,Exabyte;EEG,腦電圖;fMRI,功能 MRI;GB,Gigabyte;MRI,磁共振成像;PB,Petabyte;TB,Terabyte;ZB,Zettabyte
1 大數據的含義
在癲癇中,大量不同的數據驅動類型[表型、基因型、視頻腦電圖(EEG)、顱外和顱內生理信號、結構和功能成像、代謝組學、可穿戴設備]反過來驅動容量(當前為 TB),挑戰了其準確性(數據采集、標準化),并強調了當前在管理高速生成的數據方面的不足(圖 1)。但隨著大數據日趨商品化,將“大數據”視為一種思維模式可能會更有意義。這使得人們能夠以更宏大的數據規模來感知科學前景,并提出更大的問題。為了擴大和加速科學進步,大數據的思維框架推動研究朝著三個新方向發展。
1.1 協作
在過去的一個世紀里,無論是藥物隨機對照試驗還是基礎科學,使用傳統方法的醫療保健服務和研究都取得了巨大的進步。然而,該領域正準備進入一個新時代,實現前所未有的合作可能性。癲癇猝死(SUDEP)的例子說明了大數據的機會。在這里,識別一個有足夠強大的患者隊列需要對癲癇監測單元(EMU)中的大量高危隊列進行細致、前瞻性的隨訪。多個癲癇監測中心協作,為每個患者生成數百 GB 的數據。Epi25(遺傳學;http://epi-25.org)和 ENIGMA(神經影像;http://enigma.ini.usc.edu/ongoing/enigma-epilepsy)是類似的高度成功的、特定領域合作的例子,它可以加速驗證有前途的想法。
1.2 數據資源基礎架構(數據共享)
一旦將數據交由研究人員群體掌握而不是由單個實驗室掌握,新的挑戰就出現了。2010年醫學研究所的報告:“促進罕見病研究和產品開發的綜合國家戰略要素”,建議一項國家戰略,“共享研究資源和基礎設施,以充分有效地利用稀缺資金、專業知識、數據和生物標本。”該建議與癲癇群體密切相關,并強調了使數據可查找、可訪問、可互操作和可重復使用(公平原則)的必要性。
美國國立衛生研究院(NIH)數據共享空間(或共享空間)旨在為科學界發現、存儲、評論和計算數字對象提供一個共享的虛擬空間,它由四個部分組成:用于訪問和處理數字對象的計算資源;使數字對象趨于公平的“數字對象合規模型”;遵循合規模型的數據集;以及數據訪問服務。以睡眠為例的癲癇共同體將極大地促進癲癇研究,提高資源利用效率,并確保癲癇研究的嚴謹性和可重復性。
1.3 與波形數據交互的新模式
大數據視野需要從癲癇研究中產生的數據集管理的新模式一個這樣的機會是被稱為“文件墻”挑戰的信號數據格式。由于僅擴展存儲或增加計算能力將無法應對數據量和數據復雜性,因此必須解決數據組織方面的挑戰。在現有的云存儲/處理系統中,大型信號數據集通常被存儲為已識別的非結構化“團”。傳統的分布式文件系統存在“文件墻”障礙,這個障礙使數據訪問、傳輸、處理和分析更加困難。癲癇迫切需要研究本體驅動的,基于云的數據表示和管理方法。目前已經采取了一些解決多模式交互的倡議,包括腦成像數據結構(https://bids.neuroimaging.io)和快速醫療互操作性資源(https://www.hl7.org),或許可以幫助癲癇的診斷。當前,波形數據的一個重大挑戰在于允許 EEG 數據互操作的神經生理學數據格式。多視頻尺度電生理學格式第 3 版(MEF3)是一種被提議作為通用標準的格式。它允許輕松交換數據,滿足了研究領域和臨床領域的迫切需求。癲癇大數據也越來越多地轉向機器學習、深度學習和人工智能,尤其是在腦電圖(EEG)方面。其中包括 EEG 棘波檢測,自動表面 EEG 和顱內 EEG 癲癇發作檢測,其中一些檢測已經具有良好的臨床應用,如閉環響應神經刺激。
1.4 數據安全和隱私
不斷增加的數據創新不可避免地會與信息隱私產生沖突。公平信息實踐原則的應用至關重要。這些包括個人控制、透明度、尊重環境、安全性、訪問權限、準確性、集中收集和問責制。這些都受到大數據范式的挑戰,認真關注現有法規[從機構審查委員會到國家法規,如 1996 年的《健康保險可移植性和責任法案》(HIPAA)]至關重要。如,人們越來越認識到,數據去身份化和匿名化不再是解決數據隱私問題的靈丹妙藥。在基因組學領域的數據中,這一點尤為重要。在這一領域中,主題“再識別”是一個主要關注點,而在法律領域中尚未得到完全解決。
2 獲得基本權利:癲癇本體、分類和通用數據元素
生物醫學本體被廣泛用于實現三個數據管理目標:① 多維知識的管理;② 不同數據的集成;③ 決策支持和知識發現的自動推理。如,醫學臨床術語的系統命名(SNOMED CT)是最全面、使用最廣泛的生物醫學本體之一。它可作為在電子健康記錄(EHR)系統中編碼臨床信息的事實標準。SNOMED CT 連同其他幾個生物醫學本體,如人類表型本體和 RxNorm 基因本體,將在臨床大數據應用中發揮核心作用,包括將數據驅動的疾病分類作為精確醫學倡議的一部分。建模使用的正式語言,如基于描述邏輯的本體網絡語言(OWL)。OWL 建模的本體準確地對感興趣的領域建模,并支持使用被稱為“推理器”的自動化工具,從而從大數據倉庫中發現隱含的知識。本體結構本質上是一個知識圖譜,可以用來從大數據集中推斷隱含的知識。
本體的一般信息學定義是“領域術語(如癲癇)及其相互關系的正式規范(如,局灶性意識障礙性癲癇發作是一種局灶性癲癇發作,是一種癲癇發作類型)”。一個關鍵特征是一個概念的多軸分類,這使其能夠應用于該領域內的各種信息組織。這極大地簡化了組織和探索大型數據集的任務。本體支持的查詢和推理工具使用戶能夠探索迄今為止尚未發現的有關數據如何相互關聯的知識。多個國際抗癲癇聯盟(ILAE)分類和術語工作隊以及工作組都受到癲癇發作/癲癇特征固有的復雜性的挑戰。需要考慮的因素包括發病地點、發病部位、傳播方式、發病年齡、緩解年齡、預后、EEG 和神經影像學特征、生物學機制、病因、并發癥和功能障礙。即使已經認識到需要多軸,一些“結構”問題也會導致分類問題。其中包括:① 缺乏核心術語(概念)的標準化定義;② 確定這些不同因素之間如何相互關聯的證據基礎;③ 在一種環境中可用的信息在另一種環境中可能不可用的現實;④ 使用單軸分類層次結構,其結構不允許將一個分類中一個分支中的某個術語被合并到另一個分支中。人們已經認識到,出于不同的目的(如臨床護理、流行病學),在不同的層次結構(如基于發病年齡)中有對各種概念的“組合”的需要,但是由于缺乏可計算的建模框架(如 OWL),其實施受到了阻礙。
目前,由 NIH 資助的 BioPortal 網站(URL)托管了三個公共領域的癲癇發作/癲癇本體論。我們討論其中兩個。癲癇綜合征癲癇發作本體論是協調現有癲癇發作/癲癇分類以允許通用定義的首次嘗試,但最重要的是允許通過可用的信息進行組織。從癥狀學開始,人口統計學和測試(EEG、基因測試)因素如果已知可以加入(圖 2)。另一個強有力的例子是癲癇和癲癇發作本體論(EpSO),它對多維信息進行建模,包括癲癇發作、癲癇發作的特征和病因(包括映射到基因本體的基因標識,和藥物信息)。EpSO(圖 3)當前用于各種信息學工具中。

顯示了可以添加測試(腦電圖、成像、基因測試)因素的術語的組織

顯示了與癲癇相關的偏側化跡象的詳細類層次結構,以及如何使用類級別限制在精細的粒度級別對信息進行建模。例如,\“左符號 4\”與左伸展手臂有關,它是\“符號 4\”的一個子范疇
與所有顛覆性技術一樣,與本體學和 OWL 相關的概念在被癲癇病采用之前需要進行教育和熟悉,這樣可以推動有意義的基礎和臨床實驗。它們所接受的挑戰包括:① 就術語(概念)的含義達成共識;② 提供術語之間的聯系(關系)的證據;③ 癲癇界有必要接受這樣一個現實,即癲癇有關的知識確實是多維的,需要協調其各個組成部分。正如基因測序現在被認為是診斷的必要條件一樣,本體論也將是理解癲癇的必要條件。
3 顱內腦電圖研究中的大數據
顱內腦電圖(IEEG)記錄提供了一個對腦功能機制有獨特的時空分辨率的窗口。訪問提供 IEEG 記錄的數據庫對于電生理活動的研究至關重要。對局部場勢電位和單個神經元具有擴展頻率范圍的大量多觸點電極進行記錄時,需要數據庫集成數據的速率高達 1 TB/d。有用的分析需要有效的、擴展的元數據(如行為)、電生理數據以及與單個腦部結構有關的電極位置。
癲癇發作預測領域強調了對大數據集的需求。基于有限數據集的早期結果表明預測是不可行的,而后來廣泛的數據集研究提供了成功的關鍵。這些工作提供了使用基于本地服務器(歐盟)或商業云服務(美國)的長期記錄的數據庫示例(表 1)。

越來越多的中心提供了共享的臨床和研究數據集。此外,多國合作正在建立關于特定 EEG 數據集的數據庫。如 F-TRACT 數據庫,它將來自 25 個歐洲中心的顱內誘發皮層電位信息結合起來,以建立一個功能連接的網絡。
盡管數據格式可變性所固有的一些技術挑戰似乎可以解決,但其他挑戰仍未解決,包括基于國家的不同的數據安全標準、愿意共享數據以及重新驗證算法的意愿以及超出項目級別的可持續維護和開發資金。
4 神經病理學存儲庫和大數據
生物存儲庫不僅應該提供人腦和血液樣本的長期存儲,還應為描述患者的臨床病史和表型的標準化數據集編制目錄。必須獲得最新的患者同意和倫理批準,以允許共享生物樣本和研究數據。但大多數歐洲三級癲癇中心每年會選擇 50 例以下的患者進行癲癇手術。超大型三級中心每年可能會接待 150 例以上的癲癇患者。
歐洲癲癇腦庫聯盟(EEBB)成立于 2006 年,是一個虛擬數據庫,旨在規范癲癇手術和致癇性腦損傷過程中獲得的標本的組織病理學報告。迄今為止,EEBB 收集了來自 12 個歐洲國家的 36 個癲癇手術中心的 9 523 例兒童和成人的診斷信息,并促使 ILAE 制定了局灶性腦皮質發育不良和海馬硬化的國際分類,以及癲癇外科手術標本的組織病理學檢查的國際建議。疾病分類有助于定義疾病,也有助于外科患者管理。在外科患者管理中,對于難以治療的局灶性癲癇的決策可能仍然依賴小系列隨機試驗。
在歐盟第七個框架計劃(FP7)的指導下,EEBB 于 2014 年作為一個支持癲癇手術臨床試驗的生物庫得到推廣。歐盟框架計劃 Horizon2020 將 EEBB 提升為歐洲神經病理學參考中心。生物存儲庫包括長期存儲石蠟包埋和新鮮冷凍的腦樣本,以及與之匹配的具有最少的不確定臨床數據的血液樣本。
該數據集的局限性包括其回顧性、無法預測手術結果、用藥、EEG 和核磁共振成像(MRI)生物標志物。該數據庫被加密到基于網絡的安全平臺中,該平臺不允許與生物醫學“組學”連接。國際協作和數據共享僅限于 FP7 聯盟的合作伙伴。這些限制認可了 ILAE 的一項指令,即促進人類癲癇腦樣本大數據分析的國際合作,以及患者書面同意、倫理審查和材料轉移協議的協調。
5 癲癇成像和大數據
MRI 可以對整個大腦進行綜合分析。該技術可以對模型和人類從單細胞到系統的結構、功能、代謝和網絡進行詳細描述,這與基因組和其他生物群落的范圍相似。
在癲癇方面,合作的一個典型例子就是基于 Meta 分析和大型分析的名稱為通過 Meta 分析增強神經影像遺傳學(ENIGMA)項目。ENIGMA-癲癇項目在 2015 年推出,它使用統一的質量檢查,而非在超過 50 個網站的國際聯盟中共享數據集,并且已產生了深刻的結果。值得注意的是,該方法避開了與機構倫理審批和高通量計算需求有關的挑戰。當前,其他未在癲癇病中使用的共享策略依賴于共享存儲庫中的原始成像數據。如由 NIH 資助的神經影像信息學工具和資源交換所(www.nitrc.org),它是包括注冊表、圖像存儲庫和基于云的環境在內的一系列服務。
拋開倫理方面的關注,數據科學還面臨其他挑戰。如臨床評估的可變性、數據缺失和研究人群多變可能會使疾病嚴重程度與研究地點混淆。一個主要的技術挑戰就在于 MRI 硬件和采集的可變性、圖像質量和參數,這些可能導致數據縮放和噪聲方面的差異。一種緩解策略是采用新提議的癲癇結構序列的協調神經影像(HARNESS-MRI)協議,從而獲得大多數 MRI 掃描儀上容易獲得的一組采集數據。建立并遵守 MRI 質量標準,并根據最新的分類附加標準化的表型描述符至關重要。使用多中心 MRI 數據的疾病模型需要考慮與不平衡的患者-對照比和跨站點的測量方差相關的混雜因素。其解決方案是首先基于一個給定的數據集開發模型,并測試對其他數據集的通用性,而不是優先考慮跨站點的數據池。
6 癲癇遺傳學和大數據
在過去的十年里,集體基因組研究已充分利用了高通量基因組分析和下一代測序技術以及團隊科學,從而促進了研究的協作和規模擴大,而這些是單個研究者永遠不可能做到的。除其他數據(如 EEG 記錄、醫療記錄的原始文件)之外,一個關鍵因素是收集了詳細的表型信息。
由 NIH 資助的癲癇表型/基因組計劃(EPGP)是一項國際合作研究,收集了詳細的表型數據和超過 4 100 例具有特定形式癲癇的受試者(及其家庭成員)的 DNA 樣本。該知識庫擁有數百萬個數據點,可以繼續全面運行以用于后續研究。EPGP 隊列以及歐洲和澳大利亞的數據集,對 NIH 資助的無墻癲癇中心的成功非常重要。該中心名為“Epi4K:4000 個癲癇基因組中的基因發現”。該中心利用外顯子組測序來識別導致癲癇性腦病和 Lennox-Gastaut 綜合征的新的從頭變異,以及辨別常見癲癇形式的罕見遺傳變異。其他示例包括通過 ILAE 復雜癲癇病聯盟、歐洲 EPINOMICS-RES 聯盟和目前正在進行的大規模國際努力所創建的名為 Epi25 的大型數據集,其目標是對 25 000 個癲癇外顯子組進行測序(詳見 http://epi-25.org/)。涵蓋了癲癇及更多疾病的基因型和表型數據庫(dbGaP),是 NIH 維護的數據集數據庫,用于歸檔和分發研究基因型-表型相互作用的研究結果。
與人類癲癇相關的遺傳變異知識的激增,以及發作性疾病、癲癇發生和共病發生的分子靶標的激增,構成了尋找分子發病機制和治療候選物的豐富文庫。在動物研究中,通過協同努力產生基因敲除小鼠或條件基因敲除小鼠和 C57 胚胎干細胞,已培育出至少 17 000 只基因敲除小鼠。這些遺傳模型的表型特征將提供在公共數據庫中。盡管這對于研究者來說是無價的,但包括與 臨床癲癇研究相關的終點,仍需進行顯著地改進。
ILAE /美國癲癇協會聯合轉化工作組與 NIH 國家神經疾病和卒中研究所合作,正在為癲癇和合并癥生成臨床前通用數據元素,以促進將多個實驗室的數據輸入到大型數據庫中,為視頻 EEG 研究和嚙齒類動物的癲癇發作生成可接受的分類和術語,并對臨床前研究進行系統分析。其目標是在可用于大型數據庫的平臺上優化這些產品,以增強癲癇研究,包括從臨床前到臨床領域的轉化。
7 來自多中心隊列研究的“相對大數據”
通過協作研究努力來共享和匯總來自單中心隊列的結果已被越來越多地應用于解決癲癇的問題。盡管這些方法并不嚴格符合大數據的定義,但 2016 年《柳葉刀神經病學》(Lancet Neurology)的一篇綜述在提及 1 450 例手術患者、446 例失神癲癇患兒和 14 名新生兒的多中心隊列時使用了“大數據”一詞。來自不同中心的許多專業醫師的合作被認為是癲癇病新研究的關鍵因素。
對于罕見的癲癇、小型或異種人群以及未經證實的新療法的小型隊列研究,可以將他們的結果合并從而產生相對“大數據”,以克服其缺乏統計能力和偏倚來源的問題。即使數據量遠少于大數據,多中心隊列研究或薈萃分析有其優點。歐洲參考網絡 EpiCare (http://epi-care.eu/)旨在促進罕見和復雜癲癇的多國合作。對于重點研究問題,可從可用的多中心患者數據中系統地回顧性收集有限但具體且結構良好的“干凈”數據,從而實現具有足夠的統計能力的多變量分析和預測建模。如,TimeToStop 隊列研究允許對小兒癲癇術后早期停用抗癲癇藥物(AEDs)是否安全進行調查。一名研究員從 15 個合作中心的 766 例兒童中系統收集數據,確保了高質量的數據,并發現早期 AEDs 停藥不會影響癲癇發作的結果。
或者可以使用匯總或單個參與者數據(IPD)對已發布的單中心隊列研究進行 Meta 分析。盡管 IPD 是臨床研究合成的黃金標準,但其回收率不是最理想的,且仍未得到充分利用。然而,IPD 相關 Meta 分析已經被廣泛應用到癲癇病中。如確定 AEDs 單一療法的療效,以預測結節性硬化癥癲癇手術后癲癇發作的結果,計算首次熱性驚厥發作后再次發作的幾率和癲癇患者心臟停搏的風險,并建立一個計算 AEDs 停藥后癲癇復發的個體化風險的預測模型。大數據研究、多中心隊列研究和 IPD 的 Meta 分析可被視為補充方法。
8 電子健康病歷(EHRs)和癲癇大數據
來自 EHR 的數據是在多種情況下的常規臨床護理過程中生成的,其鏈接日益增加,并用于轉化研究和大規模觀察研究中。EHR 數據可分為三種主要類型:
① 結構化數據主要用于管理目的,并使用受控的臨床術語和統計分類系統(如 SNOMED CT、國際疾病分類-10、邏輯觀察標識符名稱和代碼以及 RxNorm)進行注釋。這些信息通常包括住院和門診護理期間的診斷、處方、外科手術和干預等信息。
② 非結構化數據被記錄為原始文本,通常包括患者的病史以及臨床醫生的觀察和發現;
③ 傳統上,二進制數據包括來自成像程序的數據,同時來自個人衛生保健的可穿戴設備或智能手機的數據也日漸增多。
CALIBER 等研究平臺將來自初級保健,醫院護理和死亡率的 EHR 數據鏈接在一起,并為研究人員提供了關于人群慢性和急性疾病的高分辨率縱向數據。然而,原始的 EHR 數據受到多種挑戰,需要進行大量的預處理,才能為統計分析做好研究準備,這一過程稱為表型分析。
在癲癇研究的背景下,與傳統方法相比,精選的 EHR 數據具有明顯的優勢:① EHRs 有大樣本量,使科學家能夠準確地測量發病率和流行率;② 關聯的 EHRs 可用于量化醫療保健利用率和與癲癇、癲癇的治療以及其共病相關的費用;③ 高分辨率的 EHR 數據可以使用無監督的機器學習來幫助識別和驗證新型癲癇亞型,從而開發出個體化醫學方法;④ 縱向 EHR 數據有助于描述疾病進展的有效表型,具有獨特的病因和預后特征。
9 流行病學在大數據中的機遇
Zettabyte(1021 字節或 1 萬億 GB)范圍內的臨床流行病學數據代表了很大一部分感興趣的人群,尤其適合大數據應用,且可檢測到很小但具有臨床意義的效應。如此空前的統計能力可以帶來巨大的精確度。然而,除非能夠確保數據的準確性,否則狹窄的置信區間可能被錯誤地理解為準確性。
9.1 數據來源及其驗證
大型臨床數據存儲庫不一定要基于人群,而必須代表感興趣的人群。通常,基于人群的主要來源是行政醫療數據、EHR 數據、國家健康調查和生命統計(表 2)。非基于人群的平臺包括國家和地區臨床注冊系統以及從臨床試驗中收集的單個患者數據。在粒度和質量之間存在一種權衡。例如,臨床注冊和匯集的試驗數據往往豐富而詳細,但可能存在選擇偏差(試驗),并且可能缺乏一致性和完整性(自愿注冊)。

定義癲癇的有效病例現已存在于行政健康記錄和 EHRs 中。盡管報告的敏感性和特異性很高(>80%~85%),它們通常是針對具體的情況,在不同的數據集中使用時應量化其效用。同樣,結果測量如果未得到驗證也會導致虛假結論。因此,所有感興趣的情況都必須用嚴格的方法來處理,以免結果由于錯誤分類偏差而出現無可挽回的歪曲。
已驗證的流行病學數據的分析已經對癲癇的發病率和患病率、癲癇的共病概況、抑郁癥和癲癇的雙向性、癲癇和自閉癥之間的聯系產生了深刻的見解,并揭穿了使用 AEDs 和自殺之間的虛假推定聯系。有研究已通過大量 EHR 和管理數據研究了總死亡率和 SUDEP。由此看來,將機器學習應用于大數據以預測癲癇預后的初步努力是有希望的。最后,使用這些大型數據源,現在可對醫療保健的獲取、利用和成本進行基于人口的監測。
若謹慎使用,可以嘗試利用大數據對癲癇流行病學進行成本效益和統計學上強有力的研究,這或許是個難得的機會。這些措施包括疾病監測、新的軀體和精神疾病的識別、醫學靶點的精確以及健康結果和醫療保健使用評估。然而,許多這些假設產生的研究將需要通過其他方法進行驗證。
10 數字健康、可穿戴技術和大數據
目前,超過 50 億人使用手機,絕大多數人會在社交媒體上共享信息。2017 年,有將近半數的人口使用至少一種互聯醫療技術來監測健康指標(飛利浦,2017 年未來健康指數)。美國的醫院和保險提供商正在迅速向數字移動醫療(mHealth)過渡。同時,作為合作伙伴關系的大型信息技術公司(如 Apple 和谷歌)與醫院之間正在聯合開發新的醫療保健生態系統。因此,只要能夠捕獲和共享相關數據,信息技術在任何醫療領域都具有生成大數據的巨大潛力。
帶有傳感器的連接設備已經被證明對檢測全面強直-陣攣性發作癲癇(GTCS)是有用的,其中一些已獲得美國食品和藥物管理局(FDA)的批準(如 Embrace、Brain Sentinel)。其他非醫學主流的可穿戴設備也正在開發這種醫療連接設備(如蘋果手表),為在癲癇人群中大規模傳播提供了可能。
GTCS 我們可以通過測量陣攣期人體運動的傳感器(腕式加速度計或壓力床傳感器),強直期手臂表面的肌電圖和皮膚電活動的變化,從而可靠地檢測出患者是否患有全面強直-陣攣性發作癲癇。心率的變化通過光電容積描記法提取, 也可用于檢測各種類型的癲癇發作。 最近開發的多模態癲癇發作檢測器可能比任何單傳感器技術都具有更高的靈敏度和特異性。
通過連接設備檢測 GTCS 可以更準確地評估癲癇發作頻率和優化治療,并通過觸發警報及時干預。這可能有助于減少與癲癇發作有關的不良事件和死亡。通過連接的設備收集的數據還可以提供各種共病的生物標志物,如 AEDs 的不良反應、SUDEP 的風險以及調節癲癇發作的環境和內部因素。現如今,移動醫療已經被北美大腦計劃和歐洲人腦計劃證明是精準醫學中的組學的補充。
然而,這一快速發展的領域仍面臨著重要挑戰,包括數據隱私和將通常存儲在通用云中的連接設備的信息合并到由醫療保健提供商管理的 EHRs 中。ILAE 和國際癲癇病友會的特別合作,極大可能會推動移動醫療技術在癲癇中的研究。
11 醫學研究中的大數據資助計劃
認識到大數據提供的變革性機遇,世界各地的政府資助機構已經啟動了戰略性計劃投資,以加速大數據研究。如下所述。
11.1 歐洲聯盟
Horizon2020 是歐盟領先的研究與創新計劃(2014—2020 年可提供近 800 億歐元資金)。Horizon2020 計劃(https://ec.europa.eu/progr ammes/horizon2020/)下的融資機會包括諸如“大數據技術和超大規模分析”(ICT-12-2018-2020)之類的主題,這些主題側重于數據管理、數據處理、深度分析、數據保護、數據可視化和用戶體驗。
11.2 美國
BD2K(大數據到知識)是美國的旗艦計劃,這是一項 2013 年啟動跨國家衛生研究院(NIH)的計劃,旨在支持創新和變革性方法和工具的研究和開發,以最大限度地加快大數據和數據科學整合到生物醫學研究中。新的數據科學戰略(https://datascience.nih.gov)包括精準醫療和大腦計劃,而美國國家醫學圖書館則是數據科學資源的紐帶。美國的另一個聯邦資助機構美國國家科學基金會(NSF)擁有一個關于推進大數據科學與工程基礎和應用的關鍵技術和方法學的常設項目。“為 21 世紀科學和工程利用數據”被確定為“未來 NSF 投資的 10 大理念”之一(https://www.nsf.gov/about/congress/reports/nsf_big_ideas.pdf)。
11.3 中國
中國的大數據資助計劃以對精準醫療的投資為代表。精準醫療是中國政府 2016—2020 年五年計劃的一部分,因其致力于優先考慮基因組學以推動更好的衛生保健成果。隨著分子成像、藥物靶標和大數據技術的迅速發展,通過諸如國家高科技研發計劃之類的項目投資,已使其研究者群體和基礎設施走在了基因組學和蛋白質組學方法學研究的前沿。
12 國際抗癲癇聯盟大數據工作組的作用
數字革命為大規模協作性的癲癇臨床護理和研究帶來了巨大的機遇。ILAE 大數據工作組由癲癇臨床醫生和研究人員組成,他們從事不同癲癇研究領域,并對大規模協作性臨床和研究工作感興趣。其任務是回顧過去和當前的癲癇大數據工作,并在工作組的任期內推薦有助于提供高影響力的與患者護理直接相關的大數據研究的指南和建議,同時為圍繞此類企業的隱私、法律和道德問題提供參考框架。這些工作有特定的法律管理,如歐洲的《一般數據保護條例》和美國的 HIPAA 等。
13 結論
大數據、數據共享和高性能計算已準備好重構我們提供醫療保健和進行研究的方式。對癲癇的這些主題概述顯示了巨大的機遇和重要的挑戰。該過程產生新的重要知識的成功實例開始出現并應得到加強。為了充分利用大數據的潛力,需注意政策和程序、安全環境、數據質量標準、數據平臺和數據科學模型,這些模型可以容納癲癇特征性的大量數據。最重要的是,在將大數據應用于醫療保健和研究時,它將需要一種新的思維方式來看待來自大數據的證據。成功的最大機會將在于國內大規模和國際多中心合作。
利益沖突聲明 沒有人披露任何利益沖突。我們確認我們已閱讀《華爾街日報》關于道德出版物的立場,并確認本報告與那些準則相符。
免責聲明 本報告由 ILAE 挑選的專家撰寫,并已由 ILAE 批準發表。但作者表達的觀點不一定代表 ILAE 的政策或立場。
要點
? 癲癇數據是多模態的,需要大數據原則來正確處理
? 大數據方法提供了臨床和研究機會
? 癲癇大數據的結構化和原則化方法對于最大程度的影響必不可少
大數據是一個直觀的、通俗的術語—最初用于商業,后來用于科學和醫療保健。MetaGroup 在 2014 年的定義將大數據描述為高容量、高速度和多種類的信息資產,這些資產需通過經濟高效的創新信息處理形式來增強洞察力和決策力。除了這些“3 V”之外,作為第四個“ V”的數據準確性尤其重要,因為可疑的數據產生可疑的結論(圖 1)。在一個合作和資源共享空前繁榮的時代,大數據的前景既誘人又具有挑戰性,尤其是在癲癇領域,因其所固有的異質性和所涉及的科學學科眾多。該篇綜述研究了癲癇相關大數據方面,描述了當前的技術水平以及未來的發展方向。

EB,Exabyte;EEG,腦電圖;fMRI,功能 MRI;GB,Gigabyte;MRI,磁共振成像;PB,Petabyte;TB,Terabyte;ZB,Zettabyte
1 大數據的含義
在癲癇中,大量不同的數據驅動類型[表型、基因型、視頻腦電圖(EEG)、顱外和顱內生理信號、結構和功能成像、代謝組學、可穿戴設備]反過來驅動容量(當前為 TB),挑戰了其準確性(數據采集、標準化),并強調了當前在管理高速生成的數據方面的不足(圖 1)。但隨著大數據日趨商品化,將“大數據”視為一種思維模式可能會更有意義。這使得人們能夠以更宏大的數據規模來感知科學前景,并提出更大的問題。為了擴大和加速科學進步,大數據的思維框架推動研究朝著三個新方向發展。
1.1 協作
在過去的一個世紀里,無論是藥物隨機對照試驗還是基礎科學,使用傳統方法的醫療保健服務和研究都取得了巨大的進步。然而,該領域正準備進入一個新時代,實現前所未有的合作可能性。癲癇猝死(SUDEP)的例子說明了大數據的機會。在這里,識別一個有足夠強大的患者隊列需要對癲癇監測單元(EMU)中的大量高危隊列進行細致、前瞻性的隨訪。多個癲癇監測中心協作,為每個患者生成數百 GB 的數據。Epi25(遺傳學;http://epi-25.org)和 ENIGMA(神經影像;http://enigma.ini.usc.edu/ongoing/enigma-epilepsy)是類似的高度成功的、特定領域合作的例子,它可以加速驗證有前途的想法。
1.2 數據資源基礎架構(數據共享)
一旦將數據交由研究人員群體掌握而不是由單個實驗室掌握,新的挑戰就出現了。2010年醫學研究所的報告:“促進罕見病研究和產品開發的綜合國家戰略要素”,建議一項國家戰略,“共享研究資源和基礎設施,以充分有效地利用稀缺資金、專業知識、數據和生物標本。”該建議與癲癇群體密切相關,并強調了使數據可查找、可訪問、可互操作和可重復使用(公平原則)的必要性。
美國國立衛生研究院(NIH)數據共享空間(或共享空間)旨在為科學界發現、存儲、評論和計算數字對象提供一個共享的虛擬空間,它由四個部分組成:用于訪問和處理數字對象的計算資源;使數字對象趨于公平的“數字對象合規模型”;遵循合規模型的數據集;以及數據訪問服務。以睡眠為例的癲癇共同體將極大地促進癲癇研究,提高資源利用效率,并確保癲癇研究的嚴謹性和可重復性。
1.3 與波形數據交互的新模式
大數據視野需要從癲癇研究中產生的數據集管理的新模式一個這樣的機會是被稱為“文件墻”挑戰的信號數據格式。由于僅擴展存儲或增加計算能力將無法應對數據量和數據復雜性,因此必須解決數據組織方面的挑戰。在現有的云存儲/處理系統中,大型信號數據集通常被存儲為已識別的非結構化“團”。傳統的分布式文件系統存在“文件墻”障礙,這個障礙使數據訪問、傳輸、處理和分析更加困難。癲癇迫切需要研究本體驅動的,基于云的數據表示和管理方法。目前已經采取了一些解決多模式交互的倡議,包括腦成像數據結構(https://bids.neuroimaging.io)和快速醫療互操作性資源(https://www.hl7.org),或許可以幫助癲癇的診斷。當前,波形數據的一個重大挑戰在于允許 EEG 數據互操作的神經生理學數據格式。多視頻尺度電生理學格式第 3 版(MEF3)是一種被提議作為通用標準的格式。它允許輕松交換數據,滿足了研究領域和臨床領域的迫切需求。癲癇大數據也越來越多地轉向機器學習、深度學習和人工智能,尤其是在腦電圖(EEG)方面。其中包括 EEG 棘波檢測,自動表面 EEG 和顱內 EEG 癲癇發作檢測,其中一些檢測已經具有良好的臨床應用,如閉環響應神經刺激。
1.4 數據安全和隱私
不斷增加的數據創新不可避免地會與信息隱私產生沖突。公平信息實踐原則的應用至關重要。這些包括個人控制、透明度、尊重環境、安全性、訪問權限、準確性、集中收集和問責制。這些都受到大數據范式的挑戰,認真關注現有法規[從機構審查委員會到國家法規,如 1996 年的《健康保險可移植性和責任法案》(HIPAA)]至關重要。如,人們越來越認識到,數據去身份化和匿名化不再是解決數據隱私問題的靈丹妙藥。在基因組學領域的數據中,這一點尤為重要。在這一領域中,主題“再識別”是一個主要關注點,而在法律領域中尚未得到完全解決。
2 獲得基本權利:癲癇本體、分類和通用數據元素
生物醫學本體被廣泛用于實現三個數據管理目標:① 多維知識的管理;② 不同數據的集成;③ 決策支持和知識發現的自動推理。如,醫學臨床術語的系統命名(SNOMED CT)是最全面、使用最廣泛的生物醫學本體之一。它可作為在電子健康記錄(EHR)系統中編碼臨床信息的事實標準。SNOMED CT 連同其他幾個生物醫學本體,如人類表型本體和 RxNorm 基因本體,將在臨床大數據應用中發揮核心作用,包括將數據驅動的疾病分類作為精確醫學倡議的一部分。建模使用的正式語言,如基于描述邏輯的本體網絡語言(OWL)。OWL 建模的本體準確地對感興趣的領域建模,并支持使用被稱為“推理器”的自動化工具,從而從大數據倉庫中發現隱含的知識。本體結構本質上是一個知識圖譜,可以用來從大數據集中推斷隱含的知識。
本體的一般信息學定義是“領域術語(如癲癇)及其相互關系的正式規范(如,局灶性意識障礙性癲癇發作是一種局灶性癲癇發作,是一種癲癇發作類型)”。一個關鍵特征是一個概念的多軸分類,這使其能夠應用于該領域內的各種信息組織。這極大地簡化了組織和探索大型數據集的任務。本體支持的查詢和推理工具使用戶能夠探索迄今為止尚未發現的有關數據如何相互關聯的知識。多個國際抗癲癇聯盟(ILAE)分類和術語工作隊以及工作組都受到癲癇發作/癲癇特征固有的復雜性的挑戰。需要考慮的因素包括發病地點、發病部位、傳播方式、發病年齡、緩解年齡、預后、EEG 和神經影像學特征、生物學機制、病因、并發癥和功能障礙。即使已經認識到需要多軸,一些“結構”問題也會導致分類問題。其中包括:① 缺乏核心術語(概念)的標準化定義;② 確定這些不同因素之間如何相互關聯的證據基礎;③ 在一種環境中可用的信息在另一種環境中可能不可用的現實;④ 使用單軸分類層次結構,其結構不允許將一個分類中一個分支中的某個術語被合并到另一個分支中。人們已經認識到,出于不同的目的(如臨床護理、流行病學),在不同的層次結構(如基于發病年齡)中有對各種概念的“組合”的需要,但是由于缺乏可計算的建模框架(如 OWL),其實施受到了阻礙。
目前,由 NIH 資助的 BioPortal 網站(URL)托管了三個公共領域的癲癇發作/癲癇本體論。我們討論其中兩個。癲癇綜合征癲癇發作本體論是協調現有癲癇發作/癲癇分類以允許通用定義的首次嘗試,但最重要的是允許通過可用的信息進行組織。從癥狀學開始,人口統計學和測試(EEG、基因測試)因素如果已知可以加入(圖 2)。另一個強有力的例子是癲癇和癲癇發作本體論(EpSO),它對多維信息進行建模,包括癲癇發作、癲癇發作的特征和病因(包括映射到基因本體的基因標識,和藥物信息)。EpSO(圖 3)當前用于各種信息學工具中。

顯示了可以添加測試(腦電圖、成像、基因測試)因素的術語的組織

顯示了與癲癇相關的偏側化跡象的詳細類層次結構,以及如何使用類級別限制在精細的粒度級別對信息進行建模。例如,\“左符號 4\”與左伸展手臂有關,它是\“符號 4\”的一個子范疇
與所有顛覆性技術一樣,與本體學和 OWL 相關的概念在被癲癇病采用之前需要進行教育和熟悉,這樣可以推動有意義的基礎和臨床實驗。它們所接受的挑戰包括:① 就術語(概念)的含義達成共識;② 提供術語之間的聯系(關系)的證據;③ 癲癇界有必要接受這樣一個現實,即癲癇有關的知識確實是多維的,需要協調其各個組成部分。正如基因測序現在被認為是診斷的必要條件一樣,本體論也將是理解癲癇的必要條件。
3 顱內腦電圖研究中的大數據
顱內腦電圖(IEEG)記錄提供了一個對腦功能機制有獨特的時空分辨率的窗口。訪問提供 IEEG 記錄的數據庫對于電生理活動的研究至關重要。對局部場勢電位和單個神經元具有擴展頻率范圍的大量多觸點電極進行記錄時,需要數據庫集成數據的速率高達 1 TB/d。有用的分析需要有效的、擴展的元數據(如行為)、電生理數據以及與單個腦部結構有關的電極位置。
癲癇發作預測領域強調了對大數據集的需求。基于有限數據集的早期結果表明預測是不可行的,而后來廣泛的數據集研究提供了成功的關鍵。這些工作提供了使用基于本地服務器(歐盟)或商業云服務(美國)的長期記錄的數據庫示例(表 1)。

越來越多的中心提供了共享的臨床和研究數據集。此外,多國合作正在建立關于特定 EEG 數據集的數據庫。如 F-TRACT 數據庫,它將來自 25 個歐洲中心的顱內誘發皮層電位信息結合起來,以建立一個功能連接的網絡。
盡管數據格式可變性所固有的一些技術挑戰似乎可以解決,但其他挑戰仍未解決,包括基于國家的不同的數據安全標準、愿意共享數據以及重新驗證算法的意愿以及超出項目級別的可持續維護和開發資金。
4 神經病理學存儲庫和大數據
生物存儲庫不僅應該提供人腦和血液樣本的長期存儲,還應為描述患者的臨床病史和表型的標準化數據集編制目錄。必須獲得最新的患者同意和倫理批準,以允許共享生物樣本和研究數據。但大多數歐洲三級癲癇中心每年會選擇 50 例以下的患者進行癲癇手術。超大型三級中心每年可能會接待 150 例以上的癲癇患者。
歐洲癲癇腦庫聯盟(EEBB)成立于 2006 年,是一個虛擬數據庫,旨在規范癲癇手術和致癇性腦損傷過程中獲得的標本的組織病理學報告。迄今為止,EEBB 收集了來自 12 個歐洲國家的 36 個癲癇手術中心的 9 523 例兒童和成人的診斷信息,并促使 ILAE 制定了局灶性腦皮質發育不良和海馬硬化的國際分類,以及癲癇外科手術標本的組織病理學檢查的國際建議。疾病分類有助于定義疾病,也有助于外科患者管理。在外科患者管理中,對于難以治療的局灶性癲癇的決策可能仍然依賴小系列隨機試驗。
在歐盟第七個框架計劃(FP7)的指導下,EEBB 于 2014 年作為一個支持癲癇手術臨床試驗的生物庫得到推廣。歐盟框架計劃 Horizon2020 將 EEBB 提升為歐洲神經病理學參考中心。生物存儲庫包括長期存儲石蠟包埋和新鮮冷凍的腦樣本,以及與之匹配的具有最少的不確定臨床數據的血液樣本。
該數據集的局限性包括其回顧性、無法預測手術結果、用藥、EEG 和核磁共振成像(MRI)生物標志物。該數據庫被加密到基于網絡的安全平臺中,該平臺不允許與生物醫學“組學”連接。國際協作和數據共享僅限于 FP7 聯盟的合作伙伴。這些限制認可了 ILAE 的一項指令,即促進人類癲癇腦樣本大數據分析的國際合作,以及患者書面同意、倫理審查和材料轉移協議的協調。
5 癲癇成像和大數據
MRI 可以對整個大腦進行綜合分析。該技術可以對模型和人類從單細胞到系統的結構、功能、代謝和網絡進行詳細描述,這與基因組和其他生物群落的范圍相似。
在癲癇方面,合作的一個典型例子就是基于 Meta 分析和大型分析的名稱為通過 Meta 分析增強神經影像遺傳學(ENIGMA)項目。ENIGMA-癲癇項目在 2015 年推出,它使用統一的質量檢查,而非在超過 50 個網站的國際聯盟中共享數據集,并且已產生了深刻的結果。值得注意的是,該方法避開了與機構倫理審批和高通量計算需求有關的挑戰。當前,其他未在癲癇病中使用的共享策略依賴于共享存儲庫中的原始成像數據。如由 NIH 資助的神經影像信息學工具和資源交換所(www.nitrc.org),它是包括注冊表、圖像存儲庫和基于云的環境在內的一系列服務。
拋開倫理方面的關注,數據科學還面臨其他挑戰。如臨床評估的可變性、數據缺失和研究人群多變可能會使疾病嚴重程度與研究地點混淆。一個主要的技術挑戰就在于 MRI 硬件和采集的可變性、圖像質量和參數,這些可能導致數據縮放和噪聲方面的差異。一種緩解策略是采用新提議的癲癇結構序列的協調神經影像(HARNESS-MRI)協議,從而獲得大多數 MRI 掃描儀上容易獲得的一組采集數據。建立并遵守 MRI 質量標準,并根據最新的分類附加標準化的表型描述符至關重要。使用多中心 MRI 數據的疾病模型需要考慮與不平衡的患者-對照比和跨站點的測量方差相關的混雜因素。其解決方案是首先基于一個給定的數據集開發模型,并測試對其他數據集的通用性,而不是優先考慮跨站點的數據池。
6 癲癇遺傳學和大數據
在過去的十年里,集體基因組研究已充分利用了高通量基因組分析和下一代測序技術以及團隊科學,從而促進了研究的協作和規模擴大,而這些是單個研究者永遠不可能做到的。除其他數據(如 EEG 記錄、醫療記錄的原始文件)之外,一個關鍵因素是收集了詳細的表型信息。
由 NIH 資助的癲癇表型/基因組計劃(EPGP)是一項國際合作研究,收集了詳細的表型數據和超過 4 100 例具有特定形式癲癇的受試者(及其家庭成員)的 DNA 樣本。該知識庫擁有數百萬個數據點,可以繼續全面運行以用于后續研究。EPGP 隊列以及歐洲和澳大利亞的數據集,對 NIH 資助的無墻癲癇中心的成功非常重要。該中心名為“Epi4K:4000 個癲癇基因組中的基因發現”。該中心利用外顯子組測序來識別導致癲癇性腦病和 Lennox-Gastaut 綜合征的新的從頭變異,以及辨別常見癲癇形式的罕見遺傳變異。其他示例包括通過 ILAE 復雜癲癇病聯盟、歐洲 EPINOMICS-RES 聯盟和目前正在進行的大規模國際努力所創建的名為 Epi25 的大型數據集,其目標是對 25 000 個癲癇外顯子組進行測序(詳見 http://epi-25.org/)。涵蓋了癲癇及更多疾病的基因型和表型數據庫(dbGaP),是 NIH 維護的數據集數據庫,用于歸檔和分發研究基因型-表型相互作用的研究結果。
與人類癲癇相關的遺傳變異知識的激增,以及發作性疾病、癲癇發生和共病發生的分子靶標的激增,構成了尋找分子發病機制和治療候選物的豐富文庫。在動物研究中,通過協同努力產生基因敲除小鼠或條件基因敲除小鼠和 C57 胚胎干細胞,已培育出至少 17 000 只基因敲除小鼠。這些遺傳模型的表型特征將提供在公共數據庫中。盡管這對于研究者來說是無價的,但包括與 臨床癲癇研究相關的終點,仍需進行顯著地改進。
ILAE /美國癲癇協會聯合轉化工作組與 NIH 國家神經疾病和卒中研究所合作,正在為癲癇和合并癥生成臨床前通用數據元素,以促進將多個實驗室的數據輸入到大型數據庫中,為視頻 EEG 研究和嚙齒類動物的癲癇發作生成可接受的分類和術語,并對臨床前研究進行系統分析。其目標是在可用于大型數據庫的平臺上優化這些產品,以增強癲癇研究,包括從臨床前到臨床領域的轉化。
7 來自多中心隊列研究的“相對大數據”
通過協作研究努力來共享和匯總來自單中心隊列的結果已被越來越多地應用于解決癲癇的問題。盡管這些方法并不嚴格符合大數據的定義,但 2016 年《柳葉刀神經病學》(Lancet Neurology)的一篇綜述在提及 1 450 例手術患者、446 例失神癲癇患兒和 14 名新生兒的多中心隊列時使用了“大數據”一詞。來自不同中心的許多專業醫師的合作被認為是癲癇病新研究的關鍵因素。
對于罕見的癲癇、小型或異種人群以及未經證實的新療法的小型隊列研究,可以將他們的結果合并從而產生相對“大數據”,以克服其缺乏統計能力和偏倚來源的問題。即使數據量遠少于大數據,多中心隊列研究或薈萃分析有其優點。歐洲參考網絡 EpiCare (http://epi-care.eu/)旨在促進罕見和復雜癲癇的多國合作。對于重點研究問題,可從可用的多中心患者數據中系統地回顧性收集有限但具體且結構良好的“干凈”數據,從而實現具有足夠的統計能力的多變量分析和預測建模。如,TimeToStop 隊列研究允許對小兒癲癇術后早期停用抗癲癇藥物(AEDs)是否安全進行調查。一名研究員從 15 個合作中心的 766 例兒童中系統收集數據,確保了高質量的數據,并發現早期 AEDs 停藥不會影響癲癇發作的結果。
或者可以使用匯總或單個參與者數據(IPD)對已發布的單中心隊列研究進行 Meta 分析。盡管 IPD 是臨床研究合成的黃金標準,但其回收率不是最理想的,且仍未得到充分利用。然而,IPD 相關 Meta 分析已經被廣泛應用到癲癇病中。如確定 AEDs 單一療法的療效,以預測結節性硬化癥癲癇手術后癲癇發作的結果,計算首次熱性驚厥發作后再次發作的幾率和癲癇患者心臟停搏的風險,并建立一個計算 AEDs 停藥后癲癇復發的個體化風險的預測模型。大數據研究、多中心隊列研究和 IPD 的 Meta 分析可被視為補充方法。
8 電子健康病歷(EHRs)和癲癇大數據
來自 EHR 的數據是在多種情況下的常規臨床護理過程中生成的,其鏈接日益增加,并用于轉化研究和大規模觀察研究中。EHR 數據可分為三種主要類型:
① 結構化數據主要用于管理目的,并使用受控的臨床術語和統計分類系統(如 SNOMED CT、國際疾病分類-10、邏輯觀察標識符名稱和代碼以及 RxNorm)進行注釋。這些信息通常包括住院和門診護理期間的診斷、處方、外科手術和干預等信息。
② 非結構化數據被記錄為原始文本,通常包括患者的病史以及臨床醫生的觀察和發現;
③ 傳統上,二進制數據包括來自成像程序的數據,同時來自個人衛生保健的可穿戴設備或智能手機的數據也日漸增多。
CALIBER 等研究平臺將來自初級保健,醫院護理和死亡率的 EHR 數據鏈接在一起,并為研究人員提供了關于人群慢性和急性疾病的高分辨率縱向數據。然而,原始的 EHR 數據受到多種挑戰,需要進行大量的預處理,才能為統計分析做好研究準備,這一過程稱為表型分析。
在癲癇研究的背景下,與傳統方法相比,精選的 EHR 數據具有明顯的優勢:① EHRs 有大樣本量,使科學家能夠準確地測量發病率和流行率;② 關聯的 EHRs 可用于量化醫療保健利用率和與癲癇、癲癇的治療以及其共病相關的費用;③ 高分辨率的 EHR 數據可以使用無監督的機器學習來幫助識別和驗證新型癲癇亞型,從而開發出個體化醫學方法;④ 縱向 EHR 數據有助于描述疾病進展的有效表型,具有獨特的病因和預后特征。
9 流行病學在大數據中的機遇
Zettabyte(1021 字節或 1 萬億 GB)范圍內的臨床流行病學數據代表了很大一部分感興趣的人群,尤其適合大數據應用,且可檢測到很小但具有臨床意義的效應。如此空前的統計能力可以帶來巨大的精確度。然而,除非能夠確保數據的準確性,否則狹窄的置信區間可能被錯誤地理解為準確性。
9.1 數據來源及其驗證
大型臨床數據存儲庫不一定要基于人群,而必須代表感興趣的人群。通常,基于人群的主要來源是行政醫療數據、EHR 數據、國家健康調查和生命統計(表 2)。非基于人群的平臺包括國家和地區臨床注冊系統以及從臨床試驗中收集的單個患者數據。在粒度和質量之間存在一種權衡。例如,臨床注冊和匯集的試驗數據往往豐富而詳細,但可能存在選擇偏差(試驗),并且可能缺乏一致性和完整性(自愿注冊)。

定義癲癇的有效病例現已存在于行政健康記錄和 EHRs 中。盡管報告的敏感性和特異性很高(>80%~85%),它們通常是針對具體的情況,在不同的數據集中使用時應量化其效用。同樣,結果測量如果未得到驗證也會導致虛假結論。因此,所有感興趣的情況都必須用嚴格的方法來處理,以免結果由于錯誤分類偏差而出現無可挽回的歪曲。
已驗證的流行病學數據的分析已經對癲癇的發病率和患病率、癲癇的共病概況、抑郁癥和癲癇的雙向性、癲癇和自閉癥之間的聯系產生了深刻的見解,并揭穿了使用 AEDs 和自殺之間的虛假推定聯系。有研究已通過大量 EHR 和管理數據研究了總死亡率和 SUDEP。由此看來,將機器學習應用于大數據以預測癲癇預后的初步努力是有希望的。最后,使用這些大型數據源,現在可對醫療保健的獲取、利用和成本進行基于人口的監測。
若謹慎使用,可以嘗試利用大數據對癲癇流行病學進行成本效益和統計學上強有力的研究,這或許是個難得的機會。這些措施包括疾病監測、新的軀體和精神疾病的識別、醫學靶點的精確以及健康結果和醫療保健使用評估。然而,許多這些假設產生的研究將需要通過其他方法進行驗證。
10 數字健康、可穿戴技術和大數據
目前,超過 50 億人使用手機,絕大多數人會在社交媒體上共享信息。2017 年,有將近半數的人口使用至少一種互聯醫療技術來監測健康指標(飛利浦,2017 年未來健康指數)。美國的醫院和保險提供商正在迅速向數字移動醫療(mHealth)過渡。同時,作為合作伙伴關系的大型信息技術公司(如 Apple 和谷歌)與醫院之間正在聯合開發新的醫療保健生態系統。因此,只要能夠捕獲和共享相關數據,信息技術在任何醫療領域都具有生成大數據的巨大潛力。
帶有傳感器的連接設備已經被證明對檢測全面強直-陣攣性發作癲癇(GTCS)是有用的,其中一些已獲得美國食品和藥物管理局(FDA)的批準(如 Embrace、Brain Sentinel)。其他非醫學主流的可穿戴設備也正在開發這種醫療連接設備(如蘋果手表),為在癲癇人群中大規模傳播提供了可能。
GTCS 我們可以通過測量陣攣期人體運動的傳感器(腕式加速度計或壓力床傳感器),強直期手臂表面的肌電圖和皮膚電活動的變化,從而可靠地檢測出患者是否患有全面強直-陣攣性發作癲癇。心率的變化通過光電容積描記法提取, 也可用于檢測各種類型的癲癇發作。 最近開發的多模態癲癇發作檢測器可能比任何單傳感器技術都具有更高的靈敏度和特異性。
通過連接設備檢測 GTCS 可以更準確地評估癲癇發作頻率和優化治療,并通過觸發警報及時干預。這可能有助于減少與癲癇發作有關的不良事件和死亡。通過連接的設備收集的數據還可以提供各種共病的生物標志物,如 AEDs 的不良反應、SUDEP 的風險以及調節癲癇發作的環境和內部因素。現如今,移動醫療已經被北美大腦計劃和歐洲人腦計劃證明是精準醫學中的組學的補充。
然而,這一快速發展的領域仍面臨著重要挑戰,包括數據隱私和將通常存儲在通用云中的連接設備的信息合并到由醫療保健提供商管理的 EHRs 中。ILAE 和國際癲癇病友會的特別合作,極大可能會推動移動醫療技術在癲癇中的研究。
11 醫學研究中的大數據資助計劃
認識到大數據提供的變革性機遇,世界各地的政府資助機構已經啟動了戰略性計劃投資,以加速大數據研究。如下所述。
11.1 歐洲聯盟
Horizon2020 是歐盟領先的研究與創新計劃(2014—2020 年可提供近 800 億歐元資金)。Horizon2020 計劃(https://ec.europa.eu/progr ammes/horizon2020/)下的融資機會包括諸如“大數據技術和超大規模分析”(ICT-12-2018-2020)之類的主題,這些主題側重于數據管理、數據處理、深度分析、數據保護、數據可視化和用戶體驗。
11.2 美國
BD2K(大數據到知識)是美國的旗艦計劃,這是一項 2013 年啟動跨國家衛生研究院(NIH)的計劃,旨在支持創新和變革性方法和工具的研究和開發,以最大限度地加快大數據和數據科學整合到生物醫學研究中。新的數據科學戰略(https://datascience.nih.gov)包括精準醫療和大腦計劃,而美國國家醫學圖書館則是數據科學資源的紐帶。美國的另一個聯邦資助機構美國國家科學基金會(NSF)擁有一個關于推進大數據科學與工程基礎和應用的關鍵技術和方法學的常設項目。“為 21 世紀科學和工程利用數據”被確定為“未來 NSF 投資的 10 大理念”之一(https://www.nsf.gov/about/congress/reports/nsf_big_ideas.pdf)。
11.3 中國
中國的大數據資助計劃以對精準醫療的投資為代表。精準醫療是中國政府 2016—2020 年五年計劃的一部分,因其致力于優先考慮基因組學以推動更好的衛生保健成果。隨著分子成像、藥物靶標和大數據技術的迅速發展,通過諸如國家高科技研發計劃之類的項目投資,已使其研究者群體和基礎設施走在了基因組學和蛋白質組學方法學研究的前沿。
12 國際抗癲癇聯盟大數據工作組的作用
數字革命為大規模協作性的癲癇臨床護理和研究帶來了巨大的機遇。ILAE 大數據工作組由癲癇臨床醫生和研究人員組成,他們從事不同癲癇研究領域,并對大規模協作性臨床和研究工作感興趣。其任務是回顧過去和當前的癲癇大數據工作,并在工作組的任期內推薦有助于提供高影響力的與患者護理直接相關的大數據研究的指南和建議,同時為圍繞此類企業的隱私、法律和道德問題提供參考框架。這些工作有特定的法律管理,如歐洲的《一般數據保護條例》和美國的 HIPAA 等。
13 結論
大數據、數據共享和高性能計算已準備好重構我們提供醫療保健和進行研究的方式。對癲癇的這些主題概述顯示了巨大的機遇和重要的挑戰。該過程產生新的重要知識的成功實例開始出現并應得到加強。為了充分利用大數據的潛力,需注意政策和程序、安全環境、數據質量標準、數據平臺和數據科學模型,這些模型可以容納癲癇特征性的大量數據。最重要的是,在將大數據應用于醫療保健和研究時,它將需要一種新的思維方式來看待來自大數據的證據。成功的最大機會將在于國內大規模和國際多中心合作。
利益沖突聲明 沒有人披露任何利益沖突。我們確認我們已閱讀《華爾街日報》關于道德出版物的立場,并確認本報告與那些準則相符。
免責聲明 本報告由 ILAE 挑選的專家撰寫,并已由 ILAE 批準發表。但作者表達的觀點不一定代表 ILAE 的政策或立場。