作為真實世界數據的重要來源,既有健康醫療數據受到廣泛關注。本文作為系列技術規范的第一篇,闡明了既有健康醫療數據的概念、特征、應用,從研究策劃、構建流程等維度提出基于既有健康醫療數據的研究型數據庫構建基本要求,并提出研究型數據庫質量評價關鍵指標,以期規范和指導同類研究的開展。
引用本文: 王雯, 高培, 吳晶, 宣建偉, 賀小寧, 胡明, 李洪超, 竇豐滿, 于川, 閆盈盈, 孫鑫, 代表中國真實世界數據與研究聯盟(ChinaREAL). 構建基于既有健康醫療數據的研究型數據庫技術規范. 中國循證醫學雜志, 2019, 19(7): 763-770. doi: 10.7507/1672-2531.201904160 復制
作為真實世界數據的重要來源,既有健康醫療數據已日益受到研究者及監管部門的廣泛關注[1]。在我國,基于既有健康醫療數據的研究呈逐年上漲趨勢,廣泛應用于藥械評價及疾病管理,已成為我國真實世界研究的重要構成[2]。但如何正確認識既有健康醫療數據,以及如何正確生產、使用和評價基于既有健康醫療數據的研究證據還存在困惑[3]。作為中國真實世界數據與研究聯盟(ChinaREAL)工作組制定的真實世界研究系列技術規范 1,本規范旨在闡述既有健康醫療數據的概念、特征、應用范圍,以及基于既有健康醫療數據的研究型數據庫構建及其評價技術要點。
1 概念和適用范圍
1.1 既有健康醫療數據
既有健康醫療數據的定義為:不是針對開展研究前即確定的研究問題而收集的數據[3-5]。不同組織機構對既有健康醫療數據的表述不同,例如國際衛生經濟學與結果研究協會(ISPOR)稱為回顧性數據庫(retrospective database)[5-7],美國 FDA 稱為電子健康數據(electronic healthcare data)[4]。不論如何稱呼,我們強調的是此類數據的兩個關鍵核心[3]:① 數據的產生通常是基于醫療管理和決策目的,而非特定研究目的,例如醫院電子病歷數據(electronic medical records,EMR),醫保理賠數據庫(claims data)等;② 這些數據在研究開始前已經存在,研究假設的驗證是基于既有數據。
1.2 研究型數據庫
圖 1 為既有健康醫療數據治理及利用模式圖,說明了從原始健康醫療數據到形成具體研究的過程。原始數據即醫療機構基于管理目的收集的初始數據,如醫院信息系統、實驗室信息系統、醫保數據等。通過信息技術對原始數據進行采集、鏈接、整合、甚至建立變量字典進行數據標準化,形成集成數據。不論原始數據或集成數據都不是基于一定的研究目的形成的,通常不能直接用于開展研究。要使用這些數據開展研究首先需基于一定的研究目的,通過數據提取及清理等數據治理過程,將基于管理目的收集的數據轉化為適用于臨床研究的數據庫,這一過程即構建研究型數據庫。在構建研究型數據庫時,研究者雖基于一定的研究目的,但這些研究目的相對寬泛,往往包含多個研究問題,通常還不屬于具體研究,無法直接形成研究證據。要形成研究證據還需構建研究型數據庫,針對特定的研究問題,采用流行病學設計及統計分析技術開展具體研究。研究問題可以是預先設定的,也可以研究型數據庫構建后產生的。需要說明的是:① 既有健康醫療數據治理及利用是一個動態變化的過程,不存在絕對的分界。例如英國初級保健數據庫(clinical practice research datalink,CPRD),鏈接全國 600 多家初級保健醫療機構數據,形成集成數據[8]。研究者基于 CPRD 已開展上千項研究,建立了多種疾病診斷、用藥編碼等并進行驗證,已具備了研究型數據庫的一些屬性;② 并不是所有研究都包括“原始數據—集成數據—研究型數據庫—具體研究”四個階段。部分研究或無集成數據階段,研究型數據庫的構建直接基于原始數據;或研究型數據庫的構建就是為了解決特定的研究問題。但無論何種情況,要使用既有健康醫療數據開展研究,均需構建研究型數據庫。

1.3 適用范圍
本技術規范主要闡述既有健康醫療數據的概念、特征、應用范圍,并說明基于健康醫療數據庫的研究型數據庫構建及評價的技術要點及關鍵指標。如何基于構建的研究型數據庫針對特定的研究問題開展流行病學設計及統計分析可參見 ChinaREAL 工作組制定的其他真實世界研究技術規范。
2 既有健康醫療數據的類型和特征
既有健康醫療數據是基于醫療或行政管理目的所形成的,因醫療或行政管理目的不同,既有健康醫療數據又分為不同類型,包括醫保數據、單一醫療機構 EMR、出生/死亡登記數據、區域化醫療數據及其他鏈接數據等。區域化醫療數據是整合區域內多源醫療數據,包括多家醫療機構 EMR、醫保數據及公共衛生監測數據等所形成的醫療健康數據庫。部分數據庫除整合區域內醫療信息,還鏈接其他數據來源,如英國 CALIBER 數據庫,除英國 CPRD 數據庫外,還鏈接國家急性冠狀動脈綜合征登記數據庫、國家統計局死亡登記數據等[9]。
不同類型的既有健康醫療數據覆蓋的人群和涵蓋的變量差異較大。本篇以我國最常見的既有健康醫療數據,即醫保數據、單一醫療機構 EMR 及區域化醫療數據為例,比較不同既有健康醫療數據的特征及差異(表 1)。

3 基于既有健康醫療數據的研究型數據庫應用范圍
基于既有健康醫療數據的研究型數據庫可以解決多種臨床問題,包括:了解流行病學特征、疾病負擔,描述真實世界中的實際診療模式;探索目前診療中未被較好滿足的醫療需求;探索疾病診斷相關問題,評價最優診斷方法;探索治療結局,評價治療有效性、安全性和經濟性;評估患者疾病預后與預測問題。但不同既有健康醫療數據庫所覆蓋的人群、涵蓋的變量及數據的質量存在差異,故不同類型數據庫可以解決的研究問題不同。針對同一研究問題,采用不同類型數據庫所開展的研究質量也存在明顯差異[3]。表 2 以醫保數據、單一醫療機構 EMR 及區域化醫療數據為例,說明這三種既有健康醫療數據的優勢及局限、適用的研究問題及局限。

4 基于既有健康醫療數據的研究型數據庫構建流程
如前所述,基于管理目的收集的原始數據不能直接用于開展研究,要使用這些數據開展研究首先需基于一定的研究目的構建研究型數據庫[3, 10]。基于既有健康醫療數據的研究型數據庫的構建過程如圖 2,包括整體策劃、總體方案和數據治理三個維度。

4.1 整體策劃
基于既有健康醫療數據的整體策劃包括明確研究目的、選擇合適數據庫、確定數據提取方式及組建研究團隊。其技術要點包括:① 明確研究目的:科學的研究問題需有重要臨床科學意義、創新性及可行性;② 選擇合適數據庫:不同的研究目的需充分考慮不同類型數據庫覆蓋人群及涵蓋變量的特點,選擇合適數據類型的數據庫;評估數據庫中數據質量;確定數據庫的可及性;③ 確定數據提取方式:包括人工病歷收集、信息技術提取及兩者的結合;數據提取方式的選擇充分考慮不同數據提取方式的優勢、局限和可行性;④ 組建研究團隊:高質量研究需多學科協作,團隊成員通常包括方法學團隊、臨床團隊及信息學團隊。
構建研究型數據庫需基于一定的研究目的,研究目的需具備科學性、創新性、可行性。科學性即研究目的具有重要臨床和科學意義;創新性即未被既往研究解決、或首次被提出或研究結論存在爭議;可行性即現實可行性,具備充分的資源和時間開展相應研究,且符合倫理要求。不同的數據庫涵蓋的變量及數據的質量存在較大差異,因此,基于不同的研究目的,需選擇不同類型的數據庫,并充分評估擬選擇數據庫的數據質量及數據庫的可及性。對數據庫質量評估包括對數據庫關鍵變量準確性及完整性評估、數據庫覆蓋時長、研究人群代表性以及對樣本量的考量等。在獲取數據庫的使用權后,需確定數據提取方式。數據提取方式通常包括基于信息技術的數據挖掘、人工病歷收集以及兩者的結合。不同的數據提取方式有各自的優缺點,基于信息技術的數據提取往往準確高效,但對于非結構化文本數據或需要復雜邏輯及一定臨床經驗判斷的變量,其可行性及準確性受限。人工病歷收集對非結構化文本信息及需要一定臨床經驗通過復雜邏輯判斷的變量的提取有一定優勢,但通常耗時耗力,樣本量較大時可行性受限。同時,高質量的研究往往需多學科協作,在整體策劃階段還需組建研究團隊。基于既有健康醫療數據的研究團隊通常需至少包括方法學團隊、臨床團隊以及信息學團隊。
4.2 總體設計
在研究總體設計階段包括總體方案設計及數據提取方案設計兩個維度,其技術要點如下:
4.2.1 總體研究方案
① 明確研究人群:包括明確的納排標準及識別編碼;充分考慮編碼的準確性、完整性;② 確定研究相關變量:通常包括基本信息、診斷信息、檢驗信息等;③ 倫理申請:基于既有數據的研究仍需將研究方案提交倫理審查委員會(institutional review board,IRB)接受審查和批準,必要時可向倫理委員會申請豁免患者知情同意。
4.2.2 數據提取方案
① 明確研究數據結構:熟悉數據庫結構,包括表單構成、表單鏈接和索引方式;明確變量表單涵蓋變量、變量來源及意義;② 明確研究所需變量的存儲模塊;③ 制定數據提取變量集。
基于既有健康醫療數據的總體研究方案內容需明確研究人群的納排標準,并明確研究人群的識別編碼或算法。不同研究人群的識別編碼或算法不同,其準確性或完整性差異較大。如研究人群為某種疾病患者,可采用國際疾病分類編碼(international classification of diseases,ICD)進行識別,但不同數據庫 ICD 編碼的編碼率及準確性存在差異。此外,即使同一數據庫,不同疾病 ICD 編碼的準確性也存在明顯差異[11]。因此對研究人群的定義需充分考慮識別編碼的準確性及完整性。除研究人群,總體研究方案中還需明確研究相關變量。研究型數據庫構建是基于一定的研究目的,通常包含多個研究問題,因此相比具體研究,研究型數據庫往往需要收集更多變量信息。但因缺乏特定研究問題,研究型數據庫構建方案中對變量的定義通常更為寬泛。
基于既有健康醫療數據的臨床研究仍需要將研究方案提交倫理審查委員會審查和批準;在提交倫理申請時,研究者應說明采用何種方法保證數據安全,保護患者隱私[12]。因不涉及對患者的干預且通常無法接觸個體患者,因此可向倫理委員會申請豁免患者知情同意[12]。
基于總體研究方案,研究者還需制定數據提取方案。數據提取方案的制定需首先熟悉擬提取數據庫,包括明確數據庫的結構、鏈接、涵蓋變量。詳細的數據庫變量表單,包含數據表單構成、表單鏈接和索引方式等信息,可有助于研究者熟悉數據庫結構,并了解相應變量來源及意義。基于變量表單,研究者確定研究所需變量的存儲模塊并制定數據提取變量集。
4.3 數據治理
數據治理包括數據鏈接、數據提取及數據清理,總結技術要點包括:① 數據鏈接:確定患者唯一識別碼;基于患者唯一識別碼實現多源數據的鏈接;評估數據鏈接的比例及準確性;② 數據提取及核查:基于預先制定的數據提取表單提取數據;對提取的數據進行核查,評估數據提取的準確性;采用描述性分析描述變量的缺失、矛盾數據、極端值、異常值的情況;③ 數據清理:包括制定變量字典;明確極端值、異常值、缺失值的處理;明確矛盾數據處理優先級及文本信息結構化規則。清理規則的制定需基于研究問題及臨床實際,并結合數據分布情況;每一變量均需有明確清晰的清理規則,并保留原始數據及清理記錄;所有原始數據在研究前均需脫敏去除患者識別信息,并采用有效措施保護數據安全。
不同維度的醫療信息通常存儲在不同的數據庫模塊中,實現多維數據的鏈接可保證數據的完整性。鏈接多維數據首先需建立患者唯一識別碼,或基于患者身份信息,如身份證信息、病歷號,或基于一定的算法。不同數據存儲模塊這些鏈接變量信息的完整性或準確性存在差異,需評估數據庫鏈接比例及鏈接的準確性。數據提取通常由信息專家基于預先制定的數據提取表單進行提取。數據提取后需對數據進行核查,評估數據提取過程的準確性,并了解變量極端值、缺失值及矛盾數據等情況。數據清理是構建研究型數據庫的重要環節,首先需建立數據清理規則,基于清理規則進行數據清理。數據清理規則包括變量字典、文本信息結構化規則、以及數據處理規則,即極端值、異常值、缺失值及矛盾數據的處理。對缺失值的處理需評估缺失機制并報告缺失比例,對矛盾數據的處理需建立矛盾數據處理優先級。需要說明的是,不同的研究問題其數據清理規則不同,需基于具體的研究問題,根據數據實際情況并結合臨床診療實際制定。為保證研究透明和可重復性,研究者應保存原始數據,提供詳細的清理規則,并記錄所有數據處理流程,以保證數據的準確性和有效性。為保護患者的隱私,數據提取過程通常需隱去患者姓名、身份證號及詳細住址等信息。同時,整個研究過程均應保障數據的安全性,對于電子數據可加密處理。
5 基于既有健康醫療數據的研究型數據庫質量評價
研究型數據庫的質量很大程度上決定了研究的質量,對研究型數據庫的質量評價主要包括兩個維度:一是對數據本身質量的考量,二是對研究型數據庫構建過程的考量。既有健康醫療數據是基于醫療或管理目的收集的,而非基于研究目的收集,既有健康醫療數據庫是否涵蓋研究所需人群及變量,這些變量的準確性及完整性如何,是研究者需要首先評估的。其次,既有健康醫療數據庫不等于研究型數據庫,要使這些醫療或管理數據庫成為研究型數據庫,需基于一定的研究目的進行數據提取及清理,而如何合理設計以及規范化提取和清理數據,也是構建高質量研究型數據庫的關鍵。
5.1 基于既有健康醫療數據質量評估
對既有健康醫療數據質量評估包括:研究相關變量的準確性、完整性、研究人群的代表性、樣本量及事件數、時長(表 3)。對于不同類型的研究變量,如癥狀、體征、實驗室檢查變化及疾病診斷,其完整性及準確性可能差異較大。如疾病診斷通常完整性高,但不同機構不同病種,診斷差異較大,準確性是需主要考量的問題;對于檢驗、檢查指標,特別是特殊檢驗、檢查,缺失則是需要重點考量的問題;而對于個人史及既往史等,信息的準確性與醫療人員的問診經驗及問診態度相關,其完整性及準確性需要考慮。同時如前所述,不同類型數據庫在變量的完整性上存在系統性差異。對研究變量的準確性評估可采用驗證分析,通過靈敏度、特異度、陽性和陰性預測值及曲線下面積等指標評價其準確性。評估研究變量的完整性包括對缺失機制及缺失比例的評估。缺失機制的評價需基于臨床實際診療,如研究將無腎小球濾過率檢驗的患者定義為未發生腎功能不全[13]。未監測腎功能的患者通常無腎功能損害的癥狀、體征或危險因素,故即使有較高比例的檢驗指標缺失,錯分偏倚仍較小。基于既有健康醫療數據的研究人群是根據特定的納排標準從數據庫中選取,因此評估研究人群代表性及樣本量需充分考慮既有健康醫療數據的類型及特點,如通常相比單一醫療機構 EMR,區域化醫療數據樣本量更大,人群代表性也相對較好。很多統計分析對事件數有一定要求,如 logistics 回歸通常要求事件數/變量大于 8~10[14]。因此對于罕見結局問題,事件數也是需要特別考慮的問題。對探索慢性疾病、遠期結局等目的的研究,數據庫覆蓋時長也是重要的考核指標。

需要說明的是本篇為通用技術規范,總結了研究型數據庫評價的考核指標,但針對不同的研究目的,評價指標重要性不同、標準不同,需基于具體的研究目的具體判斷。如相比探索藥械安全性及有效性問題,在探索疾病負擔、疾病特征及疾病診療模式等問題上,研究人群的代表性是更需要考慮的重要問題;而相比探索疾病負擔,探索治療結局相關問題對特異度、陽性預測值的要求通常更高。
5.2 基于既有健康醫療數據的數據治理評價
對基于既有健康醫療數據的研究型數據庫構建過程的評價,包括數據鏈接、數據提取及數據清理。清晰透明的數據提取、清理過程可在一定程度上增加研究的可重復性及可信度。鏈接多源數據庫可獲得更完整、全面的信息。數據庫鏈接的評估,包括對數據庫所鏈接變量的范圍,及鏈接準確性、完整性的考量。提供鏈接的比例及對鏈接驗證的結果,可有助于評價鏈接的準確性。基于既有健康醫療數據的數據提取需基于預設的數據提取表提取或收集數據,數據提取方式不同準確性亦不同,故需對提取的數據進行核查。對于結構化信息,基于信息技術的數據提取過程的準確性及完整性通常優于人工病歷收集。對于人工病歷收集,雙人背靠背數據收集再進行數據核對可提高數據收集的準確性。對數據提取或收集過程的評估,可隨機抽取一定比例的數據與原始記錄進行人工核對,評價其準確性。
清晰透明的數據清理規則及流程有助于其他研究者及證據使用者評價這些基于既有健康醫療數據的研究證據,并可保證研究的可重復性。評價數據清理過程,包括判斷是否有清晰明確的數據清理規則及流程,以及這些清理規則、流程是否合理規范。通常數據清理規則包括制定變量字典、文本結構化規則以及數據處理規則。對文本信息結構化的質量評價首先是評價原始文本信息的準確性,其次是對結構化過程的評估。不同的醫療工作者對于不同信息的記錄的準確性及完整性存在差異,相比輕微癥狀、體征等信息,嚴重癥狀、體征信息的記錄通常更完整及準確。此外,結構化過程的準確性也是需要評估的內容,無論采用何種結構化技術均存在一定的錯分可能。為了解錯分的大小及方向,同樣需對這些信息進行驗證,可隨機抽取一定比例的記錄,由相關領域專家基于統一的標準,獨立判斷這些信息的準確性。研究問題不同所需建立的變量字典不同,對極端值、異常值、矛盾數據的定義及處理規則不同,因此對清理規則合理性及規范化的評價需基于研究問題,并結合臨床實際及數據的實際情況進行評價。
6 小結
作為真實世界數據的重要構成,既有健康醫療數據可解決疾病負擔、治療結局、疾病預后等多種研究問題,日益受到廣泛關注。但既有健康醫療數據不是基于研究目的收集的數據,尚不屬于研究數據,無法直接用于開展研究,要開展研究需基于一定研究目的構建研究型數據庫。研究型數據庫的質量很大程度上決定了具體研究的質量。基于研究目的進行整理策劃、總體方案設計以及數據治理是構建研究型數據庫的關鍵,而選擇高質量數據來源、規范化數據治理過程是構建高質量研究型數據庫的核心。
作為真實世界數據的重要來源,既有健康醫療數據已日益受到研究者及監管部門的廣泛關注[1]。在我國,基于既有健康醫療數據的研究呈逐年上漲趨勢,廣泛應用于藥械評價及疾病管理,已成為我國真實世界研究的重要構成[2]。但如何正確認識既有健康醫療數據,以及如何正確生產、使用和評價基于既有健康醫療數據的研究證據還存在困惑[3]。作為中國真實世界數據與研究聯盟(ChinaREAL)工作組制定的真實世界研究系列技術規范 1,本規范旨在闡述既有健康醫療數據的概念、特征、應用范圍,以及基于既有健康醫療數據的研究型數據庫構建及其評價技術要點。
1 概念和適用范圍
1.1 既有健康醫療數據
既有健康醫療數據的定義為:不是針對開展研究前即確定的研究問題而收集的數據[3-5]。不同組織機構對既有健康醫療數據的表述不同,例如國際衛生經濟學與結果研究協會(ISPOR)稱為回顧性數據庫(retrospective database)[5-7],美國 FDA 稱為電子健康數據(electronic healthcare data)[4]。不論如何稱呼,我們強調的是此類數據的兩個關鍵核心[3]:① 數據的產生通常是基于醫療管理和決策目的,而非特定研究目的,例如醫院電子病歷數據(electronic medical records,EMR),醫保理賠數據庫(claims data)等;② 這些數據在研究開始前已經存在,研究假設的驗證是基于既有數據。
1.2 研究型數據庫
圖 1 為既有健康醫療數據治理及利用模式圖,說明了從原始健康醫療數據到形成具體研究的過程。原始數據即醫療機構基于管理目的收集的初始數據,如醫院信息系統、實驗室信息系統、醫保數據等。通過信息技術對原始數據進行采集、鏈接、整合、甚至建立變量字典進行數據標準化,形成集成數據。不論原始數據或集成數據都不是基于一定的研究目的形成的,通常不能直接用于開展研究。要使用這些數據開展研究首先需基于一定的研究目的,通過數據提取及清理等數據治理過程,將基于管理目的收集的數據轉化為適用于臨床研究的數據庫,這一過程即構建研究型數據庫。在構建研究型數據庫時,研究者雖基于一定的研究目的,但這些研究目的相對寬泛,往往包含多個研究問題,通常還不屬于具體研究,無法直接形成研究證據。要形成研究證據還需構建研究型數據庫,針對特定的研究問題,采用流行病學設計及統計分析技術開展具體研究。研究問題可以是預先設定的,也可以研究型數據庫構建后產生的。需要說明的是:① 既有健康醫療數據治理及利用是一個動態變化的過程,不存在絕對的分界。例如英國初級保健數據庫(clinical practice research datalink,CPRD),鏈接全國 600 多家初級保健醫療機構數據,形成集成數據[8]。研究者基于 CPRD 已開展上千項研究,建立了多種疾病診斷、用藥編碼等并進行驗證,已具備了研究型數據庫的一些屬性;② 并不是所有研究都包括“原始數據—集成數據—研究型數據庫—具體研究”四個階段。部分研究或無集成數據階段,研究型數據庫的構建直接基于原始數據;或研究型數據庫的構建就是為了解決特定的研究問題。但無論何種情況,要使用既有健康醫療數據開展研究,均需構建研究型數據庫。

1.3 適用范圍
本技術規范主要闡述既有健康醫療數據的概念、特征、應用范圍,并說明基于健康醫療數據庫的研究型數據庫構建及評價的技術要點及關鍵指標。如何基于構建的研究型數據庫針對特定的研究問題開展流行病學設計及統計分析可參見 ChinaREAL 工作組制定的其他真實世界研究技術規范。
2 既有健康醫療數據的類型和特征
既有健康醫療數據是基于醫療或行政管理目的所形成的,因醫療或行政管理目的不同,既有健康醫療數據又分為不同類型,包括醫保數據、單一醫療機構 EMR、出生/死亡登記數據、區域化醫療數據及其他鏈接數據等。區域化醫療數據是整合區域內多源醫療數據,包括多家醫療機構 EMR、醫保數據及公共衛生監測數據等所形成的醫療健康數據庫。部分數據庫除整合區域內醫療信息,還鏈接其他數據來源,如英國 CALIBER 數據庫,除英國 CPRD 數據庫外,還鏈接國家急性冠狀動脈綜合征登記數據庫、國家統計局死亡登記數據等[9]。
不同類型的既有健康醫療數據覆蓋的人群和涵蓋的變量差異較大。本篇以我國最常見的既有健康醫療數據,即醫保數據、單一醫療機構 EMR 及區域化醫療數據為例,比較不同既有健康醫療數據的特征及差異(表 1)。

3 基于既有健康醫療數據的研究型數據庫應用范圍
基于既有健康醫療數據的研究型數據庫可以解決多種臨床問題,包括:了解流行病學特征、疾病負擔,描述真實世界中的實際診療模式;探索目前診療中未被較好滿足的醫療需求;探索疾病診斷相關問題,評價最優診斷方法;探索治療結局,評價治療有效性、安全性和經濟性;評估患者疾病預后與預測問題。但不同既有健康醫療數據庫所覆蓋的人群、涵蓋的變量及數據的質量存在差異,故不同類型數據庫可以解決的研究問題不同。針對同一研究問題,采用不同類型數據庫所開展的研究質量也存在明顯差異[3]。表 2 以醫保數據、單一醫療機構 EMR 及區域化醫療數據為例,說明這三種既有健康醫療數據的優勢及局限、適用的研究問題及局限。

4 基于既有健康醫療數據的研究型數據庫構建流程
如前所述,基于管理目的收集的原始數據不能直接用于開展研究,要使用這些數據開展研究首先需基于一定的研究目的構建研究型數據庫[3, 10]。基于既有健康醫療數據的研究型數據庫的構建過程如圖 2,包括整體策劃、總體方案和數據治理三個維度。

4.1 整體策劃
基于既有健康醫療數據的整體策劃包括明確研究目的、選擇合適數據庫、確定數據提取方式及組建研究團隊。其技術要點包括:① 明確研究目的:科學的研究問題需有重要臨床科學意義、創新性及可行性;② 選擇合適數據庫:不同的研究目的需充分考慮不同類型數據庫覆蓋人群及涵蓋變量的特點,選擇合適數據類型的數據庫;評估數據庫中數據質量;確定數據庫的可及性;③ 確定數據提取方式:包括人工病歷收集、信息技術提取及兩者的結合;數據提取方式的選擇充分考慮不同數據提取方式的優勢、局限和可行性;④ 組建研究團隊:高質量研究需多學科協作,團隊成員通常包括方法學團隊、臨床團隊及信息學團隊。
構建研究型數據庫需基于一定的研究目的,研究目的需具備科學性、創新性、可行性。科學性即研究目的具有重要臨床和科學意義;創新性即未被既往研究解決、或首次被提出或研究結論存在爭議;可行性即現實可行性,具備充分的資源和時間開展相應研究,且符合倫理要求。不同的數據庫涵蓋的變量及數據的質量存在較大差異,因此,基于不同的研究目的,需選擇不同類型的數據庫,并充分評估擬選擇數據庫的數據質量及數據庫的可及性。對數據庫質量評估包括對數據庫關鍵變量準確性及完整性評估、數據庫覆蓋時長、研究人群代表性以及對樣本量的考量等。在獲取數據庫的使用權后,需確定數據提取方式。數據提取方式通常包括基于信息技術的數據挖掘、人工病歷收集以及兩者的結合。不同的數據提取方式有各自的優缺點,基于信息技術的數據提取往往準確高效,但對于非結構化文本數據或需要復雜邏輯及一定臨床經驗判斷的變量,其可行性及準確性受限。人工病歷收集對非結構化文本信息及需要一定臨床經驗通過復雜邏輯判斷的變量的提取有一定優勢,但通常耗時耗力,樣本量較大時可行性受限。同時,高質量的研究往往需多學科協作,在整體策劃階段還需組建研究團隊。基于既有健康醫療數據的研究團隊通常需至少包括方法學團隊、臨床團隊以及信息學團隊。
4.2 總體設計
在研究總體設計階段包括總體方案設計及數據提取方案設計兩個維度,其技術要點如下:
4.2.1 總體研究方案
① 明確研究人群:包括明確的納排標準及識別編碼;充分考慮編碼的準確性、完整性;② 確定研究相關變量:通常包括基本信息、診斷信息、檢驗信息等;③ 倫理申請:基于既有數據的研究仍需將研究方案提交倫理審查委員會(institutional review board,IRB)接受審查和批準,必要時可向倫理委員會申請豁免患者知情同意。
4.2.2 數據提取方案
① 明確研究數據結構:熟悉數據庫結構,包括表單構成、表單鏈接和索引方式;明確變量表單涵蓋變量、變量來源及意義;② 明確研究所需變量的存儲模塊;③ 制定數據提取變量集。
基于既有健康醫療數據的總體研究方案內容需明確研究人群的納排標準,并明確研究人群的識別編碼或算法。不同研究人群的識別編碼或算法不同,其準確性或完整性差異較大。如研究人群為某種疾病患者,可采用國際疾病分類編碼(international classification of diseases,ICD)進行識別,但不同數據庫 ICD 編碼的編碼率及準確性存在差異。此外,即使同一數據庫,不同疾病 ICD 編碼的準確性也存在明顯差異[11]。因此對研究人群的定義需充分考慮識別編碼的準確性及完整性。除研究人群,總體研究方案中還需明確研究相關變量。研究型數據庫構建是基于一定的研究目的,通常包含多個研究問題,因此相比具體研究,研究型數據庫往往需要收集更多變量信息。但因缺乏特定研究問題,研究型數據庫構建方案中對變量的定義通常更為寬泛。
基于既有健康醫療數據的臨床研究仍需要將研究方案提交倫理審查委員會審查和批準;在提交倫理申請時,研究者應說明采用何種方法保證數據安全,保護患者隱私[12]。因不涉及對患者的干預且通常無法接觸個體患者,因此可向倫理委員會申請豁免患者知情同意[12]。
基于總體研究方案,研究者還需制定數據提取方案。數據提取方案的制定需首先熟悉擬提取數據庫,包括明確數據庫的結構、鏈接、涵蓋變量。詳細的數據庫變量表單,包含數據表單構成、表單鏈接和索引方式等信息,可有助于研究者熟悉數據庫結構,并了解相應變量來源及意義。基于變量表單,研究者確定研究所需變量的存儲模塊并制定數據提取變量集。
4.3 數據治理
數據治理包括數據鏈接、數據提取及數據清理,總結技術要點包括:① 數據鏈接:確定患者唯一識別碼;基于患者唯一識別碼實現多源數據的鏈接;評估數據鏈接的比例及準確性;② 數據提取及核查:基于預先制定的數據提取表單提取數據;對提取的數據進行核查,評估數據提取的準確性;采用描述性分析描述變量的缺失、矛盾數據、極端值、異常值的情況;③ 數據清理:包括制定變量字典;明確極端值、異常值、缺失值的處理;明確矛盾數據處理優先級及文本信息結構化規則。清理規則的制定需基于研究問題及臨床實際,并結合數據分布情況;每一變量均需有明確清晰的清理規則,并保留原始數據及清理記錄;所有原始數據在研究前均需脫敏去除患者識別信息,并采用有效措施保護數據安全。
不同維度的醫療信息通常存儲在不同的數據庫模塊中,實現多維數據的鏈接可保證數據的完整性。鏈接多維數據首先需建立患者唯一識別碼,或基于患者身份信息,如身份證信息、病歷號,或基于一定的算法。不同數據存儲模塊這些鏈接變量信息的完整性或準確性存在差異,需評估數據庫鏈接比例及鏈接的準確性。數據提取通常由信息專家基于預先制定的數據提取表單進行提取。數據提取后需對數據進行核查,評估數據提取過程的準確性,并了解變量極端值、缺失值及矛盾數據等情況。數據清理是構建研究型數據庫的重要環節,首先需建立數據清理規則,基于清理規則進行數據清理。數據清理規則包括變量字典、文本信息結構化規則、以及數據處理規則,即極端值、異常值、缺失值及矛盾數據的處理。對缺失值的處理需評估缺失機制并報告缺失比例,對矛盾數據的處理需建立矛盾數據處理優先級。需要說明的是,不同的研究問題其數據清理規則不同,需基于具體的研究問題,根據數據實際情況并結合臨床診療實際制定。為保證研究透明和可重復性,研究者應保存原始數據,提供詳細的清理規則,并記錄所有數據處理流程,以保證數據的準確性和有效性。為保護患者的隱私,數據提取過程通常需隱去患者姓名、身份證號及詳細住址等信息。同時,整個研究過程均應保障數據的安全性,對于電子數據可加密處理。
5 基于既有健康醫療數據的研究型數據庫質量評價
研究型數據庫的質量很大程度上決定了研究的質量,對研究型數據庫的質量評價主要包括兩個維度:一是對數據本身質量的考量,二是對研究型數據庫構建過程的考量。既有健康醫療數據是基于醫療或管理目的收集的,而非基于研究目的收集,既有健康醫療數據庫是否涵蓋研究所需人群及變量,這些變量的準確性及完整性如何,是研究者需要首先評估的。其次,既有健康醫療數據庫不等于研究型數據庫,要使這些醫療或管理數據庫成為研究型數據庫,需基于一定的研究目的進行數據提取及清理,而如何合理設計以及規范化提取和清理數據,也是構建高質量研究型數據庫的關鍵。
5.1 基于既有健康醫療數據質量評估
對既有健康醫療數據質量評估包括:研究相關變量的準確性、完整性、研究人群的代表性、樣本量及事件數、時長(表 3)。對于不同類型的研究變量,如癥狀、體征、實驗室檢查變化及疾病診斷,其完整性及準確性可能差異較大。如疾病診斷通常完整性高,但不同機構不同病種,診斷差異較大,準確性是需主要考量的問題;對于檢驗、檢查指標,特別是特殊檢驗、檢查,缺失則是需要重點考量的問題;而對于個人史及既往史等,信息的準確性與醫療人員的問診經驗及問診態度相關,其完整性及準確性需要考慮。同時如前所述,不同類型數據庫在變量的完整性上存在系統性差異。對研究變量的準確性評估可采用驗證分析,通過靈敏度、特異度、陽性和陰性預測值及曲線下面積等指標評價其準確性。評估研究變量的完整性包括對缺失機制及缺失比例的評估。缺失機制的評價需基于臨床實際診療,如研究將無腎小球濾過率檢驗的患者定義為未發生腎功能不全[13]。未監測腎功能的患者通常無腎功能損害的癥狀、體征或危險因素,故即使有較高比例的檢驗指標缺失,錯分偏倚仍較小。基于既有健康醫療數據的研究人群是根據特定的納排標準從數據庫中選取,因此評估研究人群代表性及樣本量需充分考慮既有健康醫療數據的類型及特點,如通常相比單一醫療機構 EMR,區域化醫療數據樣本量更大,人群代表性也相對較好。很多統計分析對事件數有一定要求,如 logistics 回歸通常要求事件數/變量大于 8~10[14]。因此對于罕見結局問題,事件數也是需要特別考慮的問題。對探索慢性疾病、遠期結局等目的的研究,數據庫覆蓋時長也是重要的考核指標。

需要說明的是本篇為通用技術規范,總結了研究型數據庫評價的考核指標,但針對不同的研究目的,評價指標重要性不同、標準不同,需基于具體的研究目的具體判斷。如相比探索藥械安全性及有效性問題,在探索疾病負擔、疾病特征及疾病診療模式等問題上,研究人群的代表性是更需要考慮的重要問題;而相比探索疾病負擔,探索治療結局相關問題對特異度、陽性預測值的要求通常更高。
5.2 基于既有健康醫療數據的數據治理評價
對基于既有健康醫療數據的研究型數據庫構建過程的評價,包括數據鏈接、數據提取及數據清理。清晰透明的數據提取、清理過程可在一定程度上增加研究的可重復性及可信度。鏈接多源數據庫可獲得更完整、全面的信息。數據庫鏈接的評估,包括對數據庫所鏈接變量的范圍,及鏈接準確性、完整性的考量。提供鏈接的比例及對鏈接驗證的結果,可有助于評價鏈接的準確性。基于既有健康醫療數據的數據提取需基于預設的數據提取表提取或收集數據,數據提取方式不同準確性亦不同,故需對提取的數據進行核查。對于結構化信息,基于信息技術的數據提取過程的準確性及完整性通常優于人工病歷收集。對于人工病歷收集,雙人背靠背數據收集再進行數據核對可提高數據收集的準確性。對數據提取或收集過程的評估,可隨機抽取一定比例的數據與原始記錄進行人工核對,評價其準確性。
清晰透明的數據清理規則及流程有助于其他研究者及證據使用者評價這些基于既有健康醫療數據的研究證據,并可保證研究的可重復性。評價數據清理過程,包括判斷是否有清晰明確的數據清理規則及流程,以及這些清理規則、流程是否合理規范。通常數據清理規則包括制定變量字典、文本結構化規則以及數據處理規則。對文本信息結構化的質量評價首先是評價原始文本信息的準確性,其次是對結構化過程的評估。不同的醫療工作者對于不同信息的記錄的準確性及完整性存在差異,相比輕微癥狀、體征等信息,嚴重癥狀、體征信息的記錄通常更完整及準確。此外,結構化過程的準確性也是需要評估的內容,無論采用何種結構化技術均存在一定的錯分可能。為了解錯分的大小及方向,同樣需對這些信息進行驗證,可隨機抽取一定比例的記錄,由相關領域專家基于統一的標準,獨立判斷這些信息的準確性。研究問題不同所需建立的變量字典不同,對極端值、異常值、矛盾數據的定義及處理規則不同,因此對清理規則合理性及規范化的評價需基于研究問題,并結合臨床實際及數據的實際情況進行評價。
6 小結
作為真實世界數據的重要構成,既有健康醫療數據可解決疾病負擔、治療結局、疾病預后等多種研究問題,日益受到廣泛關注。但既有健康醫療數據不是基于研究目的收集的數據,尚不屬于研究數據,無法直接用于開展研究,要開展研究需基于一定研究目的構建研究型數據庫。研究型數據庫的質量很大程度上決定了具體研究的質量。基于研究目的進行整理策劃、總體方案設計以及數據治理是構建研究型數據庫的關鍵,而選擇高質量數據來源、規范化數據治理過程是構建高質量研究型數據庫的核心。