真實世界數據研究近年來發展迅速,但目前對其認識和理解仍然還存在諸多誤區。為推動真實世界數據研究的標準化,本文對真實世界數據的分類進行了更新和進一步明確,提出了真實世界數據研究的兩種常用模式,構建了研究型數據體系框架,尤其厘清了對登記數據庫的誤區和問題,對真實世界數據研究的未來發展方向進行了展望。
引用本文: 王雯, 譚婧, 任燕, 李玲, 沈傳勇, 田春華, 宋海波, 王濤, 高培, 彭曉霞, 溫澤淮, 舒嘯塵, 王麗, 劉梅, 何俏, 鄒康, 孫鑫. 重新認識真實世界數據研究:更新與展望. 中國循證醫學雜志, 2020, 20(11): 1241-1246. doi: 10.7507/1672-2531.202006183 復制
目前,真實世界數據已成為我國醫藥衛生行業的重要主題,在藥監、醫保、醫療領域已成為不可或缺的內容[1-5]。尤其是,我國藥品監管部門的高度重視和大力推動,促使真實世界數據研究受到前所未有的關注。2019~2020 年,國家藥監局相繼發布了《真實世界證據支持藥物研發與審評的指導原則(試行)》[6]及《真實世界數據用于醫療器械臨床評價技術指導原則(征求意見稿)》[7]。同年,啟動了海南博鰲樂城臨床真實世界數據應用試點工作,通過博鰲樂城先行區臨床急需進口藥械的使用,開展真實世界數據研究試點。作為試點的第一個產品,青光眼引流管于 2020 年 3 月批準上市,成為我國首個使用境內真實世界數據并成功獲批上市的產品[8]。
真實世界數據及其應用作為一個專業領域,目前正經歷快速發展。2017 年,我們系統介紹了該領域的重要概念、數據來源與分類等[9-12]。與此同時,新的概念和理念還在不斷涌現,一方面為該領域的發展帶來了生機,但另一方面也導致重要概念和分類的混淆。此外,概念和分類的多樣化,也增加了真實世界數據在研究和應用方面的困難。由于不同組織機構對于真實世界數據的概念、來源、分類及應用范圍存在或多或少的差異,這些差異導致研究者及決策部門在使用這些數據及證據時存在困惑[10, 13, 14]。例如,不同組織機構及專業領域對電子病歷數據及登記數據的定義和分類還存在差異,而對于生物樣本數據是否屬于真實世界數據范疇等問題,目前仍存在較多爭論。為促進這些重要基本概念、分類的統一,推動真實世界數據研究的標準化,本文對真實世界數據研究中的定義及分類進行了重要更新和明確,并展望了未來的發展方向。
1 重新認識真實世界數據
到目前為止,真實世界數據的概念在國內外不同的機構和組織間仍然存在差異[1, 15]。這些差異絕大多數是微小的,但偶爾也會帶來實質上的認知區別。目前,被廣泛接受的真實世界數據概念是指來自現實臨床醫療環境,反映實際診療中患者健康狀況和醫療服務過程的數據[1]。其核心是,區別于傳統臨床試驗的研究環境,強調數據來源于實際臨床醫療環境,數據的產生和收集過程與實際臨床醫療實踐保持較好一致。
1.1 真實世界數據的來源與分類
總體而言,真實世界數據包括常規收集的健康醫療數據(routinely collected health data,RCD)和基于一定研究目的主動收集的數據。前者是不帶有研究目的,更多是以某種管理為目的而產生的數據。實質上,狹義的真實世界數據主要就是指來自于諸如醫院電子病歷等常規收集的健康醫療數據,這也是真實世界數據最早被提出的重要動因。但隨著對真實世界數據的研究日益深入,這些常規收集的數據無法滿足研究的需求,還需要按照研究目的主動收集的數據。甚至在某些情況下,基于研究目的主動收集的數據可能成為整個研究數據源的最主要構成。
針對當前發展情況,我們對這兩種數據簡要描述如下。當然,兩者之間并不存在絕對界限,隨著對常規收集數據的重視程度提高,兩者在數據來源、數據質量、收集流程和研究流程等之間的差異可能會越來越模糊。
1.1.1 常規收集的健康醫療數據
RCD 是指基于臨床或管理目的收集的健康醫療數據,這些數據的產生無預先設定的研究目的[14]。常見的 RCD 包括醫院電子病歷數據(electronic medical record,EMR)、醫保數據、居民電子健康檔案、區域健康醫療數據、健康/安全監測數據(如傳染病監測數據、醫院感染監測數據、藥品不良反應自發報告數據等)、死亡登記數據、可穿戴設備數據及其他健康數據(如疫苗接種數據)等。其中,區域醫療數據是整合區域內的多種數據資源形成的,包括多家醫療機構電子病歷數據、醫保數據、健康/安全監測數據、死亡登記數據等。區域的界定可大可小,包含區、縣/市甚至省份等。
針對 EMR,不同行業領域的專家理解也存在差異。按照國家衛生健康委員會發布的《關于印發電子病歷應用管理規范(試行)的通知》,EMR 是指醫務人員在醫療活動過程中,使用信息系統生成的文字、符號、圖表、圖形、數字、影像等數字化信息[16]。廣義的 EMR 是指電子病例系統數據,既包括臨床信息系統(hospital information system,HIS)中患者就診、處方、費用和診療經過等信息,也包括實驗室信息系統(lab information system,LIS)和影像信息系統(picture archiving and communication system,PACS)等記錄的檢查、檢驗、病理、影像、心電、超聲等信息。狹義 EMR 主要指電子病歷中醫護人員書寫內容,包括住院病案首頁、入院記錄、病程記錄等。通常,在真實世界數據研究中所指的 EMR 多為廣義定義。
在我國,其他常見的名稱包括回顧性數據庫(retrospective database)、既有健康醫療數據(existing health and medical data)、既有數據庫(existing database)等[10, 17]。雖名稱不同,但本質大同小異。事實上,目前不同國際組織機構對于常規收集健康醫療數據的命名也存在差異。我們建議按照 RECORD(reporting of studies conducted using routinely collected data)報告規范[14, 18]對 RCD 進行界定。
1.1.2 基于研究目的主動收集的健康醫療數據
主動收集的醫療數據是指基于預先設定的研究目的額外主動收集健康醫療數據而產生的數據。RCD 是真實世界數據體系的基礎。但由于本身局限,這些數據在開展研究時存在局限。因此,在開展研究時,針對研究目的,還需要在實際診療環境下額外主動收集相關數據,滿足研究目的。例如,在收集腫瘤真實世界數據時,為回應腫瘤患者對于提高生活質量的需求,可能需要額外收集患者的生活質量數據;在收集圍產期相關真實世界數據時,為探討微量元素對于出生缺陷的影響,可能需要主動收集孕產婦孕期使用補充微量元素的信息。收集這些信息的主要原因是 RCD 不能為上述研究需求提供相應的數據支持。同時,即便實際診療過程中常規收集了這些數據,但是由于數據缺失較多或者數據準確性達不到研究需求,仍然需要主動收集相關數據。
區別主動收集或 RCD 的關鍵核心在于源數據的產生是否基于預先設定的研究目的。在真實世界數據研究中,一種常見的數據收集形式是研究者針對一定研究目的,基于臨床經驗或預先設定的數據收集標準從電子病歷數據中收集研究所需的變量。由于數據本身來源于電子病歷數據,而電子病歷數據的產生并不是基于一定研究目的,因此仍屬于常規收集的醫療數據。
1.2 其他問題與混淆
1.2.1 生物樣本數據
由于研究目的的多樣性,部分研究有可能會收集其他數據,如生物樣本等,用于開展額外分析,如組學分析等。這些數據如果是在臨床實際環境中獲取并用于常規臨床醫療目的,本身屬于真實世界數據范疇(如腫瘤臨床靶向治療常規基因檢查數據)。但如果這些收集的數據,本身并非用于實際臨床診療,而是用于基礎醫學研究(如發病機制研究),則通常不歸于真實世界數據。
1.2.2 傳統流行病學研究數據
常常有人會問,來自于傳統流行病學研究(如前瞻性隊列研究、自然人群隊列等)的數據是否屬于真實世界數據。這些傳統流行病學研究需要研究者基于研究目的主動收集相關數據;當這些研究在收集相關數據時滿足了真實世界數據的定義時,也可歸屬于主動收集的真實世界數據。我們不建議將這類研究數據單獨列為一類數據。
1.2.3 實效性臨床試驗數據
一些研究者認為,主動收集的真實世界數據還應包含實效性臨床試驗,有時也稱實用性臨床試驗(pragmatic clinical trial)。這些試驗由于研究環境、納排標準、干預設定、結局指標選擇、隨訪考慮等與實際臨床醫療保持較好一致,其產生的數據屬于真實世界數據范疇。實質上,實效性試驗的數據來源一部分也可來自于 RCD,另一部分來自于主動收集數據。同時,實效性臨床試驗本身屬于真實世界數據研究的具體設計類型。因此,實效性試驗不單獨作為一類數據。
2 真實世界數據研究:真實世界數據到真實世界證據的重要橋梁
要實現從真實世界數據向真實世界證據的轉化,需要圍繞具體研究問題或總體研究目的,基于真實世界數據資源,構建研究型數據體系,并通過研究的方式轉變為研究結果,這樣的形式通常被稱為真實世界數據研究,過去我們也稱為真實世界研究。其本質,就是基于較完善的研究型數據體系,采用合適的流行病學設計和統計學方法回答關心的科學問題。盡管真實世界數據形式存在較強的多樣性,但真實世界數據研究總體而言可分為兩種模式(圖 1)。一種是在基于具體且相對較單一的研究假設情況下,基于真實世界數據體系開展的研究;另一種是在總體研究目的基礎上,構建研究型數據庫,回答多個假設。

2.1 構建研究型數據體系
在開展真實世界數據研究中,構建研究型數據體系是關鍵。特別是部分或完全使用 RCD 作為研究數據來源,這些原始數據存在未鏈接、未標化且含有大量非結構化文本等問題,通常需采用信息技術對原始數據進行采集、鏈接、匯總,開展初步治理,形成集成數據,這一過程需信息學專家深度參與。但集成數據仍無研究目的,要使用這些數據開展研究,需基于一定的研究目的或特定研究問題,采用統一的數據收集及清理規則開展數據治理,形成可用于研究的數據資源,即研究型數據體系[17]。研究型數據體系的構建是根據研究規模和總體目的差異,可以是基于總體研究目的構建的研究型數據庫(research database),也可以是基于特定研究假設構建的研究型數據集(research dataset)。
研究型數據庫可用于解決多個科學研究問題。在構建研究型數據庫時尚不涉及具體流行病學設計,當研究型數據庫構建完成,再針對特定研究問題選擇流行病學設計及統計分析形成研究方案,開展具體研究[17]。在探索疾病管理研究問題時,多采用這種類型的研究型數據庫。例如,整合多源常規收集醫療數據構建重癥監護患者醫院感染研究型數據庫,探索 ICU 患者院感風險防控的多個研究問題[19]。
研究型數據集在構建時已有特定研究問題,基于具體研究問題選擇合適的流行病學設計,形成具體研究方案,再開展數據治理形成研究型數據集,多見于探索藥品治療模式、治療結局相關問題[10, 20]。但無論哪種方式,在構建研究型數據體系時均需有統一的、標準化的數據收集或提取規則以及清理規則。不同的是,完全基于 RCD 構建研究型數據庫,由于數據已經存在,對變量定義及收集標準需要采用一定的編碼或算法從大量信息中識別及判斷,例如從醫院電子病歷系統出院診斷中,識別出糖尿病相關 ICD 編碼定義為糖尿病患者,這個過程往往需要流行病學、統計學及信息技術等不同學科支撐[17]。基于部分主動收集的數據構建研究型數據庫,由于數據在研究開始前數據并不存在,對變量定義及收集標準需先制定病例報告表(case report form,CRF),明確收集的變量內容、變量定義及收集頻率,再基于 CRF 表前瞻性主動收集,這個過程對臨床資源和技能的要求更高,往往需要醫生、患者的大量參與[21]。
2.2 登記數據庫—厘清問題與混淆
登記數據庫(registry)是研究型數據體系的一個重要組成和常見形式。但由于其自身的特殊性和數據來源的多樣性,目前對登記數據庫的認識和分類還存在許多混淆和誤區,導致在開展研究時產生了較多問題,也為制定相關技術指南和規范帶來了很多挑戰。
不同組織機構、不同學者對于登記數據庫的理解不同。按照美國醫療保健研究與質量局(agency for healthcare research and quality,AHRQ)發布的《評估患者結局的登記指南》定義登記是基于一種或多種研究目的、臨床或醫療政策管理目的,采用觀察性研究的方法收集一致性數據的組織系統[13]。基于登記數據庫的研究稱為登記研究。因登記數據庫對象通常為患者,因此也常稱為患者登記。但實際上,登記數據庫既可是基于臨床或管理目的構建,如器官移植登記、出生缺陷登記等[14],也可基于一定研究目的構建。
在真實世界數據研究環境中,我們所指的登記數據庫通常具有研究目的。該類登記數據庫的數據來源可以全部或主要來源于常規收集的醫療數據。例如,丹麥全國患者登記數據庫,針對一定研究目的,鏈接多源常規收集的醫療數據,包括患者個人信息、住院信息、診斷、治療等信息,形成多種專病登記數據庫,如糖尿病登記數據庫、腦卒中登記數據庫等[22]。當然,這些通過鏈接常規收集的醫療數據形成的患者登記數據庫,實際上包含了一個前提,即在這些國家或醫療環境中,通常已形成較嚴格的數據收集流程和規范,使得 RCD 保有較高的完整性和數據質量,通常不需要額外主動收集。此外,登記數據庫的數據資源也可部分來源于常規收集、部分來源于主動收集,甚至有時會大部分基于主動收集的方式建立。AHRQ 指南及我們前期發表的文章和技術規范中,主要是針對后一種方式建立的登記數據庫做了闡述[11, 13, 21]。
按照研究的目標對象差異,登記數據庫可圍繞特定疾病建立登記,常被稱為專病登記;也可圍繞某種或某類藥品、器械建立登記,常稱為產品登記;還可圍繞某種醫療服務進行登記,稱為綜合醫療服務登記。根據這些對象本身特征的差異,在建立登記數據系統的過程中,數據來源可能存在較大差異。通常,RCD 中包括了藥品和疾病研究所需的絕大多數關鍵變量,因此針對藥品和疾病在建立登記數據庫時,可能常常基于 RCD,并在需要的時候額外主動收集部分數據。但針對器械,由于 RCD 中往往缺乏器械唯一識別碼、手術信息等重要信息,構建器械登記數據庫對主動收集方式的需求會更高。
2.3 真實世界數據研究中的流行病學設計
真實世界數據研究按流行病學設計類型區分,仍然可以分為觀察性設計和實驗性設計(表 1)。觀察性設計通常是基于已有的研究型數據體系,圍繞具體研究目的,針對關心的偏倚和混雜問題,選擇合適的設計類型,如隊列研究、病例-對照研究或其衍生類型、中斷時間序列設計、橫斷面研究、病例系列等[23]。

實驗性設計通常整合了臨床試驗特征(如采用隨機對照試驗)開展研究,回答研究假設[24]。這類設計除了在研究環境、納入排除標準、比較組設定、結局指標等方面具備真實世界數據研究特征外,通常是基于已經建立的研究型數據體系開展,通過前瞻性的設計方式完成對患者的干預和隨訪。例如,在患者招募階段,基于醫院電子病歷數據或患者登記數據,篩選符合納入排除標準的患者;在數據收集階段,以電子病歷等常規收集的醫療數據作為部分數據資源平臺,通過提取或實時抓取方式獲取相關數據。
3 展望
我們處于一個快速變化的時代。真實世界數據研究作為一個快速發展的科學領域,其概念和涵蓋的方法技術也在不斷演變。對真實世界數據研究的正確認識和理解也需要在這個大的時代背景下進行。
隨著醫學和信息技術等學科的進步及各個學科和場景的相互融合,我們越來越意識到,對真實世界數據及其開展的研究需要保持不斷更新和開放包容的態度。例如,過去通常認為,基于一定研究目的收集的數據其完整性及準確性一定優于 RCD。但隨著各方對常規收集數據的重視和對醫學研究的需求,醫院電子病歷等常規收集醫療系統,因數據收集的高效便利性,也已逐漸成為主動收集數據的重要載體。甚至,可將生活質量量表、問卷調查等因研究目的開展的特殊檢查等主動收集的數據模塊加載到醫院電子病歷系統。我們預計,信息技術的發展會促使這種情況在未來越來越多,最終使得主動收集及 RCD 融為一體。
此外,醫院電子病歷數據、區域醫療數據等大數據平臺逐漸成熟,加之信息技術推動的數據結構化及標準化發展,也可能使這些常規收集的健康醫療數據質量得到實質提升。
因此,什么是高質量的真實世界數據?什么是高質量的真實世界證據?這些問題可能會在較長的時間困擾研究者、證據使用者和決策者。但不管主動收集還是常規收集,評價數據質量的核心在于針對研究目的或特定研究問題,研究關鍵變量(如研究人群、暴露/對照、結局、隨訪及重要混雜變量)的完整性及準確性是否達到研究的要求。這一過程需要研究者及證據使用者充分理解臨床實踐過程,明確存在錯分偏倚的可能環節;同時也需要研究者對研究關鍵變量的定義及識別編碼進行驗證,并報告敏感性、特異性、準確性等驗證指標[18, 25]。此外,評價證據的核心在于是否在高質量的真實世界數據基礎上,采用了嚴格合理的流行病學設計并通過統計學的處理充分控制了相關的混雜和偏倚[26]。這需要研究者有較高的研究策劃、數據治理、流行病學設計及統計分析能力和技術。一方面,我國真實世界數據研究快速發展,相關技術規范及指南陸續發布,為研究者及證據使用者提供了重要參考。另一方面,真實世界證據的生產涉及多個專業領域,包括臨床醫學、流行病學、統計學等,需要多學科交叉團隊的協作。信息技術和人工智能的快速發展,未來,這種交叉融合將更為明顯。
可以預見,未來十年,真實世界數據研究仍然會成為醫療和醫療行業的熱點話題。學科的發展、技術的進步、需求的變化會推動真實世界數據研究的不斷演變和進步。對這個快速發展的科學領域,我們需要保持科學和審慎的頭腦,也要有開放包容的眼光。因為,變化才是 21 世紀不變的主題。
目前,真實世界數據已成為我國醫藥衛生行業的重要主題,在藥監、醫保、醫療領域已成為不可或缺的內容[1-5]。尤其是,我國藥品監管部門的高度重視和大力推動,促使真實世界數據研究受到前所未有的關注。2019~2020 年,國家藥監局相繼發布了《真實世界證據支持藥物研發與審評的指導原則(試行)》[6]及《真實世界數據用于醫療器械臨床評價技術指導原則(征求意見稿)》[7]。同年,啟動了海南博鰲樂城臨床真實世界數據應用試點工作,通過博鰲樂城先行區臨床急需進口藥械的使用,開展真實世界數據研究試點。作為試點的第一個產品,青光眼引流管于 2020 年 3 月批準上市,成為我國首個使用境內真實世界數據并成功獲批上市的產品[8]。
真實世界數據及其應用作為一個專業領域,目前正經歷快速發展。2017 年,我們系統介紹了該領域的重要概念、數據來源與分類等[9-12]。與此同時,新的概念和理念還在不斷涌現,一方面為該領域的發展帶來了生機,但另一方面也導致重要概念和分類的混淆。此外,概念和分類的多樣化,也增加了真實世界數據在研究和應用方面的困難。由于不同組織機構對于真實世界數據的概念、來源、分類及應用范圍存在或多或少的差異,這些差異導致研究者及決策部門在使用這些數據及證據時存在困惑[10, 13, 14]。例如,不同組織機構及專業領域對電子病歷數據及登記數據的定義和分類還存在差異,而對于生物樣本數據是否屬于真實世界數據范疇等問題,目前仍存在較多爭論。為促進這些重要基本概念、分類的統一,推動真實世界數據研究的標準化,本文對真實世界數據研究中的定義及分類進行了重要更新和明確,并展望了未來的發展方向。
1 重新認識真實世界數據
到目前為止,真實世界數據的概念在國內外不同的機構和組織間仍然存在差異[1, 15]。這些差異絕大多數是微小的,但偶爾也會帶來實質上的認知區別。目前,被廣泛接受的真實世界數據概念是指來自現實臨床醫療環境,反映實際診療中患者健康狀況和醫療服務過程的數據[1]。其核心是,區別于傳統臨床試驗的研究環境,強調數據來源于實際臨床醫療環境,數據的產生和收集過程與實際臨床醫療實踐保持較好一致。
1.1 真實世界數據的來源與分類
總體而言,真實世界數據包括常規收集的健康醫療數據(routinely collected health data,RCD)和基于一定研究目的主動收集的數據。前者是不帶有研究目的,更多是以某種管理為目的而產生的數據。實質上,狹義的真實世界數據主要就是指來自于諸如醫院電子病歷等常規收集的健康醫療數據,這也是真實世界數據最早被提出的重要動因。但隨著對真實世界數據的研究日益深入,這些常規收集的數據無法滿足研究的需求,還需要按照研究目的主動收集的數據。甚至在某些情況下,基于研究目的主動收集的數據可能成為整個研究數據源的最主要構成。
針對當前發展情況,我們對這兩種數據簡要描述如下。當然,兩者之間并不存在絕對界限,隨著對常規收集數據的重視程度提高,兩者在數據來源、數據質量、收集流程和研究流程等之間的差異可能會越來越模糊。
1.1.1 常規收集的健康醫療數據
RCD 是指基于臨床或管理目的收集的健康醫療數據,這些數據的產生無預先設定的研究目的[14]。常見的 RCD 包括醫院電子病歷數據(electronic medical record,EMR)、醫保數據、居民電子健康檔案、區域健康醫療數據、健康/安全監測數據(如傳染病監測數據、醫院感染監測數據、藥品不良反應自發報告數據等)、死亡登記數據、可穿戴設備數據及其他健康數據(如疫苗接種數據)等。其中,區域醫療數據是整合區域內的多種數據資源形成的,包括多家醫療機構電子病歷數據、醫保數據、健康/安全監測數據、死亡登記數據等。區域的界定可大可小,包含區、縣/市甚至省份等。
針對 EMR,不同行業領域的專家理解也存在差異。按照國家衛生健康委員會發布的《關于印發電子病歷應用管理規范(試行)的通知》,EMR 是指醫務人員在醫療活動過程中,使用信息系統生成的文字、符號、圖表、圖形、數字、影像等數字化信息[16]。廣義的 EMR 是指電子病例系統數據,既包括臨床信息系統(hospital information system,HIS)中患者就診、處方、費用和診療經過等信息,也包括實驗室信息系統(lab information system,LIS)和影像信息系統(picture archiving and communication system,PACS)等記錄的檢查、檢驗、病理、影像、心電、超聲等信息。狹義 EMR 主要指電子病歷中醫護人員書寫內容,包括住院病案首頁、入院記錄、病程記錄等。通常,在真實世界數據研究中所指的 EMR 多為廣義定義。
在我國,其他常見的名稱包括回顧性數據庫(retrospective database)、既有健康醫療數據(existing health and medical data)、既有數據庫(existing database)等[10, 17]。雖名稱不同,但本質大同小異。事實上,目前不同國際組織機構對于常規收集健康醫療數據的命名也存在差異。我們建議按照 RECORD(reporting of studies conducted using routinely collected data)報告規范[14, 18]對 RCD 進行界定。
1.1.2 基于研究目的主動收集的健康醫療數據
主動收集的醫療數據是指基于預先設定的研究目的額外主動收集健康醫療數據而產生的數據。RCD 是真實世界數據體系的基礎。但由于本身局限,這些數據在開展研究時存在局限。因此,在開展研究時,針對研究目的,還需要在實際診療環境下額外主動收集相關數據,滿足研究目的。例如,在收集腫瘤真實世界數據時,為回應腫瘤患者對于提高生活質量的需求,可能需要額外收集患者的生活質量數據;在收集圍產期相關真實世界數據時,為探討微量元素對于出生缺陷的影響,可能需要主動收集孕產婦孕期使用補充微量元素的信息。收集這些信息的主要原因是 RCD 不能為上述研究需求提供相應的數據支持。同時,即便實際診療過程中常規收集了這些數據,但是由于數據缺失較多或者數據準確性達不到研究需求,仍然需要主動收集相關數據。
區別主動收集或 RCD 的關鍵核心在于源數據的產生是否基于預先設定的研究目的。在真實世界數據研究中,一種常見的數據收集形式是研究者針對一定研究目的,基于臨床經驗或預先設定的數據收集標準從電子病歷數據中收集研究所需的變量。由于數據本身來源于電子病歷數據,而電子病歷數據的產生并不是基于一定研究目的,因此仍屬于常規收集的醫療數據。
1.2 其他問題與混淆
1.2.1 生物樣本數據
由于研究目的的多樣性,部分研究有可能會收集其他數據,如生物樣本等,用于開展額外分析,如組學分析等。這些數據如果是在臨床實際環境中獲取并用于常規臨床醫療目的,本身屬于真實世界數據范疇(如腫瘤臨床靶向治療常規基因檢查數據)。但如果這些收集的數據,本身并非用于實際臨床診療,而是用于基礎醫學研究(如發病機制研究),則通常不歸于真實世界數據。
1.2.2 傳統流行病學研究數據
常常有人會問,來自于傳統流行病學研究(如前瞻性隊列研究、自然人群隊列等)的數據是否屬于真實世界數據。這些傳統流行病學研究需要研究者基于研究目的主動收集相關數據;當這些研究在收集相關數據時滿足了真實世界數據的定義時,也可歸屬于主動收集的真實世界數據。我們不建議將這類研究數據單獨列為一類數據。
1.2.3 實效性臨床試驗數據
一些研究者認為,主動收集的真實世界數據還應包含實效性臨床試驗,有時也稱實用性臨床試驗(pragmatic clinical trial)。這些試驗由于研究環境、納排標準、干預設定、結局指標選擇、隨訪考慮等與實際臨床醫療保持較好一致,其產生的數據屬于真實世界數據范疇。實質上,實效性試驗的數據來源一部分也可來自于 RCD,另一部分來自于主動收集數據。同時,實效性臨床試驗本身屬于真實世界數據研究的具體設計類型。因此,實效性試驗不單獨作為一類數據。
2 真實世界數據研究:真實世界數據到真實世界證據的重要橋梁
要實現從真實世界數據向真實世界證據的轉化,需要圍繞具體研究問題或總體研究目的,基于真實世界數據資源,構建研究型數據體系,并通過研究的方式轉變為研究結果,這樣的形式通常被稱為真實世界數據研究,過去我們也稱為真實世界研究。其本質,就是基于較完善的研究型數據體系,采用合適的流行病學設計和統計學方法回答關心的科學問題。盡管真實世界數據形式存在較強的多樣性,但真實世界數據研究總體而言可分為兩種模式(圖 1)。一種是在基于具體且相對較單一的研究假設情況下,基于真實世界數據體系開展的研究;另一種是在總體研究目的基礎上,構建研究型數據庫,回答多個假設。

2.1 構建研究型數據體系
在開展真實世界數據研究中,構建研究型數據體系是關鍵。特別是部分或完全使用 RCD 作為研究數據來源,這些原始數據存在未鏈接、未標化且含有大量非結構化文本等問題,通常需采用信息技術對原始數據進行采集、鏈接、匯總,開展初步治理,形成集成數據,這一過程需信息學專家深度參與。但集成數據仍無研究目的,要使用這些數據開展研究,需基于一定的研究目的或特定研究問題,采用統一的數據收集及清理規則開展數據治理,形成可用于研究的數據資源,即研究型數據體系[17]。研究型數據體系的構建是根據研究規模和總體目的差異,可以是基于總體研究目的構建的研究型數據庫(research database),也可以是基于特定研究假設構建的研究型數據集(research dataset)。
研究型數據庫可用于解決多個科學研究問題。在構建研究型數據庫時尚不涉及具體流行病學設計,當研究型數據庫構建完成,再針對特定研究問題選擇流行病學設計及統計分析形成研究方案,開展具體研究[17]。在探索疾病管理研究問題時,多采用這種類型的研究型數據庫。例如,整合多源常規收集醫療數據構建重癥監護患者醫院感染研究型數據庫,探索 ICU 患者院感風險防控的多個研究問題[19]。
研究型數據集在構建時已有特定研究問題,基于具體研究問題選擇合適的流行病學設計,形成具體研究方案,再開展數據治理形成研究型數據集,多見于探索藥品治療模式、治療結局相關問題[10, 20]。但無論哪種方式,在構建研究型數據體系時均需有統一的、標準化的數據收集或提取規則以及清理規則。不同的是,完全基于 RCD 構建研究型數據庫,由于數據已經存在,對變量定義及收集標準需要采用一定的編碼或算法從大量信息中識別及判斷,例如從醫院電子病歷系統出院診斷中,識別出糖尿病相關 ICD 編碼定義為糖尿病患者,這個過程往往需要流行病學、統計學及信息技術等不同學科支撐[17]。基于部分主動收集的數據構建研究型數據庫,由于數據在研究開始前數據并不存在,對變量定義及收集標準需先制定病例報告表(case report form,CRF),明確收集的變量內容、變量定義及收集頻率,再基于 CRF 表前瞻性主動收集,這個過程對臨床資源和技能的要求更高,往往需要醫生、患者的大量參與[21]。
2.2 登記數據庫—厘清問題與混淆
登記數據庫(registry)是研究型數據體系的一個重要組成和常見形式。但由于其自身的特殊性和數據來源的多樣性,目前對登記數據庫的認識和分類還存在許多混淆和誤區,導致在開展研究時產生了較多問題,也為制定相關技術指南和規范帶來了很多挑戰。
不同組織機構、不同學者對于登記數據庫的理解不同。按照美國醫療保健研究與質量局(agency for healthcare research and quality,AHRQ)發布的《評估患者結局的登記指南》定義登記是基于一種或多種研究目的、臨床或醫療政策管理目的,采用觀察性研究的方法收集一致性數據的組織系統[13]。基于登記數據庫的研究稱為登記研究。因登記數據庫對象通常為患者,因此也常稱為患者登記。但實際上,登記數據庫既可是基于臨床或管理目的構建,如器官移植登記、出生缺陷登記等[14],也可基于一定研究目的構建。
在真實世界數據研究環境中,我們所指的登記數據庫通常具有研究目的。該類登記數據庫的數據來源可以全部或主要來源于常規收集的醫療數據。例如,丹麥全國患者登記數據庫,針對一定研究目的,鏈接多源常規收集的醫療數據,包括患者個人信息、住院信息、診斷、治療等信息,形成多種專病登記數據庫,如糖尿病登記數據庫、腦卒中登記數據庫等[22]。當然,這些通過鏈接常規收集的醫療數據形成的患者登記數據庫,實際上包含了一個前提,即在這些國家或醫療環境中,通常已形成較嚴格的數據收集流程和規范,使得 RCD 保有較高的完整性和數據質量,通常不需要額外主動收集。此外,登記數據庫的數據資源也可部分來源于常規收集、部分來源于主動收集,甚至有時會大部分基于主動收集的方式建立。AHRQ 指南及我們前期發表的文章和技術規范中,主要是針對后一種方式建立的登記數據庫做了闡述[11, 13, 21]。
按照研究的目標對象差異,登記數據庫可圍繞特定疾病建立登記,常被稱為專病登記;也可圍繞某種或某類藥品、器械建立登記,常稱為產品登記;還可圍繞某種醫療服務進行登記,稱為綜合醫療服務登記。根據這些對象本身特征的差異,在建立登記數據系統的過程中,數據來源可能存在較大差異。通常,RCD 中包括了藥品和疾病研究所需的絕大多數關鍵變量,因此針對藥品和疾病在建立登記數據庫時,可能常常基于 RCD,并在需要的時候額外主動收集部分數據。但針對器械,由于 RCD 中往往缺乏器械唯一識別碼、手術信息等重要信息,構建器械登記數據庫對主動收集方式的需求會更高。
2.3 真實世界數據研究中的流行病學設計
真實世界數據研究按流行病學設計類型區分,仍然可以分為觀察性設計和實驗性設計(表 1)。觀察性設計通常是基于已有的研究型數據體系,圍繞具體研究目的,針對關心的偏倚和混雜問題,選擇合適的設計類型,如隊列研究、病例-對照研究或其衍生類型、中斷時間序列設計、橫斷面研究、病例系列等[23]。

實驗性設計通常整合了臨床試驗特征(如采用隨機對照試驗)開展研究,回答研究假設[24]。這類設計除了在研究環境、納入排除標準、比較組設定、結局指標等方面具備真實世界數據研究特征外,通常是基于已經建立的研究型數據體系開展,通過前瞻性的設計方式完成對患者的干預和隨訪。例如,在患者招募階段,基于醫院電子病歷數據或患者登記數據,篩選符合納入排除標準的患者;在數據收集階段,以電子病歷等常規收集的醫療數據作為部分數據資源平臺,通過提取或實時抓取方式獲取相關數據。
3 展望
我們處于一個快速變化的時代。真實世界數據研究作為一個快速發展的科學領域,其概念和涵蓋的方法技術也在不斷演變。對真實世界數據研究的正確認識和理解也需要在這個大的時代背景下進行。
隨著醫學和信息技術等學科的進步及各個學科和場景的相互融合,我們越來越意識到,對真實世界數據及其開展的研究需要保持不斷更新和開放包容的態度。例如,過去通常認為,基于一定研究目的收集的數據其完整性及準確性一定優于 RCD。但隨著各方對常規收集數據的重視和對醫學研究的需求,醫院電子病歷等常規收集醫療系統,因數據收集的高效便利性,也已逐漸成為主動收集數據的重要載體。甚至,可將生活質量量表、問卷調查等因研究目的開展的特殊檢查等主動收集的數據模塊加載到醫院電子病歷系統。我們預計,信息技術的發展會促使這種情況在未來越來越多,最終使得主動收集及 RCD 融為一體。
此外,醫院電子病歷數據、區域醫療數據等大數據平臺逐漸成熟,加之信息技術推動的數據結構化及標準化發展,也可能使這些常規收集的健康醫療數據質量得到實質提升。
因此,什么是高質量的真實世界數據?什么是高質量的真實世界證據?這些問題可能會在較長的時間困擾研究者、證據使用者和決策者。但不管主動收集還是常規收集,評價數據質量的核心在于針對研究目的或特定研究問題,研究關鍵變量(如研究人群、暴露/對照、結局、隨訪及重要混雜變量)的完整性及準確性是否達到研究的要求。這一過程需要研究者及證據使用者充分理解臨床實踐過程,明確存在錯分偏倚的可能環節;同時也需要研究者對研究關鍵變量的定義及識別編碼進行驗證,并報告敏感性、特異性、準確性等驗證指標[18, 25]。此外,評價證據的核心在于是否在高質量的真實世界數據基礎上,采用了嚴格合理的流行病學設計并通過統計學的處理充分控制了相關的混雜和偏倚[26]。這需要研究者有較高的研究策劃、數據治理、流行病學設計及統計分析能力和技術。一方面,我國真實世界數據研究快速發展,相關技術規范及指南陸續發布,為研究者及證據使用者提供了重要參考。另一方面,真實世界證據的生產涉及多個專業領域,包括臨床醫學、流行病學、統計學等,需要多學科交叉團隊的協作。信息技術和人工智能的快速發展,未來,這種交叉融合將更為明顯。
可以預見,未來十年,真實世界數據研究仍然會成為醫療和醫療行業的熱點話題。學科的發展、技術的進步、需求的變化會推動真實世界數據研究的不斷演變和進步。對這個快速發展的科學領域,我們需要保持科學和審慎的頭腦,也要有開放包容的眼光。因為,變化才是 21 世紀不變的主題。