回顧性數據庫研究是真實世界研究的重要組成,受到廣泛關注。但如何正確認識和開展回顧性數據庫研究還存在很多誤區。本文系統介紹了回顧性數據庫研究的概念、特征及應用,探討了回顧性數據庫研究的策劃及研究數據庫構建,為高質量生產和正確使用回顧性數據研究提供引導。
引用本文: 王雯, 劉艷梅, 譚婧, 于川, 李吉杰, 程亮亮, 孫鑫. 回顧性數據庫研究的概念、策劃與研究數據庫構建. 中國循證醫學雜志, 2018, 18(2): 230-237. doi: 10.7507/1672-2531.201712085 復制
數據是開展真實世界研究(RWS),形成真實世界證據(RWE)的基礎[1]。按數據獲取方式,RWE 可分為前瞻性收集的數據(如實效性臨床試驗和患者登記研究[2])和回顧性數據庫的數據。近年來,回顧性數據庫研究越來越受醫療衛生決策者、臨床醫生、研究者的重視,相關研究報告也越來越多[3-5]。雖然此類研究數量急劇增長,但回顧性數據庫的利用仍存在很多問題:① 過度強調回顧性數據資源的價值和重要性,對回顧性數據處理的復雜性認識不夠;② 強調回顧性數據的海量信息,卻忽略了數據質量的重要性;③ 對回顧性數據庫認識不全面,低估了這些數據可能產生的重要研究證據。針對以上問題,本文將著重介紹回顧性數據庫研究的特征、作用和如何運用數據庫進行 RWS,幫助讀者正確合理地生產和使用基于回顧性數據的 RWE。
1 回顧性數據庫研究的概念與基本特征
2003 年國際藥物經濟學與結果研究協會(ISPOR)發布的《回顧性數據庫研究質量評價條目》提出回顧性數據庫是指在研究開始前已經存在的、基于醫療和決策管理目的所形成的數據庫,其并非針對特定研究問題收集數據而形成[6]。2009 年 ISPOR 進一步發布系列指南[7-9],再次提到了“回顧性數據庫”。不同組織對回顧性數據庫有不同的稱呼,但其本質相同,均為“并非基于研究目的收集”、“研究開始前已存在”的數據庫。如常規收集的衛生數據(routinely collected health data)[10]、二次數據庫(secondary databases)[11]。
回顧性數據庫實質上是累積的常規醫療和健康信息。要使用這些信息形成 RWE,解決臨床醫療和決策問題,還需要進行系統和具體的研究。基于回顧性數據庫的數據,根據研究目的,采用流行病學、醫學統計學等方法技術開展的研究稱為回顧性數據庫研究。
回顧性數據庫研究本質屬于臨床研究范疇。但在研究思維和形式上與傳統臨床研究存在較大差異,主要表現在以下幾個方面:第一,回顧性數據庫本身并非一個研究數據庫;這些數據庫更多是用于醫療和決策的管理(如醫院電子病歷數據或醫保數據)。第二,在使用這些數據開展研究時,研究假設的產生通常是在已有數據的基礎上。因此,這些數據是否可解決臨床問題,可以解決什么樣的臨床問題,是開展回顧性數據庫研究前需考慮的重要問題。第三,這些數據庫通常儲存了海量、多樣化的信息,因此具備了醫療大數據的重要特征,很多時候也被稱為醫療大數據(health big data)。海量多樣的數據形式決定了回顧性數據庫研究的核心是如何挖掘及清理海量數據。這一過程通常需要方法學家、臨床專家和信息專家的參與,并借助多種信息技術和統計軟件來實現,更強調多學科合作。
2 回顧性數據庫數據的主要分類與特征
回顧性數據庫是整個研究的基礎,其數據形式多種多樣,包含在醫療環境中建立的電子病歷數據(electronic medical records,EMR)或在更廣泛的醫療健康環境中建立的電子健康檔案數據(electronic health records,EHR)、醫保環境下形成的醫保理賠數據(claims data)、民政部門和公共衛生部門的出生/死亡登記數據、公共健康監測數據(如藥監部門的藥物不良反應監測數據)及整合了多種數據形成的區域醫療健康數據等[7]。但由于數據庫建立的目的不同,其所涵蓋的數據內容及范圍也不同。如 EMR 的建立是為了方便臨床醫生診療工作及醫院管理,因此包括了大量患者就診期間的癥狀、體征、檢查及診治經過等相關信息,但未涵蓋患者院外的診療信息。醫保數據的建立是為了醫保部門報銷理賠,因此涵蓋了較詳細的醫療費用及用藥信息,但其診斷的準確性可能存在缺陷,且未涵蓋檢查信息。醫保數據、電子病歷記錄及區域化醫療數據是目前回顧性數據庫研究中常使用的數據庫類型,表 1 以這三種數據庫為例說明其各自特征。

3 回顧性數據庫研究可回答的主要科學問題
回顧性數據庫研究可評估患者健康狀況、疾病及診療過程,評估防治結局、評估患者預后等,可為相關政策制定提供證據支持。基于較高質量的數據,選擇最佳的研究設計、采用規范的清理規則及科學分析,回顧性數據庫研究也可得到高質量證據以支持臨床實踐及醫療決策[12-14]。但不同數據庫所涵蓋的數據內容不同,可以解決的科學問題亦有差別。
3.1 基于 EMR 的回顧性數據庫研究
EMR 系統中涵蓋了大量患者在真實診療環境中的診療信息,既有診斷、檢驗信息,還包括詳細的癥狀、體征、住院期間疾病轉歸等信息。因此,基于 EMR 的回顧性數據庫研究可評估疾病發生轉歸及診療全過程,包括:了解疾病負擔;描述疾病流行病學特征與分布[15],發現疾病流行規律和病因;了解特定疾病的治療模式[16],評價真實診療中治療的合理性;了解現有診療措施的治療依從性及相關因素;探索在目前診療中未被較好滿足的患者需求[17]。
在評估防治結局方面,鑒于 EMR 數據來源于日常診療環境,比傳統臨床試驗涵蓋了更廣泛的人群、涉及更復雜的用藥情況,因此可反映干預措施在真實診療環境中的實際療效與安全性,并可比較不同干預措施的治療效果及在不同人群中的療效差異。且 EMR 涵蓋了大量用藥人群,更易發現出現罕見不良反應。相比前瞻性研究,回顧性研究可在短時間內完成資料收集與分析,省時省力。因此,基于 EMR 的回顧性研究常用于探索藥物安全性,特別是用于發現罕見不良反應。另外,EMR 中包含了患者疾病轉歸結局以及重要的影響因素(如年齡、性別、吸煙飲酒史、檢驗指標、合并疾病等),因此可評估患者預后,分析預后因素相關性和建立風險預測模型。
值得注意的是,單一醫療機構的 EMR 系統僅涵蓋患者在該醫療機構的診療信息,通常隨訪時間較短,無法評價慢性疾病的預后以及長期用藥的安全性,故僅能探索藥品的短期不良反應以及急性、重癥疾病就診期間的預后問題,如對重癥監護患者建立預后模型預測患者預后情況[18]。
3.2 基于醫保理賠數據庫的回顧性數據庫研究
醫保理賠數據庫包含了醫保覆蓋范圍內患者詳細的醫療費用信息,主要用于了解疾病經濟負擔,分析醫療費用影響因素[19, 20]及進行衛生經濟學評價,為醫保相關政策制定提供證據支持。同時,醫保數據庫涵蓋患者醫保期間所有的用藥信息,包含疾病診斷信息,還常用于探索用藥安全性[21],特別是慢性疾病長期用藥的安全性問題,如吡格列酮是否增加膀胱癌發生的風險[22]。但因缺乏檢驗信息,基于醫保數據庫的回顧性研究僅適用于結局指標為疾病診斷的藥品安全性問題。
3.3 基于區域醫療健康數據庫的回顧性數據庫研究
區域醫療健康信息平臺可共享區域內醫療信息,該平臺不僅涵蓋患者癥狀、體征、用藥、檢驗、診斷等患者詳細的診療信息,而且可追蹤患者長期的疾病進程及轉歸結果。因此,基于區域醫療健康數據庫的回顧性研究特別適用于慢病管理,評估患者長期預后以及探索長期治療的患者結局等問題。以英國 CPRD(The Clinical Practice Research Datalink)為例,該數據庫覆蓋了 674 家醫療機構超過 1 千萬人口,涵蓋了患者人口學、免疫接種、癥狀、體征、處方、診斷等信息,平均隨訪時間 5.1 年。目前基于 CPRD 數據庫開展了大量研究,探索疾病負擔、防治結局[23]及預后[14]等臨床問題,截止 2015 年已發表了超過 1 000 篇研究報告[24]。我國醫療電子化起步較晚,信息化程度低,但目前發展迅速,區域醫療健康信息平臺不斷涌現。2012 年對我國 EMR 系統的橫斷面調查發現 848 家醫院中 EMR 功能應用水平分級評價為 4 級以上(全院信息共享,中級醫療決策支持)的僅占 3.3%,而 7 級(區域醫療信息共享)的比例為 0% [25]。目前我國已逐步建成如福建廈門區域醫療數據庫[26]、寧波鄞州醫療數據庫[27]等區域醫療健康信息平臺,為解決我國慢性疾病治療、預后等相關問題提供了契機。
綜上所述,不同數據庫涵蓋信息不同,在解決臨床問題上存在各自的優勢與局限。實現不同類型數據庫間信息的共享,進行信息互補,更有利于研究的開展。如醫保系統涵蓋了較全面的處方藥物及費用的信息,而 EMR 系統包含了檢驗信息以及較準確的診斷信息。將 EMR 系統與醫保理賠系統鏈接,可獲得更全面、準確的信息[28]。
4 回顧性數據庫研究的策劃、設計與研究數據庫構建
回顧性數據庫研究的流程包括:研究的策劃與設計、研究數據庫的構建和數據分析及報告。在研究策劃與設計階段,需明確研究問題,選擇及獲取數據庫的使用權并撰寫研究方案;研究數據庫構建階段包括數據提取及清理;最后基于構建的研究數據庫進行數據分析及結果報告。圖 1 總結了使用回顧性數據庫開展研究的基本過程。

4.1 回顧性數據庫研究的策劃、設計
4.1.1 回顧性數據庫研究的策劃
使用已有數據開展研究前,亦需形成明確的研究問題。但與傳統研究不同,回顧性數據庫的數據已存在,且并非基于研究目的而收集,故數據本身很大程度上決定了使用這些數據可解決什么臨床問題。如前所述,不同類型的數據庫涵蓋信息不同,可解決的臨床問題也存在很大差異[8];即使相同的數據類型,包含的信息內容也不全相同,其信息化程度、診斷編碼、數據缺失情況亦不相同[29]。因此,設計基于回顧性數據庫研究不僅涉及流行病學設計,更重要的是明確針對具體的臨床問題應該選擇什么類型的數據庫、數據庫中涵蓋數據的質量如何以及是否可以獲得數據庫的使用權。在回顧性數據庫研究策劃階段需要考慮的問題如下:
(1) 研究團隊的組成及分工:使用回顧性數據庫開展研究常涉及海量數據的挖掘、清理和分析,這一過程需要基于識別編碼、清理規則,并結合信息技術和統計方法來實現,故往往需要多學科合作。因此在開展回顧性數據庫研究前,需組建研究團隊,其成員通常包括方法學家(流行病學、統計專業人員等)、臨床專家(各相關專業臨床專家)、信息專家(信息、計算機專業人員)。其中,識別編碼、清理規則的制定需要臨床專家參與并提供意見,信息專家則負責基于代碼識別提取數據,而方法學家主要承擔研究設計、數據清理、分析等工作。
(2) 選擇合適的數據庫:在策劃階段,研究者需考慮選擇何種類型的數據庫,即選擇醫保數據庫或 EMR 數據庫、單一機構數據庫或區域醫療數據庫及是否需鏈接其他類型數據庫。選擇何種類型的數據庫需要研究者辨別不同類型數據庫的特點,包括數據庫的結構及所涵蓋變量的范圍、人群的代表性及隨訪時長。如分析醫療費用和進行藥物經濟學評價通常選擇醫保數據庫;分析某靜脈藥物導致的短期不良反應可選擇 EMR 數據庫;若探索慢性疾病的長期預后,因單一機構 EMR 數據庫隨訪時間短無法獲得患者遠期結局,此時則需選擇區域醫療數據庫。
(3)評估數據庫中所涵蓋的數據量及質量:盡管回顧性數據庫研究通常涵蓋大量人群,但對于罕見疾病及特殊暴露,研究者仍需要考慮數據庫中涵蓋的樣本量大小及預計可能的結局事件數。特別是對于需要復雜統計模型解決的問題,如預測模型,樣本量過小或結局事件數過少均會影響統計模型的應用。同時,數據庫中數據質量也是影響研究質量的主要因素之一,特別是一些重要研究因素數據的準確性及完整性。如以某種疾病診斷作為結局時,診斷的準確性是常常需要考慮的問題[30],若以實驗室檢驗指標作為結局,則通常需要考慮數據缺失比例。數據準確性較差則可帶來較嚴重的錯分偏倚,若數據缺失比例過高,無論采用何種填補方式均存在問題。
(4) 判斷是否可以獲得數據庫的使用權:毋庸置疑的是相比單一、無鏈接醫療數據庫,區域化、鏈接數據庫在解決臨床研究問題上有更大優勢。盡管研究者、政府機構也日益強調信息共享,但因各醫療機構間信息儲存系統不同,以及出于對患者隱私及醫療機構信息的保護,目前國內多數數據庫并未對研究者自由開放。在選擇回顧性數據庫開展研究前還需要考慮數據庫的可獲取權以及可獲取的范圍。
4.1.2 回顧性數據庫研究的設計
選擇數據庫后需基于研究問題確定研究方案。回顧性數據庫研究方案的撰寫與傳統研究有所不同,特別是在研究設計方面,如何從海量數據中識別并提取出研究所需變量是設計核心。
(1)確定研究問題及研究設計類型:基于數據庫的研究方案同其他研究方案框架類似,一般包括預設研究問題,研究設計及統計分析計劃[7]。對于研究問題,需闡明立題依據,明確預設研究問題,并說明是探索性研究或驗證性研究。研究設計的選擇需基于研究問題,常用的基于數據庫的觀察性研究設計包括隊列研究、病例-對照研究、橫斷面研究。除此以外,目前一些新的研究設計如病例交叉設計、續斷性時間序列等也應用于數據庫研究中。不同的設計類型可解決不同的研究問題,如橫斷面研究常用來了解疾病負擔及尚未被滿足的醫療需求;隊列研究常用來評估防治結局、探索疾病預后等問題;而病例-對照研究更適用于結局為罕見事件的研究問題[7];對于探索短暫暴露與急性事件發生的關系,如劇烈運動與心梗的發生,則可選擇病例交叉研究[31]。
(2)明確數據要素:對于數據庫研究而言,明確重要數據要素的定義非常關鍵,重要數據要素包括研究人群、暴露、結局及重要的影響因素變量。建議方案中詳細列出用于識別研究對象、暴露、結局等的編碼或算法。
在數據庫研究中共涉及 3 個不同層次的人群:① 源人群:數據庫人群的來源;② 數據庫人群:來源于源人群,且包含在數據庫中具有數據記錄的人群;③ 研究人群:使用代碼和算法從數據庫中識別到的人群[10]。如何從海量數據中識別出研究人群,定義相關識別代碼及算法是關鍵;如果研究人群不同,用于識別研究人群所需的算法也不同。如在探索某種疾病治療相關問題時,可采用 ICD 編碼對患病人群進行識別;在研究某種藥物安全性問題時,則可采用藥品編碼對使用了該藥物的人群進行識別。值得注意的是,通過編碼或算法識別出的人群并非最終研究人群,為了保證研究人群的同質性,通常還需進一步限定。在效果比較的研究中,常用的限定內容包括:限制為新用藥人群、患者無禁忌癥以及患者依從性好[32]。
同研究人群一樣,對暴露及結局指標的定義也需特定的識別編碼及算法。如暴露因素為藥物,通常可采用醫囑信息中特定的藥物代碼進行識別。對于結局指標,如為疾病診斷,可采用診斷 ICD 編碼進行識別;如為檢驗指標,可采用醫院特定的檢驗編碼進行識別。除暴露及結局指標外,還需考慮潛在的混雜因素以及效應修正因子,并提供其分類編碼和算法。
需注意的是,無論采用診斷編碼、藥品編碼或其他識別代碼及算法,在識別研究人群、暴露因素、結局指標等方面均可能存在錯分偏倚。而不同的數據類型所包含信息不同,錯分的情況可能也不同,如藥物暴露,EMR 中缺乏患者既往用藥史、依從性信息,因此在判斷是否存在暴露及暴露水平上可能存在錯分。不同機構的 EMR 系統不同,醫療水平不同,對疾病的診斷水平及診斷編碼的完整性及準確性上也有差異。即使相同機構,不同疾病 ICD 編碼的準確性也存在較大差異,如有研究顯示采用 ICD-9 診斷編碼識別糖尿病的敏感性達 62.6%,而識別急性心肌梗塞的敏感性僅為 25.4%[30]。因此,這些識別方法帶來的錯分偏倚可能嚴重影響研究的質量,為了解錯分偏倚的情況,通常需要對這些識別方法進行驗證。為提高識別方法的準確性,可考慮采用聯合識別方式,如識別腎功能衰竭患者,除可采用 ICD 編碼,還可結合實驗室檢查。當對同一變量存在多種定義方法而無法確定最佳定義時,可采用敏感性分析。
(3)統計分析計劃:不同于傳統 RCT,回顧性數據庫研究由于沒有采用隨機設計方案,組間的基線常常存在差異,可能導致存在選擇性偏倚,因此在統計分析計劃中需考慮采用何種統計方法來降低偏倚。但并非所有的數據庫研究均需復雜的統計方法,不同的研究問題需要不同的統計方法進行分析。
4.2 研究數據庫的構建
回顧性數據庫是基于管理目的收集的數據通常無法直接進行分析,要使用回顧性數據庫開展研究需基于研究目的建立研究數據庫。EMR 是醫療機構內部支持電子病歷信息的采集、存儲、訪問和在線幫助,并圍繞提高醫療質量、保障醫療安全、提高醫療效率而提供信息處理和智能化服務功能的計算機信息系統[25],是目前數據庫研究最常使用的數據來源。我們以 EMR 為例,簡述基于 EMR 的回顧性數據庫的建立過程,如圖 2 所示。

4.2.1 數據提取
在確定研究方案后尚不能提取數據,數據提取前需完善數據提取準備,包括倫理申請及制定數據提取方案。
(1)倫理申請:RWS 屬于臨床研究的范疇,因此回顧性數據庫研究仍需將研究方案提交倫理審查委員會(institutional review board,IRB)接受審查和批準。目前,我國尚無針對觀察性研究的統一的倫理審查工作指導原則,各地倫理委員會對回顧性數據庫倫理審查標準不一。通常經倫理審查委員會審查并批準后才能進行數據提取,部分機構需通過倫理審查后才能準予立項。對單一醫療機構的數據,需經該機構倫理委員審核;對區域醫療機構數據,則需區域或中心的倫理委員會審核。
使用已有數據進行回顧性研究通常可申請免除知情同意,但 IRB 進行倫理審查時應更關注保護患者隱私。因此建議去除患者識別信息的數據,采取有效措施保護數據安全,保障患者個人信息不被泄露。
(2)數據提取方案:數據提取通常由信息專家進行,研究者則需根據研究方案制定數據提取方案。數據提取方案一般包括需提取的所有目標患者詳細的識別編碼及算法,以及需提取的研究變量所在儲存模塊及提取方式,并確定所需字段信息格式。同一研究變量可能涉及多種儲存模塊,而在不同儲存模塊其數據的儲存形式、數據完整性及準確性不同。如出院證明、出院小結及病案首頁中均有出院診斷,但僅在病案首頁中含有 ICD 診斷編碼,而ICD 診斷編碼的準確性更高。因此制定數據提取方案除需熟悉醫院 EMR 結構,還需結合臨床實際,往往需要方法學者、臨床專家及信息專家共同參與,討論協商后決定最終數據提取方案。
(3)數據提取及核對:信息專家按照數據提取方案提取相關變量,提取過程一般分為兩步,第一步根據識別編碼從數據庫中識別出所有目標患者;第二步根據事先制定的規則,對其他所需數據信息進行提取。數據提取過程對系統軟硬件技術環境要求較高,需要信息專家基于一定平臺采用復雜的信息技術實現。數據提取后還需對數據進行核對。可采用系統抽樣方式隨機抽取一定比例的患者數據,人工核對相應信息是否準確,如對數據有疑問,可返回信息中心。
4.2.2 數據清理及建立研究數據庫
直接提取的數據并不能馬上進行分析,還需根據相應的納入排除標準、清理規則進行數據清理。數據的清理是數據庫研究的核心部分,數據清理方法的選擇可直接影響研究結果、研究的可重復性和研究結果的再現。與國外系統不同,我國電子病歷信息化程度不高,存在大量非結構化及半結構化信息[25],因此我國 EMR 數據庫研究的清理工作更耗時耗力,也更為關鍵。
(1)評估數據質量:數據的質量往往決定研究的質量,在提取數據后需進一步評估數據質量。對重要研究變量進行描述性分析以了解變量的極端值和錯誤值、缺失值比例及數據的趨勢等。定義變量的極端值及錯誤值往往需要臨床專家結合臨床實際給出參考標準。通過對變量的描述性分析不僅可對數據質量進行評估,還可進一步發現數據提取過程中可能存在的問題,以便必要時返回信息中心進一步核對。
(2)數據清理:根據研究制定的納入排除標準,排除不符合納入標準的患者,進一步確定研究人群。對不同的變量建立相應的變量字典及清理規則,包括對醫囑信息、檢驗信息、診斷信息的清理規則及研究所需藥物相關字典等。研究的問題不同,所需清理的變量及規則不同,如研究糖尿病用藥模式,需根據醫院用藥情況及特定的藥物編碼制定糖尿病藥物字典;而研究某種靜脈用藥,則需制定醫囑用法清理規則,排除非靜脈用藥途徑的記錄。
患者癥狀、體征、住院診治經過等醫療信息往往也是研究的重要信息,然而這些信息存于入院記錄、出院小結等非結構化的文本信息中。如需提取此類信息,可考慮先結構化文本信息。結構化文本信息首先需確定結構化范圍,如提取患者入院時癥狀、體征信息則需對入院記錄進行結構化;提取患者住院期間診治經過等信息可考慮對出院小結進行結構化。確定結構化范圍后,可根據研究所需變量進一步明確擬提取的字段及定義相應的邏輯詞,并最終建立結構化規則。
通過上述流程才能初步建立基于醫院 EMR 的回顧性研究數據庫,通過已建立的回顧性研究數據庫,可根據不同的研究目的及具體的流行病學設計類型進行統計分析。為控制混雜,統計分析常需采用多因素分析、傾向性評分、工具變量等較復雜的統計學方法。
5 小結
基于觀察性設計的 RWS 在多個臨床領域和衛生管理領域有極大的應用價值。相比前瞻性研究,回顧性數據庫研究對資源要求較低,研究時間較短,在臨床研究中應用更為廣泛。但數據不等于證據,高質量研究證據的產出離不開科學的研究設計、嚴謹的研究實施、準確的數據分析和多學科的緊密合作。由于篇幅的關系,本文僅介紹了回顧性數據庫研究的概念、策劃、應用和數據庫構建的內容,相關研究設計和分析的內容將在后文中撰述。
數據是開展真實世界研究(RWS),形成真實世界證據(RWE)的基礎[1]。按數據獲取方式,RWE 可分為前瞻性收集的數據(如實效性臨床試驗和患者登記研究[2])和回顧性數據庫的數據。近年來,回顧性數據庫研究越來越受醫療衛生決策者、臨床醫生、研究者的重視,相關研究報告也越來越多[3-5]。雖然此類研究數量急劇增長,但回顧性數據庫的利用仍存在很多問題:① 過度強調回顧性數據資源的價值和重要性,對回顧性數據處理的復雜性認識不夠;② 強調回顧性數據的海量信息,卻忽略了數據質量的重要性;③ 對回顧性數據庫認識不全面,低估了這些數據可能產生的重要研究證據。針對以上問題,本文將著重介紹回顧性數據庫研究的特征、作用和如何運用數據庫進行 RWS,幫助讀者正確合理地生產和使用基于回顧性數據的 RWE。
1 回顧性數據庫研究的概念與基本特征
2003 年國際藥物經濟學與結果研究協會(ISPOR)發布的《回顧性數據庫研究質量評價條目》提出回顧性數據庫是指在研究開始前已經存在的、基于醫療和決策管理目的所形成的數據庫,其并非針對特定研究問題收集數據而形成[6]。2009 年 ISPOR 進一步發布系列指南[7-9],再次提到了“回顧性數據庫”。不同組織對回顧性數據庫有不同的稱呼,但其本質相同,均為“并非基于研究目的收集”、“研究開始前已存在”的數據庫。如常規收集的衛生數據(routinely collected health data)[10]、二次數據庫(secondary databases)[11]。
回顧性數據庫實質上是累積的常規醫療和健康信息。要使用這些信息形成 RWE,解決臨床醫療和決策問題,還需要進行系統和具體的研究。基于回顧性數據庫的數據,根據研究目的,采用流行病學、醫學統計學等方法技術開展的研究稱為回顧性數據庫研究。
回顧性數據庫研究本質屬于臨床研究范疇。但在研究思維和形式上與傳統臨床研究存在較大差異,主要表現在以下幾個方面:第一,回顧性數據庫本身并非一個研究數據庫;這些數據庫更多是用于醫療和決策的管理(如醫院電子病歷數據或醫保數據)。第二,在使用這些數據開展研究時,研究假設的產生通常是在已有數據的基礎上。因此,這些數據是否可解決臨床問題,可以解決什么樣的臨床問題,是開展回顧性數據庫研究前需考慮的重要問題。第三,這些數據庫通常儲存了海量、多樣化的信息,因此具備了醫療大數據的重要特征,很多時候也被稱為醫療大數據(health big data)。海量多樣的數據形式決定了回顧性數據庫研究的核心是如何挖掘及清理海量數據。這一過程通常需要方法學家、臨床專家和信息專家的參與,并借助多種信息技術和統計軟件來實現,更強調多學科合作。
2 回顧性數據庫數據的主要分類與特征
回顧性數據庫是整個研究的基礎,其數據形式多種多樣,包含在醫療環境中建立的電子病歷數據(electronic medical records,EMR)或在更廣泛的醫療健康環境中建立的電子健康檔案數據(electronic health records,EHR)、醫保環境下形成的醫保理賠數據(claims data)、民政部門和公共衛生部門的出生/死亡登記數據、公共健康監測數據(如藥監部門的藥物不良反應監測數據)及整合了多種數據形成的區域醫療健康數據等[7]。但由于數據庫建立的目的不同,其所涵蓋的數據內容及范圍也不同。如 EMR 的建立是為了方便臨床醫生診療工作及醫院管理,因此包括了大量患者就診期間的癥狀、體征、檢查及診治經過等相關信息,但未涵蓋患者院外的診療信息。醫保數據的建立是為了醫保部門報銷理賠,因此涵蓋了較詳細的醫療費用及用藥信息,但其診斷的準確性可能存在缺陷,且未涵蓋檢查信息。醫保數據、電子病歷記錄及區域化醫療數據是目前回顧性數據庫研究中常使用的數據庫類型,表 1 以這三種數據庫為例說明其各自特征。

3 回顧性數據庫研究可回答的主要科學問題
回顧性數據庫研究可評估患者健康狀況、疾病及診療過程,評估防治結局、評估患者預后等,可為相關政策制定提供證據支持。基于較高質量的數據,選擇最佳的研究設計、采用規范的清理規則及科學分析,回顧性數據庫研究也可得到高質量證據以支持臨床實踐及醫療決策[12-14]。但不同數據庫所涵蓋的數據內容不同,可以解決的科學問題亦有差別。
3.1 基于 EMR 的回顧性數據庫研究
EMR 系統中涵蓋了大量患者在真實診療環境中的診療信息,既有診斷、檢驗信息,還包括詳細的癥狀、體征、住院期間疾病轉歸等信息。因此,基于 EMR 的回顧性數據庫研究可評估疾病發生轉歸及診療全過程,包括:了解疾病負擔;描述疾病流行病學特征與分布[15],發現疾病流行規律和病因;了解特定疾病的治療模式[16],評價真實診療中治療的合理性;了解現有診療措施的治療依從性及相關因素;探索在目前診療中未被較好滿足的患者需求[17]。
在評估防治結局方面,鑒于 EMR 數據來源于日常診療環境,比傳統臨床試驗涵蓋了更廣泛的人群、涉及更復雜的用藥情況,因此可反映干預措施在真實診療環境中的實際療效與安全性,并可比較不同干預措施的治療效果及在不同人群中的療效差異。且 EMR 涵蓋了大量用藥人群,更易發現出現罕見不良反應。相比前瞻性研究,回顧性研究可在短時間內完成資料收集與分析,省時省力。因此,基于 EMR 的回顧性研究常用于探索藥物安全性,特別是用于發現罕見不良反應。另外,EMR 中包含了患者疾病轉歸結局以及重要的影響因素(如年齡、性別、吸煙飲酒史、檢驗指標、合并疾病等),因此可評估患者預后,分析預后因素相關性和建立風險預測模型。
值得注意的是,單一醫療機構的 EMR 系統僅涵蓋患者在該醫療機構的診療信息,通常隨訪時間較短,無法評價慢性疾病的預后以及長期用藥的安全性,故僅能探索藥品的短期不良反應以及急性、重癥疾病就診期間的預后問題,如對重癥監護患者建立預后模型預測患者預后情況[18]。
3.2 基于醫保理賠數據庫的回顧性數據庫研究
醫保理賠數據庫包含了醫保覆蓋范圍內患者詳細的醫療費用信息,主要用于了解疾病經濟負擔,分析醫療費用影響因素[19, 20]及進行衛生經濟學評價,為醫保相關政策制定提供證據支持。同時,醫保數據庫涵蓋患者醫保期間所有的用藥信息,包含疾病診斷信息,還常用于探索用藥安全性[21],特別是慢性疾病長期用藥的安全性問題,如吡格列酮是否增加膀胱癌發生的風險[22]。但因缺乏檢驗信息,基于醫保數據庫的回顧性研究僅適用于結局指標為疾病診斷的藥品安全性問題。
3.3 基于區域醫療健康數據庫的回顧性數據庫研究
區域醫療健康信息平臺可共享區域內醫療信息,該平臺不僅涵蓋患者癥狀、體征、用藥、檢驗、診斷等患者詳細的診療信息,而且可追蹤患者長期的疾病進程及轉歸結果。因此,基于區域醫療健康數據庫的回顧性研究特別適用于慢病管理,評估患者長期預后以及探索長期治療的患者結局等問題。以英國 CPRD(The Clinical Practice Research Datalink)為例,該數據庫覆蓋了 674 家醫療機構超過 1 千萬人口,涵蓋了患者人口學、免疫接種、癥狀、體征、處方、診斷等信息,平均隨訪時間 5.1 年。目前基于 CPRD 數據庫開展了大量研究,探索疾病負擔、防治結局[23]及預后[14]等臨床問題,截止 2015 年已發表了超過 1 000 篇研究報告[24]。我國醫療電子化起步較晚,信息化程度低,但目前發展迅速,區域醫療健康信息平臺不斷涌現。2012 年對我國 EMR 系統的橫斷面調查發現 848 家醫院中 EMR 功能應用水平分級評價為 4 級以上(全院信息共享,中級醫療決策支持)的僅占 3.3%,而 7 級(區域醫療信息共享)的比例為 0% [25]。目前我國已逐步建成如福建廈門區域醫療數據庫[26]、寧波鄞州醫療數據庫[27]等區域醫療健康信息平臺,為解決我國慢性疾病治療、預后等相關問題提供了契機。
綜上所述,不同數據庫涵蓋信息不同,在解決臨床問題上存在各自的優勢與局限。實現不同類型數據庫間信息的共享,進行信息互補,更有利于研究的開展。如醫保系統涵蓋了較全面的處方藥物及費用的信息,而 EMR 系統包含了檢驗信息以及較準確的診斷信息。將 EMR 系統與醫保理賠系統鏈接,可獲得更全面、準確的信息[28]。
4 回顧性數據庫研究的策劃、設計與研究數據庫構建
回顧性數據庫研究的流程包括:研究的策劃與設計、研究數據庫的構建和數據分析及報告。在研究策劃與設計階段,需明確研究問題,選擇及獲取數據庫的使用權并撰寫研究方案;研究數據庫構建階段包括數據提取及清理;最后基于構建的研究數據庫進行數據分析及結果報告。圖 1 總結了使用回顧性數據庫開展研究的基本過程。

4.1 回顧性數據庫研究的策劃、設計
4.1.1 回顧性數據庫研究的策劃
使用已有數據開展研究前,亦需形成明確的研究問題。但與傳統研究不同,回顧性數據庫的數據已存在,且并非基于研究目的而收集,故數據本身很大程度上決定了使用這些數據可解決什么臨床問題。如前所述,不同類型的數據庫涵蓋信息不同,可解決的臨床問題也存在很大差異[8];即使相同的數據類型,包含的信息內容也不全相同,其信息化程度、診斷編碼、數據缺失情況亦不相同[29]。因此,設計基于回顧性數據庫研究不僅涉及流行病學設計,更重要的是明確針對具體的臨床問題應該選擇什么類型的數據庫、數據庫中涵蓋數據的質量如何以及是否可以獲得數據庫的使用權。在回顧性數據庫研究策劃階段需要考慮的問題如下:
(1) 研究團隊的組成及分工:使用回顧性數據庫開展研究常涉及海量數據的挖掘、清理和分析,這一過程需要基于識別編碼、清理規則,并結合信息技術和統計方法來實現,故往往需要多學科合作。因此在開展回顧性數據庫研究前,需組建研究團隊,其成員通常包括方法學家(流行病學、統計專業人員等)、臨床專家(各相關專業臨床專家)、信息專家(信息、計算機專業人員)。其中,識別編碼、清理規則的制定需要臨床專家參與并提供意見,信息專家則負責基于代碼識別提取數據,而方法學家主要承擔研究設計、數據清理、分析等工作。
(2) 選擇合適的數據庫:在策劃階段,研究者需考慮選擇何種類型的數據庫,即選擇醫保數據庫或 EMR 數據庫、單一機構數據庫或區域醫療數據庫及是否需鏈接其他類型數據庫。選擇何種類型的數據庫需要研究者辨別不同類型數據庫的特點,包括數據庫的結構及所涵蓋變量的范圍、人群的代表性及隨訪時長。如分析醫療費用和進行藥物經濟學評價通常選擇醫保數據庫;分析某靜脈藥物導致的短期不良反應可選擇 EMR 數據庫;若探索慢性疾病的長期預后,因單一機構 EMR 數據庫隨訪時間短無法獲得患者遠期結局,此時則需選擇區域醫療數據庫。
(3)評估數據庫中所涵蓋的數據量及質量:盡管回顧性數據庫研究通常涵蓋大量人群,但對于罕見疾病及特殊暴露,研究者仍需要考慮數據庫中涵蓋的樣本量大小及預計可能的結局事件數。特別是對于需要復雜統計模型解決的問題,如預測模型,樣本量過小或結局事件數過少均會影響統計模型的應用。同時,數據庫中數據質量也是影響研究質量的主要因素之一,特別是一些重要研究因素數據的準確性及完整性。如以某種疾病診斷作為結局時,診斷的準確性是常常需要考慮的問題[30],若以實驗室檢驗指標作為結局,則通常需要考慮數據缺失比例。數據準確性較差則可帶來較嚴重的錯分偏倚,若數據缺失比例過高,無論采用何種填補方式均存在問題。
(4) 判斷是否可以獲得數據庫的使用權:毋庸置疑的是相比單一、無鏈接醫療數據庫,區域化、鏈接數據庫在解決臨床研究問題上有更大優勢。盡管研究者、政府機構也日益強調信息共享,但因各醫療機構間信息儲存系統不同,以及出于對患者隱私及醫療機構信息的保護,目前國內多數數據庫并未對研究者自由開放。在選擇回顧性數據庫開展研究前還需要考慮數據庫的可獲取權以及可獲取的范圍。
4.1.2 回顧性數據庫研究的設計
選擇數據庫后需基于研究問題確定研究方案。回顧性數據庫研究方案的撰寫與傳統研究有所不同,特別是在研究設計方面,如何從海量數據中識別并提取出研究所需變量是設計核心。
(1)確定研究問題及研究設計類型:基于數據庫的研究方案同其他研究方案框架類似,一般包括預設研究問題,研究設計及統計分析計劃[7]。對于研究問題,需闡明立題依據,明確預設研究問題,并說明是探索性研究或驗證性研究。研究設計的選擇需基于研究問題,常用的基于數據庫的觀察性研究設計包括隊列研究、病例-對照研究、橫斷面研究。除此以外,目前一些新的研究設計如病例交叉設計、續斷性時間序列等也應用于數據庫研究中。不同的設計類型可解決不同的研究問題,如橫斷面研究常用來了解疾病負擔及尚未被滿足的醫療需求;隊列研究常用來評估防治結局、探索疾病預后等問題;而病例-對照研究更適用于結局為罕見事件的研究問題[7];對于探索短暫暴露與急性事件發生的關系,如劇烈運動與心梗的發生,則可選擇病例交叉研究[31]。
(2)明確數據要素:對于數據庫研究而言,明確重要數據要素的定義非常關鍵,重要數據要素包括研究人群、暴露、結局及重要的影響因素變量。建議方案中詳細列出用于識別研究對象、暴露、結局等的編碼或算法。
在數據庫研究中共涉及 3 個不同層次的人群:① 源人群:數據庫人群的來源;② 數據庫人群:來源于源人群,且包含在數據庫中具有數據記錄的人群;③ 研究人群:使用代碼和算法從數據庫中識別到的人群[10]。如何從海量數據中識別出研究人群,定義相關識別代碼及算法是關鍵;如果研究人群不同,用于識別研究人群所需的算法也不同。如在探索某種疾病治療相關問題時,可采用 ICD 編碼對患病人群進行識別;在研究某種藥物安全性問題時,則可采用藥品編碼對使用了該藥物的人群進行識別。值得注意的是,通過編碼或算法識別出的人群并非最終研究人群,為了保證研究人群的同質性,通常還需進一步限定。在效果比較的研究中,常用的限定內容包括:限制為新用藥人群、患者無禁忌癥以及患者依從性好[32]。
同研究人群一樣,對暴露及結局指標的定義也需特定的識別編碼及算法。如暴露因素為藥物,通常可采用醫囑信息中特定的藥物代碼進行識別。對于結局指標,如為疾病診斷,可采用診斷 ICD 編碼進行識別;如為檢驗指標,可采用醫院特定的檢驗編碼進行識別。除暴露及結局指標外,還需考慮潛在的混雜因素以及效應修正因子,并提供其分類編碼和算法。
需注意的是,無論采用診斷編碼、藥品編碼或其他識別代碼及算法,在識別研究人群、暴露因素、結局指標等方面均可能存在錯分偏倚。而不同的數據類型所包含信息不同,錯分的情況可能也不同,如藥物暴露,EMR 中缺乏患者既往用藥史、依從性信息,因此在判斷是否存在暴露及暴露水平上可能存在錯分。不同機構的 EMR 系統不同,醫療水平不同,對疾病的診斷水平及診斷編碼的完整性及準確性上也有差異。即使相同機構,不同疾病 ICD 編碼的準確性也存在較大差異,如有研究顯示采用 ICD-9 診斷編碼識別糖尿病的敏感性達 62.6%,而識別急性心肌梗塞的敏感性僅為 25.4%[30]。因此,這些識別方法帶來的錯分偏倚可能嚴重影響研究的質量,為了解錯分偏倚的情況,通常需要對這些識別方法進行驗證。為提高識別方法的準確性,可考慮采用聯合識別方式,如識別腎功能衰竭患者,除可采用 ICD 編碼,還可結合實驗室檢查。當對同一變量存在多種定義方法而無法確定最佳定義時,可采用敏感性分析。
(3)統計分析計劃:不同于傳統 RCT,回顧性數據庫研究由于沒有采用隨機設計方案,組間的基線常常存在差異,可能導致存在選擇性偏倚,因此在統計分析計劃中需考慮采用何種統計方法來降低偏倚。但并非所有的數據庫研究均需復雜的統計方法,不同的研究問題需要不同的統計方法進行分析。
4.2 研究數據庫的構建
回顧性數據庫是基于管理目的收集的數據通常無法直接進行分析,要使用回顧性數據庫開展研究需基于研究目的建立研究數據庫。EMR 是醫療機構內部支持電子病歷信息的采集、存儲、訪問和在線幫助,并圍繞提高醫療質量、保障醫療安全、提高醫療效率而提供信息處理和智能化服務功能的計算機信息系統[25],是目前數據庫研究最常使用的數據來源。我們以 EMR 為例,簡述基于 EMR 的回顧性數據庫的建立過程,如圖 2 所示。

4.2.1 數據提取
在確定研究方案后尚不能提取數據,數據提取前需完善數據提取準備,包括倫理申請及制定數據提取方案。
(1)倫理申請:RWS 屬于臨床研究的范疇,因此回顧性數據庫研究仍需將研究方案提交倫理審查委員會(institutional review board,IRB)接受審查和批準。目前,我國尚無針對觀察性研究的統一的倫理審查工作指導原則,各地倫理委員會對回顧性數據庫倫理審查標準不一。通常經倫理審查委員會審查并批準后才能進行數據提取,部分機構需通過倫理審查后才能準予立項。對單一醫療機構的數據,需經該機構倫理委員審核;對區域醫療機構數據,則需區域或中心的倫理委員會審核。
使用已有數據進行回顧性研究通常可申請免除知情同意,但 IRB 進行倫理審查時應更關注保護患者隱私。因此建議去除患者識別信息的數據,采取有效措施保護數據安全,保障患者個人信息不被泄露。
(2)數據提取方案:數據提取通常由信息專家進行,研究者則需根據研究方案制定數據提取方案。數據提取方案一般包括需提取的所有目標患者詳細的識別編碼及算法,以及需提取的研究變量所在儲存模塊及提取方式,并確定所需字段信息格式。同一研究變量可能涉及多種儲存模塊,而在不同儲存模塊其數據的儲存形式、數據完整性及準確性不同。如出院證明、出院小結及病案首頁中均有出院診斷,但僅在病案首頁中含有 ICD 診斷編碼,而ICD 診斷編碼的準確性更高。因此制定數據提取方案除需熟悉醫院 EMR 結構,還需結合臨床實際,往往需要方法學者、臨床專家及信息專家共同參與,討論協商后決定最終數據提取方案。
(3)數據提取及核對:信息專家按照數據提取方案提取相關變量,提取過程一般分為兩步,第一步根據識別編碼從數據庫中識別出所有目標患者;第二步根據事先制定的規則,對其他所需數據信息進行提取。數據提取過程對系統軟硬件技術環境要求較高,需要信息專家基于一定平臺采用復雜的信息技術實現。數據提取后還需對數據進行核對。可采用系統抽樣方式隨機抽取一定比例的患者數據,人工核對相應信息是否準確,如對數據有疑問,可返回信息中心。
4.2.2 數據清理及建立研究數據庫
直接提取的數據并不能馬上進行分析,還需根據相應的納入排除標準、清理規則進行數據清理。數據的清理是數據庫研究的核心部分,數據清理方法的選擇可直接影響研究結果、研究的可重復性和研究結果的再現。與國外系統不同,我國電子病歷信息化程度不高,存在大量非結構化及半結構化信息[25],因此我國 EMR 數據庫研究的清理工作更耗時耗力,也更為關鍵。
(1)評估數據質量:數據的質量往往決定研究的質量,在提取數據后需進一步評估數據質量。對重要研究變量進行描述性分析以了解變量的極端值和錯誤值、缺失值比例及數據的趨勢等。定義變量的極端值及錯誤值往往需要臨床專家結合臨床實際給出參考標準。通過對變量的描述性分析不僅可對數據質量進行評估,還可進一步發現數據提取過程中可能存在的問題,以便必要時返回信息中心進一步核對。
(2)數據清理:根據研究制定的納入排除標準,排除不符合納入標準的患者,進一步確定研究人群。對不同的變量建立相應的變量字典及清理規則,包括對醫囑信息、檢驗信息、診斷信息的清理規則及研究所需藥物相關字典等。研究的問題不同,所需清理的變量及規則不同,如研究糖尿病用藥模式,需根據醫院用藥情況及特定的藥物編碼制定糖尿病藥物字典;而研究某種靜脈用藥,則需制定醫囑用法清理規則,排除非靜脈用藥途徑的記錄。
患者癥狀、體征、住院診治經過等醫療信息往往也是研究的重要信息,然而這些信息存于入院記錄、出院小結等非結構化的文本信息中。如需提取此類信息,可考慮先結構化文本信息。結構化文本信息首先需確定結構化范圍,如提取患者入院時癥狀、體征信息則需對入院記錄進行結構化;提取患者住院期間診治經過等信息可考慮對出院小結進行結構化。確定結構化范圍后,可根據研究所需變量進一步明確擬提取的字段及定義相應的邏輯詞,并最終建立結構化規則。
通過上述流程才能初步建立基于醫院 EMR 的回顧性研究數據庫,通過已建立的回顧性研究數據庫,可根據不同的研究目的及具體的流行病學設計類型進行統計分析。為控制混雜,統計分析常需采用多因素分析、傾向性評分、工具變量等較復雜的統計學方法。
5 小結
基于觀察性設計的 RWS 在多個臨床領域和衛生管理領域有極大的應用價值。相比前瞻性研究,回顧性數據庫研究對資源要求較低,研究時間較短,在臨床研究中應用更為廣泛。但數據不等于證據,高質量研究證據的產出離不開科學的研究設計、嚴謹的研究實施、準確的數據分析和多學科的緊密合作。由于篇幅的關系,本文僅介紹了回顧性數據庫研究的概念、策劃、應用和數據庫構建的內容,相關研究設計和分析的內容將在后文中撰述。