患者登記數據庫作為一種重要的真實世界數據來源,在藥械評價和疾病管理等領域應用廣泛。本文作為系列技術規范的第二篇,從患者登記的概念、適用范圍、患者登記數據庫的策劃、構建流程、與基于既有健康醫療數據的研究型數據庫的比較等維度提出了構建患者登記數據庫的基本要求,并同時提出了患者登記數據庫質量評價關鍵指標,以期規范和指導同類研究的開展。
引用本文: 譚婧, 彭曉霞, 舒嘯塵, 王麗, 黎國威, 張玲, 毛琛, 郭新峰, 孫鑫, 代表中國真實世界數據與研究聯盟(ChinaREAL). 患者登記數據庫構建技術規范. 中國循證醫學雜志, 2019, 19(7): 771-778. doi: 10.7507/1672-2531.201904161 復制
患者登記(patient registries)作為一種重要的真實世界數據來源,日益受到國內外臨床和衛生管理決策者的重視。通過預先的設計,在多種質量控制措施下通過主動收集數據過程建立患者登記數據庫,可在藥械評價和疾病管理中發揮重要作用,尤其是在藥械上市后監測、支持新藥上市、醫療器械監管、慢性病和罕見病管理等研究領域[1-6]。現有研究表明,患者登記數據庫質量在許多領域仍不甚滿意[7-9]。國內許多研究者對患者登記的概念、應用和數據庫質量仍有不少疑問,包括如何定義患者登記數據庫?其與基于既有健康醫療數據的研究型數據庫的區別?患者登記數據庫是否一定代表高質量數據來源?其主要應用領域是哪些?因此,中國真實世界數據與研究聯盟(ChinaREAL)工作組發布系列技術規范 2,重點闡釋患者登記數據庫構建和應用中的技術要點。
1 概念和適用范圍
目前對患者登記的權威解釋來自美國醫療保健研究與質量局(Agency for Healthcare Research and Quality,AHRQ)2007 年首次發布的《評估患者結局的登記指南》(Registries for evaluating patient outcomes:a user’s guide)及其在 2014 年的第 3 次更新版本[10]。該指南指出“登記”是指收集、儲存數據和數據記錄產生的過程。通過上述登記形式而形成的數據庫,我們稱為“患者登記數據庫”[10, 11]。
登記研究(registry study)是基于一種或多種以研究、臨床或衛生政策制定為目的,采用觀察性研究的方法收集一致性數據的組織系統,用于評估具有某種疾病、狀態或暴露人群特定結局的過程。由于研究對象一般是患者,也稱為患者登記研究[10, 11]。
對于患者登記數據庫的定義和識別,我們提出如下技術要點:① 患者登記數據庫是以觀察性研究的形式收集數據,研究者不干預常規臨床實踐過程;② 在收集和分析數據前,需要形成相對清晰的研究目的和研究計劃;③ 至少部分數據需要主動收集,而不僅僅是基于各類既有健康醫療數據庫[比如:電子病歷數據(electronic medical records,EMR)、醫保數據等]收集數據;④ 可基于不同研究目的在患者登記數據庫中開展不同流行病學設計的研究,如隊列研究、病例-對照研究、基于患者登記的隨機對照試驗等;⑤ 數據來源、定義、編碼過程的標準化和一致性是保障患者登記數據庫質量的核心。
根據登記對象的不同,患者登記大致可分為 3 類:① 特定疾病或者醫療狀態的患者登記。通常以患特定疾病或具備特定醫療狀態的診斷為此類登記的納入標準。如急性缺血性腦卒中患者登記[12];② 醫療產品登記。這是指患者在常規臨床實踐中使用了某種醫療產品,包括藥品、醫療器械、手術等。如接受藥物洗脫支架患者的登記研究[13];③ 綜合醫療服務登記。通常將接受了某種綜合醫療服務的患者作為納入對象,用于評估某種疾病管理方案、質量控制措施的效果[14]。
患者登記數據庫的適用范圍,從不同的維度劃分有所不同,總體來說可以劃分為藥械評價和疾病管理兩大類。在藥械評價領域,包括產品有效性、安全性、經濟性和依從性等不同維度,可用于特定產品上市后安全性的常規監測和評價、特定產品有效性和安全性的上市后再評價(條件上市藥品、重點監測藥品)、孤兒藥的藥品審評與評價和擴展適應癥、基于患者自報數據的藥物經濟學研究等。在疾病管理領域,包括了解疾病自然史,確立疾病在特定人群中的發生、發展和轉歸的過程;了解疾病負擔,調查人群患病率和地區、時間、空間分布;診斷和篩查研究,探索不同診斷方法的診斷價值;評估預防和治療措施的效果,評價相對療效和安全性;疾病預后研究等。
我們總結以下情景特別適宜于建立患者登記數據庫,但不局限于以下情景:① 觀察疾病自然史;② 開展疾病預后研究,尤其是風險預測、預警;③ 開展患者自報結局(patient-reported outcome research)研究;④ 評估復雜干預的效果;⑤ 罕見病防治與管理研究;⑥ 如開展傳統臨床試驗不符合倫理,如孕婦、兒童等特殊人群;⑦ 評估在真實診療環境下的療效和治療依從性,研究人群異質性;⑧ 評估亞組人群療效。
在患者登記數據庫種類的選擇和應用中,技術要點如下:① 基于特定疾病或醫療狀態的患者登記是開展疾病管理研究的優先選擇;② 僅納入目標醫療產品的登記數據庫可用于上市后藥品安全性監測及依從性評價,但因缺乏對照醫療產品評價,難以比較有效性和安全性;③ 研究對象可來自單中心或多中心,但單中心來源的患者登記因人群代表性不足而局限性明顯;④ 在特定范圍內連續納入符合納入標準的研究對象(符合知情同意原則)是減少選擇性偏倚的關鍵舉措。
2 患者登記數據庫的策劃
由于患者登記數據庫通常需要前瞻性的納入、隨訪患者并收集數據,因此,需要的人力、財力、物力往往顯著大于基于既有健康醫療數據的研究型數據庫。其整體策劃流程如圖 1 所示。

在數據庫策劃階段,有如下技術要點:① 明確研究目的;② 明確目標人群;③ 明確研究團隊構成和相應職責;④ 明確核心數據的種類、來源和數據質量;⑤ 制定可實施的研究計劃書;⑥ 倫理審批和研究注冊;⑦ 研究樣本量的初步考慮。
研究者應明確患者登記的研究目的,雖然研究目的可能是多樣化的,如研究者既想了解疾病自然史,也想評估多種干預措施的療效和安全性,但應有一定的邊界。一個患者登記研究并不能解決與研究疾病相關的所有問題,研究目的增多所需的人力、財力顯著增加,而相對聚焦和清晰的研究目的能減少研究成本、提高數據質量。同時應注意,開展患者登記的研究目的與研究問題是有明顯差異的。研究目的是多樣化的、框架性和方向性的,而研究問題則是單一的、具體的和針對性的。基于明確的研究目的建立患者登記數據庫可解決多個研究問題,這些研究問題可能是預設的,也可能是在數據庫建立后,研究者基于研究數據而產生的新的假設。
根據研究目的的不同,患者登記的目標人群有顯著差異,也與患者登記的種類有關。如研究者希望了解某種心血管支架的安全性,可將使用該支架的患者作為目標人群,則此時建立的患者登記數據庫屬于醫療產品登記。但應注意,由于僅納入使用特定支架的患者,缺乏對照,研究者難以了解使用特定支架的不良事件發生率是否高于對照,故無法進行因果推斷。
因此,可考慮將在一定納入排除標準下的冠心病患者作為目標人群,開展特定疾病或者醫療狀態的患者登記,由此建立的登記數據庫不僅包含使用了特定支架的患者,還包括了使用其它類型支架的冠心病患者。
患者登記數據庫從策劃、設計、患者招募、隨訪、數據管理和分析,至少需要臨床工作者、流行病和統計學的方法學工作者和信息工程師的參與。臨床工作者往往是患者管理的主要負責人,在患者隨訪和調查的過程中,可能還需要專業臨床研究團隊的協助;流行病和統計學工作者需要負責研究設計、數據管理和分析等內容,是保障研究設計科學性和規范性的關鍵;建立電子化的在線(internet-based)患者登記數據庫,以及從既有健康醫療數據中提取和鏈接數據,通常還需要信息工程師的參與和協助。在研究策劃階段明確上述研究團隊各個角色的職責,是保證患者登記數據庫長期、穩定運行的關鍵。
在數據庫策劃階段應明確核心數據的種類和來源并初步評估數據質量。首先,若既有健康醫療數據(如醫院 EMR)能提供核心數據,并在數據質量(如變量定義、完整性)上能滿足研究需求,研究者應權衡此時開展患者登記研究的必要性。其次,若部分數據來自既有健康醫療數據,如通過醫院 EMR 中的醫囑信息獲得藥品使用的情況,研究者還需通過主動收集的形式獲得其他數據,如將患者自報的生命質量作為研究結局。此時,研究者一方面需要通過主動收集的方式獲得數據,包括患者招募、前瞻性調查和患者隨訪等步驟,同時評估不同的調查方式,如面談、電話訪問等的可及性、準確性和實施難易程度。另一方面需要明確既有健康醫療數據的來源(如來自醫院 EMR),并按照本技術規范 1 的內容開展數據質量評估;同時明確數據獲取方式(如電子化提取、人工摘錄)、是否需要鏈接其它數據庫(如鏈接居民出生死亡登記庫)等。為節約成本和提高研究可操作性,現有大多數患者登記研究的數據來源均由兩部分構成,一部分來自前瞻性主動收集,一部分來自既有健康醫療管理數據。
研究計劃書由多學科研究團隊共同制定,內容至少包括:研究目的、研究內容、研究團隊及其職責、如何獲得研究對象、研究對象納入和排除標準、如何開展隨訪、數據來源、數據收集方法、收集流程、數據變量定義和規則、研究進度安排、質量控制措施等。與臨床隨機對照試驗不同,患者登記目前不需要強制在公共平臺注冊,但我們仍推薦研究者在研究正式開始前注冊患者登記,而且有多個注冊平臺可供選擇[15, 16]。同時將研究方案提交當地倫理審查委員會(institutional review board,IRB)接受審查和批準。若為多中心研究,建議在各個中心均提交方案至當地倫理審查委員會審查;對無倫理委員會的單位,一般可由項目負責單位完成倫理審查。患者登記研究通常需要研究對象簽署患者知情同意書,向其說明此次研究目的、研究內容、研究期限、患者獲益和風險等內容[11, 17]。應特別注意對患者個人信息保密,采取措施保障患者隱私和數據安全[17]。待倫理委員會正式批準后,方可開始納入患者。
基于研究目的,依據研究設計類型、主要研究結局、計劃招募患者的時間、患者隨訪期限、擬分析的數據結構和研究預算等,估算合適的樣本量。需注意的是,基于患者登記數據庫的目的不同,樣本量估算不一定必須。比如開展罕見病患者登記,其目的是不斷收集和積累罕見病診療資料,同時管理患者,因此,并不需要計算明確的樣本量。在資源、能力不足時,盲目擴大樣本量并不可取。
3 患者登記數據庫的構建過程
患者登記數據庫的構建過程涉及患者管理和數據收集兩個部分。患者管理流程包括確定目標人群、設定納入排除標準、招募患者、隨訪和維持。數據收集包括制作病例報告表(case report form,CRF)、制定標準化的數據收集手冊、制作在線數據收集系統(electronic data- capturing,EDC)、開展預試驗、開展調查員培訓、數據提取、數據錄入、數據審核、數據清理和數據儲存。上述詳細內容可參考已發表文獻[11]。其中,標準化數據收集手冊至少應包括明確數據來源、變量字典、調查員培訓內容、EDC 操作流程、研究者權限、主動收集/調查方式、數據提取方式、數據錄入方式、數據核查流程、數據儲存要求和研究進度安排(圖 2)。需要說明的是,上述流程是構建患者登記數據庫的主要步驟,但在不同的環境中、基于不同的研究目的和數據來源,數據庫構建流程可能存在差異。

3.1 患者管理
可考慮如下技術要點:① 充分考慮擬招募患者的人群代表性,跨地域、多中心招募為佳;② 在特定范圍內,符合納入條件的患者應在知情同意原則下連續性納入,防止主觀選擇患者;③ 明確由于不同的招募方法可能導致的偏倚類型,如志愿者偏倚;④ 對所有患者采用相同的隨訪方式,如經培訓的調查員電話隨訪;⑤ 采用多種方式維持患者隨訪,可根據主要研究結局發生率確定可接受的最高失訪率。
患者招募根據招募層次不同可有多種實現方式:一是醫院招募,將目標醫院所有符合納入標準的患者納入研究;二是醫生招募,通常將在參加研究的醫生處就診的所有符合納入標準的患者納入;三是志愿者招募,通過網絡等方式,由患者或負責醫生將患者數據上報至登記系統。根據研究目的、疾病分布不同可采用不同的招募層次。應充分考慮不同招募層次對目標人群代表性的影響,及由此帶來的選擇性偏倚對研究結果的影響。
患者的隨訪和維持是患者登記數據庫的難點之一。與傳統隊列研究類似,研究者將失訪率設置在 20% 是主觀的,可根據主要關注結局的發生率來確定可接受的最高失訪率。過高的失訪不僅降低檢驗效能,同時失訪原因不同可能造成研究結論的重大偏誤。因此,研究者在關注失訪率的同時更應探討失訪的原因,采取多種措施減少患者失訪。
3.2 數據庫建設
3.2.1 設計階段
① 應建立中央化的登記數據庫;② 在明確研究目的后確定 CRF 表的核心變量,包括納入患者基本信息、聯系方式、主要的暴露因素、主要和次要結局指標、混雜因素等;③ CRF 表的內容設計應平衡目標和資源,切忌過于冗長;④ 制定隨訪進度表,隨訪次數過多和隨訪時間過長會顯著增加研究執行難度,導致更大比例的失訪;⑤ 標準化數據收集手冊是開展患者登記的重要基礎材料;⑥ 明確數據來源,明確需要主動收集/調查(如患者自報數據)和來自既有健康醫療數據(如 HIS、LIS 數據庫、醫保數據庫、出生/死亡登記數據庫等);⑦ 明確不同來源數據的收集方式,如采用信息化編程方式從既有健康醫療數據中提取數據,采用人工提取(如 chart review)的方式從紙質病歷中提取數據;⑧ 制定變量字典,包括變量定義、測量時間、測量方式、變量來源、編碼信息等;⑨ 制定調查員手冊,建立清晰和統一的調查流程,明確不同職責研究人員數據庫使用權限;⑩ 建立結構化 EDC 和標準化 EDC 操作流程;? 優化 CRF 表和 EDC 系統頁面設計,便于填寫和數據錄入;? 制定不同來源數據更新規則,如外部鏈接數據更新規則和隨訪數據更新規則。
3.2.2 數據收集階段
① 盡量在所有分中心開展預試驗,進一步完善數據收集流程;② 采用合適的數據提取措施,如計算機編程提取、背對背提取,應開展一致性檢查;③ 采用合適的數據錄入措施,如經雙人錄入,并核查一致性;④ 在研究過程中,可能根據實際情況更新和修改數據收集的方式、頻率等,需要經核心研究團隊討論后以書面形式明確,如修改研究計劃書;⑤ 制定數據核查流程,包括數據核查對象、數據核查規則、數據核查時間、生成質疑報告等;⑥ 需要長期隨訪的研究對象,需分階段(如年度、項目中期)制定數據核查計劃,及時處理在數據收集中可能出現的各種偏誤。
3.2.3 數據清理階段
① 需建立標準化數據清理流程;② 無論采用信息化方式從電子系統中提取的數據,或采用人工閱讀紙質材料方式提取的數據,均需抽取部分樣本,采用人工核查方式驗證并報告提取數據的準確率;③ 鎖定數據庫后,數據不再修改;若有修改,需書面向數據庫負責人提出修改申請。
CRF 表的制作是建立患者登記數據的要點之一。除明確 CRF 的核心要素外,通常需要區分不同來源數據的填報對象和填報時間。如需要患者在門診調查時填報的數據應在當次門診就診時完成,不恰當的調查時間和調查方式可能影響數據真實性和數據質量。
變量字典通常應至少包含以下變量:研究核心變量(暴露、結局、重要混雜)、尚無明確診斷標準的變量、診斷標準可能存疑的變量、存在多次重復測量的變量、可能從多個來源獲得的變量。上述變量應明確變量定義、測量時間、測量方式、變量來源、編碼信息等,充分考慮臨床實踐情況是制定變量字典的基礎。
數據核查可在不同的階段完成。當需要使用既有健康醫療數據時,首先應核查既有數據的準確性和完整性;對于主動收集數據,可通過 EDC 系統設置數據核查規則,在數據錄入時,同步對極端值、異常值和邏輯關聯開展核查;最后對于各中心上傳數據,數據管理單位還應基于預設的數據核查規則開展數據核查。存疑數據應生成數據質疑表,返回至數據調查和錄入單位,核查數據并返回質疑結果。
我國各地的醫療條件和診療流程差異顯著,對需要主動收集的數據建議各參與中心開展預試驗,確保研究流程科學、可行;對于需要從既有健康醫療數據中提取的數據,由于各醫院電子化信息平臺各異,應分別提取部分樣本數據,驗證數據的準確性和完整性。
將文本數據轉化為結構化數據主要有兩種方式:一是通過預設的標準,通過有經驗的調查員閱讀文本信息,從中摘取信息,實現結構化轉化;二是基于多種基于機器學習和人工智能技術實現轉化。無論哪種技術,準確性的高低都與原始文本數據的質量密切相關,不同的醫療機構和醫務工作者書寫習慣存在顯著差異,因此,無論采取何種文本數據轉化方式,均應報告文本數據轉化為結構化數據的方法,并通過小樣本數據驗證數據準確性,報告驗證準確率。
基于已有全民健康系統信息化程度的差異,不同的國家和地區在開展患者登記數據庫研究時,可能不同程度地鏈接外部數據庫,甚至將廣泛地鏈接不同來源數據庫作為該類患者登記的主要特征。在這類研究中,研究者應明確與外部數據庫的鏈接規則和數據更新規則,尤其是針對需要長時間隨訪的研究對象和數據收集過程。
4 患者登記數據庫與基于既有健康醫療數據的研究型數據庫的比較
患者登記數據庫與基于既有健康醫療數據的研究型數據庫的比較見表 1。不同設計和來源的數據庫在覆蓋人群類型、數據變量種類、適宜應用領域方面有顯著不同,各有優勢和不足。

5 患者登記數據庫質量評價關鍵指標
見表 2。

6 小結
綜上所述,患者登記作為一種數據收集的方式,優勢在于可通過預先設計和前瞻性的數據收集流程,獲得研究者所需的全面、完整和在嚴格質控條件下收集的數據,而研究設計、實施質量直接關系最終患者登記數據庫質量。患者登記數據庫與既有健康醫療數據的研究型數據庫在質量評估和技術要點方面存在差異,基于既有健康醫療數據的研究型數據庫構建的核心在于評估原始數據是否能滿足研究需求,并通過多種方式獲得數據并驗證數據的可靠性、完整性和準確性。由于患者登記數據庫的部分數據可能來自各種既有健康醫療數據,因此,在上一篇基于既有健康醫療數據的研究型數據庫技術規范中的相應內容在此部分同樣適用。最后,不同類型數據庫并不代表數據質量的絕對高低,科學的設計、嚴格的實施和分析才是高質量研究數據的關鍵。研究者應回歸研究本身,基于研究目的選擇在現有資源條件下最適合的數據庫類型。
患者登記(patient registries)作為一種重要的真實世界數據來源,日益受到國內外臨床和衛生管理決策者的重視。通過預先的設計,在多種質量控制措施下通過主動收集數據過程建立患者登記數據庫,可在藥械評價和疾病管理中發揮重要作用,尤其是在藥械上市后監測、支持新藥上市、醫療器械監管、慢性病和罕見病管理等研究領域[1-6]。現有研究表明,患者登記數據庫質量在許多領域仍不甚滿意[7-9]。國內許多研究者對患者登記的概念、應用和數據庫質量仍有不少疑問,包括如何定義患者登記數據庫?其與基于既有健康醫療數據的研究型數據庫的區別?患者登記數據庫是否一定代表高質量數據來源?其主要應用領域是哪些?因此,中國真實世界數據與研究聯盟(ChinaREAL)工作組發布系列技術規范 2,重點闡釋患者登記數據庫構建和應用中的技術要點。
1 概念和適用范圍
目前對患者登記的權威解釋來自美國醫療保健研究與質量局(Agency for Healthcare Research and Quality,AHRQ)2007 年首次發布的《評估患者結局的登記指南》(Registries for evaluating patient outcomes:a user’s guide)及其在 2014 年的第 3 次更新版本[10]。該指南指出“登記”是指收集、儲存數據和數據記錄產生的過程。通過上述登記形式而形成的數據庫,我們稱為“患者登記數據庫”[10, 11]。
登記研究(registry study)是基于一種或多種以研究、臨床或衛生政策制定為目的,采用觀察性研究的方法收集一致性數據的組織系統,用于評估具有某種疾病、狀態或暴露人群特定結局的過程。由于研究對象一般是患者,也稱為患者登記研究[10, 11]。
對于患者登記數據庫的定義和識別,我們提出如下技術要點:① 患者登記數據庫是以觀察性研究的形式收集數據,研究者不干預常規臨床實踐過程;② 在收集和分析數據前,需要形成相對清晰的研究目的和研究計劃;③ 至少部分數據需要主動收集,而不僅僅是基于各類既有健康醫療數據庫[比如:電子病歷數據(electronic medical records,EMR)、醫保數據等]收集數據;④ 可基于不同研究目的在患者登記數據庫中開展不同流行病學設計的研究,如隊列研究、病例-對照研究、基于患者登記的隨機對照試驗等;⑤ 數據來源、定義、編碼過程的標準化和一致性是保障患者登記數據庫質量的核心。
根據登記對象的不同,患者登記大致可分為 3 類:① 特定疾病或者醫療狀態的患者登記。通常以患特定疾病或具備特定醫療狀態的診斷為此類登記的納入標準。如急性缺血性腦卒中患者登記[12];② 醫療產品登記。這是指患者在常規臨床實踐中使用了某種醫療產品,包括藥品、醫療器械、手術等。如接受藥物洗脫支架患者的登記研究[13];③ 綜合醫療服務登記。通常將接受了某種綜合醫療服務的患者作為納入對象,用于評估某種疾病管理方案、質量控制措施的效果[14]。
患者登記數據庫的適用范圍,從不同的維度劃分有所不同,總體來說可以劃分為藥械評價和疾病管理兩大類。在藥械評價領域,包括產品有效性、安全性、經濟性和依從性等不同維度,可用于特定產品上市后安全性的常規監測和評價、特定產品有效性和安全性的上市后再評價(條件上市藥品、重點監測藥品)、孤兒藥的藥品審評與評價和擴展適應癥、基于患者自報數據的藥物經濟學研究等。在疾病管理領域,包括了解疾病自然史,確立疾病在特定人群中的發生、發展和轉歸的過程;了解疾病負擔,調查人群患病率和地區、時間、空間分布;診斷和篩查研究,探索不同診斷方法的診斷價值;評估預防和治療措施的效果,評價相對療效和安全性;疾病預后研究等。
我們總結以下情景特別適宜于建立患者登記數據庫,但不局限于以下情景:① 觀察疾病自然史;② 開展疾病預后研究,尤其是風險預測、預警;③ 開展患者自報結局(patient-reported outcome research)研究;④ 評估復雜干預的效果;⑤ 罕見病防治與管理研究;⑥ 如開展傳統臨床試驗不符合倫理,如孕婦、兒童等特殊人群;⑦ 評估在真實診療環境下的療效和治療依從性,研究人群異質性;⑧ 評估亞組人群療效。
在患者登記數據庫種類的選擇和應用中,技術要點如下:① 基于特定疾病或醫療狀態的患者登記是開展疾病管理研究的優先選擇;② 僅納入目標醫療產品的登記數據庫可用于上市后藥品安全性監測及依從性評價,但因缺乏對照醫療產品評價,難以比較有效性和安全性;③ 研究對象可來自單中心或多中心,但單中心來源的患者登記因人群代表性不足而局限性明顯;④ 在特定范圍內連續納入符合納入標準的研究對象(符合知情同意原則)是減少選擇性偏倚的關鍵舉措。
2 患者登記數據庫的策劃
由于患者登記數據庫通常需要前瞻性的納入、隨訪患者并收集數據,因此,需要的人力、財力、物力往往顯著大于基于既有健康醫療數據的研究型數據庫。其整體策劃流程如圖 1 所示。

在數據庫策劃階段,有如下技術要點:① 明確研究目的;② 明確目標人群;③ 明確研究團隊構成和相應職責;④ 明確核心數據的種類、來源和數據質量;⑤ 制定可實施的研究計劃書;⑥ 倫理審批和研究注冊;⑦ 研究樣本量的初步考慮。
研究者應明確患者登記的研究目的,雖然研究目的可能是多樣化的,如研究者既想了解疾病自然史,也想評估多種干預措施的療效和安全性,但應有一定的邊界。一個患者登記研究并不能解決與研究疾病相關的所有問題,研究目的增多所需的人力、財力顯著增加,而相對聚焦和清晰的研究目的能減少研究成本、提高數據質量。同時應注意,開展患者登記的研究目的與研究問題是有明顯差異的。研究目的是多樣化的、框架性和方向性的,而研究問題則是單一的、具體的和針對性的。基于明確的研究目的建立患者登記數據庫可解決多個研究問題,這些研究問題可能是預設的,也可能是在數據庫建立后,研究者基于研究數據而產生的新的假設。
根據研究目的的不同,患者登記的目標人群有顯著差異,也與患者登記的種類有關。如研究者希望了解某種心血管支架的安全性,可將使用該支架的患者作為目標人群,則此時建立的患者登記數據庫屬于醫療產品登記。但應注意,由于僅納入使用特定支架的患者,缺乏對照,研究者難以了解使用特定支架的不良事件發生率是否高于對照,故無法進行因果推斷。
因此,可考慮將在一定納入排除標準下的冠心病患者作為目標人群,開展特定疾病或者醫療狀態的患者登記,由此建立的登記數據庫不僅包含使用了特定支架的患者,還包括了使用其它類型支架的冠心病患者。
患者登記數據庫從策劃、設計、患者招募、隨訪、數據管理和分析,至少需要臨床工作者、流行病和統計學的方法學工作者和信息工程師的參與。臨床工作者往往是患者管理的主要負責人,在患者隨訪和調查的過程中,可能還需要專業臨床研究團隊的協助;流行病和統計學工作者需要負責研究設計、數據管理和分析等內容,是保障研究設計科學性和規范性的關鍵;建立電子化的在線(internet-based)患者登記數據庫,以及從既有健康醫療數據中提取和鏈接數據,通常還需要信息工程師的參與和協助。在研究策劃階段明確上述研究團隊各個角色的職責,是保證患者登記數據庫長期、穩定運行的關鍵。
在數據庫策劃階段應明確核心數據的種類和來源并初步評估數據質量。首先,若既有健康醫療數據(如醫院 EMR)能提供核心數據,并在數據質量(如變量定義、完整性)上能滿足研究需求,研究者應權衡此時開展患者登記研究的必要性。其次,若部分數據來自既有健康醫療數據,如通過醫院 EMR 中的醫囑信息獲得藥品使用的情況,研究者還需通過主動收集的形式獲得其他數據,如將患者自報的生命質量作為研究結局。此時,研究者一方面需要通過主動收集的方式獲得數據,包括患者招募、前瞻性調查和患者隨訪等步驟,同時評估不同的調查方式,如面談、電話訪問等的可及性、準確性和實施難易程度。另一方面需要明確既有健康醫療數據的來源(如來自醫院 EMR),并按照本技術規范 1 的內容開展數據質量評估;同時明確數據獲取方式(如電子化提取、人工摘錄)、是否需要鏈接其它數據庫(如鏈接居民出生死亡登記庫)等。為節約成本和提高研究可操作性,現有大多數患者登記研究的數據來源均由兩部分構成,一部分來自前瞻性主動收集,一部分來自既有健康醫療管理數據。
研究計劃書由多學科研究團隊共同制定,內容至少包括:研究目的、研究內容、研究團隊及其職責、如何獲得研究對象、研究對象納入和排除標準、如何開展隨訪、數據來源、數據收集方法、收集流程、數據變量定義和規則、研究進度安排、質量控制措施等。與臨床隨機對照試驗不同,患者登記目前不需要強制在公共平臺注冊,但我們仍推薦研究者在研究正式開始前注冊患者登記,而且有多個注冊平臺可供選擇[15, 16]。同時將研究方案提交當地倫理審查委員會(institutional review board,IRB)接受審查和批準。若為多中心研究,建議在各個中心均提交方案至當地倫理審查委員會審查;對無倫理委員會的單位,一般可由項目負責單位完成倫理審查。患者登記研究通常需要研究對象簽署患者知情同意書,向其說明此次研究目的、研究內容、研究期限、患者獲益和風險等內容[11, 17]。應特別注意對患者個人信息保密,采取措施保障患者隱私和數據安全[17]。待倫理委員會正式批準后,方可開始納入患者。
基于研究目的,依據研究設計類型、主要研究結局、計劃招募患者的時間、患者隨訪期限、擬分析的數據結構和研究預算等,估算合適的樣本量。需注意的是,基于患者登記數據庫的目的不同,樣本量估算不一定必須。比如開展罕見病患者登記,其目的是不斷收集和積累罕見病診療資料,同時管理患者,因此,并不需要計算明確的樣本量。在資源、能力不足時,盲目擴大樣本量并不可取。
3 患者登記數據庫的構建過程
患者登記數據庫的構建過程涉及患者管理和數據收集兩個部分。患者管理流程包括確定目標人群、設定納入排除標準、招募患者、隨訪和維持。數據收集包括制作病例報告表(case report form,CRF)、制定標準化的數據收集手冊、制作在線數據收集系統(electronic data- capturing,EDC)、開展預試驗、開展調查員培訓、數據提取、數據錄入、數據審核、數據清理和數據儲存。上述詳細內容可參考已發表文獻[11]。其中,標準化數據收集手冊至少應包括明確數據來源、變量字典、調查員培訓內容、EDC 操作流程、研究者權限、主動收集/調查方式、數據提取方式、數據錄入方式、數據核查流程、數據儲存要求和研究進度安排(圖 2)。需要說明的是,上述流程是構建患者登記數據庫的主要步驟,但在不同的環境中、基于不同的研究目的和數據來源,數據庫構建流程可能存在差異。

3.1 患者管理
可考慮如下技術要點:① 充分考慮擬招募患者的人群代表性,跨地域、多中心招募為佳;② 在特定范圍內,符合納入條件的患者應在知情同意原則下連續性納入,防止主觀選擇患者;③ 明確由于不同的招募方法可能導致的偏倚類型,如志愿者偏倚;④ 對所有患者采用相同的隨訪方式,如經培訓的調查員電話隨訪;⑤ 采用多種方式維持患者隨訪,可根據主要研究結局發生率確定可接受的最高失訪率。
患者招募根據招募層次不同可有多種實現方式:一是醫院招募,將目標醫院所有符合納入標準的患者納入研究;二是醫生招募,通常將在參加研究的醫生處就診的所有符合納入標準的患者納入;三是志愿者招募,通過網絡等方式,由患者或負責醫生將患者數據上報至登記系統。根據研究目的、疾病分布不同可采用不同的招募層次。應充分考慮不同招募層次對目標人群代表性的影響,及由此帶來的選擇性偏倚對研究結果的影響。
患者的隨訪和維持是患者登記數據庫的難點之一。與傳統隊列研究類似,研究者將失訪率設置在 20% 是主觀的,可根據主要關注結局的發生率來確定可接受的最高失訪率。過高的失訪不僅降低檢驗效能,同時失訪原因不同可能造成研究結論的重大偏誤。因此,研究者在關注失訪率的同時更應探討失訪的原因,采取多種措施減少患者失訪。
3.2 數據庫建設
3.2.1 設計階段
① 應建立中央化的登記數據庫;② 在明確研究目的后確定 CRF 表的核心變量,包括納入患者基本信息、聯系方式、主要的暴露因素、主要和次要結局指標、混雜因素等;③ CRF 表的內容設計應平衡目標和資源,切忌過于冗長;④ 制定隨訪進度表,隨訪次數過多和隨訪時間過長會顯著增加研究執行難度,導致更大比例的失訪;⑤ 標準化數據收集手冊是開展患者登記的重要基礎材料;⑥ 明確數據來源,明確需要主動收集/調查(如患者自報數據)和來自既有健康醫療數據(如 HIS、LIS 數據庫、醫保數據庫、出生/死亡登記數據庫等);⑦ 明確不同來源數據的收集方式,如采用信息化編程方式從既有健康醫療數據中提取數據,采用人工提取(如 chart review)的方式從紙質病歷中提取數據;⑧ 制定變量字典,包括變量定義、測量時間、測量方式、變量來源、編碼信息等;⑨ 制定調查員手冊,建立清晰和統一的調查流程,明確不同職責研究人員數據庫使用權限;⑩ 建立結構化 EDC 和標準化 EDC 操作流程;? 優化 CRF 表和 EDC 系統頁面設計,便于填寫和數據錄入;? 制定不同來源數據更新規則,如外部鏈接數據更新規則和隨訪數據更新規則。
3.2.2 數據收集階段
① 盡量在所有分中心開展預試驗,進一步完善數據收集流程;② 采用合適的數據提取措施,如計算機編程提取、背對背提取,應開展一致性檢查;③ 采用合適的數據錄入措施,如經雙人錄入,并核查一致性;④ 在研究過程中,可能根據實際情況更新和修改數據收集的方式、頻率等,需要經核心研究團隊討論后以書面形式明確,如修改研究計劃書;⑤ 制定數據核查流程,包括數據核查對象、數據核查規則、數據核查時間、生成質疑報告等;⑥ 需要長期隨訪的研究對象,需分階段(如年度、項目中期)制定數據核查計劃,及時處理在數據收集中可能出現的各種偏誤。
3.2.3 數據清理階段
① 需建立標準化數據清理流程;② 無論采用信息化方式從電子系統中提取的數據,或采用人工閱讀紙質材料方式提取的數據,均需抽取部分樣本,采用人工核查方式驗證并報告提取數據的準確率;③ 鎖定數據庫后,數據不再修改;若有修改,需書面向數據庫負責人提出修改申請。
CRF 表的制作是建立患者登記數據的要點之一。除明確 CRF 的核心要素外,通常需要區分不同來源數據的填報對象和填報時間。如需要患者在門診調查時填報的數據應在當次門診就診時完成,不恰當的調查時間和調查方式可能影響數據真實性和數據質量。
變量字典通常應至少包含以下變量:研究核心變量(暴露、結局、重要混雜)、尚無明確診斷標準的變量、診斷標準可能存疑的變量、存在多次重復測量的變量、可能從多個來源獲得的變量。上述變量應明確變量定義、測量時間、測量方式、變量來源、編碼信息等,充分考慮臨床實踐情況是制定變量字典的基礎。
數據核查可在不同的階段完成。當需要使用既有健康醫療數據時,首先應核查既有數據的準確性和完整性;對于主動收集數據,可通過 EDC 系統設置數據核查規則,在數據錄入時,同步對極端值、異常值和邏輯關聯開展核查;最后對于各中心上傳數據,數據管理單位還應基于預設的數據核查規則開展數據核查。存疑數據應生成數據質疑表,返回至數據調查和錄入單位,核查數據并返回質疑結果。
我國各地的醫療條件和診療流程差異顯著,對需要主動收集的數據建議各參與中心開展預試驗,確保研究流程科學、可行;對于需要從既有健康醫療數據中提取的數據,由于各醫院電子化信息平臺各異,應分別提取部分樣本數據,驗證數據的準確性和完整性。
將文本數據轉化為結構化數據主要有兩種方式:一是通過預設的標準,通過有經驗的調查員閱讀文本信息,從中摘取信息,實現結構化轉化;二是基于多種基于機器學習和人工智能技術實現轉化。無論哪種技術,準確性的高低都與原始文本數據的質量密切相關,不同的醫療機構和醫務工作者書寫習慣存在顯著差異,因此,無論采取何種文本數據轉化方式,均應報告文本數據轉化為結構化數據的方法,并通過小樣本數據驗證數據準確性,報告驗證準確率。
基于已有全民健康系統信息化程度的差異,不同的國家和地區在開展患者登記數據庫研究時,可能不同程度地鏈接外部數據庫,甚至將廣泛地鏈接不同來源數據庫作為該類患者登記的主要特征。在這類研究中,研究者應明確與外部數據庫的鏈接規則和數據更新規則,尤其是針對需要長時間隨訪的研究對象和數據收集過程。
4 患者登記數據庫與基于既有健康醫療數據的研究型數據庫的比較
患者登記數據庫與基于既有健康醫療數據的研究型數據庫的比較見表 1。不同設計和來源的數據庫在覆蓋人群類型、數據變量種類、適宜應用領域方面有顯著不同,各有優勢和不足。

5 患者登記數據庫質量評價關鍵指標
見表 2。

6 小結
綜上所述,患者登記作為一種數據收集的方式,優勢在于可通過預先設計和前瞻性的數據收集流程,獲得研究者所需的全面、完整和在嚴格質控條件下收集的數據,而研究設計、實施質量直接關系最終患者登記數據庫質量。患者登記數據庫與既有健康醫療數據的研究型數據庫在質量評估和技術要點方面存在差異,基于既有健康醫療數據的研究型數據庫構建的核心在于評估原始數據是否能滿足研究需求,并通過多種方式獲得數據并驗證數據的可靠性、完整性和準確性。由于患者登記數據庫的部分數據可能來自各種既有健康醫療數據,因此,在上一篇基于既有健康醫療數據的研究型數據庫技術規范中的相應內容在此部分同樣適用。最后,不同類型數據庫并不代表數據質量的絕對高低,科學的設計、嚴格的實施和分析才是高質量研究數據的關鍵。研究者應回歸研究本身,基于研究目的選擇在現有資源條件下最適合的數據庫類型。