基于真實世界數據開展觀察性研究,為治療結局評價提供的證據日益增多。采用真實世界數據開展觀察性研究,可為決策提供及時、重要的證據。雖然基于真實世界數據開展觀察性研究在數據采集層面可以節約時間、經費,但在設計層面的復雜程度遠遠超出隨機對照試驗設計。為提高真實世界研究中因果推斷的真實性、降低潛在偏倚風險,中國真實世界數據與研究聯盟(ChinaREAL)工作組特制訂基于真實世界數據評價治療結局的觀察性研究設計規范。該技術規范針對此類研究的適用場景介紹了常用的設計類型;并針對選擇研究對象、定義暴露因素和暴露分組、定義隨訪起始時間及結局評價指標、以及統計分析計劃等研究關鍵要素進行了介紹;最后歸納了此類研究的潛在偏倚及控制措施。本技術規范雖然基于提高因果推斷真實性的目的對以上設計要素進行了闡述,但其適用范圍可能有限,需要未來不斷地進行完善與補充。
引用本文: 彭曉霞, 舒嘯塵, 譚婧, 王麗, 聶曉璐, 王雯, 溫澤淮, 孫鑫, 代表中國真實世界數據與研究聯盟(ChinaREAL). 基于真實世界數據評價治療結局的觀察性研究設計技術規范. 中國循證醫學雜志, 2019, 19(7): 779-786. doi: 10.7507/1672-2531.201904164 復制
真實世界數據指區別于特定的“臨床研究場景”下產生的數據,其數據來源多樣化,包括電子醫療記錄(electronic medical records,EMR)、醫療保險數據庫、產品或患者注冊登記數據庫、個人穿戴電子醫療設備產生的數據等[1]。針對上市后藥物、醫療器械或已存在的診療策略進行效果和安全性評價時,采用真實世界數據相對于為了研究而專門收集數據的過程,可以幫助研究者在較短的時間內,使用較少的研究經費,獲得該治療措施在較大范圍人群中應用效果的評價證據[2]。近年來,基于真實世界數據開展觀察性研究,為治療結局評價提供的證據日益增多。
雖然觀察性研究在設計嚴謹、實施質量高的前提下可能提供與隨機對照試驗一致的因果推斷結果[3],但基于真實世界數據開展觀察性研究時,不同來源的大數據質量可能存在一定程度的不確定性,同時研究涉及的關鍵要素,如暴露與結局的測量可能與研究本身的定義存在不一致,如果設計時考慮不全面,勢必引入較高的偏倚風險。為了提高真實世界研究中因果推斷的真實性、降低潛在偏倚風險,中國真實世界數據與研究聯盟(China REAL)工作組特制訂本技術規范,建議研究者在設計評價治療結局的觀察性研究時,對研究的關鍵要素與環節進行審慎思考[4],同時強調根據研究問題事先制定研究計劃及統計分析計劃。本規范是真實世界數據與研究的系列技術規范 3。
1 明確研究目的
在考慮采用真實世界數據開展觀察性研究時,應考慮研究證據在未來醫療決策中擬回答的問題,明確研究目的。采用真實世界數據開展臨床結局評價一般是針對上市后藥物、醫療器械或已存在的診療策略[5]。建議采用真實世界數據開展觀察性研究的適用但不局限于以下場景:① 致死致殘風險高的疾病,有一種效果比較肯定的藥物時,出于倫理學考慮,對其臨床干預效果進行評價時,一般不適合設計安慰劑或空白對照,可采用觀察性研究比較患者接受治療與未接受治療時的疾病結局;② 在真實醫療環境下,某種疾病存在幾種“有效”的藥物或治療決策,其治療方案分配與病情嚴重程度相關,隨機分配可能存在倫理學爭議時,可采用觀察性研究比較某種治療與陽性對照之間的臨床結局;③ 針對超說明書用藥的情況,需要提供該藥針對新的癥狀、不同劑量水平、或新的用藥人群是否真正有效安全的證據時;④ 真實醫療實踐中,由于醫生經驗用藥,導致存在不同藥物治療劑量時,需要提供不同藥物劑量的有效性與安全性證據;⑤ 真實醫療實踐中,已形成不同聯合用藥模式時,需要比較不同聯合用藥模式的療效與安全性;⑥ 當研究暴露或結局事件較罕見時。
2 構建研究問題與研究假設
明確研究目的后,根據相關前期基礎闡明研究假設對開展治療結局評價是至關重要的。建議重點考慮構建研究問題的四要素,即 P(人群)、I(干預)、C(對照)、O(結局)是否可以在已有真實世界數據的基礎上成立?如:從真實世界數據中能否提取出滿足研究要求的人群數據,已有的干預能否構成符合研究定義的暴露,是否存在足夠的可比對照,以及是否包含研究設定的結局評價指標及其標準化測量結果?
3 評估數據庫與研究問題匹配度
無論是基于既有健康醫療數據建立的數據庫,還是基于前瞻性收集的登記注冊數據庫,在設計研究方法前均需對真實世界數據與研究問題的匹配度進行初步評估,以幫助研究者選擇適用的研究設計類型,保證研究的可行性。以基于醫療保險數據庫評價某藥治療兒童哮喘的療效與安全性研究為例,數據庫與研究問題匹配度評估的內容有:① 數據庫覆蓋人群是否可以代表目標人群?初步分析中國現有醫保數據庫中所覆蓋兒童哮喘患者的比例是多少?這部分兒童患者是否能代表兒童哮喘患者總體;② 數據庫是否包含與研究問題相對應的關鍵信息?如:數據庫中有可用以定義哮喘診斷編碼或算法包含的變量嗎?有規范的藥物編碼嗎?是否記錄了每次處方藥物的劑量,不同規格、不同品牌藥物之間的實際劑量如何實現標準轉換;③ 數據庫是否有回答研究問題所需要的結局指標?結局指標的測量準確性如何?如:評價兒童哮喘控制有效的指標是 12 個月內的哮喘急性發作次數,且需要檢測肺功能的變化,那么數據庫中是否有肺功能檢測的結果;④ 數據庫是否已收集重要的潛在混雜因素的測量?如:研究對象入組時肺功能基線測量數據、是否合并其他過敏反應性疾病等。
需要強調的是:在研究設計前,充分了解數據庫有關特點,包括數據庫覆蓋的人群特征、已有變量、數據質量等,將為研究設計提供重要基礎,但不建議在事先采用數據挖掘的方式進行結果分析,然后根據陽性結果提示重新構建研究問題以及相應研究設計。
4 常見研究設計類型的選擇
采用真實世界數據開展觀察性研究時,研究者常常采用隊列研究(包括前瞻性、回顧性與雙向隊列)、病例-對照研究、巢式病例-對照研究、自身對照的病例系列等設計類型來評價治療結局。不同研究設計示意圖如下(圖 1~圖 4),研究者可以根據數據庫與研究問題的匹配程度,選擇不同的研究設計,必要時也可以同時選擇多種研究設計。




5 研究對象選擇標準
基于數據庫開展觀察性研究,應清晰地描述目標人群、數據庫覆蓋人群與研究人群之間的關系。此外,盡管是基于數據庫設計觀察性研究,其實從模擬隨機對照試驗的角度考慮研究對象的納入與排除標準,有助于控制潛在選擇偏倚與混雜偏倚[4]。
5.1 篩選目標疾病患者
基于數據庫開展研究,一般情況下無法根據公認的診斷標準對患者進行逐一篩選,常根據疾病診斷編碼來定義研究對象,但有的病例資料中之所以出現診斷編碼,可能是為了后續進行明確該疾病診斷而開出的檢查或初步診斷結果,而不是最終的真正診斷[6]。因此,基于數據庫篩選研究對象,需要明確符合目標疾病診斷的指示指標除了診斷編碼(如:ICD-9 或 ICD-10 編碼)外,還需要考慮是否需要構建算法,根據多個變量共同定義目標疾病患者,將金標準檢查結果、患者其他就診情況、指示藥品處方等多種信息進行綜合分析。此外,應對以上算法進行驗證,以提高研究對象篩選的準確度。
5.2 選擇首次用藥病例
在真實世界研究中,首次用藥病例(new user)可以是新診斷病例,也可以是在停藥足夠長時間后再次用藥者(new episode)。真實醫療環境中,如果沒有限定研究對象為首次用藥病例時,可能將那些之前曾接受治療,但因不能耐受或效果不好而放棄治療的患者定義為“非暴露組”,從而引入錯分偏倚(misclassification bias),高估療效。所以,選擇首次用藥病例是控制選擇性偏倚的一種有效途徑[7, 8]。
5.3 定義暴露相關時間點
與研究對象和暴露定義有關的時間點包括:起始用藥時間(prescription start)、終止用藥時間(prescription end)、暴露期(exposed period)、非暴露期(unexposed period)、誘導期(induction period)、風險期(risk period)、干預寬限期(grace period)、和洗脫期(washout period)。以采用自身對照病例系列研究設計評價藥物不良反應發生風險研究為例的時間軸(timeline)見圖 5[9],以上概念的具體定義如下:① 暴露期,指起始用藥時間和終止用藥時間之間的這段時期,起始用藥時間和終止用藥時間可根據數據庫中處方信息來確定。② 誘導期,指干預開始到累積暴露劑量達到起效水平時的時間跨度。③ 風險期,指初次藥物暴露誘導期后開始起效或可能發生安全事件的時間跨度。④ 寬限期,指從第一次開藥到服藥之間,受試者可能因為接受檢查或者由于醫院藥房藥物限制等原因而推遲服藥。這時,一般會考慮定義寬限期,即認為在這一治療觀察期加寬限期的時間跨度內,有連續 2 次處方記錄者定義為連續服藥,若超過此時間跨度無連續 2 次處方記錄者定義為停藥。例如:假設一次處方是 2 周的劑量,寬限期定義為 7 天,那么從某次處方記錄日期開始,將連續 21 天內連續 2 次處方的人群定義為連續用藥,從而可以計算暴露人群藥物暴露的時長。⑤ 洗脫期,指在治療過程中,第一階段治療與第二階段治療中間一段不服用試驗用藥品,或者服用安慰劑的時期,如果研究不局限為首次用藥病例時,應該明確定義洗脫期,即在定義的藥物使用時間之前的足夠長時間內(如 1 年)沒有使用過相關藥物。參考隨機對照試驗隨訪時間(如治療后 3 年),定義研究對象時應考慮納入研究對象接受干預的起始時間距離本研究啟動至少 3 年以上者。

研究者可以根據研究干預措施的特點,繪制由以上時間點構成的研究時間軸(如圖 5 所示),以幫助我們更準確地定義研究對象納入標準與暴露狀態。
5.4 盡量減少可能失訪人群
在采用真實世界數據開展觀察性研究時,如果失訪(loss of follow-up)率過多時,不僅會影響研究結果的真實性,更可能導致研究無法按計劃完成。為了確保有足夠多完成治療的病例,可以考慮篩選在接受本研究治療前,在足夠長時間內持續有醫療保險或就醫行為記錄的人群。但是需要注意的是:在設計觀察性研究時不應僅納入接受滿療程治療的患者,否則,可能會將那些因實際治療無效的病例錯分到對照組而導致療效被高估。
5.5 明確病例納入研究次數
明確在此研究中,每個病例僅納入 1 次,還是根據在不同時期的具體暴露情況多次納入研究;與之相對應,選擇對照人群進行匹配時,應考慮是否采取可放回重復匹配。
6 暴露定義
對于基于真實世界數據的觀察性研究,在定義暴露時盡量避免錯分偏倚是至關重要的,因此,研究者需要參考數據庫已有變量來建立暴露定義的算法,并對算法的準確性進行驗證。
首先,定義是否服用研究藥物。根據數據庫中的藥物編碼或藥品名稱,建立算法,將數據庫中以不同形式呈現的藥物均給予統一編碼;同時考慮是否采用多個變量來共同定義研究干預措施。注意分析數據庫中體現的藥物是否可以覆蓋患者可能暴露的所有藥物,考慮不同醫院或區域來源的患者是否會通過其他渠道獲得研究藥物。
然后,定義藥物暴露時間。藥物暴露時間是指第一次處方后的天數,天數可以通過處方開具的藥片數量、再次填寫記錄的天數,或者所述的每日服用的片劑數量或預設的指標來計算獲得。通常,使用真實數據開展研究的研究者需要明確基于日常處方還是直接通過用藥指導來推斷服藥時間,同時收集可以反映劑量相關信息或在規定時間內回收處方總量的變量,包括:持續時間、累計劑量以及是否為新近暴露,即目前用藥者、首次用藥者、最近用藥者、以及之前用藥者。
接下來,要評估是否存在停藥、交換和沾染等行為。一般情況下,如果兩次處方行為之間的時間跨度超過處方藥物劑量可以滿足的時間跨度和干預寬限期時間跨度,會定義為存在停藥行為。應該明確處方的每日劑量的假設方法(如果沒有記錄的話)、處方覆蓋的持續時間、以及用以規定例如交換、停藥、持續用藥和沾染等用藥特征的寬限期長度。
必要時,還需要根據數據庫中的信息,如藥物劑型、劑量、使用方式、使用跨度等變量計算累積暴露劑量。無論如何,基于已有數據庫開展觀察性研究,無法避免暴露信息的缺失,無論是左刪失(干預開始前用藥信息的缺失)還是右刪失(干預開始后用藥信息的缺失),上述情況都可能影響藥物暴露的定義,從而導致錯分偏倚。因此,可以設計不同算法來定義暴露,并針對不同的暴露分類進行敏感性分析。
7 暴露分組
真實醫療環境下,患者是否暴露于干預措施,或暴露于何種干預,不是通過隨機分配決定的。治療策略的選擇首先取決于醫生對特定結局的風險判斷,從而導致指示偏倚(indication bias),這一偏倚可能會對結局評價產生很強的混雜,而且,指示偏倚帶來的混雜程度很難評估,因為它基于期望的預后,而且這一期望是基于專業衛生人員在治療患者時形成的觀點而形成的。如圖 6 所示,在真實世界中形成的不同劑量組之間,可能存在由于醫生判斷與實際情況不一致而導致的錯分,當兩組之間錯分比例不可比時,將影響最終的效應估計[10]。雖然可以在統計分析階段采用分層分析、回歸分析、傾向性評分匹配等方法對混雜因素調整(參見真實世界數據與研究系列技術規范 4),但在研究設計時應考慮針對接受不同治療策略者,模擬基線的隨機分配,盡可能對已知混雜因素進行調整以確保比較組間基線可比。研究應事先充分分析在真實醫療環境下可能影響干預措施分配的相關混雜因素,再根據數據庫中是否包含這些信息決定模擬基線隨機分配的策略。常用的控制錯分偏倚、增加組間基線可比性的方法有:① 限定暴露組與對照組的關鍵特征,如:考慮到有些患者是因為前一種干預措施效果不佳的前提下,更換為當前的這種干預措施,這在隨機對照試驗中幾乎是不可能發生的,因此,建議考慮只納入首次接受治療的患者。此外,可以從研究對象的性別、年齡、基線時疾病的嚴重程度等關鍵特征進行限制;② 匹配,由于真實世界數據庫一般有較大樣本量,因此,可以根據暴露人群的基線特征,采用匹配的原則從數據庫中篩選基線可比的對照。至于匹配的方式,個體匹配或成組匹配都適用,但需要強調的一點是,由于計算的可行,不限制暴露組與對照組匹配比例(如,1∶4)。

在比較不同治療策略的臨床結局時,考慮不同分組間可比性的復雜程度遠遠大于針對治療與無治療進行比較時。
8 定義隨訪起始時間
在設計基于真實世界數據開展觀察性研究時,合理定義隨訪起始時間是至關重要的,因為研究對象的基線情況應在隨訪起始時滿足選擇標準而不是在其后,研究結局的測量也是在隨訪開始后發生的,而不是之前。真實世界研究中,可能存在兩種情況:① 在滿足入組標準的唯一時點時開始隨訪,如患者首次接受 PCI 或 CABG 治療的時間點,這種情況相對簡單;② 很多情況下,研究對象可能存在多個時間點均能滿足入組標準。如評價雌激素替代治療的效果時,當研究對象納入標準為“絕經后無慢性病史,且在過去兩年中無激素治療的女性”時,有的女性可能在 51~65 歲之間有多個時間點均能滿足該入組標準,為了控制兩組研究對象隨訪起始時間不同引入的偏倚,可以考慮采用以下處理方法:如果原始數據是按照定義好的隨訪時間間隔收集的,如某些正在實施的隊列研究,每兩年常規隨訪一次,那么可以針對滿足研究對象納入排除標準的時間基線,隨機取一次時間,將其定義為隨訪開始時間;如果原始數據收集沒有事先定義的隨訪時間間隔,如在臨床隨訪的慢性病患者,可以將隨訪起始時間定義為距離上一次治療時間間隔最大的那一個時間點,以保證患者經歷足夠長的藥物洗脫期。
9 研究結局評價
一般情況下,真實世界研究數據中關于結局的判斷不是通過盲法評價等方法來完成的,因此無法保證所有結局判斷的準確性。在開展觀察性研究時,建議盡量選擇客觀存在的終點指標,如,院內死亡或基于死亡登記數據庫確認的死亡,手術治愈率、嚴重不良反應發生率等。在構建研究結局篩選的算法時,應關注隨訪時間設計的合理性,原則上,目標臨床結局的發生時間與干預實施之間應有足夠長的時間間隔(與疾病自然進程相比較),如果在干預實施后的很短時間內即發生結局,此結局可能與干預無關,如果沒有加以區分的話,可能引入新的偏倚。同時,應區分目標臨床結局是疾病本身的進展結果,還是因干預而發生的結果。無論如何,為了減少結局評價不合理導致的潛在偏倚,研究者應根據實際情況開發定義研究結局的算法,并對其判斷的準確性進行驗證,然后在研究中采用。
10 統計分析計劃
本部分強調事先制定統計分析計劃,具體內容除參考《使用常規醫療數據開展觀察性研究的報告規范(藥物流行病學版)》[7, 8]的建議外,可重點考慮以下關鍵幾個方面:① 采用流程圖形式描述目標人群、數據庫覆蓋人群、適合研究納入排除標準的研究人群的篩選過程;② 原始數據清洗的步驟與方法;③ 是否在兩個及以上數據庫之間,使用個體水平、機構水平或其他數據進行數據鏈接,鏈接的方法以及對其進行質量評價的方法與結果;④ 如何處理缺失數據;⑤ 如何分組以及分組的依據;⑥ 采用多種研究設計時,以哪種研究設計為主進行主要分析;⑦ 如何調整基線不可比;⑧ 是否進行亞組分析或檢測交互作用;⑨ 如何控制混雜;⑩ 是否進行敏感性分析等。詳細內容可參見真實世界數據與研究系列技術規范第四篇。
11 潛在偏倚及控制
基于真實世界數據設計觀察性研究來評價治療結局,除了觀察性研究涉及的常見偏倚類型外,還存在特有的偏倚類型,如:已有數據庫中不包含已知的混雜因素(混雜因素缺失)或者以替代(surrogate/proxy)變量的形式被納入到研究中時引入的混雜效果,替代變量是否造成差異性錯分對研究結果意義重大。通常采用敏感性分析,比較結果的一致性來達到控制混雜的目的;此外,疾病的共診斷及競爭性死因也是造成死因相關真實世界分析結果偏倚的重要原因。事實上,流行病學研究中常用的偏倚控制措施廣泛適用于真實世界研究(表 1)。針對潛在偏倚,研究者需要在研究的設計階段、實施階段以及分析階段進行識別,并預先制定相應控制措施。

基于真實世界數據開展觀察性研究雖然在數據采集層面可以節約時間、經費,但在設計層面的復雜程度需要引起大家的重視,尤其是評價預期效應較小的臨床干預效果時[11]。本技術規范旨在提醒研究者在設計基于真實世界數據的觀察性研究時,應嚴格定義每一項研究要素,以降低偏倚風險,提高因果推斷的真實性。但本技術規范的適用范圍可能有限,需要大家不斷地進行完善與補充。
真實世界數據指區別于特定的“臨床研究場景”下產生的數據,其數據來源多樣化,包括電子醫療記錄(electronic medical records,EMR)、醫療保險數據庫、產品或患者注冊登記數據庫、個人穿戴電子醫療設備產生的數據等[1]。針對上市后藥物、醫療器械或已存在的診療策略進行效果和安全性評價時,采用真實世界數據相對于為了研究而專門收集數據的過程,可以幫助研究者在較短的時間內,使用較少的研究經費,獲得該治療措施在較大范圍人群中應用效果的評價證據[2]。近年來,基于真實世界數據開展觀察性研究,為治療結局評價提供的證據日益增多。
雖然觀察性研究在設計嚴謹、實施質量高的前提下可能提供與隨機對照試驗一致的因果推斷結果[3],但基于真實世界數據開展觀察性研究時,不同來源的大數據質量可能存在一定程度的不確定性,同時研究涉及的關鍵要素,如暴露與結局的測量可能與研究本身的定義存在不一致,如果設計時考慮不全面,勢必引入較高的偏倚風險。為了提高真實世界研究中因果推斷的真實性、降低潛在偏倚風險,中國真實世界數據與研究聯盟(China REAL)工作組特制訂本技術規范,建議研究者在設計評價治療結局的觀察性研究時,對研究的關鍵要素與環節進行審慎思考[4],同時強調根據研究問題事先制定研究計劃及統計分析計劃。本規范是真實世界數據與研究的系列技術規范 3。
1 明確研究目的
在考慮采用真實世界數據開展觀察性研究時,應考慮研究證據在未來醫療決策中擬回答的問題,明確研究目的。采用真實世界數據開展臨床結局評價一般是針對上市后藥物、醫療器械或已存在的診療策略[5]。建議采用真實世界數據開展觀察性研究的適用但不局限于以下場景:① 致死致殘風險高的疾病,有一種效果比較肯定的藥物時,出于倫理學考慮,對其臨床干預效果進行評價時,一般不適合設計安慰劑或空白對照,可采用觀察性研究比較患者接受治療與未接受治療時的疾病結局;② 在真實醫療環境下,某種疾病存在幾種“有效”的藥物或治療決策,其治療方案分配與病情嚴重程度相關,隨機分配可能存在倫理學爭議時,可采用觀察性研究比較某種治療與陽性對照之間的臨床結局;③ 針對超說明書用藥的情況,需要提供該藥針對新的癥狀、不同劑量水平、或新的用藥人群是否真正有效安全的證據時;④ 真實醫療實踐中,由于醫生經驗用藥,導致存在不同藥物治療劑量時,需要提供不同藥物劑量的有效性與安全性證據;⑤ 真實醫療實踐中,已形成不同聯合用藥模式時,需要比較不同聯合用藥模式的療效與安全性;⑥ 當研究暴露或結局事件較罕見時。
2 構建研究問題與研究假設
明確研究目的后,根據相關前期基礎闡明研究假設對開展治療結局評價是至關重要的。建議重點考慮構建研究問題的四要素,即 P(人群)、I(干預)、C(對照)、O(結局)是否可以在已有真實世界數據的基礎上成立?如:從真實世界數據中能否提取出滿足研究要求的人群數據,已有的干預能否構成符合研究定義的暴露,是否存在足夠的可比對照,以及是否包含研究設定的結局評價指標及其標準化測量結果?
3 評估數據庫與研究問題匹配度
無論是基于既有健康醫療數據建立的數據庫,還是基于前瞻性收集的登記注冊數據庫,在設計研究方法前均需對真實世界數據與研究問題的匹配度進行初步評估,以幫助研究者選擇適用的研究設計類型,保證研究的可行性。以基于醫療保險數據庫評價某藥治療兒童哮喘的療效與安全性研究為例,數據庫與研究問題匹配度評估的內容有:① 數據庫覆蓋人群是否可以代表目標人群?初步分析中國現有醫保數據庫中所覆蓋兒童哮喘患者的比例是多少?這部分兒童患者是否能代表兒童哮喘患者總體;② 數據庫是否包含與研究問題相對應的關鍵信息?如:數據庫中有可用以定義哮喘診斷編碼或算法包含的變量嗎?有規范的藥物編碼嗎?是否記錄了每次處方藥物的劑量,不同規格、不同品牌藥物之間的實際劑量如何實現標準轉換;③ 數據庫是否有回答研究問題所需要的結局指標?結局指標的測量準確性如何?如:評價兒童哮喘控制有效的指標是 12 個月內的哮喘急性發作次數,且需要檢測肺功能的變化,那么數據庫中是否有肺功能檢測的結果;④ 數據庫是否已收集重要的潛在混雜因素的測量?如:研究對象入組時肺功能基線測量數據、是否合并其他過敏反應性疾病等。
需要強調的是:在研究設計前,充分了解數據庫有關特點,包括數據庫覆蓋的人群特征、已有變量、數據質量等,將為研究設計提供重要基礎,但不建議在事先采用數據挖掘的方式進行結果分析,然后根據陽性結果提示重新構建研究問題以及相應研究設計。
4 常見研究設計類型的選擇
采用真實世界數據開展觀察性研究時,研究者常常采用隊列研究(包括前瞻性、回顧性與雙向隊列)、病例-對照研究、巢式病例-對照研究、自身對照的病例系列等設計類型來評價治療結局。不同研究設計示意圖如下(圖 1~圖 4),研究者可以根據數據庫與研究問題的匹配程度,選擇不同的研究設計,必要時也可以同時選擇多種研究設計。




5 研究對象選擇標準
基于數據庫開展觀察性研究,應清晰地描述目標人群、數據庫覆蓋人群與研究人群之間的關系。此外,盡管是基于數據庫設計觀察性研究,其實從模擬隨機對照試驗的角度考慮研究對象的納入與排除標準,有助于控制潛在選擇偏倚與混雜偏倚[4]。
5.1 篩選目標疾病患者
基于數據庫開展研究,一般情況下無法根據公認的診斷標準對患者進行逐一篩選,常根據疾病診斷編碼來定義研究對象,但有的病例資料中之所以出現診斷編碼,可能是為了后續進行明確該疾病診斷而開出的檢查或初步診斷結果,而不是最終的真正診斷[6]。因此,基于數據庫篩選研究對象,需要明確符合目標疾病診斷的指示指標除了診斷編碼(如:ICD-9 或 ICD-10 編碼)外,還需要考慮是否需要構建算法,根據多個變量共同定義目標疾病患者,將金標準檢查結果、患者其他就診情況、指示藥品處方等多種信息進行綜合分析。此外,應對以上算法進行驗證,以提高研究對象篩選的準確度。
5.2 選擇首次用藥病例
在真實世界研究中,首次用藥病例(new user)可以是新診斷病例,也可以是在停藥足夠長時間后再次用藥者(new episode)。真實醫療環境中,如果沒有限定研究對象為首次用藥病例時,可能將那些之前曾接受治療,但因不能耐受或效果不好而放棄治療的患者定義為“非暴露組”,從而引入錯分偏倚(misclassification bias),高估療效。所以,選擇首次用藥病例是控制選擇性偏倚的一種有效途徑[7, 8]。
5.3 定義暴露相關時間點
與研究對象和暴露定義有關的時間點包括:起始用藥時間(prescription start)、終止用藥時間(prescription end)、暴露期(exposed period)、非暴露期(unexposed period)、誘導期(induction period)、風險期(risk period)、干預寬限期(grace period)、和洗脫期(washout period)。以采用自身對照病例系列研究設計評價藥物不良反應發生風險研究為例的時間軸(timeline)見圖 5[9],以上概念的具體定義如下:① 暴露期,指起始用藥時間和終止用藥時間之間的這段時期,起始用藥時間和終止用藥時間可根據數據庫中處方信息來確定。② 誘導期,指干預開始到累積暴露劑量達到起效水平時的時間跨度。③ 風險期,指初次藥物暴露誘導期后開始起效或可能發生安全事件的時間跨度。④ 寬限期,指從第一次開藥到服藥之間,受試者可能因為接受檢查或者由于醫院藥房藥物限制等原因而推遲服藥。這時,一般會考慮定義寬限期,即認為在這一治療觀察期加寬限期的時間跨度內,有連續 2 次處方記錄者定義為連續服藥,若超過此時間跨度無連續 2 次處方記錄者定義為停藥。例如:假設一次處方是 2 周的劑量,寬限期定義為 7 天,那么從某次處方記錄日期開始,將連續 21 天內連續 2 次處方的人群定義為連續用藥,從而可以計算暴露人群藥物暴露的時長。⑤ 洗脫期,指在治療過程中,第一階段治療與第二階段治療中間一段不服用試驗用藥品,或者服用安慰劑的時期,如果研究不局限為首次用藥病例時,應該明確定義洗脫期,即在定義的藥物使用時間之前的足夠長時間內(如 1 年)沒有使用過相關藥物。參考隨機對照試驗隨訪時間(如治療后 3 年),定義研究對象時應考慮納入研究對象接受干預的起始時間距離本研究啟動至少 3 年以上者。

研究者可以根據研究干預措施的特點,繪制由以上時間點構成的研究時間軸(如圖 5 所示),以幫助我們更準確地定義研究對象納入標準與暴露狀態。
5.4 盡量減少可能失訪人群
在采用真實世界數據開展觀察性研究時,如果失訪(loss of follow-up)率過多時,不僅會影響研究結果的真實性,更可能導致研究無法按計劃完成。為了確保有足夠多完成治療的病例,可以考慮篩選在接受本研究治療前,在足夠長時間內持續有醫療保險或就醫行為記錄的人群。但是需要注意的是:在設計觀察性研究時不應僅納入接受滿療程治療的患者,否則,可能會將那些因實際治療無效的病例錯分到對照組而導致療效被高估。
5.5 明確病例納入研究次數
明確在此研究中,每個病例僅納入 1 次,還是根據在不同時期的具體暴露情況多次納入研究;與之相對應,選擇對照人群進行匹配時,應考慮是否采取可放回重復匹配。
6 暴露定義
對于基于真實世界數據的觀察性研究,在定義暴露時盡量避免錯分偏倚是至關重要的,因此,研究者需要參考數據庫已有變量來建立暴露定義的算法,并對算法的準確性進行驗證。
首先,定義是否服用研究藥物。根據數據庫中的藥物編碼或藥品名稱,建立算法,將數據庫中以不同形式呈現的藥物均給予統一編碼;同時考慮是否采用多個變量來共同定義研究干預措施。注意分析數據庫中體現的藥物是否可以覆蓋患者可能暴露的所有藥物,考慮不同醫院或區域來源的患者是否會通過其他渠道獲得研究藥物。
然后,定義藥物暴露時間。藥物暴露時間是指第一次處方后的天數,天數可以通過處方開具的藥片數量、再次填寫記錄的天數,或者所述的每日服用的片劑數量或預設的指標來計算獲得。通常,使用真實數據開展研究的研究者需要明確基于日常處方還是直接通過用藥指導來推斷服藥時間,同時收集可以反映劑量相關信息或在規定時間內回收處方總量的變量,包括:持續時間、累計劑量以及是否為新近暴露,即目前用藥者、首次用藥者、最近用藥者、以及之前用藥者。
接下來,要評估是否存在停藥、交換和沾染等行為。一般情況下,如果兩次處方行為之間的時間跨度超過處方藥物劑量可以滿足的時間跨度和干預寬限期時間跨度,會定義為存在停藥行為。應該明確處方的每日劑量的假設方法(如果沒有記錄的話)、處方覆蓋的持續時間、以及用以規定例如交換、停藥、持續用藥和沾染等用藥特征的寬限期長度。
必要時,還需要根據數據庫中的信息,如藥物劑型、劑量、使用方式、使用跨度等變量計算累積暴露劑量。無論如何,基于已有數據庫開展觀察性研究,無法避免暴露信息的缺失,無論是左刪失(干預開始前用藥信息的缺失)還是右刪失(干預開始后用藥信息的缺失),上述情況都可能影響藥物暴露的定義,從而導致錯分偏倚。因此,可以設計不同算法來定義暴露,并針對不同的暴露分類進行敏感性分析。
7 暴露分組
真實醫療環境下,患者是否暴露于干預措施,或暴露于何種干預,不是通過隨機分配決定的。治療策略的選擇首先取決于醫生對特定結局的風險判斷,從而導致指示偏倚(indication bias),這一偏倚可能會對結局評價產生很強的混雜,而且,指示偏倚帶來的混雜程度很難評估,因為它基于期望的預后,而且這一期望是基于專業衛生人員在治療患者時形成的觀點而形成的。如圖 6 所示,在真實世界中形成的不同劑量組之間,可能存在由于醫生判斷與實際情況不一致而導致的錯分,當兩組之間錯分比例不可比時,將影響最終的效應估計[10]。雖然可以在統計分析階段采用分層分析、回歸分析、傾向性評分匹配等方法對混雜因素調整(參見真實世界數據與研究系列技術規范 4),但在研究設計時應考慮針對接受不同治療策略者,模擬基線的隨機分配,盡可能對已知混雜因素進行調整以確保比較組間基線可比。研究應事先充分分析在真實醫療環境下可能影響干預措施分配的相關混雜因素,再根據數據庫中是否包含這些信息決定模擬基線隨機分配的策略。常用的控制錯分偏倚、增加組間基線可比性的方法有:① 限定暴露組與對照組的關鍵特征,如:考慮到有些患者是因為前一種干預措施效果不佳的前提下,更換為當前的這種干預措施,這在隨機對照試驗中幾乎是不可能發生的,因此,建議考慮只納入首次接受治療的患者。此外,可以從研究對象的性別、年齡、基線時疾病的嚴重程度等關鍵特征進行限制;② 匹配,由于真實世界數據庫一般有較大樣本量,因此,可以根據暴露人群的基線特征,采用匹配的原則從數據庫中篩選基線可比的對照。至于匹配的方式,個體匹配或成組匹配都適用,但需要強調的一點是,由于計算的可行,不限制暴露組與對照組匹配比例(如,1∶4)。

在比較不同治療策略的臨床結局時,考慮不同分組間可比性的復雜程度遠遠大于針對治療與無治療進行比較時。
8 定義隨訪起始時間
在設計基于真實世界數據開展觀察性研究時,合理定義隨訪起始時間是至關重要的,因為研究對象的基線情況應在隨訪起始時滿足選擇標準而不是在其后,研究結局的測量也是在隨訪開始后發生的,而不是之前。真實世界研究中,可能存在兩種情況:① 在滿足入組標準的唯一時點時開始隨訪,如患者首次接受 PCI 或 CABG 治療的時間點,這種情況相對簡單;② 很多情況下,研究對象可能存在多個時間點均能滿足入組標準。如評價雌激素替代治療的效果時,當研究對象納入標準為“絕經后無慢性病史,且在過去兩年中無激素治療的女性”時,有的女性可能在 51~65 歲之間有多個時間點均能滿足該入組標準,為了控制兩組研究對象隨訪起始時間不同引入的偏倚,可以考慮采用以下處理方法:如果原始數據是按照定義好的隨訪時間間隔收集的,如某些正在實施的隊列研究,每兩年常規隨訪一次,那么可以針對滿足研究對象納入排除標準的時間基線,隨機取一次時間,將其定義為隨訪開始時間;如果原始數據收集沒有事先定義的隨訪時間間隔,如在臨床隨訪的慢性病患者,可以將隨訪起始時間定義為距離上一次治療時間間隔最大的那一個時間點,以保證患者經歷足夠長的藥物洗脫期。
9 研究結局評價
一般情況下,真實世界研究數據中關于結局的判斷不是通過盲法評價等方法來完成的,因此無法保證所有結局判斷的準確性。在開展觀察性研究時,建議盡量選擇客觀存在的終點指標,如,院內死亡或基于死亡登記數據庫確認的死亡,手術治愈率、嚴重不良反應發生率等。在構建研究結局篩選的算法時,應關注隨訪時間設計的合理性,原則上,目標臨床結局的發生時間與干預實施之間應有足夠長的時間間隔(與疾病自然進程相比較),如果在干預實施后的很短時間內即發生結局,此結局可能與干預無關,如果沒有加以區分的話,可能引入新的偏倚。同時,應區分目標臨床結局是疾病本身的進展結果,還是因干預而發生的結果。無論如何,為了減少結局評價不合理導致的潛在偏倚,研究者應根據實際情況開發定義研究結局的算法,并對其判斷的準確性進行驗證,然后在研究中采用。
10 統計分析計劃
本部分強調事先制定統計分析計劃,具體內容除參考《使用常規醫療數據開展觀察性研究的報告規范(藥物流行病學版)》[7, 8]的建議外,可重點考慮以下關鍵幾個方面:① 采用流程圖形式描述目標人群、數據庫覆蓋人群、適合研究納入排除標準的研究人群的篩選過程;② 原始數據清洗的步驟與方法;③ 是否在兩個及以上數據庫之間,使用個體水平、機構水平或其他數據進行數據鏈接,鏈接的方法以及對其進行質量評價的方法與結果;④ 如何處理缺失數據;⑤ 如何分組以及分組的依據;⑥ 采用多種研究設計時,以哪種研究設計為主進行主要分析;⑦ 如何調整基線不可比;⑧ 是否進行亞組分析或檢測交互作用;⑨ 如何控制混雜;⑩ 是否進行敏感性分析等。詳細內容可參見真實世界數據與研究系列技術規范第四篇。
11 潛在偏倚及控制
基于真實世界數據設計觀察性研究來評價治療結局,除了觀察性研究涉及的常見偏倚類型外,還存在特有的偏倚類型,如:已有數據庫中不包含已知的混雜因素(混雜因素缺失)或者以替代(surrogate/proxy)變量的形式被納入到研究中時引入的混雜效果,替代變量是否造成差異性錯分對研究結果意義重大。通常采用敏感性分析,比較結果的一致性來達到控制混雜的目的;此外,疾病的共診斷及競爭性死因也是造成死因相關真實世界分析結果偏倚的重要原因。事實上,流行病學研究中常用的偏倚控制措施廣泛適用于真實世界研究(表 1)。針對潛在偏倚,研究者需要在研究的設計階段、實施階段以及分析階段進行識別,并預先制定相應控制措施。

基于真實世界數據開展觀察性研究雖然在數據采集層面可以節約時間、經費,但在設計層面的復雜程度需要引起大家的重視,尤其是評價預期效應較小的臨床干預效果時[11]。本技術規范旨在提醒研究者在設計基于真實世界數據的觀察性研究時,應嚴格定義每一項研究要素,以降低偏倚風險,提高因果推斷的真實性。但本技術規范的適用范圍可能有限,需要大家不斷地進行完善與補充。