與傳統臨床試驗相比,真實世界臨床研究對所得證據的真實性(現實性)、適用性及時效性提出了更高要求。為滿足這一需求,我們提出發揮觀察性與實驗性臨床研究各自優勢,將二者協同應用的思路。通過比較觀察性與實驗性臨床研究的特點,提出二者至少可在提供證據、設計實施和數據分析三方面開展協同應用,為決策者提供更及時、高效、穩健和全面的證據。此外,在中醫藥療效評價領域,傳統以 RCT 為主的實驗性研究設計并不完全適用,而與觀察性研究的協同或可為中醫藥臨床研究提供一些啟示。
引用本文: 張曉雨, 陳靜, 趙晨, 商洪才. 真實世界理念下觀察性與實驗性臨床研究協同應用. 中國循證醫學雜志, 2018, 18(4): 284-288. doi: 10.7507/1672-2531.201710034 復制
1 真實世界研究理念下臨床研究的需求
1.1 真實世界研究概述
真實世界研究(real world studies/real world research,RWS/RWR)是圍繞相關科學問題,對來自真實世界的數據,綜合運用臨床/藥物流行病學、生物統計學、循證醫學、藥物經濟學等多學科方法,整合多種數據資源而開展研究,從而獲得更符合臨床實際的證據[1, 2]。它的最早提出主要為應對上市前臨床試驗所無法回答的臨床問題,如上市后藥品對不同特征人群的療效差異、在現實醫療環境下的實際療效等。隨著對真實世界研究的認識加深及研究與決策需求的推動,真實世界研究的應用范圍也在進一步擴展和延伸,包括評估患者健康狀況、疾病及診療過程,評估預后及風險預測,支持醫療政策制定等多個方面。
1.2 與傳統臨床試驗比較,真實世界研究的特點與需求
傳統臨床試驗對干預措施、實施環境及研究人群的嚴格限定限制了結論的外推性與實用性;且大規模臨床試驗花費大、耗時長,使得從研究結果到轉化應用有時會存在一定滯后性。相比較下,真實世界研究強調在現實醫療環境與生活條件下開展,因此研究結果更加貼近現實。通過綜合運用多種方法與數據,評估現實狀況下的疾病特征及診療特點、不同人群的效果差異及社會經濟因素影響等實際問題,為醫療決策提供更多、更及時有效的支持。其與真實世界研究的比較見表 1。
由此可見,真實世界研究關注的重點在于評估臨床治療在經濟社會等因素影響下的實際效果,并評估治療措施在不同人群中的適用程度及如何將臨床治療措施加快轉化為醫療決策,即對研究證據的真實性(現實性)、適用性和時效性提出了更高要求。那么如何適應這一需求?我們認為發揮觀察性與實驗性臨床研究各自優勢,將二者協同應用,將提供一個新的研究思路。

2 觀察性與實驗性臨床研究的比較與互補
實驗性研究(experimental studies)又稱臨床試驗(clinical trials),是指研究者為避免偏倚對組間比較的影響,選擇特定人群給予特定的干預措施,并進行隨訪及結局評價[3]的研究。觀察性研究(observational study,OS),又稱為調查研究(survey research)、非干預性研究(non-interventional research,NIR),主要表現為客觀地觀察和收集信息而不參與事件的發生發展過程[4],并根據是否存在比較又可分為描述性研究與分析性研究。
傳統上按干預措施是否由研究者決定和分配,來區分觀察性與實驗性研究。也有學者提出實驗性與觀察性的根本區別在于是否采用了隨機分組方法使組間更有可比性[5]。需要指出的是,真實世界研究并不排斥隨機對照設計,其同時包括了在真實世界條件下開展的干預性和非干預性研究。二者有著各自的適用范圍、優勢及不足,在許多方面可以相互補充,為提高真實世界研究證據的真實性(現實性)、適用性和時效性提供支持。
首先,從證據強度來看,實驗性研究,尤其是高質量的隨機對照試驗(randomized controlled trial,RCT)原始研究及系統評價可以確證因果關系,證據級別最高;但結論外推性有限,并不適用于所有研究問題。觀察性研究能夠補充 RCT 所不能獲得的信息,但大多只能得出相關性結論。其次,在可行性方面,實驗性研究由于倫理、可行性及花費原因,在實施方面相對較難,在很多情況下甚至難以實行;而觀察性研究在實施方面更為容易,能對常規醫療環境下的大規模人群進行長期隨訪,且可以利用既有數據庫的數據。最后,在數據分析方面,實驗性研究組間可比性好,混雜因素較少,內部真實性高;而觀察性研究容易受偏倚和混雜因素影響,且數據完整性與質量控制較難。兩者比較見表 2。
3 如何將二者協同應用
3.1 提供證據
觀察性與實驗性臨床研究相互配合,能在臨床研究的不同階段發揮不同作用。在調查階段發現線索、提出假設;在分析階段進行因果推斷與確證;在結論或成果推廣階段評估應用效果,進行后續評價。
觀察性與實驗性臨床研究互相補充,能充實證據內容。實驗性研究能夠評估干預效力,觀察性研究可提供更為豐富的信息,如治療模式變化、醫療資源利用情況、新療法的實際效果、安全性及患者對治療的依從性等,因此可做到相互補充。
采用觀察性與實驗性臨床研究的結論互相參考,能提高研究效率。有研究顯示,二者對同一研究問題在多數情況下能夠得出一致性結論[8],故綜合二者結論,會增加證據的可靠性。當出現不一致結論時,通過分析差異性結論產生的原因,如存在選擇性偏倚、異質性較大、統計效力不足、隨訪時間不同等,可為進一步深入研究提供方向與依據。Murad 等[9]指出由研究設計類型決定證據強度的證據金字塔已發生變化,不同類型研究證據重要性間的界限逐漸模糊,呈波浪式改變。故二者協同應用可以提供更加高效與穩健的證據,減少單純實驗性研究結果所帶來的與真實世界的偏離。
3.2 設計實施
在設計實施階段將二者的設計元素合理結合,有助于提高研究的論證強度、成本-效益,更重要的是可提高證據的時效性,加快成果轉化[10]。這里介紹兩種具有啟發意義的設計方案。
3.2.1 基于隊列的多重 RCT 設計[11 ]
該設計將 RCT 與隊列研究相結合,其最初設計目的是解決傳統 RCT 患者招募難、比較多種干預難,同時為減少倫理問題及患者偏好的問題。
方案設計:從與研究問題相關的大規模觀察性隊列中招募患者,原始隊列中所有患者均行定期隨訪。確定符合條件的患者進入 RCT 研究 A(納入人群為 NA)。其中隨機抽取一定數量的患者(抽取人群為 nA),經知情同意后給予干預;剩下的患者(NA–nA)則不予干預,繼續真實世界環境中的常規治療。最后比較 A 研究中干預措施與常規治療的效果。同樣的步驟也可在 B 研究中實現。由于 B 研究與 A 研究人群的同質性較好,便于間接比較兩種甚至多種干預措施。但該研究設計的缺點則是不能采用安慰劑作為對照措施,不適用于急性病的研究及結局指標收集、測量較難者,且患者對干預治療需有較高的接受度。試驗設計方案見圖 1。
由于該方案是從前期隊列研究中納入患者,使得試驗設計從發現臨床問題到評價相應干預措施效果實現了無縫銜接,極大提高了研究效率,且對驗證觀察性研究所提出的臨床問題更具說服力,可作為真實世界臨床實踐下開展療效比較研究的方案設計之一。

3.2.2 改良 Zelen’s 設計[12 ]
與前一種研究設計相似,該設計也是基于大型隊列研究。首先從隊列研究人群中招募符合條件的受試者,詢問是否同意接受觀察,同意者納入研究并隨機分為干預組與非干預組。非干預組只進行觀察隨訪,而干預組需再獲得干預治療的知情同意。方案設計見圖 2。
該方案可提高患者招募效率,適用于行為干預或相對安全、接受度高的干預方式在慢性疾病中的作用。對照組不知曉其他治療方法的存在,可避免患者因心理落差影響研究結果的評價。數據分析時采用意向性分析(ITT)方法,但如交叉效應過大會對治療效果的評價產生“稀釋”作用。隨機分組前后有兩次知情同意環節,模擬真實世界下“以患者為中心”的知情同意過程,提高了研究的可操作性。

無論觀察性還是實驗性研究,更多地是人為劃分的研究設計類型,筆者認為應有所區別但又不可過于拘泥于這種劃分。通過對兩種研究設計類型的基本設計元素進行深入分析(如實驗性研究更強調隨機、盲法、內部一致性;觀察性研究重視現實環境中多樣的疾病、人群、治療及結局等),可創建出更符合特定研究目的、利于操作的設計方案,更好地協助臨床決策者進行證據收集、評價與利用,適應更多樣的醫療衛生決策需求。
3.3 數據分析
在數據分析方面,隨著觀察性與實驗性臨床研究數據量增加,有學者指出將隨機與觀察性研究數據進行聯合分析,較單獨分析可以提供更多及時、全面的信息[13]。但該領域的數據分析方法尚處于初步探索階段甚至有些存在爭議,目前主要存在兩類方式。
3.3.1 研究效應的線性合并
根據偏倚潛在相關變量(如設計元素、質量評分)調整模型均值以確定特定效應量大小。最多見的是直接將 RCT 與觀察性研究的效應量利用固定效應模型/隨機效應模型進行合并。也有學者提出應只納入高質量研究文獻,如一篇 Meta 分析評價血管內超聲介導的藥物涂層支架植入術,最終納入了 3 篇 RCT 與 9 篇高質量觀察性研究文獻,應用固定與隨機效應模型合并分析主要不良心臟事件發生率[14]。另一種做法則是不剔除低質量文獻,而是根據研究質量的不同賦予其不同權重。
3.3.2 根據偏倚產生機制構建模型
與傳統 Meta 分析只簡單得出平均效應量不同,根據實驗性與觀察性臨床研究的偏倚產生機制構建廣義偏倚模型顯得更為合理,主要思路為合并效應量時充分考慮兩種研究設計類型與研究對象的差異。如美國審計署(US General Accounting Office,GAO)提出應用交叉設計合成(cross design synthesis,CDS)方法,評價與調整影響 RCT 外部效應及觀察性研究內部效應的偏倚,并將調整后結果合并[15, 16]。例如應用傾向性評分法[17],對抗逆轉錄病毒療法治療艾滋病的 RCT 數據進行再加權處理,與疾病控制與預防中心(Centers for Disease Control and Prevention,CDC)數據庫中感染人類免疫缺陷病毒的美國人口年齡、性別、民族信息相匹配,以評價臨床試驗結果是否能外推到指定目標人群。
探討如何從數據分析方面,發揮不同研究類型的優勢,彌補相互間的不足,具有一定的借鑒意義。
4 對中醫臨床研究的啟示
目前,臨床研究發展方向有一部分越來越接近真實世界的需求與趨勢。我們認為,中醫藥的起源就是不斷從臨床實踐出發,又以臨床應用為目的,故這種臨床研究向真實世界的回歸符合中醫藥臨床研究思路。實驗性研究與觀察性研究的結合或許可為中醫藥療效評價提供新思路。
4.1 中成藥研發與評價
與西醫化學藥物從實驗室研發開始不同,中成藥組方主要從臨床實踐而來。經過醫師長期病例積累與臨床體悟,形成經驗用方,在臨床療效基礎上進一步開發為中成藥。因此,明確該經驗方的臨床療效、組方規律及適應癥成為首要問題。多年療效評價臨床研究發現,采用 RCT 評價具有加減變化的復方湯劑療效的適用性有限,而非隨機療效觀察性研究及病例系列提供的豐富的關聯性依據不可或缺,在前期研究中需要重視規范的觀察性研究與實驗性研究證據的綜合,以及在藥品生命周期的不同階段,合理應用兩種方法,提供及時、高效、穩健、全面的證據。
4.2 中醫預防康復
RCT 可評價行為、生活方式等干預的短期效果,但對于長期獲益的時間進程變化、劑量效應關系以及與環境的交互作用則難以評估。在這些方面更需要觀察性研究數據的支持。如何將二者結合應用以更好展現中醫藥養生預防優勢值得深入研究。
4.3 對個體患者的整體評價
以人為評價主體,較以干預措施為評價主體的研究模式更有利于全面評價中醫辨證論治的個體化特點[18]。通過對患者個體進行長時程追蹤隨訪,對治療情況、病情變化、證候演變及遠期預后進行整體動態評價,利用臨床研究數據積累與歸納補充個人經驗積累,發掘臨床實踐中的診療規律,有望為中醫診療水平的進一步提高提供新的動力。
1 真實世界研究理念下臨床研究的需求
1.1 真實世界研究概述
真實世界研究(real world studies/real world research,RWS/RWR)是圍繞相關科學問題,對來自真實世界的數據,綜合運用臨床/藥物流行病學、生物統計學、循證醫學、藥物經濟學等多學科方法,整合多種數據資源而開展研究,從而獲得更符合臨床實際的證據[1, 2]。它的最早提出主要為應對上市前臨床試驗所無法回答的臨床問題,如上市后藥品對不同特征人群的療效差異、在現實醫療環境下的實際療效等。隨著對真實世界研究的認識加深及研究與決策需求的推動,真實世界研究的應用范圍也在進一步擴展和延伸,包括評估患者健康狀況、疾病及診療過程,評估預后及風險預測,支持醫療政策制定等多個方面。
1.2 與傳統臨床試驗比較,真實世界研究的特點與需求
傳統臨床試驗對干預措施、實施環境及研究人群的嚴格限定限制了結論的外推性與實用性;且大規模臨床試驗花費大、耗時長,使得從研究結果到轉化應用有時會存在一定滯后性。相比較下,真實世界研究強調在現實醫療環境與生活條件下開展,因此研究結果更加貼近現實。通過綜合運用多種方法與數據,評估現實狀況下的疾病特征及診療特點、不同人群的效果差異及社會經濟因素影響等實際問題,為醫療決策提供更多、更及時有效的支持。其與真實世界研究的比較見表 1。
由此可見,真實世界研究關注的重點在于評估臨床治療在經濟社會等因素影響下的實際效果,并評估治療措施在不同人群中的適用程度及如何將臨床治療措施加快轉化為醫療決策,即對研究證據的真實性(現實性)、適用性和時效性提出了更高要求。那么如何適應這一需求?我們認為發揮觀察性與實驗性臨床研究各自優勢,將二者協同應用,將提供一個新的研究思路。

2 觀察性與實驗性臨床研究的比較與互補
實驗性研究(experimental studies)又稱臨床試驗(clinical trials),是指研究者為避免偏倚對組間比較的影響,選擇特定人群給予特定的干預措施,并進行隨訪及結局評價[3]的研究。觀察性研究(observational study,OS),又稱為調查研究(survey research)、非干預性研究(non-interventional research,NIR),主要表現為客觀地觀察和收集信息而不參與事件的發生發展過程[4],并根據是否存在比較又可分為描述性研究與分析性研究。
傳統上按干預措施是否由研究者決定和分配,來區分觀察性與實驗性研究。也有學者提出實驗性與觀察性的根本區別在于是否采用了隨機分組方法使組間更有可比性[5]。需要指出的是,真實世界研究并不排斥隨機對照設計,其同時包括了在真實世界條件下開展的干預性和非干預性研究。二者有著各自的適用范圍、優勢及不足,在許多方面可以相互補充,為提高真實世界研究證據的真實性(現實性)、適用性和時效性提供支持。
首先,從證據強度來看,實驗性研究,尤其是高質量的隨機對照試驗(randomized controlled trial,RCT)原始研究及系統評價可以確證因果關系,證據級別最高;但結論外推性有限,并不適用于所有研究問題。觀察性研究能夠補充 RCT 所不能獲得的信息,但大多只能得出相關性結論。其次,在可行性方面,實驗性研究由于倫理、可行性及花費原因,在實施方面相對較難,在很多情況下甚至難以實行;而觀察性研究在實施方面更為容易,能對常規醫療環境下的大規模人群進行長期隨訪,且可以利用既有數據庫的數據。最后,在數據分析方面,實驗性研究組間可比性好,混雜因素較少,內部真實性高;而觀察性研究容易受偏倚和混雜因素影響,且數據完整性與質量控制較難。兩者比較見表 2。
3 如何將二者協同應用
3.1 提供證據
觀察性與實驗性臨床研究相互配合,能在臨床研究的不同階段發揮不同作用。在調查階段發現線索、提出假設;在分析階段進行因果推斷與確證;在結論或成果推廣階段評估應用效果,進行后續評價。
觀察性與實驗性臨床研究互相補充,能充實證據內容。實驗性研究能夠評估干預效力,觀察性研究可提供更為豐富的信息,如治療模式變化、醫療資源利用情況、新療法的實際效果、安全性及患者對治療的依從性等,因此可做到相互補充。
采用觀察性與實驗性臨床研究的結論互相參考,能提高研究效率。有研究顯示,二者對同一研究問題在多數情況下能夠得出一致性結論[8],故綜合二者結論,會增加證據的可靠性。當出現不一致結論時,通過分析差異性結論產生的原因,如存在選擇性偏倚、異質性較大、統計效力不足、隨訪時間不同等,可為進一步深入研究提供方向與依據。Murad 等[9]指出由研究設計類型決定證據強度的證據金字塔已發生變化,不同類型研究證據重要性間的界限逐漸模糊,呈波浪式改變。故二者協同應用可以提供更加高效與穩健的證據,減少單純實驗性研究結果所帶來的與真實世界的偏離。
3.2 設計實施
在設計實施階段將二者的設計元素合理結合,有助于提高研究的論證強度、成本-效益,更重要的是可提高證據的時效性,加快成果轉化[10]。這里介紹兩種具有啟發意義的設計方案。
3.2.1 基于隊列的多重 RCT 設計[11 ]
該設計將 RCT 與隊列研究相結合,其最初設計目的是解決傳統 RCT 患者招募難、比較多種干預難,同時為減少倫理問題及患者偏好的問題。
方案設計:從與研究問題相關的大規模觀察性隊列中招募患者,原始隊列中所有患者均行定期隨訪。確定符合條件的患者進入 RCT 研究 A(納入人群為 NA)。其中隨機抽取一定數量的患者(抽取人群為 nA),經知情同意后給予干預;剩下的患者(NA–nA)則不予干預,繼續真實世界環境中的常規治療。最后比較 A 研究中干預措施與常規治療的效果。同樣的步驟也可在 B 研究中實現。由于 B 研究與 A 研究人群的同質性較好,便于間接比較兩種甚至多種干預措施。但該研究設計的缺點則是不能采用安慰劑作為對照措施,不適用于急性病的研究及結局指標收集、測量較難者,且患者對干預治療需有較高的接受度。試驗設計方案見圖 1。
由于該方案是從前期隊列研究中納入患者,使得試驗設計從發現臨床問題到評價相應干預措施效果實現了無縫銜接,極大提高了研究效率,且對驗證觀察性研究所提出的臨床問題更具說服力,可作為真實世界臨床實踐下開展療效比較研究的方案設計之一。

3.2.2 改良 Zelen’s 設計[12 ]
與前一種研究設計相似,該設計也是基于大型隊列研究。首先從隊列研究人群中招募符合條件的受試者,詢問是否同意接受觀察,同意者納入研究并隨機分為干預組與非干預組。非干預組只進行觀察隨訪,而干預組需再獲得干預治療的知情同意。方案設計見圖 2。
該方案可提高患者招募效率,適用于行為干預或相對安全、接受度高的干預方式在慢性疾病中的作用。對照組不知曉其他治療方法的存在,可避免患者因心理落差影響研究結果的評價。數據分析時采用意向性分析(ITT)方法,但如交叉效應過大會對治療效果的評價產生“稀釋”作用。隨機分組前后有兩次知情同意環節,模擬真實世界下“以患者為中心”的知情同意過程,提高了研究的可操作性。

無論觀察性還是實驗性研究,更多地是人為劃分的研究設計類型,筆者認為應有所區別但又不可過于拘泥于這種劃分。通過對兩種研究設計類型的基本設計元素進行深入分析(如實驗性研究更強調隨機、盲法、內部一致性;觀察性研究重視現實環境中多樣的疾病、人群、治療及結局等),可創建出更符合特定研究目的、利于操作的設計方案,更好地協助臨床決策者進行證據收集、評價與利用,適應更多樣的醫療衛生決策需求。
3.3 數據分析
在數據分析方面,隨著觀察性與實驗性臨床研究數據量增加,有學者指出將隨機與觀察性研究數據進行聯合分析,較單獨分析可以提供更多及時、全面的信息[13]。但該領域的數據分析方法尚處于初步探索階段甚至有些存在爭議,目前主要存在兩類方式。
3.3.1 研究效應的線性合并
根據偏倚潛在相關變量(如設計元素、質量評分)調整模型均值以確定特定效應量大小。最多見的是直接將 RCT 與觀察性研究的效應量利用固定效應模型/隨機效應模型進行合并。也有學者提出應只納入高質量研究文獻,如一篇 Meta 分析評價血管內超聲介導的藥物涂層支架植入術,最終納入了 3 篇 RCT 與 9 篇高質量觀察性研究文獻,應用固定與隨機效應模型合并分析主要不良心臟事件發生率[14]。另一種做法則是不剔除低質量文獻,而是根據研究質量的不同賦予其不同權重。
3.3.2 根據偏倚產生機制構建模型
與傳統 Meta 分析只簡單得出平均效應量不同,根據實驗性與觀察性臨床研究的偏倚產生機制構建廣義偏倚模型顯得更為合理,主要思路為合并效應量時充分考慮兩種研究設計類型與研究對象的差異。如美國審計署(US General Accounting Office,GAO)提出應用交叉設計合成(cross design synthesis,CDS)方法,評價與調整影響 RCT 外部效應及觀察性研究內部效應的偏倚,并將調整后結果合并[15, 16]。例如應用傾向性評分法[17],對抗逆轉錄病毒療法治療艾滋病的 RCT 數據進行再加權處理,與疾病控制與預防中心(Centers for Disease Control and Prevention,CDC)數據庫中感染人類免疫缺陷病毒的美國人口年齡、性別、民族信息相匹配,以評價臨床試驗結果是否能外推到指定目標人群。
探討如何從數據分析方面,發揮不同研究類型的優勢,彌補相互間的不足,具有一定的借鑒意義。
4 對中醫臨床研究的啟示
目前,臨床研究發展方向有一部分越來越接近真實世界的需求與趨勢。我們認為,中醫藥的起源就是不斷從臨床實踐出發,又以臨床應用為目的,故這種臨床研究向真實世界的回歸符合中醫藥臨床研究思路。實驗性研究與觀察性研究的結合或許可為中醫藥療效評價提供新思路。
4.1 中成藥研發與評價
與西醫化學藥物從實驗室研發開始不同,中成藥組方主要從臨床實踐而來。經過醫師長期病例積累與臨床體悟,形成經驗用方,在臨床療效基礎上進一步開發為中成藥。因此,明確該經驗方的臨床療效、組方規律及適應癥成為首要問題。多年療效評價臨床研究發現,采用 RCT 評價具有加減變化的復方湯劑療效的適用性有限,而非隨機療效觀察性研究及病例系列提供的豐富的關聯性依據不可或缺,在前期研究中需要重視規范的觀察性研究與實驗性研究證據的綜合,以及在藥品生命周期的不同階段,合理應用兩種方法,提供及時、高效、穩健、全面的證據。
4.2 中醫預防康復
RCT 可評價行為、生活方式等干預的短期效果,但對于長期獲益的時間進程變化、劑量效應關系以及與環境的交互作用則難以評估。在這些方面更需要觀察性研究數據的支持。如何將二者結合應用以更好展現中醫藥養生預防優勢值得深入研究。
4.3 對個體患者的整體評價
以人為評價主體,較以干預措施為評價主體的研究模式更有利于全面評價中醫辨證論治的個體化特點[18]。通過對患者個體進行長時程追蹤隨訪,對治療情況、病情變化、證候演變及遠期預后進行整體動態評價,利用臨床研究數據積累與歸納補充個人經驗積累,發掘臨床實踐中的診療規律,有望為中醫診療水平的進一步提高提供新的動力。