引用本文: 唐立, 康德英, 喻佳潔, 劉佳利, 賈鵬麗, 孫鑫. 實效性隨機對照試驗:真實世界研究的重要設計. 中國循證醫學雜志, 2017, 17(9): 999-1004. doi: 10.7507/1672-2531.201708037 復制
近年來,循證臨床實踐對真實世界證據的需求不斷增加。由于各種原因,既往的認識常常把真實世界研究與觀察性研究對等起來。而隨著認識的深入,實效性隨機對照試驗(pragmatic randomized controlled trial,pRCT)逐漸被視為真實世界研究的重要構成,并日益成為醫療衛生領域關注的熱點證據之一。然而,目前對 pRCT 證據的認識、理解和運用等方面還存在較多偏差和誤區。例如,有人認為 pRCT 既然作為臨床試驗,應該遵循 GCP 臨床試驗規定,其設計需要嚴格按照 GCP 規范實施;另一部分人認為 pRCT 不需要嚴格控制研究質量、無需實施盲法等。此外,pRCT 定義在研究管理(如倫理審批)方面也存在諸多混淆。為此,本文將系統闡述 pRCT 的概念、特征和運用等,以幫助讀者全面、正確地認識和運用 pRCT。
1 實效性隨機對照試驗的概念
實效性隨機對照試驗,又稱為實用性隨機對照試驗,是在真實臨床醫療環境下,采用隨機、對照的方式,比較不同干預措施的治療結果(包括實際效果、安全性、成本等)的研究。pRCT 是真實世界研究中的重要設計,其實質是一種試(實)驗性研究[1]。
與用于申請新藥審批的傳統 RCT 相比,pRCT 的典型特征在于:在臨床醫療實際環境條件下,將相關醫療干預措施用于具有代表性的患者群體,采用對利益相關者(如臨床醫生、患者、醫療決策者、醫療保險機構等)有重要意義的結局指標(如心梗、生存質量、死亡、成本等)進行評估。研究結果緊密貼近臨床醫療實際,可更好地為醫療決策提供科學依據,幫助利益相關者在現有不同的干預措施中做出最佳選擇。
2 實效性隨機對照試驗的起源和發展
1967 年法國兩位統計學家 Schwartz 和 Lellouch 最早提出 pRCT 的概念。他們明確指出:治療性試驗的研究目的可以劃分為在不同治療方法中做出選擇(實效性),或驗證某種生物學機理(解釋性)[2]。1998 年,Roland 和 Torgerson 進一步指出,解釋性隨機對照試驗(exploratory randomized controlled trial,eRCT)的目的通常是評價某種干預措施在理想的、嚴格控制環境下的效力(efficacy),pRCT 則是衡量某治療方法在常規臨床實踐中的療效(effectiveness)[3]。
2008 年 Zwarenstein 等[4]發表了《提高實效性臨床試驗的報告質量-CONSORT 聲明的擴展》。隨后,由 Thorpe 等[5]臨床試驗研究者和方法學家組成的研究團隊開發出 PRECIS(pragmatic-explanatory continuum indicator summary)工具及雷達圖,從研究的 10 個維度出發,用以幫助研究者、臨床醫生、患者、政策制定者等評價和區分解釋性和實用性臨床試驗。2015 年,Loudon 等改進了 PRECIS 工具(PRECIS-2)(圖 1),不僅優化了維度設置,還增加了基于 5 分李克特量表的各維度量化評分,以 1 分和 5 分分別代表純粹的解釋性設計和純粹的實效性設計[6]。同年,Califf 和 Sugarman 將 pRCT 界定為“以告知決策者某一生物醫學干預或行為健康干預在個體或群體水平的獲益(benefits)、負擔(burdens)和風險(risks)為主要目的 RCT”[7]。

3 實效性隨機對照試驗的主要特征
pRCT 主要目的在于衡量干預措施在真實世界環境下的結果,為醫療衛生決策提供依據。這一目的決定了 pRCT 在設計和實施過程中的特點。
3.1 pRCT 設計要素及特點
3.1.1 pRCT 的研究場所和環境 我國大部分傳統臨床試驗的開展集中在醫務人員科研素質和醫療水平都相對較高的醫院。這種特定的研究環境往往限制了研究結果的外推性,如實施地點為社區醫院時,我們無法合理推測干預措施在社區醫院的實踐結果。
pRCT 關注的是醫療干預措施在實際臨床環境下的結果如何。因“真實世界”中絕大部分治療不可能只針對某種級別或類型醫院的患者,故 pRCT 覆蓋醫院范圍較廣。但需注意的是:實際醫療中部分疾病,如惡性腫瘤、重度抑郁癥等,對醫護人員或醫療設備有特殊要求,只能在特定醫院開展診療活動,因此 pRCT 的研究環境并非越廣泛越好,還需要綜合疾病特征和臨床實際考慮。
3.1.2 pRCT 的研究對象 pRCT 的研究對象也應盡可能與真實醫療環境中使用該干預措施的群體相近,即能準確反映臨床實踐中患者的疾病嚴重程度、合并癥、年齡、依從性、合并用藥等系列特征。因此 pRCT 的納入標準較寬泛、排除標準較少,允許不同研究對象間存在臨床異質性。但為保證統計分析具有足夠的檢驗效能,pRCT 所需樣本量相對較大。
3.1.3 pRCT 的干預措施和對照設定 pRCT 的干預措施既可是一種特定的藥物,也可是復雜干預。作為干預策略時,需確保它可以在臨床實踐中合理推廣,包括不必事先對醫護人員進行大量額外培訓或購置特殊儀器。由于 pRCT 的本質仍然為干預性研究,故需要對干預措施的內容和如何實施做出限定,但干預方案的低標準化正是 pRCT 的重要特征之一。它允許干預實施者基于患者疾病特征、自身專業技能和執業經驗等實際情況,靈活決定干預措施的實施細節。例如一項治療頑固性抑郁癥的研究中,干預措施為精神分析心理療法,治療師依據精神分析療法手冊治療干預組患者。手冊僅闡述了實施干預措施的指導原則,而具體干預方法可由治療師根據患者的敘述進行個體化調整[8]。同時,pRCT 對受試者的依從性往往也給予足夠的靈活度,不強調所有受試者必須按照分配方案完成試驗,甚至可能將依從性作為一個結局指標進行分析,若依從性差則提示該干預措施在現實情況下行不通。
因日常醫療中幾乎不使用安慰劑治療患者,故 pRCT 的對照組很少選用安慰劑,通常選用常規或目前公認最佳的臨床治療方法。
3.1.4 pRCT 的結局設定 pRCT 一般設定多個終點結局,包括主要結局和次要結局。主要結局強調選擇對患者(或研究結果的運用者)有重要臨床意義的指標,即能直接反映健康變化的測量指標,一般不采用生物學或影像學指標等中間指標。如:預防老年骨質疏松的 pRCT,主要結局常選用跌倒、骨折等更具臨床意義的長期終點指標,而非骨密度、肌肉強度等間接指標。
采集成本數據進行如成本-效果分析(cost-effectiveness analysis)等衛生經濟學評價也是 pRCT 的一個關鍵組成部分,有利于醫療服務提供者從成本和結果不盡相同的數個備選方案中選擇最佳方案,從而引導有限的醫療資源分配給成本-效益更高的治療手段。
3.1.5 pRCT 的設計類型 隨機化分組是 pRCT 的關鍵。與觀察性真實世界研究相比,pRCT 可通過隨機的方法平衡組間已知和未知的預后因素(prognostic factor),提高組間可比性,減少選擇性偏倚。pRCT 可采用整群隨機(cluster randomization)或個體隨機(individual randomization)方法。在 pRCT 的范疇內,整群隨機通常是評價一個項目干預(program intervention)的干預結果。當這些項目干預措施只能施加于群體(如醫院、醫生或社區)而非個體時,應基于群體進行干預。例如,研究社區宣傳欄的健康教育對控制食鹽攝入的作用,干預措施會影響整個社區的人群,此時只能以社區為單位進行隨機化分組。若干預措施針對個體時會對群體里的其他人產生影響,即出現“沾染”(contamination)時,應當采用整群隨機方面。如,在產后病房開展促進母乳喂養的干預研究,干預組的產婦可能會與醫院內其他產婦分享信息,從而影響其他產婦的母乳喂養行為。但整群隨機并非 pRCT 的優先選擇。在能實現的情況下個體隨機仍然是優選。例如,針對上市后藥物或器械的比較效果評價時,通常會采用個體隨機。
此外,在實際醫療環境下,面臨多種可供選擇的治療方案,由于患者或者醫生具有強烈的意愿,常規的隨機可能無法實現。在這種情況下,pRCT 還可結合患者的意愿和偏好進行分組。如:將無明顯偏好且愿意接受隨機分組的患者隨機分入干預組和對照組,拒絕隨機分組的患者則根據其偏好接受干預或對照措施。同時,在開展如手術等復雜干預研究時,常出現因醫生對干預和對照措施的掌握程度不同而導致的專長差異偏倚(differential expertise bias)。由于掌握某種手術方式需特定訓練和長期經驗累積,術者須經過一定例數的操作、不斷學習,才能熟練掌握手術技能,達到良好手術效果。故在解決某一特定疾病問題時,一名外科醫生可能傾向于只使用或主要使用某一種手術方式。如某 RCT 中,擅長試驗組手術方式的外科大夫分別治療了試驗組和對照組 70% 的患者,而擅長對照組手術方式的外科大夫治療了兩組 30% 的患者,則研究結果將有利于試驗組,即夸大了試驗組手術方式的效果。在這種情況下,推薦采用基于專長(expertise based)的隨機化分組(仍為個體隨機):即隨機分配到干預組的受試者,只由擅長干預措施的醫生實施干預;而分配到對照組的受試者,由擅長對照措施的醫生進行干預,從而克服專長差異偏倚對研究結果的影響[9]。
隨著新的臨床研究方法的出現和不斷進展,為了提高研究效率,使更多的受試者獲益,pRCT 也開始采用適應性設計(adaptive designs),即在臨床試驗開始后,根據累積的信息,動態修改試驗設計的某些方面,包括:樣本量調整、組間治療分配比例調整、臨床終點更改、統計檢驗方法變更、提前中止試驗等。適應性設計方案必須預先制定并寫入臨床試驗研究方案中,對試驗的修改應盡量在試驗的早期階段進行。
3.2 pRCT 的實施特點
3.2.1 pRCT 的數據源及其采集 pRCT 的數據來源既包括與傳統臨床試驗類似的、以特定研究目的開展的主動數據收集,也常利用諸如電子病歷記錄(electronic medical record,EMR)、出生/死亡登記項目、醫保理賠數據系統等常規健康數據庫提取數據。盡管這些數據來源與觀察性真實世界研究有相似之處,但在具體使用過程中存在差異,表現如下:
3.2.1.1 對象篩選與入組 因 pRCT 的納入標準較寬泛,排除標準相對較少,研究者一般可通過 EMR 初步篩選研究對象、獲取部分基線信息。
3.2.1.2 對象分配 當確認符合納入、排除標準后,通過獨立的隨機系統,將受試者分到相應的治療組和對照組。臨床研究提供者會根據分配的相應治療方案,對受試者進行干預。受試者干預的相關信息會通過常規記錄(如醫院住院記錄)被保存在電子病歷數據中。
3.2.1.3 患者隨訪 根據患者隨訪的不同情況,研究者可從醫院、醫保部門、民政部門或公共衛生部門等機構獲取研究對象的多種健康數據及結局數據。如:從 EMR 獲取疾病復發、再次入院等信息;從出生登記項目獲取新生兒身長、體重、有無先天畸形等數據。
通過常規健康數據庫提取數據可節約成本、提高效率、減輕醫生負擔等,但如何鏈接不同功能和不同機構的數據庫、如何處理結構化/半結構化信息、如何準確和完整地獲取數據是目前使用常規健康數據庫開展 pRCT 亟待解決的主要技術問題。此外,和其他真實世界研究類似,pRCT 也面臨數據庫數據質量欠佳和關鍵信息不完整等重要問題的挑戰。
3.2.2 pRCT 的統計分析 pRCT 允許試驗實施者合理偏離干預方案,且不要求所有研究對象必須按照分配方案完成試驗。若僅采用符合方案分析(per-protocol analysis),剔除對試驗不依從的患者,則不能準確反映醫療干預措施在日常醫療中的臨床效果。為保障研究結果貼近臨床實際,pRCT 的主要統計分析需要基于意向性分析(intention-to-treat analysis),即參與隨機分組的對象,無論其是否接受該組的治療,最終都應納入所分配的組中進行統計分析。采用 ITT 分析的主要目的是期望評價患者在真實條件下即便存在不依從或其他偏離干預方案的情況,其實際的結果如何。當然,如果偏離方案的發生率較高,獲得的治療結果估計值可能與治療本身效能的差異較大。在這樣的情況下,研究者和決策者在對研究結果進行解釋和決策時,需要權衡到底是應該進一步提高患者的依從性,還是目前的情況可接受(或反映現狀)。
pRCT 雖在入組階段采用了隨機化分組,理論上可以平衡組間已知和未知的預后因素,但因方案本身的靈活性,將不可避免在受試者入組后引入新的混雜因素。如:一項研究卒中患者入院后預防性使用頭孢曲松類抗生素是否可以改善其功能結局的 pRCT,研究方案允許醫生在患者出現可疑感染時自主判斷是否使用額外的抗生素[10]。此時,受試對象在干預或對照措施以外的抗生素使用情況就成為了該研究的一項混雜因素。進行統計分析時,一般需要采用分層分析、多因素分析等方法,控制混雜因素對研究結果的影響。
針對 pRCT 中的某些特殊設計,其統計分析還存在挑戰。例如,采用適應性設計進行統計分析時,要注意調整和控制顯著性檢驗界值,從而保證試驗結束時最后的 I 型誤差 α 在既定的水平,如 0.05。再如,基于患者偏好進行隨機分組的 pRCT,如何對干預措施的效果進行統計分析仍是難點。對于這些設計的統計分析和解釋仍然還在進一步開發當中,目前尚未形成統一的認識。
3.2.3 pRCT 中克服偏倚的措施 與傳統臨床試驗一致,pRCT 通過隨機分組和分配隱藏,可最大程度減少研究的選擇偏倚。對受試者、試驗實施者、結果測量者和統計分析人員實施盲法是傳統臨床試驗避免實施偏倚和測量偏倚的重要措施。但諸如外科手術、針灸和心理治療等試驗,無法對試驗實施者施盲,多數情況下也無法對受試者施盲,這將導致不同程度的偏倚。對于 pRCT 而言,未對試驗實施者和受試者實施盲法不一定對研究產生不利影響,因為在臨床實踐中,醫生和患者對治療的了解本身就是治療的環節之一,由此帶來的治療預期及其對治療結局產生的影響正是“真實世界”環境下治療結局的一部分。不過,為了盡量克服因知曉隨機分組情況而導致的報告偏倚,和傳統臨床試驗相似,pRCT 也強調盡量對結果測量者和統計分析人員施盲。
3.2.4 pRCT 中的質控 pRCT 雖基于臨床醫療實際,具有較大的靈活度,但不等于可以隨意開展研究、不受約束。從試驗設計到實施,pRCT 仍需嚴格的質量控制體系。其中病例報告表(case report form,CRF)的設計是關鍵環節,很大程度決定了研究的數據質量。它的設計最好與方案設計大致同步,有利于研究者從不同角度看待試驗設計與數據管理,確保方案中的主動數據收集合理、可行。對從健康常規數據庫提取的數據,則需在試驗設計階段充分了解數據庫的可獲得性和數據結構,制定數據提取方案。與傳統臨床試驗類似,研究實施前應制定標準操作程序(standard operating procedure,SOP),統一培訓所有參研人員。
我國越來越多的臨床研究開始使用電子數據采集(electronic data capture,EDC)系統收集和管理研究數據。pRCT 一般為多中心研究,尤其適合采用 EDC 系統進行數據管理。研究護士將數據錄入 EDC 系統后,研究者、數據管理員等用戶可實時掌握數據更新情況、了解研究進度和數據質量。通過設定編輯檢查,EDC 系統可以自動核查錄入的數據,有利于及時發現和糾正數據錯誤,提高數據質量和數據采集效率。
3.2.5 pRCT 的倫理學問題 倫理委員會審批和受試者知情同意依然是保障 pRCT 受試者權益的重要措施。在某些特殊情況下,經倫理委員會審批,pRCT 可以豁免患者知情同意。例如:比較不同醫院管理政策對醫院感染防控的影響,研究只能以醫院為單位進行整群隨機,而干預措施針對醫院管理系統,與患者的日常診療活動無直接聯系。此時研究者在取得醫院管理方同意后,提交倫理委員會申請豁免患者知情同意,一般可獲批準。假如 pRCT 的實施(包括干預和對照措施、數據收集等)完全符合實際臨床醫療實踐,通常認為也可申請豁免患者知情同意。
但大多數情況下,pRCT 仍存在諸多倫理學問題的挑戰。① 因 pRCT 研究方案一般未要求嚴格標準化,醫生通常可以靈活調整醫療干預措施,這可能帶來臨床安全隱患。如:在藥物上市后研究中,若未對藥物使用劑量做嚴格規定,醫生可能超劑量用藥,導致安全性問題。② pRCT 的對照組多采用常規或目前公認最佳的臨床治療方法。有人認為這種設計方式可能違反了臨床均勢原則(clinical equipoise),使干預組的受試對象錯過了最佳治療。③ 傳統臨床試驗中,研究者只能在取得受試對象知情同意后才能進行入組,而 pRCT 為使研究覆蓋更廣泛的患者群體,擴大結果的適用范圍,可能允許入組后補辦知情同意手續。如受試對象為急診患者的 pRCT,尚無證據表明使用干預和對照措施后患者的臨床結果有差別,當符合納入標準的患者病情危重必須立刻采取治療措施時,允許緊急處理后補辦知情同意。這種做法是否違背了醫學倫理,仍值得商榷。
4 實效性隨機對照試驗和解釋性隨機對照試驗的鑒別
pRCT 旨在評價干預措施在日常臨床設置中的療效,從而最大化研究結果的適用性和普遍性。eRCT 無疑是探討干預“絕對”有效性及其作用機理的最佳設計,它通過控制混雜因素和偏倚,評估干預措施的最佳理想效果。常見的 eRCT 實例包括新藥和新器械的臨床試驗、初次證明針灸效力的臨床試驗。常見的 pRCT 實例包括針對同一適應癥的不同上市后藥物的實際療效和安全性、不同醫療干預策略(如中風的康復策略)在不同級別醫療機構中的實際效果等。正是由于 pRCT 和 eRCT 研究目的存在差異,兩者在具體設定上存在一些重要區別(表 1)。

實際上,eRCT 和 pRCT 的區分并非黑與白這樣明顯的差異。更多時候,兩者之間的區分是一個連續性的變化過程。很多時候,eRCT 也會融入 pRCT 的特征;相反,pRCT 可能考慮一些嚴格的設定(如加強隨訪、控制干預的變異)。現實中幾乎不存在純粹的 eRCT 或純粹的 pRCT,任何臨床試驗都介于這兩者間,即兼顧兩種設計的部分屬性,只是因研究目的不同,各試驗偏向解釋性或實效性設計的程度有所差異[5]。為了幫助研究者、臨床醫生和決策者能更好的區分這兩種試驗類型,國際上開發了 PRECIS-2 工具,用于評估 RCT 在哪些方面和哪種程度達到了 pRCT 的特征[6]。
5 實效性隨機對照試驗的適用范圍
在醫療衛生領域,盡管大多數研究的最終目的是為醫療決策提供可靠證據,但迄今國內外已發表的 eRCT 數量遠遠多于 pRCT。不可否認,eRCT 對探討干預措施的效力和作用機制十分重要,臨床研究者也更為熟悉這種設計,但 eRCT 的研究結果可能無法為臨床醫生及患者提供臨床可用的直接證據,不利于研究結果向實踐轉化。近年,隨著證據使用者對真實世界證據的需求增加,pRCT 已受到越來越多的重視。究竟哪些類型的臨床研究適合采用 pRCT 設計呢?
首先,pRCT 是上市后藥物和器械(包含 IV 期及之后的研究)實際效果評價的最佳設計。雖然觀察性研究是真實世界研究中被廣泛使用的一種設計類型,但對干預措施的結果評估,尤其是療效評估時,在研究經費、可行性和倫理允許的前提下,采用 pRCT 設計更為恰當。它的主要優勢仍然在于可以通過隨機分組平衡組間已知和未知的預后因素,最大程度提高組間的可比性,從而增強論證強度。pRCT 研究結果不僅可驗證上市前的結果,還能對上市前臨床試驗的資料和信息進行補充,為臨床合理用藥和使用器械提供依據。因此,pRCT 所產生的真實世界證據有利于醫療衛生決策,例如為醫學專業協會制定臨床診療指南提供直接證據、為藥物和器械監管部門的藥物和器械研發與政策制定提供決策支持。對于上市后藥物和器械的安全性評價而言,pRCT 相較 eRCT 更接近藥物和器械真實的使用環境,因而具有相對更好檢出頻發不良事件的能力。然而要識別罕見或遲發的藥物和醫療器械不良反應,RCT 仍有其局限性,此時采用上市后觀察性研究更為適宜。
對非藥物的復雜干預的臨床評價而言,采用 pRCT 也可能是較好的方式。復雜干預是由多種相互作用成分構成的干預,特點如下:① 實施或接受這項干預措施涉及的行為數量多且復雜;② 干預的目標單位可能是多個組織或機構;③ 具有若干多樣化的結局變量;④ 干預措施實施的靈活度大[11]。手術、康復理療、心理治療、行為干預及大部分補充和替代醫學療法(例如針灸)等都屬于復雜干預。這類干預措施往往很難對所有患者采取統一、規范的實施方式,實施者的專業知識水平、執業經驗及醫療機構的整體醫療水平等因素都會影響干預的實施,從而影響干預效果的評估。eRCT 因要求對受試對象采用標準化的統一治療,一般很難用于評價復雜干預,而 pRCT 則給予治療者較大的靈活度,不嚴格規定干預的實施細節,恰好符合復雜干預的臨床試驗要求。
6 結語
作為真實世界研究的一個重要設計類型,pRCT 是評價醫療干預措施在臨床真實環境下實際結果、安全性和成本等結局的重要方法,可為循證臨床實踐和醫療決策提供直接依據。近年來,我國醫療衛生領域對開展 pRCT 的需求日益增加,需要對其概念、特征和適用范圍有更明確的認識和理解。當然,pRCT 尚存在一些方法學問題,需要進一步探索,從而推進更好的使用。
近年來,循證臨床實踐對真實世界證據的需求不斷增加。由于各種原因,既往的認識常常把真實世界研究與觀察性研究對等起來。而隨著認識的深入,實效性隨機對照試驗(pragmatic randomized controlled trial,pRCT)逐漸被視為真實世界研究的重要構成,并日益成為醫療衛生領域關注的熱點證據之一。然而,目前對 pRCT 證據的認識、理解和運用等方面還存在較多偏差和誤區。例如,有人認為 pRCT 既然作為臨床試驗,應該遵循 GCP 臨床試驗規定,其設計需要嚴格按照 GCP 規范實施;另一部分人認為 pRCT 不需要嚴格控制研究質量、無需實施盲法等。此外,pRCT 定義在研究管理(如倫理審批)方面也存在諸多混淆。為此,本文將系統闡述 pRCT 的概念、特征和運用等,以幫助讀者全面、正確地認識和運用 pRCT。
1 實效性隨機對照試驗的概念
實效性隨機對照試驗,又稱為實用性隨機對照試驗,是在真實臨床醫療環境下,采用隨機、對照的方式,比較不同干預措施的治療結果(包括實際效果、安全性、成本等)的研究。pRCT 是真實世界研究中的重要設計,其實質是一種試(實)驗性研究[1]。
與用于申請新藥審批的傳統 RCT 相比,pRCT 的典型特征在于:在臨床醫療實際環境條件下,將相關醫療干預措施用于具有代表性的患者群體,采用對利益相關者(如臨床醫生、患者、醫療決策者、醫療保險機構等)有重要意義的結局指標(如心梗、生存質量、死亡、成本等)進行評估。研究結果緊密貼近臨床醫療實際,可更好地為醫療決策提供科學依據,幫助利益相關者在現有不同的干預措施中做出最佳選擇。
2 實效性隨機對照試驗的起源和發展
1967 年法國兩位統計學家 Schwartz 和 Lellouch 最早提出 pRCT 的概念。他們明確指出:治療性試驗的研究目的可以劃分為在不同治療方法中做出選擇(實效性),或驗證某種生物學機理(解釋性)[2]。1998 年,Roland 和 Torgerson 進一步指出,解釋性隨機對照試驗(exploratory randomized controlled trial,eRCT)的目的通常是評價某種干預措施在理想的、嚴格控制環境下的效力(efficacy),pRCT 則是衡量某治療方法在常規臨床實踐中的療效(effectiveness)[3]。
2008 年 Zwarenstein 等[4]發表了《提高實效性臨床試驗的報告質量-CONSORT 聲明的擴展》。隨后,由 Thorpe 等[5]臨床試驗研究者和方法學家組成的研究團隊開發出 PRECIS(pragmatic-explanatory continuum indicator summary)工具及雷達圖,從研究的 10 個維度出發,用以幫助研究者、臨床醫生、患者、政策制定者等評價和區分解釋性和實用性臨床試驗。2015 年,Loudon 等改進了 PRECIS 工具(PRECIS-2)(圖 1),不僅優化了維度設置,還增加了基于 5 分李克特量表的各維度量化評分,以 1 分和 5 分分別代表純粹的解釋性設計和純粹的實效性設計[6]。同年,Califf 和 Sugarman 將 pRCT 界定為“以告知決策者某一生物醫學干預或行為健康干預在個體或群體水平的獲益(benefits)、負擔(burdens)和風險(risks)為主要目的 RCT”[7]。

3 實效性隨機對照試驗的主要特征
pRCT 主要目的在于衡量干預措施在真實世界環境下的結果,為醫療衛生決策提供依據。這一目的決定了 pRCT 在設計和實施過程中的特點。
3.1 pRCT 設計要素及特點
3.1.1 pRCT 的研究場所和環境 我國大部分傳統臨床試驗的開展集中在醫務人員科研素質和醫療水平都相對較高的醫院。這種特定的研究環境往往限制了研究結果的外推性,如實施地點為社區醫院時,我們無法合理推測干預措施在社區醫院的實踐結果。
pRCT 關注的是醫療干預措施在實際臨床環境下的結果如何。因“真實世界”中絕大部分治療不可能只針對某種級別或類型醫院的患者,故 pRCT 覆蓋醫院范圍較廣。但需注意的是:實際醫療中部分疾病,如惡性腫瘤、重度抑郁癥等,對醫護人員或醫療設備有特殊要求,只能在特定醫院開展診療活動,因此 pRCT 的研究環境并非越廣泛越好,還需要綜合疾病特征和臨床實際考慮。
3.1.2 pRCT 的研究對象 pRCT 的研究對象也應盡可能與真實醫療環境中使用該干預措施的群體相近,即能準確反映臨床實踐中患者的疾病嚴重程度、合并癥、年齡、依從性、合并用藥等系列特征。因此 pRCT 的納入標準較寬泛、排除標準較少,允許不同研究對象間存在臨床異質性。但為保證統計分析具有足夠的檢驗效能,pRCT 所需樣本量相對較大。
3.1.3 pRCT 的干預措施和對照設定 pRCT 的干預措施既可是一種特定的藥物,也可是復雜干預。作為干預策略時,需確保它可以在臨床實踐中合理推廣,包括不必事先對醫護人員進行大量額外培訓或購置特殊儀器。由于 pRCT 的本質仍然為干預性研究,故需要對干預措施的內容和如何實施做出限定,但干預方案的低標準化正是 pRCT 的重要特征之一。它允許干預實施者基于患者疾病特征、自身專業技能和執業經驗等實際情況,靈活決定干預措施的實施細節。例如一項治療頑固性抑郁癥的研究中,干預措施為精神分析心理療法,治療師依據精神分析療法手冊治療干預組患者。手冊僅闡述了實施干預措施的指導原則,而具體干預方法可由治療師根據患者的敘述進行個體化調整[8]。同時,pRCT 對受試者的依從性往往也給予足夠的靈活度,不強調所有受試者必須按照分配方案完成試驗,甚至可能將依從性作為一個結局指標進行分析,若依從性差則提示該干預措施在現實情況下行不通。
因日常醫療中幾乎不使用安慰劑治療患者,故 pRCT 的對照組很少選用安慰劑,通常選用常規或目前公認最佳的臨床治療方法。
3.1.4 pRCT 的結局設定 pRCT 一般設定多個終點結局,包括主要結局和次要結局。主要結局強調選擇對患者(或研究結果的運用者)有重要臨床意義的指標,即能直接反映健康變化的測量指標,一般不采用生物學或影像學指標等中間指標。如:預防老年骨質疏松的 pRCT,主要結局常選用跌倒、骨折等更具臨床意義的長期終點指標,而非骨密度、肌肉強度等間接指標。
采集成本數據進行如成本-效果分析(cost-effectiveness analysis)等衛生經濟學評價也是 pRCT 的一個關鍵組成部分,有利于醫療服務提供者從成本和結果不盡相同的數個備選方案中選擇最佳方案,從而引導有限的醫療資源分配給成本-效益更高的治療手段。
3.1.5 pRCT 的設計類型 隨機化分組是 pRCT 的關鍵。與觀察性真實世界研究相比,pRCT 可通過隨機的方法平衡組間已知和未知的預后因素(prognostic factor),提高組間可比性,減少選擇性偏倚。pRCT 可采用整群隨機(cluster randomization)或個體隨機(individual randomization)方法。在 pRCT 的范疇內,整群隨機通常是評價一個項目干預(program intervention)的干預結果。當這些項目干預措施只能施加于群體(如醫院、醫生或社區)而非個體時,應基于群體進行干預。例如,研究社區宣傳欄的健康教育對控制食鹽攝入的作用,干預措施會影響整個社區的人群,此時只能以社區為單位進行隨機化分組。若干預措施針對個體時會對群體里的其他人產生影響,即出現“沾染”(contamination)時,應當采用整群隨機方面。如,在產后病房開展促進母乳喂養的干預研究,干預組的產婦可能會與醫院內其他產婦分享信息,從而影響其他產婦的母乳喂養行為。但整群隨機并非 pRCT 的優先選擇。在能實現的情況下個體隨機仍然是優選。例如,針對上市后藥物或器械的比較效果評價時,通常會采用個體隨機。
此外,在實際醫療環境下,面臨多種可供選擇的治療方案,由于患者或者醫生具有強烈的意愿,常規的隨機可能無法實現。在這種情況下,pRCT 還可結合患者的意愿和偏好進行分組。如:將無明顯偏好且愿意接受隨機分組的患者隨機分入干預組和對照組,拒絕隨機分組的患者則根據其偏好接受干預或對照措施。同時,在開展如手術等復雜干預研究時,常出現因醫生對干預和對照措施的掌握程度不同而導致的專長差異偏倚(differential expertise bias)。由于掌握某種手術方式需特定訓練和長期經驗累積,術者須經過一定例數的操作、不斷學習,才能熟練掌握手術技能,達到良好手術效果。故在解決某一特定疾病問題時,一名外科醫生可能傾向于只使用或主要使用某一種手術方式。如某 RCT 中,擅長試驗組手術方式的外科大夫分別治療了試驗組和對照組 70% 的患者,而擅長對照組手術方式的外科大夫治療了兩組 30% 的患者,則研究結果將有利于試驗組,即夸大了試驗組手術方式的效果。在這種情況下,推薦采用基于專長(expertise based)的隨機化分組(仍為個體隨機):即隨機分配到干預組的受試者,只由擅長干預措施的醫生實施干預;而分配到對照組的受試者,由擅長對照措施的醫生進行干預,從而克服專長差異偏倚對研究結果的影響[9]。
隨著新的臨床研究方法的出現和不斷進展,為了提高研究效率,使更多的受試者獲益,pRCT 也開始采用適應性設計(adaptive designs),即在臨床試驗開始后,根據累積的信息,動態修改試驗設計的某些方面,包括:樣本量調整、組間治療分配比例調整、臨床終點更改、統計檢驗方法變更、提前中止試驗等。適應性設計方案必須預先制定并寫入臨床試驗研究方案中,對試驗的修改應盡量在試驗的早期階段進行。
3.2 pRCT 的實施特點
3.2.1 pRCT 的數據源及其采集 pRCT 的數據來源既包括與傳統臨床試驗類似的、以特定研究目的開展的主動數據收集,也常利用諸如電子病歷記錄(electronic medical record,EMR)、出生/死亡登記項目、醫保理賠數據系統等常規健康數據庫提取數據。盡管這些數據來源與觀察性真實世界研究有相似之處,但在具體使用過程中存在差異,表現如下:
3.2.1.1 對象篩選與入組 因 pRCT 的納入標準較寬泛,排除標準相對較少,研究者一般可通過 EMR 初步篩選研究對象、獲取部分基線信息。
3.2.1.2 對象分配 當確認符合納入、排除標準后,通過獨立的隨機系統,將受試者分到相應的治療組和對照組。臨床研究提供者會根據分配的相應治療方案,對受試者進行干預。受試者干預的相關信息會通過常規記錄(如醫院住院記錄)被保存在電子病歷數據中。
3.2.1.3 患者隨訪 根據患者隨訪的不同情況,研究者可從醫院、醫保部門、民政部門或公共衛生部門等機構獲取研究對象的多種健康數據及結局數據。如:從 EMR 獲取疾病復發、再次入院等信息;從出生登記項目獲取新生兒身長、體重、有無先天畸形等數據。
通過常規健康數據庫提取數據可節約成本、提高效率、減輕醫生負擔等,但如何鏈接不同功能和不同機構的數據庫、如何處理結構化/半結構化信息、如何準確和完整地獲取數據是目前使用常規健康數據庫開展 pRCT 亟待解決的主要技術問題。此外,和其他真實世界研究類似,pRCT 也面臨數據庫數據質量欠佳和關鍵信息不完整等重要問題的挑戰。
3.2.2 pRCT 的統計分析 pRCT 允許試驗實施者合理偏離干預方案,且不要求所有研究對象必須按照分配方案完成試驗。若僅采用符合方案分析(per-protocol analysis),剔除對試驗不依從的患者,則不能準確反映醫療干預措施在日常醫療中的臨床效果。為保障研究結果貼近臨床實際,pRCT 的主要統計分析需要基于意向性分析(intention-to-treat analysis),即參與隨機分組的對象,無論其是否接受該組的治療,最終都應納入所分配的組中進行統計分析。采用 ITT 分析的主要目的是期望評價患者在真實條件下即便存在不依從或其他偏離干預方案的情況,其實際的結果如何。當然,如果偏離方案的發生率較高,獲得的治療結果估計值可能與治療本身效能的差異較大。在這樣的情況下,研究者和決策者在對研究結果進行解釋和決策時,需要權衡到底是應該進一步提高患者的依從性,還是目前的情況可接受(或反映現狀)。
pRCT 雖在入組階段采用了隨機化分組,理論上可以平衡組間已知和未知的預后因素,但因方案本身的靈活性,將不可避免在受試者入組后引入新的混雜因素。如:一項研究卒中患者入院后預防性使用頭孢曲松類抗生素是否可以改善其功能結局的 pRCT,研究方案允許醫生在患者出現可疑感染時自主判斷是否使用額外的抗生素[10]。此時,受試對象在干預或對照措施以外的抗生素使用情況就成為了該研究的一項混雜因素。進行統計分析時,一般需要采用分層分析、多因素分析等方法,控制混雜因素對研究結果的影響。
針對 pRCT 中的某些特殊設計,其統計分析還存在挑戰。例如,采用適應性設計進行統計分析時,要注意調整和控制顯著性檢驗界值,從而保證試驗結束時最后的 I 型誤差 α 在既定的水平,如 0.05。再如,基于患者偏好進行隨機分組的 pRCT,如何對干預措施的效果進行統計分析仍是難點。對于這些設計的統計分析和解釋仍然還在進一步開發當中,目前尚未形成統一的認識。
3.2.3 pRCT 中克服偏倚的措施 與傳統臨床試驗一致,pRCT 通過隨機分組和分配隱藏,可最大程度減少研究的選擇偏倚。對受試者、試驗實施者、結果測量者和統計分析人員實施盲法是傳統臨床試驗避免實施偏倚和測量偏倚的重要措施。但諸如外科手術、針灸和心理治療等試驗,無法對試驗實施者施盲,多數情況下也無法對受試者施盲,這將導致不同程度的偏倚。對于 pRCT 而言,未對試驗實施者和受試者實施盲法不一定對研究產生不利影響,因為在臨床實踐中,醫生和患者對治療的了解本身就是治療的環節之一,由此帶來的治療預期及其對治療結局產生的影響正是“真實世界”環境下治療結局的一部分。不過,為了盡量克服因知曉隨機分組情況而導致的報告偏倚,和傳統臨床試驗相似,pRCT 也強調盡量對結果測量者和統計分析人員施盲。
3.2.4 pRCT 中的質控 pRCT 雖基于臨床醫療實際,具有較大的靈活度,但不等于可以隨意開展研究、不受約束。從試驗設計到實施,pRCT 仍需嚴格的質量控制體系。其中病例報告表(case report form,CRF)的設計是關鍵環節,很大程度決定了研究的數據質量。它的設計最好與方案設計大致同步,有利于研究者從不同角度看待試驗設計與數據管理,確保方案中的主動數據收集合理、可行。對從健康常規數據庫提取的數據,則需在試驗設計階段充分了解數據庫的可獲得性和數據結構,制定數據提取方案。與傳統臨床試驗類似,研究實施前應制定標準操作程序(standard operating procedure,SOP),統一培訓所有參研人員。
我國越來越多的臨床研究開始使用電子數據采集(electronic data capture,EDC)系統收集和管理研究數據。pRCT 一般為多中心研究,尤其適合采用 EDC 系統進行數據管理。研究護士將數據錄入 EDC 系統后,研究者、數據管理員等用戶可實時掌握數據更新情況、了解研究進度和數據質量。通過設定編輯檢查,EDC 系統可以自動核查錄入的數據,有利于及時發現和糾正數據錯誤,提高數據質量和數據采集效率。
3.2.5 pRCT 的倫理學問題 倫理委員會審批和受試者知情同意依然是保障 pRCT 受試者權益的重要措施。在某些特殊情況下,經倫理委員會審批,pRCT 可以豁免患者知情同意。例如:比較不同醫院管理政策對醫院感染防控的影響,研究只能以醫院為單位進行整群隨機,而干預措施針對醫院管理系統,與患者的日常診療活動無直接聯系。此時研究者在取得醫院管理方同意后,提交倫理委員會申請豁免患者知情同意,一般可獲批準。假如 pRCT 的實施(包括干預和對照措施、數據收集等)完全符合實際臨床醫療實踐,通常認為也可申請豁免患者知情同意。
但大多數情況下,pRCT 仍存在諸多倫理學問題的挑戰。① 因 pRCT 研究方案一般未要求嚴格標準化,醫生通常可以靈活調整醫療干預措施,這可能帶來臨床安全隱患。如:在藥物上市后研究中,若未對藥物使用劑量做嚴格規定,醫生可能超劑量用藥,導致安全性問題。② pRCT 的對照組多采用常規或目前公認最佳的臨床治療方法。有人認為這種設計方式可能違反了臨床均勢原則(clinical equipoise),使干預組的受試對象錯過了最佳治療。③ 傳統臨床試驗中,研究者只能在取得受試對象知情同意后才能進行入組,而 pRCT 為使研究覆蓋更廣泛的患者群體,擴大結果的適用范圍,可能允許入組后補辦知情同意手續。如受試對象為急診患者的 pRCT,尚無證據表明使用干預和對照措施后患者的臨床結果有差別,當符合納入標準的患者病情危重必須立刻采取治療措施時,允許緊急處理后補辦知情同意。這種做法是否違背了醫學倫理,仍值得商榷。
4 實效性隨機對照試驗和解釋性隨機對照試驗的鑒別
pRCT 旨在評價干預措施在日常臨床設置中的療效,從而最大化研究結果的適用性和普遍性。eRCT 無疑是探討干預“絕對”有效性及其作用機理的最佳設計,它通過控制混雜因素和偏倚,評估干預措施的最佳理想效果。常見的 eRCT 實例包括新藥和新器械的臨床試驗、初次證明針灸效力的臨床試驗。常見的 pRCT 實例包括針對同一適應癥的不同上市后藥物的實際療效和安全性、不同醫療干預策略(如中風的康復策略)在不同級別醫療機構中的實際效果等。正是由于 pRCT 和 eRCT 研究目的存在差異,兩者在具體設定上存在一些重要區別(表 1)。

實際上,eRCT 和 pRCT 的區分并非黑與白這樣明顯的差異。更多時候,兩者之間的區分是一個連續性的變化過程。很多時候,eRCT 也會融入 pRCT 的特征;相反,pRCT 可能考慮一些嚴格的設定(如加強隨訪、控制干預的變異)。現實中幾乎不存在純粹的 eRCT 或純粹的 pRCT,任何臨床試驗都介于這兩者間,即兼顧兩種設計的部分屬性,只是因研究目的不同,各試驗偏向解釋性或實效性設計的程度有所差異[5]。為了幫助研究者、臨床醫生和決策者能更好的區分這兩種試驗類型,國際上開發了 PRECIS-2 工具,用于評估 RCT 在哪些方面和哪種程度達到了 pRCT 的特征[6]。
5 實效性隨機對照試驗的適用范圍
在醫療衛生領域,盡管大多數研究的最終目的是為醫療決策提供可靠證據,但迄今國內外已發表的 eRCT 數量遠遠多于 pRCT。不可否認,eRCT 對探討干預措施的效力和作用機制十分重要,臨床研究者也更為熟悉這種設計,但 eRCT 的研究結果可能無法為臨床醫生及患者提供臨床可用的直接證據,不利于研究結果向實踐轉化。近年,隨著證據使用者對真實世界證據的需求增加,pRCT 已受到越來越多的重視。究竟哪些類型的臨床研究適合采用 pRCT 設計呢?
首先,pRCT 是上市后藥物和器械(包含 IV 期及之后的研究)實際效果評價的最佳設計。雖然觀察性研究是真實世界研究中被廣泛使用的一種設計類型,但對干預措施的結果評估,尤其是療效評估時,在研究經費、可行性和倫理允許的前提下,采用 pRCT 設計更為恰當。它的主要優勢仍然在于可以通過隨機分組平衡組間已知和未知的預后因素,最大程度提高組間的可比性,從而增強論證強度。pRCT 研究結果不僅可驗證上市前的結果,還能對上市前臨床試驗的資料和信息進行補充,為臨床合理用藥和使用器械提供依據。因此,pRCT 所產生的真實世界證據有利于醫療衛生決策,例如為醫學專業協會制定臨床診療指南提供直接證據、為藥物和器械監管部門的藥物和器械研發與政策制定提供決策支持。對于上市后藥物和器械的安全性評價而言,pRCT 相較 eRCT 更接近藥物和器械真實的使用環境,因而具有相對更好檢出頻發不良事件的能力。然而要識別罕見或遲發的藥物和醫療器械不良反應,RCT 仍有其局限性,此時采用上市后觀察性研究更為適宜。
對非藥物的復雜干預的臨床評價而言,采用 pRCT 也可能是較好的方式。復雜干預是由多種相互作用成分構成的干預,特點如下:① 實施或接受這項干預措施涉及的行為數量多且復雜;② 干預的目標單位可能是多個組織或機構;③ 具有若干多樣化的結局變量;④ 干預措施實施的靈活度大[11]。手術、康復理療、心理治療、行為干預及大部分補充和替代醫學療法(例如針灸)等都屬于復雜干預。這類干預措施往往很難對所有患者采取統一、規范的實施方式,實施者的專業知識水平、執業經驗及醫療機構的整體醫療水平等因素都會影響干預的實施,從而影響干預效果的評估。eRCT 因要求對受試對象采用標準化的統一治療,一般很難用于評價復雜干預,而 pRCT 則給予治療者較大的靈活度,不嚴格規定干預的實施細節,恰好符合復雜干預的臨床試驗要求。
6 結語
作為真實世界研究的一個重要設計類型,pRCT 是評價醫療干預措施在臨床真實環境下實際結果、安全性和成本等結局的重要方法,可為循證臨床實踐和醫療決策提供直接依據。近年來,我國醫療衛生領域對開展 pRCT 的需求日益增加,需要對其概念、特征和適用范圍有更明確的認識和理解。當然,pRCT 尚存在一些方法學問題,需要進一步探索,從而推進更好的使用。