證據整合是連接臨床實踐和最佳證據的橋梁,基于高質量隨機對照試驗的證據整合通常被認為是最高等級的證據,但其外部真實性受限。在某些情況下,證據整合中納入非隨機干預研究可進一步補充、遞補甚至替代隨機對照試驗證據,如在更廣泛人群中評估干預效果和罕見事件,為醫療衛生決策提供更多信息。隨著真實世界數據的快速發展和統計分析方法的逐步完善,真實世界證據作為非隨機干預研究的重要證據來源,加速了高質量非隨機干預研究的發展。然而,由于非隨機干預研究缺少隨機化帶來的選擇偏倚和混雜偏倚等,開展基于隨機和非隨機干預研究的證據整合仍面臨諸多挑戰。本文基于既往研究,對整合隨機和非隨機干預研究的研究現狀,包括整合前提、整合時機、整合方法、整合結果解釋等,進行系統梳理,旨在為研究者和決策者正確使用非隨機研究證據提供參考,進一步推動最佳證據的產生和臨床實踐轉化。
1 整合隨機對照試驗(randomized controlled trail,RCT)證據與非隨機干預研究證據的必要性
1.1 現代循證醫學對單一研究類型的證據整合提出挑戰
RCT通常被認為是確定治療方案因果效應的金標準,基于高質量RCT的系統評價也被認為是最高等級證據[1]。RCT設計嚴謹,干預的隨機化和分配隱藏能夠平衡基線預后因素、最小化偏倚[2]。以往觀念普遍認為,RCT可使結果最大限度接近真實值,而觀察性研究幾乎沒有或沒有價值[3]。近年來,這種觀點受到了方法學家的批判,RCT的局限性逐漸凸顯[4]:① RCT通常樣本量較小,且隨訪時間有限,難以支持評價具有罕見或長期隨訪結局的干預效果[3];② 受限于嚴格的納入與排除標準,RCT的研究結果外部真實性不足,難以反映干預措施在實際臨床環境中的治療效果[5-6];③ 特殊群體,例如腫瘤患者、重癥患者、老年人、孕婦和兒童等,受倫理限制,難以開展RCT[7];④ RCT效率可能較低,且伴隨著高昂的時間和價格成本,使得RCT在某些罕見疾病和危及生命的重大疾病中難以開展[7]。
非隨機干預研究(non-randomized studies of interventions,NRSI)作為評估干預效果的關鍵方法之一,在健康決策中發揮著重要作用。Cochrane Handbook將NRSI定義為任何不使用隨機化方式將單位或個體分配到不同組別中,以評估干預措施(有益或有害)有效性的定量研究,例如準隨機對照試驗(quasi-randomized trial/quasi-experiment study)、前后對照研究(controlled before and after design)、隊列研究(cohort study)、病例-對照研究(case-control study)和中斷時間序列研究(interrupted time series)[8-9]。美國衛生保健質量與研究機構(Agency for Healthcare Research and Quality,AHRQ)將NRSI定義為對干預措施的有效性和/或危害性的觀察或試驗性研究,其中患者未被隨機分配[4]。
近年來,真實世界數據(real world data,RWD)的廣泛運用,研究方法和技術平臺的逐步完善,尤其是現代流行病學設計和因果推斷統計方法的快速發展,為基于RWD的NRSI在臨床醫療決策中的作用提供了新的思路和方法[10-11]。與傳統RCT相比,NRSI具備諸多優勢:① 樣本量通常較大,能夠觀測到慢性、罕見的結局,可針對不同亞型、不同臨床特征患者進行分類研究,為藥物治療決策提供依據[12];② 對研究對象限制較小,研究人群有較好代表性,外部真實性高,能夠反映干預措施在真實臨床環境下的治療效果[13];③ 可通過電子病歷、醫保理賠數據庫、疾病注冊登記數據等快速收集數據,并對患者相關結局進行評價,效率高且費用低[14];④ 較少進行人為干預,更易被研究對象接受,易通過倫理審查[12];⑤ 可提供某些情況下RCT無法提供的證據,例如長期用藥安全性、疾病負擔、非試驗環境中的基線風險信息等[15]。
證據整合是指將解決同一研究問題的多項研究結合起來,以提取在特定時間點對特定問題已知情況的概括理解,是評價臨床療效、制訂指南和規范的基石。RCT和NRSI均是干預措施評價的重要潛在證據來源[16]。然而,由于NRSI無法實現隨機化,不同干預措施的組間基線往往存在差異,致使研究結果可能存在偏倚,限制了其在證據整合中的應用。常見影響NRSI有效性的偏倚包括選擇偏倚(selection bias)、混雜偏倚(confounding)、錯分偏倚(misclassification)等。正確認識和處理NRSI的偏倚,是將其用于醫療保健決策的先決條件。幾種新的流行病學設計(例如活性藥物對照、新用藥者設計[17])和因果推斷分析方法[例如傾向性評分、工具變量、邊際結構模型(marginal structural models,MSMs)、多變量回歸分析[18-19]],均可在一定程度上減少偏倚。已發表的多項比較調整混雜因素后NRSI和RCT的一致性研究顯示出了不同的結果。2022年的一項Meta流行病學分析表明,42%使用MSMs因果建模的NRSI與評估同一臨床問題的RCT結果不一致[20]。其他探索性研究發現,與RCT相比,使用傾向性評分方法分析的NRSI在治療效果上差異無統計學意義[21-22]。因此,如何恰當的將NRSI用于證據整合仍需進一步探究。
1.2 多來源證據整合可成為支撐健康決策的重要手段
在證據整合中考慮NRSI證據體的概念較早就被提出,但尚未完全解決。1992年,美國政府問責局(Government Accountability Office,GAO)首次提出了“cross-design synthesis”的概念,指出在療效比較研究中,應當綜合權衡多個數據來源的證據[23]。2017年Mayo‐Wilson等發布了在系統評價中使用來自多個數據源研究的指南[24]。2022年GRADE工作組指出,應綜合權衡RCT和NRSI在解決目標PICO(population,intervention,comparison,outcomes)上的優勢和缺陷,充分發揮NRSI在健康決策中的作用[25]。AHRQ醫療保健項目指南進一步強調,在證據整合過程中,如果RCT和NRSI結論一致,則NRSI有助于證實RCT的結論或擴大其結論的適用性,如果不一致,NRSI可提供新的證據或作為RCT的必要補充[4]。國際藥物流行病學學會(International Society for Pharmacoepidemiology,ISPE)提出,應在評估藥物相對有效性時考慮NRSI,以解決RCT結果外推到其他適應癥上的局限性,且可增加現有證據,為治療決策提供更多信息,例如評估多重病癥患者的健康結局和長期隨訪結局[26]。
證據整合關鍵的一點在于現有的證據是否足以回答醫療保健問題[27]。在進行證據整合時,當RCT無法提供直接比較的證據時,NRSI證據顯得尤為重要,甚至可能優于來自特定人群的RCT證據;同時,NRSI可以增強對研究結果的可解釋性。然而,不合實際或不正確地納入NRSI,都不能優化證據合成,甚至可能誤導健康決策,產生不良后果。何時檢索并納入RCT和NRSI兩種類型的研究設計?如何全面獲取NRSI證據?敘述性綜合和定量整合的前提條件是什么?定量整合兩種證據體的最佳統計學方法是什么?納入NRSI對于證據的確定性和健康決策有什么影響?是目前阻礙在證據綜合中整合RCT和NRSI證據的關鍵問題[25]。
2 整合NRSI和RCT的可行性
2.1 RCT和NRSI證據體一致性
近年來,NRSI證據越來越多的被納入療效比較系統評價中。Page等對2014—2018年發表的Meta分析調查顯示,21%和7%的研究分別考慮了隊列和病例-對照研究,與往年相比,這一比率有所上升[28]。多項Meta流行病學研究通過匹配RCT中的PICO要素和NRSI中的相應要素,評價兩種證據體之間的一致性。結果發現,平均而言,RCT和NRSI的效應估計值之間差異很小甚至沒有平均差異[12,29-31]。然而,Hong等比較觀察性研究和RCT藥物有效性和安全性的研究后發現,接近20%的匹配組存在顯著差異且效應估計值方向相反,觀察到的差異可能與RCT和觀察性研究中患者群體的異質性、干預措施的差異性和統計分析方法的多樣性有關[32]。有理由認為,受限于研究設計,任何給定的觀察性研究數據可能都無法復制比較相同治療的RCT[32]。因此,影響RCT和NRSI證據體一致性的因素仍需進一步探索。
2.2 整合RCT和NRSI證據體的基本要求
在是否納入NRSI的考慮過程中,兩個重要問題是基礎且關鍵的,一是整合RCT與NRSI證據體的先決條件,NRSI和RCT在PICO方面需與證據整合的關鍵問題保持一致[33]。例如,Abraham等對行腹腔鏡手術和開腹手術的結腸癌患者不良結局(死亡率、再手術率)的RCT和NRSI分別進行Meta分析后發現,在匹配PICO的情況下,設計良好的NRSI可提供與RCT相似的效應估計值[34]。二是納入NRSI的范圍。Cochrane Handbook就NRSI研究設計的多樣性提出了兩個關鍵問題:第一,是否與PICO相關的所有NRSI都應該納入?第二,如果沒有包括所有NRSI類型,那么應該使用哪些研究設計特征作為標準來決定最終納入研究?NRSI的研究設計類型在一定程度上會影響其偏倚風險,例如,病例-對照研究通常被認為比隊列研究偏倚風險更高,但這一問題并未得到充分重視。一項流行病學調查顯示,69%的Meta分析并未報告納入NRSI的研究類型[35]。目前對于特定類型NRSI的選擇尚無統一標準,GRADE指南指出,系統評價者應使用研究設計特征而不是研究標簽區分NRSI類型,應以研究目的和健康決策背景為主要切入點,選擇解決PICO問題的最佳NRSI類型[36-37]。
AHRQ指南提出了在證據整合中考慮NRSI證據體的一些要素:① RCT和NRSI在多大程度上可以解決決策困境,RCT和NRSI解決研究問題的直接性;② RCT是否能夠充分解決關鍵問題;③ NRSI解決關鍵問題的偏倚大小;④ RCT和NRSI在多大程度上可以相互補充;⑤ 計劃納入NRSI時,系統評價團隊應包括熟悉數據源和高級分析方法的成員;⑥ 在研究計劃中說明符合條件的研究設計方法;⑦ 解釋納入或排除NRSI的決定;⑧ 討論納入或排除NRSI的決定的潛在影響;⑨ 說明整合RCT和NRSI證據的方法,并展示證據體的總體證據等級和推薦強度[4]。
2.3 RCT和NRSI證據整合現狀
目前,BMJ和Annals of Internal Medicine發表的多篇系統評價和Meta分析均證實了在證據整合中考慮NRSI和RCT的可行性和必要性,解決的臨床問題涵蓋心血管[38]、骨科[39]、營養[40-41]、呼吸內科[42]等多個領域,但其合并不同研究類型的方法各不一致,主要分為3種:① 基于NRSI研究類型進行亞組分析,例如,Hopley等分別基于RCT、準隨機對照試驗和回顧性隊列研究進行亞組分析,最終報告匯總效應量的結果[39];② 基于RCT和NRSI單獨分析,例如,Alipanah等基于RCT和隊列研究進行單獨的Meta分析,針對每一個結局分別給出兩種證據體的合并效應量[42];③ 采用Meta分析方法定量整合RCT和NRSI,例如,Aburto等將9項RCT研究和1項前瞻性隊列研究匯總在一個Meta分析中[41]。Bun等對2014—2018年發表的Meta分析進行調查發現,38%的研究在一個Meta分析中計算兩種證據體的合并值;27%的研究僅對RCT進行Meta分析,對觀察性研究進行定性描述;15%的研究分別對RCT和NRSI進行亞組分析[43]。Cochrane Handbook指出,不應將RCT和NRSI兩種證據體合并在Meta分析中,且當隊列研究和病例-對照研究涉及不同的研究問題時,也不應合并在Meta分析中[44]。然而,最近的IPSE提出的整合NRSI和RCT的描述性框架研究并不反對合并兩種研究設計[26]。
3 如何整合RCT與NRSI證據體
3.1 何時整合:納入NRSI的時機
循證醫學指出,健康決策應充分利用“最佳可用證據”,而不是“最高級別”的證據[45]。應當針對不同的臨床醫療具體問題,綜合最佳證據來源,使其更好的應用于醫療決策。從理論框架的角度來看,現有指南針對在證據整合中考慮NRSI的時機提出了不同的觀點:GRADE建議,在證據整合時,若RCT未能提供足夠高質量的證據來回答目標PICO問題,NRSI可以作為RCT的補充、遞補和替代證據,即使用NRSI對RCT缺失證據進行補充,對未能從RCT中獲得的證據進行遞補,使用NRSI證據代替RCT證據以支持決策[25];若RCT證據質量較高且數量充足,考慮到證據的高確定性不會得到改善,可能沒有必要進一步評估NRSI的證據;此外,即使不在證據整合中納入NRSI,也應當說明NRSI證據的存在及現狀,為今后研究提供參考[27]。然而,在Brockelmann等[31]開展的實證研究中,僅5%的RCT證據體被評為高確定性,說明NRSI有待充分應用。AHRQ認為,需要根據不同的系統評價主題和關鍵問題決定是否納入NRSI,并報告納入或排除NRSI的理由[4]。
從實際待解決的臨床問題的角度來看,考慮是否納入NRSI,最重要的是評估解決關鍵問題的最佳研究設計,明確可用證據的范圍。GRADE指出,對于NRSI的考慮應當從研究計劃開始,通過開展范圍綜述(scoping review)對研究進行初步探索,判斷RCT的可及性,確定解決研究問題的最佳證據類型,并說明選擇理由[25]。2014年一項方法學調查發現,56%整合RCT和NRSI的Cochrane系統評價沒有說明納入NRSI的原因和類型[46],說明在證據整合中納入NRSI的實際場景尚不完全明確。Ijaz等[46]對Cochrane協作網中納入NRSI證據的系統評價進行探究后發現,系統評價中納入NRSI主要包括兩種情況:① 當計劃納入RCT但隨機化不切實際或難以實現、可用RCT數量稀少、RCT樣本量不足時考慮NRSI;② 當不計劃納入RCT時考慮NRSI。
3.2 如何整合:敘述性綜合和Meta分析
證據整合泛指將RCT和NRSI通過定性分析、定量分析或定性結合定量分析的形式進行合并。Meta分析是將多個獨立的臨床研究定量合并成一個單獨估計值的統計學方法[47]。敘述性綜合(narrative synthesis)是指當評估干預措施量化效應的系統評價中缺少適合Meta分析的數據時,采用文字描述研究結果的定性分析方法[48]。在基于RCT的證據整合中,當匯總結果存在顯著異質性或效應評估報告不完整時,不建議進行Meta分析[49]。而在基于RCT和NRSI的證據整合中,進行敘述性綜合、Meta分析或兩種方法結合的時機尚不明確。Cuello-Garcia等[50]調查研究發現,25%的研究者對兩種研究證據進行敘述性綜合,35%的研究者對RCT進行了Meta分析,而對NRSI進行敘述性綜合,5%的研究僅對NRSI進行Meta分析,對NRSI進行敘述性綜合。因此,整合RCT和NRSI證據體需要一些高級的統計方法支持,根據證據結構和分析方法的不同,可以分為直接比較Meta分析和網狀Meta分析(network meta-analysis,NMA)[44]。
直接比較Meta分析,是指直接進行兩種干預措施的頭對頭直接比較,簡單合并不同研究的效應量。傳統的Meta分析主要基于頻率學統計理論,通過倒方差加權法計算平均效應,即使用方差的倒數作為對應研究的權重,樣本量越大,方差越小,相對應的權重也就越大[51]。在定量整合RCT和NRSI證據體時,NRSI樣本量通常較大且易受到各種偏倚的影響,如果不考慮這些偏倚,使用倒方差法直接匯總兩種證據體,可能會產生有偏估計。基于貝葉斯的Meta分析方法則通過對先驗分布和數據的聯合概率分布推斷出總體效應量,在一定程度上校正了偏倚,例如:① 偏倚校正Meta分析模型(bias-corrected meta-analysis model,BC)基于兩個隨機效應創建子模型,分別為感興趣的模型(model of interest)和偏倚模型(model of bias),通過合并兩個模型,可根據納入研究的內部有效性偏倚(隨訪偏倚、實施偏倚、測量偏倚、混雜變量、選擇偏倚等)對模型進行校正[52];② 層次Meta回歸分析(hierarchical meta-regression,HMR)采用多層次線性模型,將Meta分析結果分為多個層次,然后在每個層次上進行回歸分析,確定數據在組內和組間的變異性[53]。
NMA也被稱為混合療效比較或多重治療Meta分析[54]。當沒有直接證據或證據不充分時,NMA能夠實現RCT中兩種及兩種以上干預措施的間接比較,近年來逐漸開始用于NRSI和RCT的整合。NMA主要分為頻率學方法和貝葉斯方法。頻率學方法是指當觀察性研究偏倚較大時,不考慮觀察性研究證據,當觀察性研究偏倚較小時,可根據偏倚大小調整權重,偏倚風險越大,分配的權重越小,相較于貝葉斯方法更易應用和理解[55]。貝葉斯方法主要包括四種:① 直接合并(na?ve data synthesis),即不區分研究設計類型,直接合并效應量;② 使用NRSI作為先驗信息(information priors),即NRSI分析結果作為RCT分析的先驗信息,通過降低NRSI的權重來減少偏倚對整體效應量的影響,但此種方法未考慮不同研究設計之間的異質性[54];③ 貝葉斯三級層次模型(bayesian three-level hierarchical model),該模型適用于不同研究設計類型的數據(例如RCT、隊列研究、病例-對照研究等)的整合,假設在不同研究設計中治療效果存在差異,使用回歸模型第一層對個體研究內的變異進行建模,第二層對研究間變異進行建模,第三層對RCT和NRSI之間的變異進行建模,通過在特定研究水平上創建估計值,量化不同研究設計對結果的影響[56];④ 研究設計調整分析(design-adjusted analysis,DAS),通過方差膨脹因子(值在0和1之間)增加NRSI的平均效應方差,對每個NRSI可能的偏倚進行校正,以降低NRSI在Meta分析中的權重[57]。Turner等指出,偏倚對于治療效應的影響可能因不同研究設計類型而不同,針對不同的研究類型應分別給出偏倚校正權重[58]。盡管量化偏倚是定量整合多元證據體的一個切實可行的方法,但識別所有的潛在偏倚因素,并量化其對療效的影響,仍存在一定的困難[59]。
值得注意的是,已發表系統評價并未充分重視RCT和NRSI定量合并方法的規范使用和報告。Zhang等[60]針對NMA的調查性研究發現,大多數已發表研究并未透明報告匯總兩種證據的方法,74%使用直接合并方法,9%使用貝葉斯三級層次模型,尚無納入研究使用信息先驗的方法。Yao等[61]探討在罕見事件系統評價中定量整合RCT和RWE的方法后發現,DAS統計性能較好,可作為罕見事件效應值合并的首選方法,考慮到不同場景的差異性,仍需進一步開展實證或模擬研究比較RCT和NRSI證據體定量合并方法的統計性能。
3.3 整合對于結果的影響
在解釋系統評價中NRSI治療效果的數據時,系統評價者應當評估NRSI是否對重要的混雜因素進行了充分調整,以及對結果的影響大小[4]。NRSI偏倚調整與數據測量的準確性和完整性、數據分析方法有關,不恰當的調整可能會高估或低估治療效果。Mathur等提出“在隨機效應Meta分析中使用E值”的概念,即評估未測量混雜對研究結果的影響程度,E值越大,需要用于解釋效應量的未測量混雜因素就越大[62]。
在Meta分析中合并NRSI證據在多大程度上影響結果,目前尚不清楚。一項納入營養學領域773個RCT和720個隊列研究的實證研究發現,RCT對于匯總估計的貢獻權重中位數小于隊列研究,因為權重主要受到樣本量和事件數量的影響(二分類結局),而RCT的樣本量和事件數量往往較隊列研究更低。此外,該研究指出,來自隊列研究的證據體修正了近50%疾病關聯中RCT證據體的結論,但RCT效應方向與總的合并效應方向是一致的,說明納入NRSI證據能夠提高統計精度[63]。Br?ckelmann等[64]探討了整合隊列研究和RCT與單獨整合RCT在統計學異質性、合并效應量等方面的差異,發現整合兩種證據體后效應估計方向基本不變,整合隊列研究后,27%單獨整合RCT的研究結論發生改變,此外,加入隊列研究的Meta分析具有更高的統計學異質性,主要是由于研究方法的多樣性(測量暴露和結果方法差異)和對于混雜不同程度的調整(殘余混雜)。
在結果展示方面,證據摘要表(summary of funding,SOF)是GRADE開發的呈現證據質量、與質量評級有關的判斷及備選方案對所關注結局的影響的方法[65]。在SOF表中,仍不確定是將RCT和NRSI在SOF表中分開,還是將RCT和NRSI的結果置于同一標準尺度一起考慮。尤其是,對于不同證據體的定量整合,可能產生相同或相反的效應量。針對兩種證據體合并效應量相反的情況,部分研究者選擇報告證據質量相對較高的RCT結果,部分選擇報告總體合并結果,其余研究者報告兩種不同的結果,目前尚缺乏相關的指導或準則。
3.4 整合對于證據等級的影響
納入研究的偏倚風險結果是研究者對證據進行GRADE分級的重要依據。選擇最可靠的NRSI證據與RCT進行定量分析,可以使兩種證據體的數據整合后產生可信的結果。可能威脅NRSI有效性的關鍵因素有:邊際效應,選擇參與者的方法,混雜,評估內部效度的方法(處理測量誤差的敏感性分析),評估外部效度的方法(事后亞組分析)。目前,對RCT的偏倚評價方法相對成熟,最常用的是Cochrane偏倚風險評估工具2(tools2 for assessing risk of bias in randomized trail,ROB 2)[66]。NRSI的質量評價工具各不相同,Faber等[35]調查性研究表明,36%的研究選擇紐卡斯爾-渥太華量表(Newcastle-Ottawa scale,NOS),20%的研究選擇其他工具評估NRSI的偏倚風險。針對NRSI偏倚風險的評估問題,布里托斯爾大學于2016年推出了ROBINS-I工具,可將不同類型的NRSI置于同一個評價體系中進行更詳細的評估,也可將RCT和NRSI置于一個共同的偏倚風險度量標準上,以更好的比較來自RCT和NRSI的證據[67]。
在GRADE證據分級中,NRSI初始證據等級為低,RCT初始證據等級為高,通過5個降級因素(偏倚風險、不一致性、不精確性、間接性和發表偏倚)和3個升級因素(大效應量、混雜因素、劑量反應)對每個結果獨立評估證據等級,并將證據質量分為高、中、低、極低4個等級。新的GRADE指南指出,可將NRSI等同于理想RCT,即“目標試驗”,此時認為NRSI證據體初始證據等級為高,且不因隨機化缺乏降級,而是因隨機化不好降級[68]。考慮到NRSI證據體能夠提供更直接的證據,可能會減少RCT證據的降級,Schwingshackl等[69]調查營養學Cochrane系統評價中RCT和隊列研究對于GRADE證據評級的影響后發現,匯集兩種證據體減少了不精確性和不一致性的總體降級,而對偏倚風險、間接性和發表偏倚的影響很小。考慮到計劃書、CONSORT聲明、倫理審查等均可在一定程度上規范RCT的報告,NRSI可能具有更高的發表偏倚風險。因此,如何將NRSI納入對證據質量的總體評估(分開評級或合并評級)仍需進一步探索。
4 總結
目前,NRSI在證據整合中的作用逐漸凸顯,可補充、遞補甚至替代RCT證據。研究者在應用這些證據的同時,應全面考慮NRSI研究可能存在的局限性對結果的影響,比如選擇偏倚、錯分偏倚、混雜偏倚等。在證據整合中納入NRSI仍存在幾個關鍵問題:何時考慮NRSI和RCT證據;如何在不同場景下考慮納入NRSI的研究類型;如何定量整合NRSI和RCT證據,以最小化偏倚對結果的影響;如何進行證據質量分級。圍繞NRSI在證據整合中的關鍵問題,建立多來源證據整合技術框架仍值得進一步探討,以充分發揮NRSI在完善證據鏈中的優勢,促進NRSI在健康決策系統中的合理使用。
1 整合隨機對照試驗(randomized controlled trail,RCT)證據與非隨機干預研究證據的必要性
1.1 現代循證醫學對單一研究類型的證據整合提出挑戰
RCT通常被認為是確定治療方案因果效應的金標準,基于高質量RCT的系統評價也被認為是最高等級證據[1]。RCT設計嚴謹,干預的隨機化和分配隱藏能夠平衡基線預后因素、最小化偏倚[2]。以往觀念普遍認為,RCT可使結果最大限度接近真實值,而觀察性研究幾乎沒有或沒有價值[3]。近年來,這種觀點受到了方法學家的批判,RCT的局限性逐漸凸顯[4]:① RCT通常樣本量較小,且隨訪時間有限,難以支持評價具有罕見或長期隨訪結局的干預效果[3];② 受限于嚴格的納入與排除標準,RCT的研究結果外部真實性不足,難以反映干預措施在實際臨床環境中的治療效果[5-6];③ 特殊群體,例如腫瘤患者、重癥患者、老年人、孕婦和兒童等,受倫理限制,難以開展RCT[7];④ RCT效率可能較低,且伴隨著高昂的時間和價格成本,使得RCT在某些罕見疾病和危及生命的重大疾病中難以開展[7]。
非隨機干預研究(non-randomized studies of interventions,NRSI)作為評估干預效果的關鍵方法之一,在健康決策中發揮著重要作用。Cochrane Handbook將NRSI定義為任何不使用隨機化方式將單位或個體分配到不同組別中,以評估干預措施(有益或有害)有效性的定量研究,例如準隨機對照試驗(quasi-randomized trial/quasi-experiment study)、前后對照研究(controlled before and after design)、隊列研究(cohort study)、病例-對照研究(case-control study)和中斷時間序列研究(interrupted time series)[8-9]。美國衛生保健質量與研究機構(Agency for Healthcare Research and Quality,AHRQ)將NRSI定義為對干預措施的有效性和/或危害性的觀察或試驗性研究,其中患者未被隨機分配[4]。
近年來,真實世界數據(real world data,RWD)的廣泛運用,研究方法和技術平臺的逐步完善,尤其是現代流行病學設計和因果推斷統計方法的快速發展,為基于RWD的NRSI在臨床醫療決策中的作用提供了新的思路和方法[10-11]。與傳統RCT相比,NRSI具備諸多優勢:① 樣本量通常較大,能夠觀測到慢性、罕見的結局,可針對不同亞型、不同臨床特征患者進行分類研究,為藥物治療決策提供依據[12];② 對研究對象限制較小,研究人群有較好代表性,外部真實性高,能夠反映干預措施在真實臨床環境下的治療效果[13];③ 可通過電子病歷、醫保理賠數據庫、疾病注冊登記數據等快速收集數據,并對患者相關結局進行評價,效率高且費用低[14];④ 較少進行人為干預,更易被研究對象接受,易通過倫理審查[12];⑤ 可提供某些情況下RCT無法提供的證據,例如長期用藥安全性、疾病負擔、非試驗環境中的基線風險信息等[15]。
證據整合是指將解決同一研究問題的多項研究結合起來,以提取在特定時間點對特定問題已知情況的概括理解,是評價臨床療效、制訂指南和規范的基石。RCT和NRSI均是干預措施評價的重要潛在證據來源[16]。然而,由于NRSI無法實現隨機化,不同干預措施的組間基線往往存在差異,致使研究結果可能存在偏倚,限制了其在證據整合中的應用。常見影響NRSI有效性的偏倚包括選擇偏倚(selection bias)、混雜偏倚(confounding)、錯分偏倚(misclassification)等。正確認識和處理NRSI的偏倚,是將其用于醫療保健決策的先決條件。幾種新的流行病學設計(例如活性藥物對照、新用藥者設計[17])和因果推斷分析方法[例如傾向性評分、工具變量、邊際結構模型(marginal structural models,MSMs)、多變量回歸分析[18-19]],均可在一定程度上減少偏倚。已發表的多項比較調整混雜因素后NRSI和RCT的一致性研究顯示出了不同的結果。2022年的一項Meta流行病學分析表明,42%使用MSMs因果建模的NRSI與評估同一臨床問題的RCT結果不一致[20]。其他探索性研究發現,與RCT相比,使用傾向性評分方法分析的NRSI在治療效果上差異無統計學意義[21-22]。因此,如何恰當的將NRSI用于證據整合仍需進一步探究。
1.2 多來源證據整合可成為支撐健康決策的重要手段
在證據整合中考慮NRSI證據體的概念較早就被提出,但尚未完全解決。1992年,美國政府問責局(Government Accountability Office,GAO)首次提出了“cross-design synthesis”的概念,指出在療效比較研究中,應當綜合權衡多個數據來源的證據[23]。2017年Mayo‐Wilson等發布了在系統評價中使用來自多個數據源研究的指南[24]。2022年GRADE工作組指出,應綜合權衡RCT和NRSI在解決目標PICO(population,intervention,comparison,outcomes)上的優勢和缺陷,充分發揮NRSI在健康決策中的作用[25]。AHRQ醫療保健項目指南進一步強調,在證據整合過程中,如果RCT和NRSI結論一致,則NRSI有助于證實RCT的結論或擴大其結論的適用性,如果不一致,NRSI可提供新的證據或作為RCT的必要補充[4]。國際藥物流行病學學會(International Society for Pharmacoepidemiology,ISPE)提出,應在評估藥物相對有效性時考慮NRSI,以解決RCT結果外推到其他適應癥上的局限性,且可增加現有證據,為治療決策提供更多信息,例如評估多重病癥患者的健康結局和長期隨訪結局[26]。
證據整合關鍵的一點在于現有的證據是否足以回答醫療保健問題[27]。在進行證據整合時,當RCT無法提供直接比較的證據時,NRSI證據顯得尤為重要,甚至可能優于來自特定人群的RCT證據;同時,NRSI可以增強對研究結果的可解釋性。然而,不合實際或不正確地納入NRSI,都不能優化證據合成,甚至可能誤導健康決策,產生不良后果。何時檢索并納入RCT和NRSI兩種類型的研究設計?如何全面獲取NRSI證據?敘述性綜合和定量整合的前提條件是什么?定量整合兩種證據體的最佳統計學方法是什么?納入NRSI對于證據的確定性和健康決策有什么影響?是目前阻礙在證據綜合中整合RCT和NRSI證據的關鍵問題[25]。
2 整合NRSI和RCT的可行性
2.1 RCT和NRSI證據體一致性
近年來,NRSI證據越來越多的被納入療效比較系統評價中。Page等對2014—2018年發表的Meta分析調查顯示,21%和7%的研究分別考慮了隊列和病例-對照研究,與往年相比,這一比率有所上升[28]。多項Meta流行病學研究通過匹配RCT中的PICO要素和NRSI中的相應要素,評價兩種證據體之間的一致性。結果發現,平均而言,RCT和NRSI的效應估計值之間差異很小甚至沒有平均差異[12,29-31]。然而,Hong等比較觀察性研究和RCT藥物有效性和安全性的研究后發現,接近20%的匹配組存在顯著差異且效應估計值方向相反,觀察到的差異可能與RCT和觀察性研究中患者群體的異質性、干預措施的差異性和統計分析方法的多樣性有關[32]。有理由認為,受限于研究設計,任何給定的觀察性研究數據可能都無法復制比較相同治療的RCT[32]。因此,影響RCT和NRSI證據體一致性的因素仍需進一步探索。
2.2 整合RCT和NRSI證據體的基本要求
在是否納入NRSI的考慮過程中,兩個重要問題是基礎且關鍵的,一是整合RCT與NRSI證據體的先決條件,NRSI和RCT在PICO方面需與證據整合的關鍵問題保持一致[33]。例如,Abraham等對行腹腔鏡手術和開腹手術的結腸癌患者不良結局(死亡率、再手術率)的RCT和NRSI分別進行Meta分析后發現,在匹配PICO的情況下,設計良好的NRSI可提供與RCT相似的效應估計值[34]。二是納入NRSI的范圍。Cochrane Handbook就NRSI研究設計的多樣性提出了兩個關鍵問題:第一,是否與PICO相關的所有NRSI都應該納入?第二,如果沒有包括所有NRSI類型,那么應該使用哪些研究設計特征作為標準來決定最終納入研究?NRSI的研究設計類型在一定程度上會影響其偏倚風險,例如,病例-對照研究通常被認為比隊列研究偏倚風險更高,但這一問題并未得到充分重視。一項流行病學調查顯示,69%的Meta分析并未報告納入NRSI的研究類型[35]。目前對于特定類型NRSI的選擇尚無統一標準,GRADE指南指出,系統評價者應使用研究設計特征而不是研究標簽區分NRSI類型,應以研究目的和健康決策背景為主要切入點,選擇解決PICO問題的最佳NRSI類型[36-37]。
AHRQ指南提出了在證據整合中考慮NRSI證據體的一些要素:① RCT和NRSI在多大程度上可以解決決策困境,RCT和NRSI解決研究問題的直接性;② RCT是否能夠充分解決關鍵問題;③ NRSI解決關鍵問題的偏倚大小;④ RCT和NRSI在多大程度上可以相互補充;⑤ 計劃納入NRSI時,系統評價團隊應包括熟悉數據源和高級分析方法的成員;⑥ 在研究計劃中說明符合條件的研究設計方法;⑦ 解釋納入或排除NRSI的決定;⑧ 討論納入或排除NRSI的決定的潛在影響;⑨ 說明整合RCT和NRSI證據的方法,并展示證據體的總體證據等級和推薦強度[4]。
2.3 RCT和NRSI證據整合現狀
目前,BMJ和Annals of Internal Medicine發表的多篇系統評價和Meta分析均證實了在證據整合中考慮NRSI和RCT的可行性和必要性,解決的臨床問題涵蓋心血管[38]、骨科[39]、營養[40-41]、呼吸內科[42]等多個領域,但其合并不同研究類型的方法各不一致,主要分為3種:① 基于NRSI研究類型進行亞組分析,例如,Hopley等分別基于RCT、準隨機對照試驗和回顧性隊列研究進行亞組分析,最終報告匯總效應量的結果[39];② 基于RCT和NRSI單獨分析,例如,Alipanah等基于RCT和隊列研究進行單獨的Meta分析,針對每一個結局分別給出兩種證據體的合并效應量[42];③ 采用Meta分析方法定量整合RCT和NRSI,例如,Aburto等將9項RCT研究和1項前瞻性隊列研究匯總在一個Meta分析中[41]。Bun等對2014—2018年發表的Meta分析進行調查發現,38%的研究在一個Meta分析中計算兩種證據體的合并值;27%的研究僅對RCT進行Meta分析,對觀察性研究進行定性描述;15%的研究分別對RCT和NRSI進行亞組分析[43]。Cochrane Handbook指出,不應將RCT和NRSI兩種證據體合并在Meta分析中,且當隊列研究和病例-對照研究涉及不同的研究問題時,也不應合并在Meta分析中[44]。然而,最近的IPSE提出的整合NRSI和RCT的描述性框架研究并不反對合并兩種研究設計[26]。
3 如何整合RCT與NRSI證據體
3.1 何時整合:納入NRSI的時機
循證醫學指出,健康決策應充分利用“最佳可用證據”,而不是“最高級別”的證據[45]。應當針對不同的臨床醫療具體問題,綜合最佳證據來源,使其更好的應用于醫療決策。從理論框架的角度來看,現有指南針對在證據整合中考慮NRSI的時機提出了不同的觀點:GRADE建議,在證據整合時,若RCT未能提供足夠高質量的證據來回答目標PICO問題,NRSI可以作為RCT的補充、遞補和替代證據,即使用NRSI對RCT缺失證據進行補充,對未能從RCT中獲得的證據進行遞補,使用NRSI證據代替RCT證據以支持決策[25];若RCT證據質量較高且數量充足,考慮到證據的高確定性不會得到改善,可能沒有必要進一步評估NRSI的證據;此外,即使不在證據整合中納入NRSI,也應當說明NRSI證據的存在及現狀,為今后研究提供參考[27]。然而,在Brockelmann等[31]開展的實證研究中,僅5%的RCT證據體被評為高確定性,說明NRSI有待充分應用。AHRQ認為,需要根據不同的系統評價主題和關鍵問題決定是否納入NRSI,并報告納入或排除NRSI的理由[4]。
從實際待解決的臨床問題的角度來看,考慮是否納入NRSI,最重要的是評估解決關鍵問題的最佳研究設計,明確可用證據的范圍。GRADE指出,對于NRSI的考慮應當從研究計劃開始,通過開展范圍綜述(scoping review)對研究進行初步探索,判斷RCT的可及性,確定解決研究問題的最佳證據類型,并說明選擇理由[25]。2014年一項方法學調查發現,56%整合RCT和NRSI的Cochrane系統評價沒有說明納入NRSI的原因和類型[46],說明在證據整合中納入NRSI的實際場景尚不完全明確。Ijaz等[46]對Cochrane協作網中納入NRSI證據的系統評價進行探究后發現,系統評價中納入NRSI主要包括兩種情況:① 當計劃納入RCT但隨機化不切實際或難以實現、可用RCT數量稀少、RCT樣本量不足時考慮NRSI;② 當不計劃納入RCT時考慮NRSI。
3.2 如何整合:敘述性綜合和Meta分析
證據整合泛指將RCT和NRSI通過定性分析、定量分析或定性結合定量分析的形式進行合并。Meta分析是將多個獨立的臨床研究定量合并成一個單獨估計值的統計學方法[47]。敘述性綜合(narrative synthesis)是指當評估干預措施量化效應的系統評價中缺少適合Meta分析的數據時,采用文字描述研究結果的定性分析方法[48]。在基于RCT的證據整合中,當匯總結果存在顯著異質性或效應評估報告不完整時,不建議進行Meta分析[49]。而在基于RCT和NRSI的證據整合中,進行敘述性綜合、Meta分析或兩種方法結合的時機尚不明確。Cuello-Garcia等[50]調查研究發現,25%的研究者對兩種研究證據進行敘述性綜合,35%的研究者對RCT進行了Meta分析,而對NRSI進行敘述性綜合,5%的研究僅對NRSI進行Meta分析,對NRSI進行敘述性綜合。因此,整合RCT和NRSI證據體需要一些高級的統計方法支持,根據證據結構和分析方法的不同,可以分為直接比較Meta分析和網狀Meta分析(network meta-analysis,NMA)[44]。
直接比較Meta分析,是指直接進行兩種干預措施的頭對頭直接比較,簡單合并不同研究的效應量。傳統的Meta分析主要基于頻率學統計理論,通過倒方差加權法計算平均效應,即使用方差的倒數作為對應研究的權重,樣本量越大,方差越小,相對應的權重也就越大[51]。在定量整合RCT和NRSI證據體時,NRSI樣本量通常較大且易受到各種偏倚的影響,如果不考慮這些偏倚,使用倒方差法直接匯總兩種證據體,可能會產生有偏估計。基于貝葉斯的Meta分析方法則通過對先驗分布和數據的聯合概率分布推斷出總體效應量,在一定程度上校正了偏倚,例如:① 偏倚校正Meta分析模型(bias-corrected meta-analysis model,BC)基于兩個隨機效應創建子模型,分別為感興趣的模型(model of interest)和偏倚模型(model of bias),通過合并兩個模型,可根據納入研究的內部有效性偏倚(隨訪偏倚、實施偏倚、測量偏倚、混雜變量、選擇偏倚等)對模型進行校正[52];② 層次Meta回歸分析(hierarchical meta-regression,HMR)采用多層次線性模型,將Meta分析結果分為多個層次,然后在每個層次上進行回歸分析,確定數據在組內和組間的變異性[53]。
NMA也被稱為混合療效比較或多重治療Meta分析[54]。當沒有直接證據或證據不充分時,NMA能夠實現RCT中兩種及兩種以上干預措施的間接比較,近年來逐漸開始用于NRSI和RCT的整合。NMA主要分為頻率學方法和貝葉斯方法。頻率學方法是指當觀察性研究偏倚較大時,不考慮觀察性研究證據,當觀察性研究偏倚較小時,可根據偏倚大小調整權重,偏倚風險越大,分配的權重越小,相較于貝葉斯方法更易應用和理解[55]。貝葉斯方法主要包括四種:① 直接合并(na?ve data synthesis),即不區分研究設計類型,直接合并效應量;② 使用NRSI作為先驗信息(information priors),即NRSI分析結果作為RCT分析的先驗信息,通過降低NRSI的權重來減少偏倚對整體效應量的影響,但此種方法未考慮不同研究設計之間的異質性[54];③ 貝葉斯三級層次模型(bayesian three-level hierarchical model),該模型適用于不同研究設計類型的數據(例如RCT、隊列研究、病例-對照研究等)的整合,假設在不同研究設計中治療效果存在差異,使用回歸模型第一層對個體研究內的變異進行建模,第二層對研究間變異進行建模,第三層對RCT和NRSI之間的變異進行建模,通過在特定研究水平上創建估計值,量化不同研究設計對結果的影響[56];④ 研究設計調整分析(design-adjusted analysis,DAS),通過方差膨脹因子(值在0和1之間)增加NRSI的平均效應方差,對每個NRSI可能的偏倚進行校正,以降低NRSI在Meta分析中的權重[57]。Turner等指出,偏倚對于治療效應的影響可能因不同研究設計類型而不同,針對不同的研究類型應分別給出偏倚校正權重[58]。盡管量化偏倚是定量整合多元證據體的一個切實可行的方法,但識別所有的潛在偏倚因素,并量化其對療效的影響,仍存在一定的困難[59]。
值得注意的是,已發表系統評價并未充分重視RCT和NRSI定量合并方法的規范使用和報告。Zhang等[60]針對NMA的調查性研究發現,大多數已發表研究并未透明報告匯總兩種證據的方法,74%使用直接合并方法,9%使用貝葉斯三級層次模型,尚無納入研究使用信息先驗的方法。Yao等[61]探討在罕見事件系統評價中定量整合RCT和RWE的方法后發現,DAS統計性能較好,可作為罕見事件效應值合并的首選方法,考慮到不同場景的差異性,仍需進一步開展實證或模擬研究比較RCT和NRSI證據體定量合并方法的統計性能。
3.3 整合對于結果的影響
在解釋系統評價中NRSI治療效果的數據時,系統評價者應當評估NRSI是否對重要的混雜因素進行了充分調整,以及對結果的影響大小[4]。NRSI偏倚調整與數據測量的準確性和完整性、數據分析方法有關,不恰當的調整可能會高估或低估治療效果。Mathur等提出“在隨機效應Meta分析中使用E值”的概念,即評估未測量混雜對研究結果的影響程度,E值越大,需要用于解釋效應量的未測量混雜因素就越大[62]。
在Meta分析中合并NRSI證據在多大程度上影響結果,目前尚不清楚。一項納入營養學領域773個RCT和720個隊列研究的實證研究發現,RCT對于匯總估計的貢獻權重中位數小于隊列研究,因為權重主要受到樣本量和事件數量的影響(二分類結局),而RCT的樣本量和事件數量往往較隊列研究更低。此外,該研究指出,來自隊列研究的證據體修正了近50%疾病關聯中RCT證據體的結論,但RCT效應方向與總的合并效應方向是一致的,說明納入NRSI證據能夠提高統計精度[63]。Br?ckelmann等[64]探討了整合隊列研究和RCT與單獨整合RCT在統計學異質性、合并效應量等方面的差異,發現整合兩種證據體后效應估計方向基本不變,整合隊列研究后,27%單獨整合RCT的研究結論發生改變,此外,加入隊列研究的Meta分析具有更高的統計學異質性,主要是由于研究方法的多樣性(測量暴露和結果方法差異)和對于混雜不同程度的調整(殘余混雜)。
在結果展示方面,證據摘要表(summary of funding,SOF)是GRADE開發的呈現證據質量、與質量評級有關的判斷及備選方案對所關注結局的影響的方法[65]。在SOF表中,仍不確定是將RCT和NRSI在SOF表中分開,還是將RCT和NRSI的結果置于同一標準尺度一起考慮。尤其是,對于不同證據體的定量整合,可能產生相同或相反的效應量。針對兩種證據體合并效應量相反的情況,部分研究者選擇報告證據質量相對較高的RCT結果,部分選擇報告總體合并結果,其余研究者報告兩種不同的結果,目前尚缺乏相關的指導或準則。
3.4 整合對于證據等級的影響
納入研究的偏倚風險結果是研究者對證據進行GRADE分級的重要依據。選擇最可靠的NRSI證據與RCT進行定量分析,可以使兩種證據體的數據整合后產生可信的結果。可能威脅NRSI有效性的關鍵因素有:邊際效應,選擇參與者的方法,混雜,評估內部效度的方法(處理測量誤差的敏感性分析),評估外部效度的方法(事后亞組分析)。目前,對RCT的偏倚評價方法相對成熟,最常用的是Cochrane偏倚風險評估工具2(tools2 for assessing risk of bias in randomized trail,ROB 2)[66]。NRSI的質量評價工具各不相同,Faber等[35]調查性研究表明,36%的研究選擇紐卡斯爾-渥太華量表(Newcastle-Ottawa scale,NOS),20%的研究選擇其他工具評估NRSI的偏倚風險。針對NRSI偏倚風險的評估問題,布里托斯爾大學于2016年推出了ROBINS-I工具,可將不同類型的NRSI置于同一個評價體系中進行更詳細的評估,也可將RCT和NRSI置于一個共同的偏倚風險度量標準上,以更好的比較來自RCT和NRSI的證據[67]。
在GRADE證據分級中,NRSI初始證據等級為低,RCT初始證據等級為高,通過5個降級因素(偏倚風險、不一致性、不精確性、間接性和發表偏倚)和3個升級因素(大效應量、混雜因素、劑量反應)對每個結果獨立評估證據等級,并將證據質量分為高、中、低、極低4個等級。新的GRADE指南指出,可將NRSI等同于理想RCT,即“目標試驗”,此時認為NRSI證據體初始證據等級為高,且不因隨機化缺乏降級,而是因隨機化不好降級[68]。考慮到NRSI證據體能夠提供更直接的證據,可能會減少RCT證據的降級,Schwingshackl等[69]調查營養學Cochrane系統評價中RCT和隊列研究對于GRADE證據評級的影響后發現,匯集兩種證據體減少了不精確性和不一致性的總體降級,而對偏倚風險、間接性和發表偏倚的影響很小。考慮到計劃書、CONSORT聲明、倫理審查等均可在一定程度上規范RCT的報告,NRSI可能具有更高的發表偏倚風險。因此,如何將NRSI納入對證據質量的總體評估(分開評級或合并評級)仍需進一步探索。
4 總結
目前,NRSI在證據整合中的作用逐漸凸顯,可補充、遞補甚至替代RCT證據。研究者在應用這些證據的同時,應全面考慮NRSI研究可能存在的局限性對結果的影響,比如選擇偏倚、錯分偏倚、混雜偏倚等。在證據整合中納入NRSI仍存在幾個關鍵問題:何時考慮NRSI和RCT證據;如何在不同場景下考慮納入NRSI的研究類型;如何定量整合NRSI和RCT證據,以最小化偏倚對結果的影響;如何進行證據質量分級。圍繞NRSI在證據整合中的關鍵問題,建立多來源證據整合技術框架仍值得進一步探討,以充分發揮NRSI在完善證據鏈中的優勢,促進NRSI在健康決策系統中的合理使用。