高質量隨機對照試驗是解釋醫療衛生干預措施與結局之間關系的最佳證據來源,但在其不充足、不直接、不適合等情況下,研究者可能需要納入非隨機干預試驗以擴充證據數量和增強證據確信度(質量)。GRADE工作組的最新研究為指導研究人員正確整合隨機與非隨機干預研究證據提供了方法。本文將基于最新和既往研究,介紹相關方法學,旨在為系統評價制作者、衛生技術評估人員、指南制訂者和使用GRADE進行證據綜合的其他研究人員提供指引。
引用本文: 賴鴻皓, 田晨, 朱鴻飛, 楊秋玉, 孫銘謠, 田金徽, 葛龍, 殷敏. 如何整合隨機與非隨機干預研究. 中國循證醫學雜志, 2022, 22(7): 836-841. doi: 10.7507/1672-2531.202201089 復制
1 背景
在系統評價中,高質量的隨機對照試驗(randomized controlled trial,RCT)是比較干預措施相對效果最為可靠的證據來源[1-5]。與之相對地,非隨機干預研究(non-randomized studies of interventions,NRSI)也能夠提供相應證據。但由于其存在混雜因素的可能性更高,使得NRSI在證據支撐上的應用受到很大制約[4-5]。
NRSI在Cochrane Handbook[6]中被定義為任何不使用隨機化方式將單位(個體或個體集群)分配到不同研究組中的評估干預(有益或有害)有效性的定量研究,非隨機的研究設計是導致懷疑其結果遠離真實值的重要原因。隊列研究、病例-對照研究、自身前后對照研究、研究設計不當的“準隨機對照研究”和特殊類型的非隨機數據分析等,都屬于NRSI的范疇[6]。
在進行證據整合和系統評價時,當RCT無法回答目標PICO(population,intervention,comparison,and outcome)問題時,我們仍需要納入NRSI以補充、遞補或替代RCT證據[7-8](圖1)。常見情況包括隨機設計不切實際或難以實現、可用的RCT數量稀少、RCT樣本量不足等。尤其在中醫藥循證醫學研究領域,研究人員常受制于薄弱的證據基礎,難以甚至無法形成證據[9-10]。真實世界研究(real-world study,RWS)認為,RCT納入人群可能無法與現實世界人群一致,僅使用RCT的證據可能無法真實地反映在日常衛生健康活動中目標干預措施的相對效果[11-12],而NRSI有時相較于RCT更接近目標PICO。對證據直接性的強調與追求,也是納入NRSI作為證據來源的重要出發點[6-7]。在這類情況下,將NRSI納入證據合成,是可取的、合理的[8]。然而證據合成過程仍需要嚴謹的方法,以盡可能減小偏倚的產生,避免信息誤用或濫用。

NRSI:非隨機干預研究;RCT:隨機對照試驗。
基于上述考慮,本文將結合發表于Journal of Clinical Epidemiology的隨機與非隨機研究證據合成優化方法學文章[8],重點闡釋在系統評價的過程中檢索和納入NRSI的時機和關鍵點。旨在幫助系統評價作者、衛生技術評估人員、指南制訂者和使用GRADE進行證據綜合的其他人員盡可能地獲得高確信度(質量)的證據。
2 納入NRSI的選擇
在證據合成研究中,是否需要納入NRSI是首先需要考慮的問題,其次是納入時機。不合實際或不合時宜地納入NRSI,都不能優化證據合成。對于該問題的考慮應當從證據合成研究的計劃階段開始,以研究的單個結局為單位分別進行,詳見圖2。
2.1 計劃階段的選擇
對于計劃納入NRSI的證據合成研究而言,過程中會涉及繁多且關鍵的選擇點,不同選擇對結果影響重大,因此計劃階段的研究方案制定比正式開展研究更為重要。在計劃階段最初,研究人員應當以目標干預措施為主要切入點進行考慮,明確可用證據的范圍,確定解決PICO問題的最佳研究設計,說明研究將會納入RCT還是NRSI,亦或是二者兼有,并報告文獻類型的選擇理由,然后進行文獻檢索[13](圖2,節點①和②)。此時研究人員只需要考慮RCT對評估干預措施相對效果的作用,而無需考慮RCT是否可及。
因RCT無法很好地評估干預措施的相對效果,不能為解決目標問題提供合適的證據而納入NRSI的常見情況有:① 目標結局發生率低或發生時間漫長,證據需要在大樣本人群中經過長期觀察才能獲得,RCT難以實施;② 研究問題涉及罕見、突發、重大的疾病或事件時,隨機分組設計過程可能有違倫理、危害患者健康、造成嚴重后果,RCT不應實施;③ RCT嚴苛的納入排除標準等可能導致證據與目標人群或實際情況之間存在嚴重間接性時,RCT證據無法很好地回答研究問題。此類情況下,NRSI可能提供用以補充、遞補或替代RCT證據的信息,從而對總體證據的確信度作出重要貢獻。
在進行初步的考慮之后,研究者可通過范圍綜述對研究進行初步探索,以估計研究范圍和大致工作量等,對研究相關知識進行綜合[14-15]。研究人員也需要借助范圍綜述的結果來判斷RCT的可及性(圖2,節點③),RCT可及與否將決定正式系統評價的走向。
2.2 系統評價階段的選擇
若在計劃階段判斷RCT不可及,則直接對NRSI進行文獻檢索和篩選,在此過程中同樣需要判斷NRSI的可及性。若NRSI可及,則對其進行分析;若NRSI不可及,則終止該研究。
若判斷RCT可及或不確定其可及性,則需先對RCT和NRSI同時進行文獻檢索和篩選,并按RCT優先,NRSI在后的順序進行分類(圖2,節點④)。如果存在RCT,則對其進行數據提取、偏倚風險評價和GRADE分級(圖2,節點⑤);若未發現RCT,再將視線轉向NRSI(圖2,節點⑧)。
在這一階段,有2個問題是值得我們注意的:一是,對RCT證據是否有足夠的判斷。當文獻檢索和篩選的結果趨于極端時,即沒有RCT納入和RCT數量非常充足、證據高度契合研究問題的情況,研究者很容易判斷單靠RCT是否足以提供證據支撐。但當研究者對納入的RCT證據回答問題的能力存疑時,則需要與專家小組進行探討,以作出二選一的抉擇:① 納入的RCT證據能夠回答研究問題,當前僅考慮RCT證據;② 沒有RCT證據能夠回答研究問題,僅使用NRSI證據。二是NRSI的文獻檢索問題。由于研究類型多樣,且研究設計標簽名稱、使用不統一,數據庫也缺乏NRSI的可靠索引,其檢索難度相較于RCT的檢索要大很多。寬泛的檢索策略能夠減少漏檢,但同時也大大增加了系統評價員的工作量。因此,在對NRSI進行檢索之前,需要與專家展開充分討論,以優化檢索策略。
在節點⑤,研究者應使用GRADE的方法對每一個RCT進行評估,并始終考慮每一個結局,從而評估證據體的確信度(圖2,節點⑥)。若結果認為來自RCT的證據確信度很高,則研究者無需再考慮納入NRSI,且只能使用來自RCT的證據;若沒有來自RCT的高質量證據,則需要考慮納入NRSI(圖2,節點⑦)。納入NRSI的決定還需要依據范圍綜述對其證據確信度貢獻的判斷,若不能發揮作用,則不應再納入NRSI;若能發揮作用,則返回到文獻檢索和篩選階段(圖2,節點⑧),將NRSI納入系統評價。此時可能出現2種情形:① 來自RCT的證據確信度為“低”或“極低”,則NRSI可能對其具有補充、遞補甚至替代的作用;② 來自RCT的證據確信度為“中等”,則NRSI可能具有進一步補充作用(圖2,節點⑨)。
3 在證據綜合中整合RCT和NRSI
3.1 合理評價納入研究的偏倚風險
納入研究的偏倚風險結果是研究者對證據進行GRADE分級的重要依據。對RCT的偏倚風險評價方法是相對成熟的[16],但對于NRSI而言,偏倚風險評價更具有難度和挑戰。
與RCT評價相似,NRSI的評價考慮的應是發生偏倚的領域和程度。一些RCT產生偏倚的因素同樣常見于NRSI,且通常程度更為嚴重。例如,NRSI的研究對象失訪、脫落現象往往比RCT更嚴重,且缺乏相關信息的詳細報告;研究沒有或很少根據計劃書開展;缺乏洗脫選擇性報告嫌疑的手段等。在實際應用中,部分證據使用者可能會認為NRSI的觀測時長通常數倍于RCT的實施時間,從而產生NRSI證據質量更高的誤判。或是過度強調證據直接性,而忽略其偏倚風險。
目前使用的幾種NRSI偏倚風險評估工具有NOS(Newcastle-Ottawa scale)、Downs-Black、CASP(critical appraisal skill program)和ROBINS-I(risk of bias in non-randomised studies of interventions)等[17-21]。其中,ROBINS-I工具涵蓋了所有重要的偏倚風險領域,使用范圍更廣,尤其在同時納入RCT和NRSI的系統評價中,ROBINS-I能夠先將NRSI視為RCT進行評價,降級原因不是NRSI缺乏隨機化,而是其隨機化不好。而對于具有相似偏倚的RCT和NRSI,它能夠對二者的合并證據體進行證據確信度分級。ROBINS-I對不同研究相似性的理解更好,可能是最適合用于納入了NRSI的系統評價的偏倚風險評價工具[8]。
3.2 可能出現的證據情況
若研究者在系統評價中同時納入RCT和NRSI 2種類型研究,回答同一問題則有可能出現16種不同的證據確信度組合(圖3)。

NRSI:非隨機干預研究;RCT:隨機對照試驗。
在圖3呈現出的16種可能中,并不是所有情況都需要考慮納入NRSI。在A、B、C、D這4種情況下,來自RCT的證據已能夠近乎完美地回答問題,此時即使納入高質量NRSI也不會再提升證據的確信度,因此研究者無需再考慮納入NRSI。若關注結局為有利結局,E、I、M這3種情況則極不可能發生。即使存在微小的可能性,研究者也應當先對RCT的證據確信度較低的原因進行個案評估,再考慮是否需要納入NRSI證據。M、N的發生概率也是極低的,但這2種情況下納入NRSI可能是有用的,研究者仍需要在評估RCT證據確信度較低的原因后再進行考慮。當P發生時,研究者進行證據補充也不會改變證據確信度的情況,此時納入NRSI是沒有必要的。而對于其他的7種情況(F、G、H、J、K、L、O)而言,研究者可考慮納入NRSI,因為補充的證據可能增加當前證據的確信度。但當RCT的證據確信度相對較低時(J、O),研究者仍需要對其原因進行評估。
3.3 整合RCT和NRSI的具體形式
Cuello-Garcia等[8]認為,“整合”一詞泛指將RCT和NRSI一起使用的任何形式(定性分析、定量分析、定性與定量分析),可以是在證據總結表中分別展示2種研究的證據,亦或分別進行Meta分析,甚至是可以分析計算2種研究的合并結果。Reeves等[6]認為不同研究設計間的結果差異是系統性的,即RCT和NRSI不應放到同一Meta分析中進行數據合并,并且2個及以上研究設計迥異的NRSI同樣不應進行Meta分析。而當排除了極高偏倚風險的研究后,將PICO相似的隊列研究和病例-對照研究進行Meta分析才具有一定合理性。
在Cuello-Garcia等的調查中[22],138位來自Cochrane 協作網、世界衛生組織等研究機構的系統評價和臨床指南專家受邀回答了他們關于使用隨機和非隨機證據的態度與偏好。大多數研究者(66.3%)會在合適的情境下納入NRSI以最大限度地利用證據,但很少有研究者(17.5%)會在一個Meta分析中計算RCT和NRSI的合并值。大多數研究者還是更愿意將不同的研究類型分開分析,如進行單獨的Meta分析和亞組分析等。
當進行此類Meta分析時,逆方差法(inverse-variance)可能是最為適用的[23]。如果Meta分析合并了多種類型的研究,那么合并結果的異質性大概率會很高。因此,研究者應當默認選擇隨機效應模型進行數據合并;若選擇使用固定效應模型,則應闡明理由[6]。
4 討論
本文介紹的方法來自于GRADE工作組的最新研究成果,但對于該問題的探討還遠沒有結束[8]。系統評價制作的部分方法仍需要更多解釋、調整和優化,以有效控制研究者主觀因素對結果產生影響的偏倚風險。GRADE工作組未來需要重點解決的問題包括但不限于納入RCT和NRSI的系統評價中的GRADE分級方法、證據合成具體形式和采取該形式的適用條件等[8]。
在是否納入非隨機研究設計的考慮過程中,NRSI的范圍問題是基礎且關鍵的。目前沒有一個具有普適性的標準能夠明確告訴研究者回答PICO問題應當使用哪一種特定類型的NRSI。因此,預先進行范圍綜述是提高研究者后續判斷準確性的重要步驟[24]。由于NRSI的范圍通常較大,也很少會有準確的標簽、索引,文獻檢索前也需要進行充分討論和預調查。在GRADE分級中,患者重要結局證據確信度為高,并不意味著其他結局也擁有同等證據確信度,因此,研究者應當對每一個結局都獨立地評估證據等級[13]。不同研究設計的NRSI在偏倚風險評價、證據確信度評級上的側重點不同,用于研究干預措施的NRSI也通常比較復雜,可能不適合用現有的證據層次結構套用。因此,研究團隊中應至少有一名了解該主題和NRSI方法的專家,以幫助解決這些復雜問題。
在一個系統評價或指南中同時納入RCT和NRSI具有一定復雜性和爭議性[25],但對該方法進行討論和實踐,卻是必要而充滿意義的。在證據制作過程中納入NRSI這一構想,是研究者在漫長的循證醫學實踐過程中以實際問題為導向反復思索的產物。當然,RCT具有嚴謹的研究設計,能夠有效平衡基線預后因素,從而使結果最大限度地接近真實值。然而當我們需要解決RCT無法回答或無法完美回答的問題時,來自NRSI的證據有可能成為決策的有力支撐[26]。有研究驗證[27-28],來自RCT和觀察性研究的大多數證據之間并不存在顯著異質性,這也增強了我們使用NRSI的信心。不止如此,現實情況的復雜性還催生出一種“反常的”特殊情況,即對于特定的問題,NRSI能夠提供比RCT更直接、更具確信度的證據。總而言之,考慮納入NRSI的過程,其實就是綜合權衡RCT與NRSI在解決目標PICO上的優勢與缺陷,而后做出最有利于證據的選擇。其關鍵點在于預先對復雜過程、復雜方法的把握程度,以及每一個判斷節點的謹慎、合理。
討論在證據合成中納入NRSI的意義不僅在于對最佳證據的不懈追求,某種程度上也是對傳統觀念里“次等”研究的運用探索,而這樣的證據優化方式也越來越受到重視[29]。隨著學科發展,未來基礎研究與證據的關系會呈現怎樣的走向?是以證據制作為出發點來調整基礎研究的發展方向,還是在如何利用好現有資料上去動腦筋?至少對于我國中醫藥事業的發展而言,如何利用好現有的資料,如何將名家經驗、古典古籍、特色研究等轉化為具有說服力的證據,尋找和發揮其在完善證據中的優勢,是值得期待的。方法學對具體研究的開展具有指導意義,具體研究反作用于方法學。只有當愈來愈多的學者制作納入NRSI的系統評價,方法學家才有可能從足夠的實例中取得突破進展,而在某種程度上,無論方法學對其持支持還是否定態度,該類型系統評價的大量出現也勢必推進方法學的創新和發展。
1 背景
在系統評價中,高質量的隨機對照試驗(randomized controlled trial,RCT)是比較干預措施相對效果最為可靠的證據來源[1-5]。與之相對地,非隨機干預研究(non-randomized studies of interventions,NRSI)也能夠提供相應證據。但由于其存在混雜因素的可能性更高,使得NRSI在證據支撐上的應用受到很大制約[4-5]。
NRSI在Cochrane Handbook[6]中被定義為任何不使用隨機化方式將單位(個體或個體集群)分配到不同研究組中的評估干預(有益或有害)有效性的定量研究,非隨機的研究設計是導致懷疑其結果遠離真實值的重要原因。隊列研究、病例-對照研究、自身前后對照研究、研究設計不當的“準隨機對照研究”和特殊類型的非隨機數據分析等,都屬于NRSI的范疇[6]。
在進行證據整合和系統評價時,當RCT無法回答目標PICO(population,intervention,comparison,and outcome)問題時,我們仍需要納入NRSI以補充、遞補或替代RCT證據[7-8](圖1)。常見情況包括隨機設計不切實際或難以實現、可用的RCT數量稀少、RCT樣本量不足等。尤其在中醫藥循證醫學研究領域,研究人員常受制于薄弱的證據基礎,難以甚至無法形成證據[9-10]。真實世界研究(real-world study,RWS)認為,RCT納入人群可能無法與現實世界人群一致,僅使用RCT的證據可能無法真實地反映在日常衛生健康活動中目標干預措施的相對效果[11-12],而NRSI有時相較于RCT更接近目標PICO。對證據直接性的強調與追求,也是納入NRSI作為證據來源的重要出發點[6-7]。在這類情況下,將NRSI納入證據合成,是可取的、合理的[8]。然而證據合成過程仍需要嚴謹的方法,以盡可能減小偏倚的產生,避免信息誤用或濫用。

NRSI:非隨機干預研究;RCT:隨機對照試驗。
基于上述考慮,本文將結合發表于Journal of Clinical Epidemiology的隨機與非隨機研究證據合成優化方法學文章[8],重點闡釋在系統評價的過程中檢索和納入NRSI的時機和關鍵點。旨在幫助系統評價作者、衛生技術評估人員、指南制訂者和使用GRADE進行證據綜合的其他人員盡可能地獲得高確信度(質量)的證據。
2 納入NRSI的選擇
在證據合成研究中,是否需要納入NRSI是首先需要考慮的問題,其次是納入時機。不合實際或不合時宜地納入NRSI,都不能優化證據合成。對于該問題的考慮應當從證據合成研究的計劃階段開始,以研究的單個結局為單位分別進行,詳見圖2。
2.1 計劃階段的選擇
對于計劃納入NRSI的證據合成研究而言,過程中會涉及繁多且關鍵的選擇點,不同選擇對結果影響重大,因此計劃階段的研究方案制定比正式開展研究更為重要。在計劃階段最初,研究人員應當以目標干預措施為主要切入點進行考慮,明確可用證據的范圍,確定解決PICO問題的最佳研究設計,說明研究將會納入RCT還是NRSI,亦或是二者兼有,并報告文獻類型的選擇理由,然后進行文獻檢索[13](圖2,節點①和②)。此時研究人員只需要考慮RCT對評估干預措施相對效果的作用,而無需考慮RCT是否可及。
因RCT無法很好地評估干預措施的相對效果,不能為解決目標問題提供合適的證據而納入NRSI的常見情況有:① 目標結局發生率低或發生時間漫長,證據需要在大樣本人群中經過長期觀察才能獲得,RCT難以實施;② 研究問題涉及罕見、突發、重大的疾病或事件時,隨機分組設計過程可能有違倫理、危害患者健康、造成嚴重后果,RCT不應實施;③ RCT嚴苛的納入排除標準等可能導致證據與目標人群或實際情況之間存在嚴重間接性時,RCT證據無法很好地回答研究問題。此類情況下,NRSI可能提供用以補充、遞補或替代RCT證據的信息,從而對總體證據的確信度作出重要貢獻。
在進行初步的考慮之后,研究者可通過范圍綜述對研究進行初步探索,以估計研究范圍和大致工作量等,對研究相關知識進行綜合[14-15]。研究人員也需要借助范圍綜述的結果來判斷RCT的可及性(圖2,節點③),RCT可及與否將決定正式系統評價的走向。
2.2 系統評價階段的選擇
若在計劃階段判斷RCT不可及,則直接對NRSI進行文獻檢索和篩選,在此過程中同樣需要判斷NRSI的可及性。若NRSI可及,則對其進行分析;若NRSI不可及,則終止該研究。
若判斷RCT可及或不確定其可及性,則需先對RCT和NRSI同時進行文獻檢索和篩選,并按RCT優先,NRSI在后的順序進行分類(圖2,節點④)。如果存在RCT,則對其進行數據提取、偏倚風險評價和GRADE分級(圖2,節點⑤);若未發現RCT,再將視線轉向NRSI(圖2,節點⑧)。
在這一階段,有2個問題是值得我們注意的:一是,對RCT證據是否有足夠的判斷。當文獻檢索和篩選的結果趨于極端時,即沒有RCT納入和RCT數量非常充足、證據高度契合研究問題的情況,研究者很容易判斷單靠RCT是否足以提供證據支撐。但當研究者對納入的RCT證據回答問題的能力存疑時,則需要與專家小組進行探討,以作出二選一的抉擇:① 納入的RCT證據能夠回答研究問題,當前僅考慮RCT證據;② 沒有RCT證據能夠回答研究問題,僅使用NRSI證據。二是NRSI的文獻檢索問題。由于研究類型多樣,且研究設計標簽名稱、使用不統一,數據庫也缺乏NRSI的可靠索引,其檢索難度相較于RCT的檢索要大很多。寬泛的檢索策略能夠減少漏檢,但同時也大大增加了系統評價員的工作量。因此,在對NRSI進行檢索之前,需要與專家展開充分討論,以優化檢索策略。
在節點⑤,研究者應使用GRADE的方法對每一個RCT進行評估,并始終考慮每一個結局,從而評估證據體的確信度(圖2,節點⑥)。若結果認為來自RCT的證據確信度很高,則研究者無需再考慮納入NRSI,且只能使用來自RCT的證據;若沒有來自RCT的高質量證據,則需要考慮納入NRSI(圖2,節點⑦)。納入NRSI的決定還需要依據范圍綜述對其證據確信度貢獻的判斷,若不能發揮作用,則不應再納入NRSI;若能發揮作用,則返回到文獻檢索和篩選階段(圖2,節點⑧),將NRSI納入系統評價。此時可能出現2種情形:① 來自RCT的證據確信度為“低”或“極低”,則NRSI可能對其具有補充、遞補甚至替代的作用;② 來自RCT的證據確信度為“中等”,則NRSI可能具有進一步補充作用(圖2,節點⑨)。
3 在證據綜合中整合RCT和NRSI
3.1 合理評價納入研究的偏倚風險
納入研究的偏倚風險結果是研究者對證據進行GRADE分級的重要依據。對RCT的偏倚風險評價方法是相對成熟的[16],但對于NRSI而言,偏倚風險評價更具有難度和挑戰。
與RCT評價相似,NRSI的評價考慮的應是發生偏倚的領域和程度。一些RCT產生偏倚的因素同樣常見于NRSI,且通常程度更為嚴重。例如,NRSI的研究對象失訪、脫落現象往往比RCT更嚴重,且缺乏相關信息的詳細報告;研究沒有或很少根據計劃書開展;缺乏洗脫選擇性報告嫌疑的手段等。在實際應用中,部分證據使用者可能會認為NRSI的觀測時長通常數倍于RCT的實施時間,從而產生NRSI證據質量更高的誤判。或是過度強調證據直接性,而忽略其偏倚風險。
目前使用的幾種NRSI偏倚風險評估工具有NOS(Newcastle-Ottawa scale)、Downs-Black、CASP(critical appraisal skill program)和ROBINS-I(risk of bias in non-randomised studies of interventions)等[17-21]。其中,ROBINS-I工具涵蓋了所有重要的偏倚風險領域,使用范圍更廣,尤其在同時納入RCT和NRSI的系統評價中,ROBINS-I能夠先將NRSI視為RCT進行評價,降級原因不是NRSI缺乏隨機化,而是其隨機化不好。而對于具有相似偏倚的RCT和NRSI,它能夠對二者的合并證據體進行證據確信度分級。ROBINS-I對不同研究相似性的理解更好,可能是最適合用于納入了NRSI的系統評價的偏倚風險評價工具[8]。
3.2 可能出現的證據情況
若研究者在系統評價中同時納入RCT和NRSI 2種類型研究,回答同一問題則有可能出現16種不同的證據確信度組合(圖3)。

NRSI:非隨機干預研究;RCT:隨機對照試驗。
在圖3呈現出的16種可能中,并不是所有情況都需要考慮納入NRSI。在A、B、C、D這4種情況下,來自RCT的證據已能夠近乎完美地回答問題,此時即使納入高質量NRSI也不會再提升證據的確信度,因此研究者無需再考慮納入NRSI。若關注結局為有利結局,E、I、M這3種情況則極不可能發生。即使存在微小的可能性,研究者也應當先對RCT的證據確信度較低的原因進行個案評估,再考慮是否需要納入NRSI證據。M、N的發生概率也是極低的,但這2種情況下納入NRSI可能是有用的,研究者仍需要在評估RCT證據確信度較低的原因后再進行考慮。當P發生時,研究者進行證據補充也不會改變證據確信度的情況,此時納入NRSI是沒有必要的。而對于其他的7種情況(F、G、H、J、K、L、O)而言,研究者可考慮納入NRSI,因為補充的證據可能增加當前證據的確信度。但當RCT的證據確信度相對較低時(J、O),研究者仍需要對其原因進行評估。
3.3 整合RCT和NRSI的具體形式
Cuello-Garcia等[8]認為,“整合”一詞泛指將RCT和NRSI一起使用的任何形式(定性分析、定量分析、定性與定量分析),可以是在證據總結表中分別展示2種研究的證據,亦或分別進行Meta分析,甚至是可以分析計算2種研究的合并結果。Reeves等[6]認為不同研究設計間的結果差異是系統性的,即RCT和NRSI不應放到同一Meta分析中進行數據合并,并且2個及以上研究設計迥異的NRSI同樣不應進行Meta分析。而當排除了極高偏倚風險的研究后,將PICO相似的隊列研究和病例-對照研究進行Meta分析才具有一定合理性。
在Cuello-Garcia等的調查中[22],138位來自Cochrane 協作網、世界衛生組織等研究機構的系統評價和臨床指南專家受邀回答了他們關于使用隨機和非隨機證據的態度與偏好。大多數研究者(66.3%)會在合適的情境下納入NRSI以最大限度地利用證據,但很少有研究者(17.5%)會在一個Meta分析中計算RCT和NRSI的合并值。大多數研究者還是更愿意將不同的研究類型分開分析,如進行單獨的Meta分析和亞組分析等。
當進行此類Meta分析時,逆方差法(inverse-variance)可能是最為適用的[23]。如果Meta分析合并了多種類型的研究,那么合并結果的異質性大概率會很高。因此,研究者應當默認選擇隨機效應模型進行數據合并;若選擇使用固定效應模型,則應闡明理由[6]。
4 討論
本文介紹的方法來自于GRADE工作組的最新研究成果,但對于該問題的探討還遠沒有結束[8]。系統評價制作的部分方法仍需要更多解釋、調整和優化,以有效控制研究者主觀因素對結果產生影響的偏倚風險。GRADE工作組未來需要重點解決的問題包括但不限于納入RCT和NRSI的系統評價中的GRADE分級方法、證據合成具體形式和采取該形式的適用條件等[8]。
在是否納入非隨機研究設計的考慮過程中,NRSI的范圍問題是基礎且關鍵的。目前沒有一個具有普適性的標準能夠明確告訴研究者回答PICO問題應當使用哪一種特定類型的NRSI。因此,預先進行范圍綜述是提高研究者后續判斷準確性的重要步驟[24]。由于NRSI的范圍通常較大,也很少會有準確的標簽、索引,文獻檢索前也需要進行充分討論和預調查。在GRADE分級中,患者重要結局證據確信度為高,并不意味著其他結局也擁有同等證據確信度,因此,研究者應當對每一個結局都獨立地評估證據等級[13]。不同研究設計的NRSI在偏倚風險評價、證據確信度評級上的側重點不同,用于研究干預措施的NRSI也通常比較復雜,可能不適合用現有的證據層次結構套用。因此,研究團隊中應至少有一名了解該主題和NRSI方法的專家,以幫助解決這些復雜問題。
在一個系統評價或指南中同時納入RCT和NRSI具有一定復雜性和爭議性[25],但對該方法進行討論和實踐,卻是必要而充滿意義的。在證據制作過程中納入NRSI這一構想,是研究者在漫長的循證醫學實踐過程中以實際問題為導向反復思索的產物。當然,RCT具有嚴謹的研究設計,能夠有效平衡基線預后因素,從而使結果最大限度地接近真實值。然而當我們需要解決RCT無法回答或無法完美回答的問題時,來自NRSI的證據有可能成為決策的有力支撐[26]。有研究驗證[27-28],來自RCT和觀察性研究的大多數證據之間并不存在顯著異質性,這也增強了我們使用NRSI的信心。不止如此,現實情況的復雜性還催生出一種“反常的”特殊情況,即對于特定的問題,NRSI能夠提供比RCT更直接、更具確信度的證據。總而言之,考慮納入NRSI的過程,其實就是綜合權衡RCT與NRSI在解決目標PICO上的優勢與缺陷,而后做出最有利于證據的選擇。其關鍵點在于預先對復雜過程、復雜方法的把握程度,以及每一個判斷節點的謹慎、合理。
討論在證據合成中納入NRSI的意義不僅在于對最佳證據的不懈追求,某種程度上也是對傳統觀念里“次等”研究的運用探索,而這樣的證據優化方式也越來越受到重視[29]。隨著學科發展,未來基礎研究與證據的關系會呈現怎樣的走向?是以證據制作為出發點來調整基礎研究的發展方向,還是在如何利用好現有資料上去動腦筋?至少對于我國中醫藥事業的發展而言,如何利用好現有的資料,如何將名家經驗、古典古籍、特色研究等轉化為具有說服力的證據,尋找和發揮其在完善證據中的優勢,是值得期待的。方法學對具體研究的開展具有指導意義,具體研究反作用于方法學。只有當愈來愈多的學者制作納入NRSI的系統評價,方法學家才有可能從足夠的實例中取得突破進展,而在某種程度上,無論方法學對其持支持還是否定態度,該類型系統評價的大量出現也勢必推進方法學的創新和發展。