真實世界證據(RWE)的形成、評價及等級的劃分,是影響真實世界研究方法深入發展和科學使用的重要因素。本文簡要回顧臨床醫學研究設計等級與證據等級,提出真實世界臨床研究證據分級的要點,包括強調內部真實性與外部真實性的綜合評價、確定真實世界證據的起評點和使用真實世界證據質量評價方法三個方面;基于國際較為認可的“證據推薦評估、開發與評價分級標準(GRADE)”,結合真實世界證據的分類及特點,形成初步的分級方案,并采用示例對該分級建議進行評價說明。
引用本文: 費宇彤, 柴倩云, 夏如玉, 金雪晶. 真實世界臨床研究證據分級的思考與初步探索. 中國循證醫學雜志, 2022, 22(10): 1206-1211. doi: 10.7507/1672-2531.202205141 復制
近年來,隨著真實世界數據(real-world data,RWD)的不斷增多,真實世界研究(real-world study,RWS)已逐漸成為醫學研究的關注點之一。國內外監管決策部門和學術組織也對真實世界證據(real-world evidence,RWE)的使用提出了多個指導原則和發展框架[1-6]。然而,如何對RWE進行評價和對證據等級評估,成為目前亟待解決的問題[7]。本文根據目前臨床研究證據等級發展現狀,提出真實世界臨床研究證據分級的要點,參考“證據推薦評估、開發與評價分級標準(grading of recommendations assessment, development, and evaluation,GRADE)”對RWE分級進行思考,形成分級建議方案,為未來研究提供一定參考。
1 臨床研究的設計等級與證據等級
臨床研究設計包括了流行病學與臨床流行病學所涵蓋的各種以人為對象的研究類型。臨床研究證據,是圍繞一個特定研究問題而形成的研究發現的總和。這些研究發現是經過臨床研究設計、實施、統計分析后獲得的。一個臨床研究的發現是否能夠成為某一特定研究問題的證據,取決于該臨床研究和各項參數是否與特定研究問題密切相關,是否能對研究問題的解答提供證據支持。
臨床研究證據分級經歷了較為漫長發展,不同組織機構制定了多種多樣的證據分級體系[8]。當前最為公認的是2000年由加拿大McMaster大學的GRADE工作組提出的GRADE證據等級體系[9],其已被包括WHO和Cochrane協作網在內的19個國家110多個國際組織、協會采用。該體系以研究設計本身的等級為起評點,同時綜合考慮實施質量和外推性來定級。
而在此之前,已發表的主要“證據等級”實際上更適合被稱作為“設計等級”。這主要因為這些等級系統主要考慮各研究設計類型對偏倚風險的控制能力,而沒有考慮研究的實施質量及作為證據應用時的直接性問題。例如,1979年最早由加拿大定期健康體檢工作組(Canadian Task Force on the Periodic Health Examination,CTFPHE)形成的醫學證據分級體系[10],1998年英國牛津大學循證醫學中心(Oxford-Center for Evidence Based Medicine,OCEBM)提出的分級[11](又被稱為“牛津標準”),2001年美國紐約州立大學醫學中心提出的“新九級標準”[12],2014年美國衛生保健政策研究所(Agency for Healthcare Research and Quality,AHRQ)更新的分級體系[13],澳大利亞Joanna Briggs循證衛生保健中心制定的一系列等級系統[14],及國內學者提出的中醫藥RWS中觀察性研究的分級建議[15]。
目前,上述各證據等級和研究設計等級體系均基于各種經典的臨床流行病學研究設計,未將RWS設計類型及其證據納入考量。經典臨床流行病學設計與RWS設計有一定的異同點,簡單而言,RWS基于RWD,因此需要在經典臨床流行病學設計的基礎上經過限定和改良,如RWS不使用安慰劑、很少采用盲法、使用數據多為現實診療或日常條件下收集的數據等[6]。
RWS包括干預性研究和觀察性研究[6]。值得說明的是RWS與隨機對照試驗(randomized controlled trial,RCT)并不沖突,實用性RCT、技能型RCT和新型真實世界RCT均屬于RWS。觀察性研究也是RWS的常見研究類型,包括經典臨床流行病學體系內的隊列研究(包括前瞻性、回顧性、雙向性隊列研究)、病例-對照研究、橫斷面研究、病例系列和病例報告等。根據納入RWD的特點,擴展形成新型的真實世界隊列研究[16]、橫斷面研究[17]、注冊研究[18]等。此外,由單純數據挖掘、組學、質性研究等基于RWD形成的證據也應屬于RWE,并且基于上述原始研究形成的二次研究證據綜合也屬于RWE。
2 RWS臨床研究證據分級要點
2.1 強調內部真實性與外部真實性的綜合評價
內部真實性是指研究結果與研究對象真實情況的符合程度,它回答一個研究本身是否真實或有效。包含參與者(participant,P)、干預措施(intervention,I)、對照措施(comparator,C)、結局指標(outcome,O)在內的研究要素的標準化和可控化程度越高,其內部真實性越好。內部真實性可通過依照臨床試驗基本原則達到對偏倚的有力控制來保證。RWS是由經典研究設計改良和限定形成的[6],因此經典研究設計可能潛在的偏倚同樣適用于RWE,于此同時,RWE還需要格外注意時間效應偏倚、競爭風險、因果倒置、校正中介作用等特殊的偏倚類型[6]。
外部真實性是指研究結果與推論對象真實情況的符合程度,又稱為外推性。它回答一個研究能否推廣應用到除本研究的研究對象以外人群的問題,此時PICO越接近真實世界越好。RWE在外部真實性方面往往優于理想世界的經典研究設計。
“證據分級”的范疇和內涵要遠遠大于“設計分級”,真正的“證據”不僅要考慮內部真實性,還要考慮外部真實性等更多證據生成和證據應用等實際層面的問題。例如,干預性措施比較的金標準—RCT的初始分級應屬于證據金字塔[11-12]靠近頂端的位置,但如果該RCT設計欠佳、實施過程漏洞百出,那么其所形成的證據的真實性、可靠性、可應用性達不到理想狀態下的證據級別,其真實的證據等級需要降低。因此“證據分級”是在全面衡量內部真實性和外部真實性之后綜合考慮評定的。RWE是基于RWD形成的證據,RWD來源于日常收集的數據,因此,RWE在外部真實性方面要遠高于經典研究設計,而在內部真實性方面則存在更多顧慮,這就更加強調RWE分級時內部真實性與外部真實性綜合評價的重要性。
2.2 確定RWE的起評點
在GRADE證據分級系統中,不同的研究類型有其各自的起評點,這個起評點也是由證據綜合的內部真實性來決定。例如,基于RCT形成的證據在GRADE分級系統中證據級別起評點默認為高級別;觀察性研究形成的證據在GRADE分級系統中起評點默認為低級別[19]。證據綜合,是圍繞同一具體研究問題而獲得的所有相關研究結果的定量合成,主要表達為系統評價的結果。當某一命題下只有一個研究,或有多個無法合并的研究,亦可直接納入單篇研究的結果作為證據。
確定RWE起評點的原則也應如此。在證據評級選擇起評點的時候,一方面,可依據上文所述的現有GRADE證據評級的起評點確定方法[19];另一方面,也需要創新,將新型的RWS納入到起評點劃分體系中。詳見圖1。

*:體現內部真實性;#:體現內部+外部真實性;▲:體現外部真實性。
2.3 證據等級評價方法
GRADE證據等級評價在起評點的基礎上根據若干個升降因素[20-25]進行調整,最后形成綜合的證據等級評價結果。例如,RCT在分級系統中最初證據級別默認為高級別,根據證據中的偏倚風險、不一致性、間接性、不精確性和發表偏倚的情況而逐漸降級;觀察性研究在分級系統中最初的證據級別默認為低級別,根據證據的大效應量及劑量-效應關系及負向混雜因素情況而逐漸升級。最終證據級別用“高、中、低、極低”來判定[19]。RWE可考慮采用相同的評價思路,但RWE因其自身存在復雜性,在評價時要考慮更多的影響因素。
GRADE證據等級評價中第一項內容偏倚風險針對的是經典臨床流行病學臨床研究設計的內部真實性,因此依照各經典研究設計各自的偏倚風險評價工具進行評價[20],而對于新型RWS的偏倚風險評價方法僅能參考經典研究設計,國際上并未形成非常成熟且公認的評價工具。根據《中醫藥真實世界研究技術規范:證據質量評價與報告》[6]中提及的評價方法,可將真實世界臨床研究偏倚風險評價分為兩種類型:一是經典研究設計的評價;二是針對經典研究設計類型改良后形成的真實世界臨床研究設計的評價兩種類型。
關于不一致性、不精確性、間接性及發表偏倚的評價方法請參考GRADE工作組指導性文件[20-25]。
3 以GRADE為基礎的RWS分級建議和應用
3.1 分級建議
在GRADE分級方法的基礎上,結合RWS分類和特點,本文提出RWE的分級建議,詳見表1。與GRADE體系保持一致,RWE證據等級可分為高、中、低、極低質量證據。以GRADE分級為基礎,在RWS的體系內,綜合實用性RCT結果形成的證據起評點為高級別;而綜合觀察性研究、單臂試驗及其他非隨機試驗結果而形成的證據起評點為低級別。當多種設計證據混合應用時,應以其中低級別證據為起評點。關于升級/降級因素,此處建議依據《中醫藥真實世界研究技術規范:證據質量評價與報告》[6]中的RWS偏倚評價原則及工具使用建議進行評價。值得說明的是,以GRADE為基礎的RWS分級建議,不僅可用于RWS證據綜合,還可用于RWS單個證據的評價,但其中關于綜合證據評估的“不一致性”、“發表偏倚”的評價則不適用于單個證據的評價。此外,如果跳出RWE范疇,將安慰劑對照的解釋性RCT納入證據來源的話,其證據起評點應為高質量證據。

3.2 應用舉例
以2018年Stroke發表的《阿哌沙班在房顫卒中預防中的真實世界應用:系統評價和Meta分析》[26]為例,說明如何應用以GRADE為基礎的RWE分級建議。該研究目的是總結和比較阿哌沙班與其他口服抗凝藥物預防房顫卒中的效果。最終納入16個真實世界觀察性研究,偏倚風險評價工具為AHRQ。
首先根據研究設計判定研究的起評點,該研究屬于真實世界的觀察性研究的證據綜合,因此起評點為“低等級”。以阿哌沙班與華法林相比,在血栓栓塞事件這一指標(9個研究)的評價過程如下:
① 偏倚風險評價:作者采用AHRQ評價工具對納入的9個研究進行偏倚風險評價,其中6個為低風險,2個為中風險(所占權重分別為16.5%、16.6%),1個為高風險,經判斷高風險研究在Meta分析中所占權重較小(0.7%),但中風險的研究所占權重較大,可能會對結果產生一定影響,故綜合判定后考慮降1級。亞組分析結果評價:常規劑量亞組(6個研究)為3個低風險、1個中風險和1個高風險,故降1級;減少劑量亞組(3個)為2個低風險、1個中風險,故降1級。
② 不一致性:從森林圖可見,總體異質性檢驗結果顯示I2=87%且P<0.01,亞組間的獲益方向相反,因此考慮該結果存在顯著不一致性,總體結果降2級。亞組分析結果評價:常規劑量亞組,I2=62%且P=0.02,存在不一致性,降1級;減少劑量亞組:I2=0且P=0.49,尚不認為存在不一致性,不降級。
③ 間接性:納入研究均為真實世界觀察性研究,納入人群年齡在70.9~83.9歲之間;該研究未明確目標人群的特征,推測應適用于一般人群,基于此可能存在人群的間接性,故降1級。亞組分析評價:常規劑量亞組和減少劑量亞組均存在上述問題,故降1級。
④ 不精確性:總體與亞組分析的事件數均滿足最優信息樣本量(optimal information size,OIS)。在此基礎上,總體比較合并效應值OR=0.92[95%CI(0.72,1.17)],雖然95%CI跨過無效線,但其左側為0.72,對結果僅有較弱影響;而右側為1.17,對結果幾乎無影響,故不予降級。亞組評價,常規劑量亞組合并效應值OR=0.77[95%CI(0.64,0.93)],減少劑量亞組效應值OR=1.27[95%CI(1.12,1.43)],因其95%CI均未跨過無效線,故不予降級[22, 27]。
⑤ 發表偏倚檢驗:該研究制作了倒漏斗圖,并認為主要研究結果未發現明顯的發表偏倚,不予降級。但從倒漏斗圖可見,兩亞組均存在不同程度的發表偏倚,故均降1級。
⑥ 大效應量:阿哌沙班與華法林相比,在任何血栓栓塞事件總體上沒有統計學優勢,由于其效應值接近1,未能升級。亞組結果顯示,常規劑量、減少劑量亞組效應值未在2~5或0.5~0.2之間,未體現大效應量,故均不升級。
⑦ 劑量-效應關系:在常規劑量亞組中,阿哌沙班在任何血栓栓塞事件的風險均顯著降低;但減少劑量亞組顯示,阿哌沙班在任何血栓栓塞事件中相對風險顯著增加;結果似乎表明阿哌沙班劑量增加,血栓栓塞風險降低,常規劑量療效與華法林相當。這種情況下需要考慮的是,當阿哌沙班劣于華法林時,是否優于不治療或單純安慰劑治療,如果優于不治療則可能存在劑量-效應關系,但如果劣于不治療,則否定該劑量-效應關系。但在現實情況下無法獲得不治療數據,所以保守評價沒有劑量-效應關系。
⑧ 混雜因素:盡管作者討論中說明要考慮混雜因素的影響,但并未對混雜因素的內容及對結果的影響進行分析,尚未發現負向混雜因素,因此不予升級。
最終總體評價應為“極低”等級,常規劑量亞組為“極低”;減少劑量亞組為“極低”。
4 討論
本文闡釋了臨床研究的設計等級與證據等級的區別和聯系,設計等級是基于研究設計內部真實性的高低來評價,而研究的總體證據等級在此基礎上還要考慮外部真實性等實際層面的問題。RWE的起評點由內部真實性來決定,但最終的RWE等級還需要根據實際情況進行升級和降級的評定。
在使用本體系的時候,有幾種情況需要特殊關注。首先,當將本體系用于評價由單個研究構成的證據時,GRADE體系中的異質性評價維度不適用,發表偏倚評價維度也無法準確判斷。其次,我們建議如果同時納入多種研究類型(如eRCT、pRCT和隊列研究)的系統評價應該根據研究設計類型的不同而設立亞組,或者直接進行各自獨立的Meta分析。GRADE體系是要求針對每一個結局指標和整個Meta分析都要獨立進行評價。因此,GRADE體系應用于這種情況時并沒有障礙。再次,對于一個Meta分析中含有不同設計類型證據的兩個或多個亞組的情況,進行整體GRADE評級的時候,對于各項評價維度,均應整體看待。理論上異質性、精確性、發表偏倚、大效應是否存在、劑量-效應關系這5個方面可根據整個Meta分析的數據特征表現直接利用現有規則評價;偏倚風險、直接性、是否存在負向混雜這3個方面則需要評價具備各種特征的研究證據在整體中的占比逐一而論。例如整體證據中,權重占比10%的證據屬于低偏倚風險,而占比90%的證據屬于高偏倚風險,則整體偏倚風險為高偏倚風險。通常而言,觀察性研究的各種偏倚風險和混雜因素更高一些。
此外,由于RWS樣本量比較大,在不精確性評價時往往很容易滿足OIS值。在滿足OIS值的同時,需要著重考慮其結果的95%CI區間是否產生有臨床意義的變化(即越過最小臨床意義界值,minimal clinical important difference,MCID)以決定精確性是否存在問題。GRADE體系本身就適用于隊列研究、病例-對照研究等經典的觀察性研究形成的證據,而經典的觀察性研究本身就是RWS的設計方案中的主要類別之一。因此,GRADE本身具備一定的對RWS適用的基礎,其現有的OIS值的相關方法學要求適用于經典的觀察性研究。對于新型的RWS,比如基于日常數據的隊列研究等,由于其數據的復雜性大于經典隊列研究,在計算OIS的時候有可能需要考慮新的因素,但臨床決策閾值的情況也同樣具有決定性作用。
目前,RWS已廣泛應用,基于此形成的原始研究證據及證據綜合逐漸增多,若無可參照的證據等級劃分標準,可能會導致RWE的不合理應用。雖然RWE的證據質量評價工具及分級方法尚處于較為初級的研制階段,但以GRADE為基礎的RWS分級建議可能是目前可參考使用的較為妥當的分級方法。
近年來,隨著真實世界數據(real-world data,RWD)的不斷增多,真實世界研究(real-world study,RWS)已逐漸成為醫學研究的關注點之一。國內外監管決策部門和學術組織也對真實世界證據(real-world evidence,RWE)的使用提出了多個指導原則和發展框架[1-6]。然而,如何對RWE進行評價和對證據等級評估,成為目前亟待解決的問題[7]。本文根據目前臨床研究證據等級發展現狀,提出真實世界臨床研究證據分級的要點,參考“證據推薦評估、開發與評價分級標準(grading of recommendations assessment, development, and evaluation,GRADE)”對RWE分級進行思考,形成分級建議方案,為未來研究提供一定參考。
1 臨床研究的設計等級與證據等級
臨床研究設計包括了流行病學與臨床流行病學所涵蓋的各種以人為對象的研究類型。臨床研究證據,是圍繞一個特定研究問題而形成的研究發現的總和。這些研究發現是經過臨床研究設計、實施、統計分析后獲得的。一個臨床研究的發現是否能夠成為某一特定研究問題的證據,取決于該臨床研究和各項參數是否與特定研究問題密切相關,是否能對研究問題的解答提供證據支持。
臨床研究證據分級經歷了較為漫長發展,不同組織機構制定了多種多樣的證據分級體系[8]。當前最為公認的是2000年由加拿大McMaster大學的GRADE工作組提出的GRADE證據等級體系[9],其已被包括WHO和Cochrane協作網在內的19個國家110多個國際組織、協會采用。該體系以研究設計本身的等級為起評點,同時綜合考慮實施質量和外推性來定級。
而在此之前,已發表的主要“證據等級”實際上更適合被稱作為“設計等級”。這主要因為這些等級系統主要考慮各研究設計類型對偏倚風險的控制能力,而沒有考慮研究的實施質量及作為證據應用時的直接性問題。例如,1979年最早由加拿大定期健康體檢工作組(Canadian Task Force on the Periodic Health Examination,CTFPHE)形成的醫學證據分級體系[10],1998年英國牛津大學循證醫學中心(Oxford-Center for Evidence Based Medicine,OCEBM)提出的分級[11](又被稱為“牛津標準”),2001年美國紐約州立大學醫學中心提出的“新九級標準”[12],2014年美國衛生保健政策研究所(Agency for Healthcare Research and Quality,AHRQ)更新的分級體系[13],澳大利亞Joanna Briggs循證衛生保健中心制定的一系列等級系統[14],及國內學者提出的中醫藥RWS中觀察性研究的分級建議[15]。
目前,上述各證據等級和研究設計等級體系均基于各種經典的臨床流行病學研究設計,未將RWS設計類型及其證據納入考量。經典臨床流行病學設計與RWS設計有一定的異同點,簡單而言,RWS基于RWD,因此需要在經典臨床流行病學設計的基礎上經過限定和改良,如RWS不使用安慰劑、很少采用盲法、使用數據多為現實診療或日常條件下收集的數據等[6]。
RWS包括干預性研究和觀察性研究[6]。值得說明的是RWS與隨機對照試驗(randomized controlled trial,RCT)并不沖突,實用性RCT、技能型RCT和新型真實世界RCT均屬于RWS。觀察性研究也是RWS的常見研究類型,包括經典臨床流行病學體系內的隊列研究(包括前瞻性、回顧性、雙向性隊列研究)、病例-對照研究、橫斷面研究、病例系列和病例報告等。根據納入RWD的特點,擴展形成新型的真實世界隊列研究[16]、橫斷面研究[17]、注冊研究[18]等。此外,由單純數據挖掘、組學、質性研究等基于RWD形成的證據也應屬于RWE,并且基于上述原始研究形成的二次研究證據綜合也屬于RWE。
2 RWS臨床研究證據分級要點
2.1 強調內部真實性與外部真實性的綜合評價
內部真實性是指研究結果與研究對象真實情況的符合程度,它回答一個研究本身是否真實或有效。包含參與者(participant,P)、干預措施(intervention,I)、對照措施(comparator,C)、結局指標(outcome,O)在內的研究要素的標準化和可控化程度越高,其內部真實性越好。內部真實性可通過依照臨床試驗基本原則達到對偏倚的有力控制來保證。RWS是由經典研究設計改良和限定形成的[6],因此經典研究設計可能潛在的偏倚同樣適用于RWE,于此同時,RWE還需要格外注意時間效應偏倚、競爭風險、因果倒置、校正中介作用等特殊的偏倚類型[6]。
外部真實性是指研究結果與推論對象真實情況的符合程度,又稱為外推性。它回答一個研究能否推廣應用到除本研究的研究對象以外人群的問題,此時PICO越接近真實世界越好。RWE在外部真實性方面往往優于理想世界的經典研究設計。
“證據分級”的范疇和內涵要遠遠大于“設計分級”,真正的“證據”不僅要考慮內部真實性,還要考慮外部真實性等更多證據生成和證據應用等實際層面的問題。例如,干預性措施比較的金標準—RCT的初始分級應屬于證據金字塔[11-12]靠近頂端的位置,但如果該RCT設計欠佳、實施過程漏洞百出,那么其所形成的證據的真實性、可靠性、可應用性達不到理想狀態下的證據級別,其真實的證據等級需要降低。因此“證據分級”是在全面衡量內部真實性和外部真實性之后綜合考慮評定的。RWE是基于RWD形成的證據,RWD來源于日常收集的數據,因此,RWE在外部真實性方面要遠高于經典研究設計,而在內部真實性方面則存在更多顧慮,這就更加強調RWE分級時內部真實性與外部真實性綜合評價的重要性。
2.2 確定RWE的起評點
在GRADE證據分級系統中,不同的研究類型有其各自的起評點,這個起評點也是由證據綜合的內部真實性來決定。例如,基于RCT形成的證據在GRADE分級系統中證據級別起評點默認為高級別;觀察性研究形成的證據在GRADE分級系統中起評點默認為低級別[19]。證據綜合,是圍繞同一具體研究問題而獲得的所有相關研究結果的定量合成,主要表達為系統評價的結果。當某一命題下只有一個研究,或有多個無法合并的研究,亦可直接納入單篇研究的結果作為證據。
確定RWE起評點的原則也應如此。在證據評級選擇起評點的時候,一方面,可依據上文所述的現有GRADE證據評級的起評點確定方法[19];另一方面,也需要創新,將新型的RWS納入到起評點劃分體系中。詳見圖1。

*:體現內部真實性;#:體現內部+外部真實性;▲:體現外部真實性。
2.3 證據等級評價方法
GRADE證據等級評價在起評點的基礎上根據若干個升降因素[20-25]進行調整,最后形成綜合的證據等級評價結果。例如,RCT在分級系統中最初證據級別默認為高級別,根據證據中的偏倚風險、不一致性、間接性、不精確性和發表偏倚的情況而逐漸降級;觀察性研究在分級系統中最初的證據級別默認為低級別,根據證據的大效應量及劑量-效應關系及負向混雜因素情況而逐漸升級。最終證據級別用“高、中、低、極低”來判定[19]。RWE可考慮采用相同的評價思路,但RWE因其自身存在復雜性,在評價時要考慮更多的影響因素。
GRADE證據等級評價中第一項內容偏倚風險針對的是經典臨床流行病學臨床研究設計的內部真實性,因此依照各經典研究設計各自的偏倚風險評價工具進行評價[20],而對于新型RWS的偏倚風險評價方法僅能參考經典研究設計,國際上并未形成非常成熟且公認的評價工具。根據《中醫藥真實世界研究技術規范:證據質量評價與報告》[6]中提及的評價方法,可將真實世界臨床研究偏倚風險評價分為兩種類型:一是經典研究設計的評價;二是針對經典研究設計類型改良后形成的真實世界臨床研究設計的評價兩種類型。
關于不一致性、不精確性、間接性及發表偏倚的評價方法請參考GRADE工作組指導性文件[20-25]。
3 以GRADE為基礎的RWS分級建議和應用
3.1 分級建議
在GRADE分級方法的基礎上,結合RWS分類和特點,本文提出RWE的分級建議,詳見表1。與GRADE體系保持一致,RWE證據等級可分為高、中、低、極低質量證據。以GRADE分級為基礎,在RWS的體系內,綜合實用性RCT結果形成的證據起評點為高級別;而綜合觀察性研究、單臂試驗及其他非隨機試驗結果而形成的證據起評點為低級別。當多種設計證據混合應用時,應以其中低級別證據為起評點。關于升級/降級因素,此處建議依據《中醫藥真實世界研究技術規范:證據質量評價與報告》[6]中的RWS偏倚評價原則及工具使用建議進行評價。值得說明的是,以GRADE為基礎的RWS分級建議,不僅可用于RWS證據綜合,還可用于RWS單個證據的評價,但其中關于綜合證據評估的“不一致性”、“發表偏倚”的評價則不適用于單個證據的評價。此外,如果跳出RWE范疇,將安慰劑對照的解釋性RCT納入證據來源的話,其證據起評點應為高質量證據。

3.2 應用舉例
以2018年Stroke發表的《阿哌沙班在房顫卒中預防中的真實世界應用:系統評價和Meta分析》[26]為例,說明如何應用以GRADE為基礎的RWE分級建議。該研究目的是總結和比較阿哌沙班與其他口服抗凝藥物預防房顫卒中的效果。最終納入16個真實世界觀察性研究,偏倚風險評價工具為AHRQ。
首先根據研究設計判定研究的起評點,該研究屬于真實世界的觀察性研究的證據綜合,因此起評點為“低等級”。以阿哌沙班與華法林相比,在血栓栓塞事件這一指標(9個研究)的評價過程如下:
① 偏倚風險評價:作者采用AHRQ評價工具對納入的9個研究進行偏倚風險評價,其中6個為低風險,2個為中風險(所占權重分別為16.5%、16.6%),1個為高風險,經判斷高風險研究在Meta分析中所占權重較小(0.7%),但中風險的研究所占權重較大,可能會對結果產生一定影響,故綜合判定后考慮降1級。亞組分析結果評價:常規劑量亞組(6個研究)為3個低風險、1個中風險和1個高風險,故降1級;減少劑量亞組(3個)為2個低風險、1個中風險,故降1級。
② 不一致性:從森林圖可見,總體異質性檢驗結果顯示I2=87%且P<0.01,亞組間的獲益方向相反,因此考慮該結果存在顯著不一致性,總體結果降2級。亞組分析結果評價:常規劑量亞組,I2=62%且P=0.02,存在不一致性,降1級;減少劑量亞組:I2=0且P=0.49,尚不認為存在不一致性,不降級。
③ 間接性:納入研究均為真實世界觀察性研究,納入人群年齡在70.9~83.9歲之間;該研究未明確目標人群的特征,推測應適用于一般人群,基于此可能存在人群的間接性,故降1級。亞組分析評價:常規劑量亞組和減少劑量亞組均存在上述問題,故降1級。
④ 不精確性:總體與亞組分析的事件數均滿足最優信息樣本量(optimal information size,OIS)。在此基礎上,總體比較合并效應值OR=0.92[95%CI(0.72,1.17)],雖然95%CI跨過無效線,但其左側為0.72,對結果僅有較弱影響;而右側為1.17,對結果幾乎無影響,故不予降級。亞組評價,常規劑量亞組合并效應值OR=0.77[95%CI(0.64,0.93)],減少劑量亞組效應值OR=1.27[95%CI(1.12,1.43)],因其95%CI均未跨過無效線,故不予降級[22, 27]。
⑤ 發表偏倚檢驗:該研究制作了倒漏斗圖,并認為主要研究結果未發現明顯的發表偏倚,不予降級。但從倒漏斗圖可見,兩亞組均存在不同程度的發表偏倚,故均降1級。
⑥ 大效應量:阿哌沙班與華法林相比,在任何血栓栓塞事件總體上沒有統計學優勢,由于其效應值接近1,未能升級。亞組結果顯示,常規劑量、減少劑量亞組效應值未在2~5或0.5~0.2之間,未體現大效應量,故均不升級。
⑦ 劑量-效應關系:在常規劑量亞組中,阿哌沙班在任何血栓栓塞事件的風險均顯著降低;但減少劑量亞組顯示,阿哌沙班在任何血栓栓塞事件中相對風險顯著增加;結果似乎表明阿哌沙班劑量增加,血栓栓塞風險降低,常規劑量療效與華法林相當。這種情況下需要考慮的是,當阿哌沙班劣于華法林時,是否優于不治療或單純安慰劑治療,如果優于不治療則可能存在劑量-效應關系,但如果劣于不治療,則否定該劑量-效應關系。但在現實情況下無法獲得不治療數據,所以保守評價沒有劑量-效應關系。
⑧ 混雜因素:盡管作者討論中說明要考慮混雜因素的影響,但并未對混雜因素的內容及對結果的影響進行分析,尚未發現負向混雜因素,因此不予升級。
最終總體評價應為“極低”等級,常規劑量亞組為“極低”;減少劑量亞組為“極低”。
4 討論
本文闡釋了臨床研究的設計等級與證據等級的區別和聯系,設計等級是基于研究設計內部真實性的高低來評價,而研究的總體證據等級在此基礎上還要考慮外部真實性等實際層面的問題。RWE的起評點由內部真實性來決定,但最終的RWE等級還需要根據實際情況進行升級和降級的評定。
在使用本體系的時候,有幾種情況需要特殊關注。首先,當將本體系用于評價由單個研究構成的證據時,GRADE體系中的異質性評價維度不適用,發表偏倚評價維度也無法準確判斷。其次,我們建議如果同時納入多種研究類型(如eRCT、pRCT和隊列研究)的系統評價應該根據研究設計類型的不同而設立亞組,或者直接進行各自獨立的Meta分析。GRADE體系是要求針對每一個結局指標和整個Meta分析都要獨立進行評價。因此,GRADE體系應用于這種情況時并沒有障礙。再次,對于一個Meta分析中含有不同設計類型證據的兩個或多個亞組的情況,進行整體GRADE評級的時候,對于各項評價維度,均應整體看待。理論上異質性、精確性、發表偏倚、大效應是否存在、劑量-效應關系這5個方面可根據整個Meta分析的數據特征表現直接利用現有規則評價;偏倚風險、直接性、是否存在負向混雜這3個方面則需要評價具備各種特征的研究證據在整體中的占比逐一而論。例如整體證據中,權重占比10%的證據屬于低偏倚風險,而占比90%的證據屬于高偏倚風險,則整體偏倚風險為高偏倚風險。通常而言,觀察性研究的各種偏倚風險和混雜因素更高一些。
此外,由于RWS樣本量比較大,在不精確性評價時往往很容易滿足OIS值。在滿足OIS值的同時,需要著重考慮其結果的95%CI區間是否產生有臨床意義的變化(即越過最小臨床意義界值,minimal clinical important difference,MCID)以決定精確性是否存在問題。GRADE體系本身就適用于隊列研究、病例-對照研究等經典的觀察性研究形成的證據,而經典的觀察性研究本身就是RWS的設計方案中的主要類別之一。因此,GRADE本身具備一定的對RWS適用的基礎,其現有的OIS值的相關方法學要求適用于經典的觀察性研究。對于新型的RWS,比如基于日常數據的隊列研究等,由于其數據的復雜性大于經典隊列研究,在計算OIS的時候有可能需要考慮新的因素,但臨床決策閾值的情況也同樣具有決定性作用。
目前,RWS已廣泛應用,基于此形成的原始研究證據及證據綜合逐漸增多,若無可參照的證據等級劃分標準,可能會導致RWE的不合理應用。雖然RWE的證據質量評價工具及分級方法尚處于較為初級的研制階段,但以GRADE為基礎的RWS分級建議可能是目前可參考使用的較為妥當的分級方法。