獲取最佳證據是實踐循證醫學的重要一環,證據分級是幫助決策者獲取最佳證據過程中必不可少的工具及流程。然而,當前存在研究證據眾多、證據質量參差不齊、證據分級體系多樣且分級標準不統一等問題。本文通過回顧證據分級與推薦體系的發展歷史及過程,并對其中具有代表性和國際影響力的證據分級推薦體系進行分析,闡述證據分級發展的現狀、特點及發展趨勢,為探索當代醫學領域證據分級推薦體系提供參考。
引用本文: 張薇, 許吉, 鄧宏勇. 國際醫學證據分級與推薦體系發展及現狀. 中國循證醫學雜志, 2019, 19(11): 1373-1378. doi: 10.7507/1672-2531.201907049 復制
證據分級與推薦是指根據證據的內、外部真實性等對證據進行評價分級,并根據評價結果形成不同推薦意見以指導決策者進行實踐[1]。20 世紀 60 年代的美國社會學家 Campbell 和 Stanley 首次提出證據分級,并最初應用于教育領域[2]。1979 年,加拿大定期健康體檢工作組(Canadian Task Force on the Periodic Health Examination,CTFPHE)據此提出了首個醫學領域的證據分級體系[3]。隨后 40 年,不同國家及組織機構對證據分級體系進行不斷地探索,相繼發布了 50 多個證據分級體系[2]。然而,當前存在研究證據眾多、證據質量參差不齊、證據分級體系多樣且分級標準不統一等問題。本文回顧了國際醫學證據分級體系的發展歷史及演變過程,對其中具有代表性和國際影響力的證據分級體系進行分析,對其分級情況、特點等進行歸納總結,闡述證據分級體系發展的特點和證據分級體系發展趨勢,為探索當代醫學領域證據分級體系提供參考。
1 常見證據分級與推薦體系
1979 年,CTFPHE 在其發布的一份工作報告中,首次提出了醫學證據分級體系[3]。該分級體系根據醫學試驗的類型將證據分為 3 級,其中設計良好的隨機對照試驗(randomized controlled trial,RCT)為最高等級,專家意見為最低等級。同時,該報告給出了 5 個等級的證據推薦強度,但與其證據分級體系無關聯。該分級體系依據研究設計類型判定,簡單明了,易于被臨床醫生理解和應用。但仍存在一些問題尚未明確,如小型、設計不良的 RCT 是否為Ⅰ級證據;結果矛盾的 RCT 是否為Ⅰ級證據;高質量的觀察性研究是否始終僅為Ⅱ級證據等。
1986 年,David Sackett 基于以上問題提出另一分級體系,將證據分為 5 個等級,又稱“老五級證據”。該分級體系對 RCT 又進行了細分:有確定結果的大樣本 RCT 為Ⅰ級證據;結果不確定的小樣本 RCT 為Ⅱ級證據。此外,該體系根據分級結果提出 3 個等級的推薦強度,并隨后進行了 5 次更新,形成了一套較完整的證據評價和推薦系統,供美國胸科醫師學會(the American College of Chest Physicians,ACCP)指導抗血栓藥物的使用[4]。上述兩個證據評價體系均較早提出“研究證據優于專家意見”的理念,成為了循證醫學發展的基礎之一。
1992 年,美國衛生保健政策研究所[5](Agency for Health Care Policy and Research,AHCPR,現名為 Agency for Healthcare Research and Quality,AHRQ)提出了新的證據分級標準并應用于其制作的臨床指南中。AHCPR 將證據分為 4 級,首次將對 RCT 的 Meta 分析列為最高等級的Ⅰa 級證據;將專家委員會報告、權威意見或臨床經驗列為最低等級的Ⅳ級證據;并根據證據分級將推薦意見強度分成 A、B、C 三個等級(表 1)。2014 年,AHRQ 更新了證據分級體系[6],將證據等級分為高、中、低和不充分 4 個等級(表 2),每個等級均對證據總體進行評價,而非僅評價研究設計和證據類型。2014 版 AHRQ 證據體系向臨床醫生、患者和決策者更好地解釋了證據分級標準,便于決策者理解和臨床應用。


1996 年,英格蘭北部循證指南制定項目[7](North of England Evidence Based Guidelines Development Project,NEEBGDP)發布了證據分級標準,將證據分為 3 個等級。其中,RCT、Meta 分析和系統評價被共同列為最高等級證據;基于非對照研究或共識的建議被列為最低級證據。
1998 年,美國預防服務工作組(U.S. Preventive Services Task Force,USPSTF)發布了證據分級和推薦強度標準[8],該分級充分考慮了證據的質量。其中,適用于目標人群的設計良好、結果一致的研究證據為“優”;樣本量、質量、一致性、適用性及間接性有缺陷的證據為“中”;樣本量小、研究設計與方法有嚴重缺陷、研究結果不一致、適用性差、缺少重要結局指標的證據為“劣”。該標準于 2012 年進行了更新,根據研究質量和研究結果分為高、中、低 3 級,并重新定義了 C 級推薦;并針對證據不同設計類型,如系統評價、RCT、病例對照研究和診斷性研究等,分別給出了證據分級標準。
2000 年,澳大利亞國家健康與醫療研究委員會[9](National Health and Medical Research Council,NHMRC)發布了其制定的證據分級標準,該標準僅針對 RCT、非 RCT 和病例報告,并未納入臨床經驗和專家意見。其中,源自 RCT 的系統評價被列為最高級證據。同年,由 Bob Phillips 和 Chris Ball 領導的英國循證醫學和臨床流行病學專家組與 Cochrane 中心聯合在英國牛津循證醫學中心(Oxford Centre for Evidence-based Medicine,OCEBM)網站上發布了新的證據分級標準[10],又稱“牛津標準”,是目前證據分級體系中的較經典且廣泛使用的標準。該體系首次提出證據的分類根據治療、預防、病因、傷害、診斷、鑒別診斷、預后、經濟學和決策分析等研究方面不同,并對每個分類提出了證據分級標準,使其具有更強的針對性和適用性。如在涉及療效評價中,將證據分為 5 個等級并根據質量進行了細化,且首次將“全或無”病例系列研究與 RCT 一起列為最高等級(表 1,以療效評價部分為例)。OCEBM 證據分級體系于 2011 年完成更新,此次更新將原有的證據分級進行了簡化和修改,不再對原來的前三級進行細化,并且提升了基于 RCT 的系統評價的證據等級(表 2,以療效和安全性評價部分為例)。此外,該體系在更新后增加了篩查試驗的研究證據等級評價,同時刪去了經濟學和決策分析評價板塊。2011 版 OCEBM 體系能使臨床醫生更加快速、方便地判斷證據質量分級。
2001 年,蘇格蘭院際指南網絡[11](The Scottish Intercollegiate Guidelines Network,SIGN)發布了更加詳細的證據分級標準和相應的推薦強度。SIGN 將證據等級和推薦強度均分為 4 個等級,其中 RCT、Meta 分析和系統評價共同為最高等級證據,并根據其質量將其分為三個亞級(表 1);專家意見被列為最低等級。同年,美國紐約州立大學下州醫學中心[12]發布了證據金字塔(又稱“新九級證據”),首次納入動物研究和體外研究。金字塔圖形簡潔而直觀,但未涉及證據總體評價和等級標準,僅根據證據研究類型進行等級排序。
此外,Alejandro R. Jadad 醫生于 1996 年提出 Jadad 量表[13],通過該量表對不同的臨床試驗進行評分,獨立評價 RCT 的質量。Jadad 量表首次將 RCT 質量評價細化到臨床試驗是否隨機、雙盲以及有無對退出和失訪進行處理,主要針對單個 RCT 研究進行評價。
2 GRADE 體系
鑒于國際上證據分級體系多樣且各有缺陷,導致臨床醫生無法在應用證據時迅速做出決策,19 個國家和國際組織于 2000 年共同建立了 GRADE 工作組。多位臨床指南專家、循證醫學專家、權威標準的制定者和證據研究者共同合作,系統分析當時的六大權威標準[3],力求制定出國際統一的證據分級和推薦意見強度標準。GRADE 于 2004 年正式推出,將證據分為高、中、低和極低 4 個等級:療效評價結果可信度高的證據總體為最高級證據;療效評估非常不確定的為極低級證據。GRADE 系統針對不同研究類型的證據預設證據等級,如針對干預性研究證據,將 RCT 等級預設為高級,觀察性研究等級預設為低級,個案報道等級預設為極低級;針對預后研究證據評價時,因其最適合的設計類型是前瞻性隊列研究和大樣本的 RCT,將 RCT 和觀察性研究等級均預設為高級。在預設證據等級后,通過評估研究實施和結果是否存在特定因素及其程度將研究總體進行降級(如高偏倚風險、高異質性、間接證據、低精確性和高發表偏倚等)或升級(如較大效應量、能改變療效的混雜因素以及存在效應-劑量關系等),最終個體化確認該研究的證據分級[1]。
GRADE 在以下幾方面區別于其他標準:第一,GRADE 對于證據質量的評價綜合了研究設計類型、研究質量(偏倚風險等)、研究結果(精確性和一致性等)以及是否為直接性證據[1],而并非只關注研究設計類型;第二,GRADE 針對“證據總體”進行評價分級,而不主張對單個研究進行質量分級,即需要研究者評價某個問題所有研究的證據質量等級;第三,GRADE 對于證據質量和推薦強度進行了明確的定義[14]:證據質量是指能夠把握療效評估正確性的程度,推薦強度是指能夠確信推薦意見利大于弊的程度;第四,GRADE 將推薦強度簡化為“強”和“弱”兩級,證據質量分級與推薦強度不再一一對應[14],即有些低質量的證據也可得到強推薦;第五,GRADE 提供了一套透明、具體、結構化的分級和推薦流程,對預設級別不同的證據升、降級有明確、綜合的標準,并開發了 GRADEpro[15]軟件幫助使用者進行證據評價及相關結果生成;第六,分別從臨床醫生、患者和政策制定者的角度解釋推薦意見;第七,GRADE 解決了如何根據不同等級證據得出合適的推薦意見的問題,打通了從證據到應用的關鍵環節,從而使 GRADE 適用于系統評價、指南制定和衛生技術評估等各個方面。
從 2004 年 GRADE 發布至今,包括 WHO、Cochrane 協作網等 100 多個國際重要組織采用了 GRADE 進行系統評價、指南制定等工作[16],一些組織如美國職業與環境醫學學會、美國神經病學學會和血管外科學會等,則根據各自需求使用 GRADE 的改編版[17-19]。但 GRADE 系統的研究者們意識到該系統仍存在局限性[13],如目前使用 GRADE 系統的絕大多數是和預防、治療相關的評價,而在診斷、預后、經濟學效益等方面有所欠缺;對證據質量的升、降級,可能因研究者的主觀判斷而導致結果存在差異[20]。
GRADE 系統發布之后,成為國際上權威的證據分級體系之一,不僅促進了其他證據分級標準的更新和完善,也促進研究者們針對不同領域問題對 GRADE 系統進行探索應用和更新。一些證據分級系統在 GRADE 基礎上細化了證據質量的要求,如 2007 年 Cochrane 骨骼肌組制定的證據分級[21],提出對 RCT 的樣本量、盲法的應用、隨訪率和隨機方案隱藏等方面進行 RCT 質量界定,并將證據分為“白金、黃金、銀、銅”4 個等級。
2010 年,GRADE 工作組開發了針對定性系統評價的證據分級工具 CERQual[22],從方法學的局限性、相關性、結果的一致性和數據的充分性四個方面對定性研究進行評價,并給出高、中、低和極低 4 個分級,但該工具不涉及推薦意見強度。2013 年,GRADE 工作組推出了在線工具 GRADE pro GDT,致力于整合制定干預性和診斷性臨床實踐指南過程中的數據與流程[23]。經數次更新后,該工具更加智能化和透明化,完善了其應用的證據分級過程并促進了指南制定的體系化。2016 年,GRADE 工作組在舊表基礎上經過合并、增加和刪減條目,研發出了新版結果總結表,以更加貼合使用者的需求,促進重要信息的快速檢索[24]。
3 總結
縱觀國際證據分級推薦體系的歷史與現狀,其發展大致有以下幾個特點:
第一,局部到整體,即從重視研究設計類型到重視證據總體。最初的證據分級體系主要基于研究設計類型,如 CTFPHE 等,將 RCT 或 RCT 的 Meta 分析列為最高級證據;而后兼顧證據設計類型和證據質量,如 NEEBGDP 和 USPSFT 等;到 GRADE 的重視證據總體,綜合研究設計類型、研究質量、結果一致性和證據直接性等對證據進行分級。
第二,證據的多源化。從第一個證據分級 CTFPHE 將專家意見納入,AHCPR 將 RCT 的 Meta 分析和臨床經驗納入,NEEBGDP 將系統評價納入,到“證據金字塔”將動物研究和體外研究作為最低級別證據納入分級,體現了分級體系證據的多源化。
第三,研究問題及適用領域的擴大。從最初重點關注干預性臨床研究,到 OCEBM 提出涉及預防、病因、傷害、預后、診斷和鑒別診斷、經濟學和決策分析等方面的分級標準,而 GRADE 發布之后其他衛生保健領域也嘗試引入 GRADE 系統,如 WHO 在衛生政策文件中應用 GRADE 系統形成推薦意見[25]。
第四,分散到趨向統一。從各組織機構制定各自的分級標準,到 GRADE 工作組領導制定國際統一標準,盡管目前仍存在較多的分級體系,各組織機構的應用各有差異,但目前有 100 多個國際組織或機構均公認使用 GRADE 系統或 GRADE 改編版。
當前,GRADE 系統在治療和預后研究領域得到廣泛應用,但在病因及經濟學評價方面,OCEBM 標準仍處于權威地位,GRADE 系統能否在病因研究或其他領域應用正處于積極探索階段[26, 27]。此外,同為當前權威標準之一的 OCEBM 標準,盡管其涉及領域較全面,但缺少對推薦意見的強度分級。同時,也因 OCEBM 標準的復雜性、缺少簡潔的應用工具令初學者難以掌握,故與已經開發出線上線下應用軟件且易于理解和操作的 GRADE 系統相比,GRADE 系統更具應用優勢。相信在未來的更新發展中,GRADE 系統的涉及面將會更廣,應用范圍也將擴大。
總之,醫學干預性研究相關的證據分級發展日漸成熟。其他領域的分級體系也在不斷探索、研究及完善[28]。傳統醫學以及其他非醫藥領域的證據分級體系正處于探索階段,如建立具有中醫特色的證據分級體系,需考慮中醫古籍文獻、典籍醫案和名家經驗等證據[29],如何將這些特色證據合理納入分級標準是研究者們探討的重點之一。循證醫學的證據分級和推薦體系將隨著循證科學的發展拓展至更廣的領域,未來會出現更加全面合理、應用范圍更廣的證據分級和推薦體系。
證據分級與推薦是指根據證據的內、外部真實性等對證據進行評價分級,并根據評價結果形成不同推薦意見以指導決策者進行實踐[1]。20 世紀 60 年代的美國社會學家 Campbell 和 Stanley 首次提出證據分級,并最初應用于教育領域[2]。1979 年,加拿大定期健康體檢工作組(Canadian Task Force on the Periodic Health Examination,CTFPHE)據此提出了首個醫學領域的證據分級體系[3]。隨后 40 年,不同國家及組織機構對證據分級體系進行不斷地探索,相繼發布了 50 多個證據分級體系[2]。然而,當前存在研究證據眾多、證據質量參差不齊、證據分級體系多樣且分級標準不統一等問題。本文回顧了國際醫學證據分級體系的發展歷史及演變過程,對其中具有代表性和國際影響力的證據分級體系進行分析,對其分級情況、特點等進行歸納總結,闡述證據分級體系發展的特點和證據分級體系發展趨勢,為探索當代醫學領域證據分級體系提供參考。
1 常見證據分級與推薦體系
1979 年,CTFPHE 在其發布的一份工作報告中,首次提出了醫學證據分級體系[3]。該分級體系根據醫學試驗的類型將證據分為 3 級,其中設計良好的隨機對照試驗(randomized controlled trial,RCT)為最高等級,專家意見為最低等級。同時,該報告給出了 5 個等級的證據推薦強度,但與其證據分級體系無關聯。該分級體系依據研究設計類型判定,簡單明了,易于被臨床醫生理解和應用。但仍存在一些問題尚未明確,如小型、設計不良的 RCT 是否為Ⅰ級證據;結果矛盾的 RCT 是否為Ⅰ級證據;高質量的觀察性研究是否始終僅為Ⅱ級證據等。
1986 年,David Sackett 基于以上問題提出另一分級體系,將證據分為 5 個等級,又稱“老五級證據”。該分級體系對 RCT 又進行了細分:有確定結果的大樣本 RCT 為Ⅰ級證據;結果不確定的小樣本 RCT 為Ⅱ級證據。此外,該體系根據分級結果提出 3 個等級的推薦強度,并隨后進行了 5 次更新,形成了一套較完整的證據評價和推薦系統,供美國胸科醫師學會(the American College of Chest Physicians,ACCP)指導抗血栓藥物的使用[4]。上述兩個證據評價體系均較早提出“研究證據優于專家意見”的理念,成為了循證醫學發展的基礎之一。
1992 年,美國衛生保健政策研究所[5](Agency for Health Care Policy and Research,AHCPR,現名為 Agency for Healthcare Research and Quality,AHRQ)提出了新的證據分級標準并應用于其制作的臨床指南中。AHCPR 將證據分為 4 級,首次將對 RCT 的 Meta 分析列為最高等級的Ⅰa 級證據;將專家委員會報告、權威意見或臨床經驗列為最低等級的Ⅳ級證據;并根據證據分級將推薦意見強度分成 A、B、C 三個等級(表 1)。2014 年,AHRQ 更新了證據分級體系[6],將證據等級分為高、中、低和不充分 4 個等級(表 2),每個等級均對證據總體進行評價,而非僅評價研究設計和證據類型。2014 版 AHRQ 證據體系向臨床醫生、患者和決策者更好地解釋了證據分級標準,便于決策者理解和臨床應用。


1996 年,英格蘭北部循證指南制定項目[7](North of England Evidence Based Guidelines Development Project,NEEBGDP)發布了證據分級標準,將證據分為 3 個等級。其中,RCT、Meta 分析和系統評價被共同列為最高等級證據;基于非對照研究或共識的建議被列為最低級證據。
1998 年,美國預防服務工作組(U.S. Preventive Services Task Force,USPSTF)發布了證據分級和推薦強度標準[8],該分級充分考慮了證據的質量。其中,適用于目標人群的設計良好、結果一致的研究證據為“優”;樣本量、質量、一致性、適用性及間接性有缺陷的證據為“中”;樣本量小、研究設計與方法有嚴重缺陷、研究結果不一致、適用性差、缺少重要結局指標的證據為“劣”。該標準于 2012 年進行了更新,根據研究質量和研究結果分為高、中、低 3 級,并重新定義了 C 級推薦;并針對證據不同設計類型,如系統評價、RCT、病例對照研究和診斷性研究等,分別給出了證據分級標準。
2000 年,澳大利亞國家健康與醫療研究委員會[9](National Health and Medical Research Council,NHMRC)發布了其制定的證據分級標準,該標準僅針對 RCT、非 RCT 和病例報告,并未納入臨床經驗和專家意見。其中,源自 RCT 的系統評價被列為最高級證據。同年,由 Bob Phillips 和 Chris Ball 領導的英國循證醫學和臨床流行病學專家組與 Cochrane 中心聯合在英國牛津循證醫學中心(Oxford Centre for Evidence-based Medicine,OCEBM)網站上發布了新的證據分級標準[10],又稱“牛津標準”,是目前證據分級體系中的較經典且廣泛使用的標準。該體系首次提出證據的分類根據治療、預防、病因、傷害、診斷、鑒別診斷、預后、經濟學和決策分析等研究方面不同,并對每個分類提出了證據分級標準,使其具有更強的針對性和適用性。如在涉及療效評價中,將證據分為 5 個等級并根據質量進行了細化,且首次將“全或無”病例系列研究與 RCT 一起列為最高等級(表 1,以療效評價部分為例)。OCEBM 證據分級體系于 2011 年完成更新,此次更新將原有的證據分級進行了簡化和修改,不再對原來的前三級進行細化,并且提升了基于 RCT 的系統評價的證據等級(表 2,以療效和安全性評價部分為例)。此外,該體系在更新后增加了篩查試驗的研究證據等級評價,同時刪去了經濟學和決策分析評價板塊。2011 版 OCEBM 體系能使臨床醫生更加快速、方便地判斷證據質量分級。
2001 年,蘇格蘭院際指南網絡[11](The Scottish Intercollegiate Guidelines Network,SIGN)發布了更加詳細的證據分級標準和相應的推薦強度。SIGN 將證據等級和推薦強度均分為 4 個等級,其中 RCT、Meta 分析和系統評價共同為最高等級證據,并根據其質量將其分為三個亞級(表 1);專家意見被列為最低等級。同年,美國紐約州立大學下州醫學中心[12]發布了證據金字塔(又稱“新九級證據”),首次納入動物研究和體外研究。金字塔圖形簡潔而直觀,但未涉及證據總體評價和等級標準,僅根據證據研究類型進行等級排序。
此外,Alejandro R. Jadad 醫生于 1996 年提出 Jadad 量表[13],通過該量表對不同的臨床試驗進行評分,獨立評價 RCT 的質量。Jadad 量表首次將 RCT 質量評價細化到臨床試驗是否隨機、雙盲以及有無對退出和失訪進行處理,主要針對單個 RCT 研究進行評價。
2 GRADE 體系
鑒于國際上證據分級體系多樣且各有缺陷,導致臨床醫生無法在應用證據時迅速做出決策,19 個國家和國際組織于 2000 年共同建立了 GRADE 工作組。多位臨床指南專家、循證醫學專家、權威標準的制定者和證據研究者共同合作,系統分析當時的六大權威標準[3],力求制定出國際統一的證據分級和推薦意見強度標準。GRADE 于 2004 年正式推出,將證據分為高、中、低和極低 4 個等級:療效評價結果可信度高的證據總體為最高級證據;療效評估非常不確定的為極低級證據。GRADE 系統針對不同研究類型的證據預設證據等級,如針對干預性研究證據,將 RCT 等級預設為高級,觀察性研究等級預設為低級,個案報道等級預設為極低級;針對預后研究證據評價時,因其最適合的設計類型是前瞻性隊列研究和大樣本的 RCT,將 RCT 和觀察性研究等級均預設為高級。在預設證據等級后,通過評估研究實施和結果是否存在特定因素及其程度將研究總體進行降級(如高偏倚風險、高異質性、間接證據、低精確性和高發表偏倚等)或升級(如較大效應量、能改變療效的混雜因素以及存在效應-劑量關系等),最終個體化確認該研究的證據分級[1]。
GRADE 在以下幾方面區別于其他標準:第一,GRADE 對于證據質量的評價綜合了研究設計類型、研究質量(偏倚風險等)、研究結果(精確性和一致性等)以及是否為直接性證據[1],而并非只關注研究設計類型;第二,GRADE 針對“證據總體”進行評價分級,而不主張對單個研究進行質量分級,即需要研究者評價某個問題所有研究的證據質量等級;第三,GRADE 對于證據質量和推薦強度進行了明確的定義[14]:證據質量是指能夠把握療效評估正確性的程度,推薦強度是指能夠確信推薦意見利大于弊的程度;第四,GRADE 將推薦強度簡化為“強”和“弱”兩級,證據質量分級與推薦強度不再一一對應[14],即有些低質量的證據也可得到強推薦;第五,GRADE 提供了一套透明、具體、結構化的分級和推薦流程,對預設級別不同的證據升、降級有明確、綜合的標準,并開發了 GRADEpro[15]軟件幫助使用者進行證據評價及相關結果生成;第六,分別從臨床醫生、患者和政策制定者的角度解釋推薦意見;第七,GRADE 解決了如何根據不同等級證據得出合適的推薦意見的問題,打通了從證據到應用的關鍵環節,從而使 GRADE 適用于系統評價、指南制定和衛生技術評估等各個方面。
從 2004 年 GRADE 發布至今,包括 WHO、Cochrane 協作網等 100 多個國際重要組織采用了 GRADE 進行系統評價、指南制定等工作[16],一些組織如美國職業與環境醫學學會、美國神經病學學會和血管外科學會等,則根據各自需求使用 GRADE 的改編版[17-19]。但 GRADE 系統的研究者們意識到該系統仍存在局限性[13],如目前使用 GRADE 系統的絕大多數是和預防、治療相關的評價,而在診斷、預后、經濟學效益等方面有所欠缺;對證據質量的升、降級,可能因研究者的主觀判斷而導致結果存在差異[20]。
GRADE 系統發布之后,成為國際上權威的證據分級體系之一,不僅促進了其他證據分級標準的更新和完善,也促進研究者們針對不同領域問題對 GRADE 系統進行探索應用和更新。一些證據分級系統在 GRADE 基礎上細化了證據質量的要求,如 2007 年 Cochrane 骨骼肌組制定的證據分級[21],提出對 RCT 的樣本量、盲法的應用、隨訪率和隨機方案隱藏等方面進行 RCT 質量界定,并將證據分為“白金、黃金、銀、銅”4 個等級。
2010 年,GRADE 工作組開發了針對定性系統評價的證據分級工具 CERQual[22],從方法學的局限性、相關性、結果的一致性和數據的充分性四個方面對定性研究進行評價,并給出高、中、低和極低 4 個分級,但該工具不涉及推薦意見強度。2013 年,GRADE 工作組推出了在線工具 GRADE pro GDT,致力于整合制定干預性和診斷性臨床實踐指南過程中的數據與流程[23]。經數次更新后,該工具更加智能化和透明化,完善了其應用的證據分級過程并促進了指南制定的體系化。2016 年,GRADE 工作組在舊表基礎上經過合并、增加和刪減條目,研發出了新版結果總結表,以更加貼合使用者的需求,促進重要信息的快速檢索[24]。
3 總結
縱觀國際證據分級推薦體系的歷史與現狀,其發展大致有以下幾個特點:
第一,局部到整體,即從重視研究設計類型到重視證據總體。最初的證據分級體系主要基于研究設計類型,如 CTFPHE 等,將 RCT 或 RCT 的 Meta 分析列為最高級證據;而后兼顧證據設計類型和證據質量,如 NEEBGDP 和 USPSFT 等;到 GRADE 的重視證據總體,綜合研究設計類型、研究質量、結果一致性和證據直接性等對證據進行分級。
第二,證據的多源化。從第一個證據分級 CTFPHE 將專家意見納入,AHCPR 將 RCT 的 Meta 分析和臨床經驗納入,NEEBGDP 將系統評價納入,到“證據金字塔”將動物研究和體外研究作為最低級別證據納入分級,體現了分級體系證據的多源化。
第三,研究問題及適用領域的擴大。從最初重點關注干預性臨床研究,到 OCEBM 提出涉及預防、病因、傷害、預后、診斷和鑒別診斷、經濟學和決策分析等方面的分級標準,而 GRADE 發布之后其他衛生保健領域也嘗試引入 GRADE 系統,如 WHO 在衛生政策文件中應用 GRADE 系統形成推薦意見[25]。
第四,分散到趨向統一。從各組織機構制定各自的分級標準,到 GRADE 工作組領導制定國際統一標準,盡管目前仍存在較多的分級體系,各組織機構的應用各有差異,但目前有 100 多個國際組織或機構均公認使用 GRADE 系統或 GRADE 改編版。
當前,GRADE 系統在治療和預后研究領域得到廣泛應用,但在病因及經濟學評價方面,OCEBM 標準仍處于權威地位,GRADE 系統能否在病因研究或其他領域應用正處于積極探索階段[26, 27]。此外,同為當前權威標準之一的 OCEBM 標準,盡管其涉及領域較全面,但缺少對推薦意見的強度分級。同時,也因 OCEBM 標準的復雜性、缺少簡潔的應用工具令初學者難以掌握,故與已經開發出線上線下應用軟件且易于理解和操作的 GRADE 系統相比,GRADE 系統更具應用優勢。相信在未來的更新發展中,GRADE 系統的涉及面將會更廣,應用范圍也將擴大。
總之,醫學干預性研究相關的證據分級發展日漸成熟。其他領域的分級體系也在不斷探索、研究及完善[28]。傳統醫學以及其他非醫藥領域的證據分級體系正處于探索階段,如建立具有中醫特色的證據分級體系,需考慮中醫古籍文獻、典籍醫案和名家經驗等證據[29],如何將這些特色證據合理納入分級標準是研究者們探討的重點之一。循證醫學的證據分級和推薦體系將隨著循證科學的發展拓展至更廣的領域,未來會出現更加全面合理、應用范圍更廣的證據分級和推薦體系。