引用本文: 林茂, 曾力楠, 李佳蓮, 張川, 黃亮, 楊春松, 李海龍, 易秋莎, 康德英, 劉關鍵, 趙榮生, 張俊華, 李幼平, 劉瀚旻, 王強, 張伶俐. 全球指南臨床適用性評價工具現狀的系統評價. 中國循證醫學雜志, 2020, 20(4): 437-443. doi: 10.7507/1672-2531.201904132 復制
ADAPTE(guideline adaptation:a resource toolkit)定義臨床實踐指南(clinical practice guideline,CPG)的臨床適用性為:“推薦意見能夠在臨床實踐中推廣使用的程度,其影響因素包括內部因素:指南質量(是否清晰定義了目標患者,并與當地患者相符);外部因素:實施推薦意見所需的技能、設備和人員等”[1]。有研究表明,指南推廣與實施效果不理想是現有大多數指南存在的共同問題[2]。目前尚無全球公認或統一的 CPG 臨床適用性評價標準。本研究采用系統評價方法,分析全球 CPG 臨床適用性評價工具現狀,為探索建立 CPG 臨床適用性評價指標體系的必要性和可行性提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
納入主題為 CPG 臨床適用性評價工具的文獻,文種限中、英文。研究類型包括:① 指南、共識;② 由衛生行政部門、行業協會、學術組織或科研機構發布的文件;③ 相關原始研究或綜述。
1.1.2 排除標準
重復發表或原文無法獲取的文獻。
1.2 文獻檢索策略
計算機檢索 7 個生物醫學文獻數據庫(PubMed、EMbase、The Cochrane Library、CBM、CNKI、WanFang Data 和 VIP)、6 個指南數據庫及 16 個學術機構與衛生行政部門網站(表 1),檢索時限均從建庫至 2019 年 4 月。中文檢索詞包括:指南、臨床指南、臨床實踐指南、專家共識、適用性、應用性、操作性;英文檢索詞包括:guideline、clinical guideline、clinical practice、guideline、experts consensus、applicability。以 PubMed 為例,其具體檢索策略見框 1。


1.3 文獻篩選與資料提取
由 2 名研究者獨立篩選文獻、提取資料并交叉核對。如遇分歧,則通過討論或與第三方協商解決。文獻篩選時首先閱讀文題,在排除明顯不相關的文獻后,進一步閱讀摘要和全文以確定是否納入。如有需要,通過郵件、電話聯系原始研究作者獲取未確定但對本研究非常重要的信息。資料提取內容包括:① 納入研究的基本信息:研究題目、第一作者、發表年份等;② 文獻研究類型;③ 臨床適用性評價工具的具體指標和相關內容。
1.4 系統評價
采用主題綜合法初擬出指南臨床適用性的評價指標。
2 結果
2.1 文獻篩選流程及結果
初檢共獲得文獻 6 536 篇。經逐層篩選,最終納入文獻 19 篇[1, 3-20]。文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:PubMed(
2.2 國內外指南臨床適用性評價工具現狀
19 篇[1, 3-20]文獻均涉及 CPG 臨床適用性評價工具,包括 4 個[3-6]專門針對指南實施應用的評價工具(美國[3]和加拿大[4]各 1 個,中國 2 個[5, 6]),15 個涉及臨床適用性評價條目的評價工具(國際 4 個[1, 7-9],美國[10, 11]、加拿大[12, 13]和英國[14, 15]各 2 個,意大利[16]、歐洲[17]、新西蘭[18]、澳大利亞[19]和中國[20]各 1 個)。通過分析國內外 CPG 臨床適用性評價工具現狀,發現這些工具在評價領域、評價條目、目標評價者等方面存在差異(表 2)。

2.2.1 專門針對指南實施應用的評價工具
2.2.1.1 The Guideline Implementability Appraisal(GLIA)標準(2005 年)[3 ]
該工具由耶魯大學醫學信息學中心 Shiffman 教授團隊建立,旨在評價指南中每一條推薦意見的可操作性。該標準由 31 個量化條目組成,分別對指南的可執行性、可判定性、全局性、內容闡述及格式、可測量的結果、外部真實性、靈活性、對臨床的影響、創新性、可量化 10 個維度進行評價[6]。目標使用者是指南專家和指南實施專家,推薦至少由 1 名指南專家和 1 名指南實施專家共同打分。
2.2.1.2 指南實施能力框架(2011 年)[4 ]
該工具由加拿大多倫多大學學者 Gagliardi 等提出,由 22 個定性描述條目組成,分別對適用性、有用性、真實性、應用性、可傳播性、可調節性、可實施和可評價 8 個維度進行評價[6]。目標使用者主要是指南開發者。
2.2.1.3 中醫臨床診療指南的臨床應用評價工具(2012 年)[5 ]
該工具由我國中華中醫藥學會發布,包括基本信息、指南質量與水平、指南應用情況、綜合評價和建議 5 個維度。
2.2.1.4 指南臨床適用性評價工具(2018 年)[6 ]
該工具由廣州中醫藥大學李慧教授團隊建立,包括 19 個量化條目,分為技術水平、協調配套性、結構和內容、指南作用 4 個維度。目標使用者主要是醫師。
2.2.2 涉及臨床適用性評價條目的評價工具
2.2.2.1 Appraisal of Guidelines Research and Evaluation in Europe Ⅱ(AGREE Ⅱ)評價工具(2009 年)[8 ]
AGREE Ⅱ是國際上公認評價指南的“金標準”,其中一個領域涉及指南臨床適用性評價,共 4 個量化條目:指南描述了應用時的促進和障礙因素;指南提供應用推薦建議的意見和/或工具;指南考慮了推薦建議應用時潛在的相關資源;指南提供了監督和/或審計標準。目標使用者包括衛生保健提供者、指南開發者、政策制定者和教育者,并推薦至少有 2 名、最好 4 名評價者來評價每個指南。
2.2.2.2 Guideline Adaptation: A Resource Toolkit(ADAPTE)(2010 年)[1 ]
該工具由國際協作組織 ADAPTE collaboration 制訂,包括 5 個條目:所描述的符合資格人群是否與推薦意見中的目標人群相匹配;使用過程中干預措施是否符合患者的觀點和偏好;使用過程中干預措施和/或必要設備是否可獲得;使用過程中是否獲得必要的專門知識(知識和技能);在使用指南的衛生保健環境中是否存在任何限制、組織障礙、立法、政策和/或資源,阻礙該建議的實施。目標使用者包括指南實施者和指南相關用戶(如地方衛生保健當局和組織、指南開發組織和國際衛生保健組織)。該工具僅定性描述,未對條目進行賦值。
2.2.2.3 CAN-IMPLEMENT-Guideline Adaptation and Implementation Planning Resource(2012 年)[12 ]
該工具由 The Canadian Guideline Adaptation Study Group 制訂,其中針對指南臨床適用性部分的內容與 ADAPTE 相似,包括 7 個定性描述條目,并且增加了“推薦意見是否與實施環境中的文化和價值觀相容”和“推薦意見所獲得的好處是否值得執行”2 項。該工具主要供參與改編現有指南以適應當地使用要求的指南開發者使用。
2.2.2.4 中國臨床指南評價工具(AGREE-China)(2018 年)[20 ]
該工具由我國復旦大學循證醫學中心王吉耀教授團隊在國外公認的 AGREE Ⅱ框架下,根據中國實際國情制訂。該工具包括五大領域,其中可用性/可行性條目 3 個:指南表達清晰、推薦意見明確、易理解;指南容易獲得和推廣;指南檢索和評估了中國研究的證據。主要供醫師使用,條目已量化,利于結果解釋。
2.2.2.5 其他[7 , 9 -11 , 13 -19 ]
主要是制訂指南的指南,其臨床適用性評價內容多參照 AGREE Ⅱ適用性評價條目或在 AGREE Ⅱ適用性評價條目基礎上進行了補充。
3 討論
目前,專門針對指南臨床適用性的評價工具關注重點各有不同,開發的評價工具側重點、覆蓋領域、條目等既有交叉又有差異[6]。
在指南適用性評價工具的比較方面,GLIA 旨在向指南制訂者和指南應用者提供有關指南可實施性的反饋,以改善指南的制訂/修訂,提高指南的臨床適用性。GLIA 主要解決指南內在因素:在制訂指南時,GLIA 可以向指南制訂者提供有關潛在可補救缺陷的反饋。開發人員可在最終確定和傳播前選擇對指南進行修改;實施者可用 GLIA 幫助選擇指南、識別潛在的障礙,并針對已識別障礙進行解決。因此,GLIA 優點是可用于幫助選擇更容易實施的指南,并制訂解決已識別障礙的實施策略[3]。但研究指出外在因素對指南成功實施至關重要[3],而 GLIA 側重關注的是指南的實施(可行性),而本系統評價結果顯示:可行性只是適用性的重要組成之一,故 GLIA 評價條目尚不全面,如未考慮指南的可獲得性因素。“指南實施能力框架”評價條目同樣側重指南實施,且極少運用此框架條目進行實證驗證研究,故此框架還需進一步完善[4]。“中醫臨床診療指南的臨床應用評價工具”內容偏重評價中醫診療技術方法的應用效果,并不適用于西醫臨床指南。“指南臨床適用性評價工具”在制訂時僅限于臨床醫生參與決策,未考慮其他密切相關的醫療人員,如護士、醫技人員。且該工具雖參考 AGREE Ⅱ對條目的賦值,但采用 4 分制李克特量表,其方法要求和工具的可靠性不如 7 分制李克特量表;并且該工具制訂時納入的評價者較少、樣本量不足,可能削弱測試結果的可靠性和穩定性[21]。
在涉及臨床適用性評價條目的評價工具的比較方面,AGREE Ⅱ評價工具內容權威且有相應的解釋和賦值,但要求評價者有較高的臨床專業素養,需熟悉指南的標準化制訂及循證醫學相關概念,否則不同評價者得出的評分差異很大[20]。而“Guideline Adaptation: A Resource Toolkit”與“CAN-IMPLEMENT-Guideline Adaptation and Implementation Planning Resource”未進行量化評價,僅文字描述指南臨床適用性評價,不利于比較不同指南間的臨床適用性。這些工具的評價者不是指南的目標使用者,可能會對結果造成偏倚。
因此,有必要建立一套簡潔明了,通俗易懂,填寫依從性好,涵蓋評價條目、條目解釋及條目賦值,且由指南目標使用者進行評價的 CPG 臨床適用性評價工具。因該工具的考慮層面不僅限于指南實施層面,需更多地考慮影響 CPG 臨床適用性的外在因素,故該工具在制訂初期就需納入更多領域、更多數量的專家參與完成。
本研究的局限性:本研究檢索了常見的中英文數據庫,以及 WHO、AHRQ 等政府衛生和學術機構官方網站,但因網絡域名和語種限制,未檢索全球所有國家的政府衛生或學術機構官方網站和納入其他非英語語系國家的研究,可能存在選擇性偏倚。
總之,全球現有 CPG 臨床適用性評價工具的目標針對性不強、指標完整性欠佳、對評價者的指南方法學知識要求較高,尚缺乏以指南目標用戶為評價者的指南臨床適用性評價工具。未來應循證制訂指南適用性評價工具,建立由指南使用者任主要評價者、評價領域全面、內容簡潔明了、通俗易懂,填寫依從性好的 CPG 適用性評價工具。建議在 CPG 適用性評價工具建立過程中更多地考慮影響 CPG 臨床適用性的外在因素,納入更多領域、數量的專家參與完成。
聲明:本研究無任何利益沖突。
ADAPTE(guideline adaptation:a resource toolkit)定義臨床實踐指南(clinical practice guideline,CPG)的臨床適用性為:“推薦意見能夠在臨床實踐中推廣使用的程度,其影響因素包括內部因素:指南質量(是否清晰定義了目標患者,并與當地患者相符);外部因素:實施推薦意見所需的技能、設備和人員等”[1]。有研究表明,指南推廣與實施效果不理想是現有大多數指南存在的共同問題[2]。目前尚無全球公認或統一的 CPG 臨床適用性評價標準。本研究采用系統評價方法,分析全球 CPG 臨床適用性評價工具現狀,為探索建立 CPG 臨床適用性評價指標體系的必要性和可行性提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
納入主題為 CPG 臨床適用性評價工具的文獻,文種限中、英文。研究類型包括:① 指南、共識;② 由衛生行政部門、行業協會、學術組織或科研機構發布的文件;③ 相關原始研究或綜述。
1.1.2 排除標準
重復發表或原文無法獲取的文獻。
1.2 文獻檢索策略
計算機檢索 7 個生物醫學文獻數據庫(PubMed、EMbase、The Cochrane Library、CBM、CNKI、WanFang Data 和 VIP)、6 個指南數據庫及 16 個學術機構與衛生行政部門網站(表 1),檢索時限均從建庫至 2019 年 4 月。中文檢索詞包括:指南、臨床指南、臨床實踐指南、專家共識、適用性、應用性、操作性;英文檢索詞包括:guideline、clinical guideline、clinical practice、guideline、experts consensus、applicability。以 PubMed 為例,其具體檢索策略見框 1。


1.3 文獻篩選與資料提取
由 2 名研究者獨立篩選文獻、提取資料并交叉核對。如遇分歧,則通過討論或與第三方協商解決。文獻篩選時首先閱讀文題,在排除明顯不相關的文獻后,進一步閱讀摘要和全文以確定是否納入。如有需要,通過郵件、電話聯系原始研究作者獲取未確定但對本研究非常重要的信息。資料提取內容包括:① 納入研究的基本信息:研究題目、第一作者、發表年份等;② 文獻研究類型;③ 臨床適用性評價工具的具體指標和相關內容。
1.4 系統評價
采用主題綜合法初擬出指南臨床適用性的評價指標。
2 結果
2.1 文獻篩選流程及結果
初檢共獲得文獻 6 536 篇。經逐層篩選,最終納入文獻 19 篇[1, 3-20]。文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:PubMed(
2.2 國內外指南臨床適用性評價工具現狀
19 篇[1, 3-20]文獻均涉及 CPG 臨床適用性評價工具,包括 4 個[3-6]專門針對指南實施應用的評價工具(美國[3]和加拿大[4]各 1 個,中國 2 個[5, 6]),15 個涉及臨床適用性評價條目的評價工具(國際 4 個[1, 7-9],美國[10, 11]、加拿大[12, 13]和英國[14, 15]各 2 個,意大利[16]、歐洲[17]、新西蘭[18]、澳大利亞[19]和中國[20]各 1 個)。通過分析國內外 CPG 臨床適用性評價工具現狀,發現這些工具在評價領域、評價條目、目標評價者等方面存在差異(表 2)。

2.2.1 專門針對指南實施應用的評價工具
2.2.1.1 The Guideline Implementability Appraisal(GLIA)標準(2005 年)[3 ]
該工具由耶魯大學醫學信息學中心 Shiffman 教授團隊建立,旨在評價指南中每一條推薦意見的可操作性。該標準由 31 個量化條目組成,分別對指南的可執行性、可判定性、全局性、內容闡述及格式、可測量的結果、外部真實性、靈活性、對臨床的影響、創新性、可量化 10 個維度進行評價[6]。目標使用者是指南專家和指南實施專家,推薦至少由 1 名指南專家和 1 名指南實施專家共同打分。
2.2.1.2 指南實施能力框架(2011 年)[4 ]
該工具由加拿大多倫多大學學者 Gagliardi 等提出,由 22 個定性描述條目組成,分別對適用性、有用性、真實性、應用性、可傳播性、可調節性、可實施和可評價 8 個維度進行評價[6]。目標使用者主要是指南開發者。
2.2.1.3 中醫臨床診療指南的臨床應用評價工具(2012 年)[5 ]
該工具由我國中華中醫藥學會發布,包括基本信息、指南質量與水平、指南應用情況、綜合評價和建議 5 個維度。
2.2.1.4 指南臨床適用性評價工具(2018 年)[6 ]
該工具由廣州中醫藥大學李慧教授團隊建立,包括 19 個量化條目,分為技術水平、協調配套性、結構和內容、指南作用 4 個維度。目標使用者主要是醫師。
2.2.2 涉及臨床適用性評價條目的評價工具
2.2.2.1 Appraisal of Guidelines Research and Evaluation in Europe Ⅱ(AGREE Ⅱ)評價工具(2009 年)[8 ]
AGREE Ⅱ是國際上公認評價指南的“金標準”,其中一個領域涉及指南臨床適用性評價,共 4 個量化條目:指南描述了應用時的促進和障礙因素;指南提供應用推薦建議的意見和/或工具;指南考慮了推薦建議應用時潛在的相關資源;指南提供了監督和/或審計標準。目標使用者包括衛生保健提供者、指南開發者、政策制定者和教育者,并推薦至少有 2 名、最好 4 名評價者來評價每個指南。
2.2.2.2 Guideline Adaptation: A Resource Toolkit(ADAPTE)(2010 年)[1 ]
該工具由國際協作組織 ADAPTE collaboration 制訂,包括 5 個條目:所描述的符合資格人群是否與推薦意見中的目標人群相匹配;使用過程中干預措施是否符合患者的觀點和偏好;使用過程中干預措施和/或必要設備是否可獲得;使用過程中是否獲得必要的專門知識(知識和技能);在使用指南的衛生保健環境中是否存在任何限制、組織障礙、立法、政策和/或資源,阻礙該建議的實施。目標使用者包括指南實施者和指南相關用戶(如地方衛生保健當局和組織、指南開發組織和國際衛生保健組織)。該工具僅定性描述,未對條目進行賦值。
2.2.2.3 CAN-IMPLEMENT-Guideline Adaptation and Implementation Planning Resource(2012 年)[12 ]
該工具由 The Canadian Guideline Adaptation Study Group 制訂,其中針對指南臨床適用性部分的內容與 ADAPTE 相似,包括 7 個定性描述條目,并且增加了“推薦意見是否與實施環境中的文化和價值觀相容”和“推薦意見所獲得的好處是否值得執行”2 項。該工具主要供參與改編現有指南以適應當地使用要求的指南開發者使用。
2.2.2.4 中國臨床指南評價工具(AGREE-China)(2018 年)[20 ]
該工具由我國復旦大學循證醫學中心王吉耀教授團隊在國外公認的 AGREE Ⅱ框架下,根據中國實際國情制訂。該工具包括五大領域,其中可用性/可行性條目 3 個:指南表達清晰、推薦意見明確、易理解;指南容易獲得和推廣;指南檢索和評估了中國研究的證據。主要供醫師使用,條目已量化,利于結果解釋。
2.2.2.5 其他[7 , 9 -11 , 13 -19 ]
主要是制訂指南的指南,其臨床適用性評價內容多參照 AGREE Ⅱ適用性評價條目或在 AGREE Ⅱ適用性評價條目基礎上進行了補充。
3 討論
目前,專門針對指南臨床適用性的評價工具關注重點各有不同,開發的評價工具側重點、覆蓋領域、條目等既有交叉又有差異[6]。
在指南適用性評價工具的比較方面,GLIA 旨在向指南制訂者和指南應用者提供有關指南可實施性的反饋,以改善指南的制訂/修訂,提高指南的臨床適用性。GLIA 主要解決指南內在因素:在制訂指南時,GLIA 可以向指南制訂者提供有關潛在可補救缺陷的反饋。開發人員可在最終確定和傳播前選擇對指南進行修改;實施者可用 GLIA 幫助選擇指南、識別潛在的障礙,并針對已識別障礙進行解決。因此,GLIA 優點是可用于幫助選擇更容易實施的指南,并制訂解決已識別障礙的實施策略[3]。但研究指出外在因素對指南成功實施至關重要[3],而 GLIA 側重關注的是指南的實施(可行性),而本系統評價結果顯示:可行性只是適用性的重要組成之一,故 GLIA 評價條目尚不全面,如未考慮指南的可獲得性因素。“指南實施能力框架”評價條目同樣側重指南實施,且極少運用此框架條目進行實證驗證研究,故此框架還需進一步完善[4]。“中醫臨床診療指南的臨床應用評價工具”內容偏重評價中醫診療技術方法的應用效果,并不適用于西醫臨床指南。“指南臨床適用性評價工具”在制訂時僅限于臨床醫生參與決策,未考慮其他密切相關的醫療人員,如護士、醫技人員。且該工具雖參考 AGREE Ⅱ對條目的賦值,但采用 4 分制李克特量表,其方法要求和工具的可靠性不如 7 分制李克特量表;并且該工具制訂時納入的評價者較少、樣本量不足,可能削弱測試結果的可靠性和穩定性[21]。
在涉及臨床適用性評價條目的評價工具的比較方面,AGREE Ⅱ評價工具內容權威且有相應的解釋和賦值,但要求評價者有較高的臨床專業素養,需熟悉指南的標準化制訂及循證醫學相關概念,否則不同評價者得出的評分差異很大[20]。而“Guideline Adaptation: A Resource Toolkit”與“CAN-IMPLEMENT-Guideline Adaptation and Implementation Planning Resource”未進行量化評價,僅文字描述指南臨床適用性評價,不利于比較不同指南間的臨床適用性。這些工具的評價者不是指南的目標使用者,可能會對結果造成偏倚。
因此,有必要建立一套簡潔明了,通俗易懂,填寫依從性好,涵蓋評價條目、條目解釋及條目賦值,且由指南目標使用者進行評價的 CPG 臨床適用性評價工具。因該工具的考慮層面不僅限于指南實施層面,需更多地考慮影響 CPG 臨床適用性的外在因素,故該工具在制訂初期就需納入更多領域、更多數量的專家參與完成。
本研究的局限性:本研究檢索了常見的中英文數據庫,以及 WHO、AHRQ 等政府衛生和學術機構官方網站,但因網絡域名和語種限制,未檢索全球所有國家的政府衛生或學術機構官方網站和納入其他非英語語系國家的研究,可能存在選擇性偏倚。
總之,全球現有 CPG 臨床適用性評價工具的目標針對性不強、指標完整性欠佳、對評價者的指南方法學知識要求較高,尚缺乏以指南目標用戶為評價者的指南臨床適用性評價工具。未來應循證制訂指南適用性評價工具,建立由指南使用者任主要評價者、評價領域全面、內容簡潔明了、通俗易懂,填寫依從性好的 CPG 適用性評價工具。建議在 CPG 適用性評價工具建立過程中更多地考慮影響 CPG 臨床適用性的外在因素,納入更多領域、數量的專家參與完成。
聲明:本研究無任何利益沖突。