引用本文: 邢丹, 王斌, 侯云飛, 陳耀龍, 林劍浩. 中國骨科臨床實踐指南的質量評價. 中國循證醫學雜志, 2017, 17(3): 347-356. doi: 10.7507/1672-2531.201612059 復制
20 世紀 90 年代,臨床實踐指南首次被美國醫學科學院定義,即針對特定臨床問題、系統制定的幫助醫務人員和患者做出恰當處理的指導性意見或推薦意見[1]。1993 年 MEDLINE 數據庫將臨床實踐指南的核心概念“guideline”收錄為主題詞。美國醫學科學院在 2011 年對臨床實踐指南的定義又進行了更新,即臨床實踐指南是基于系統評價證據和衡量不同干預措施的利弊,在此基礎上形成的能夠為患者提供最佳保健服務的推薦意見[2]。隨著近年來循證醫學的發展,臨床實踐指南在臨床疾病的診斷治療中發揮的作用日益凸顯[3]。
臨床指南是縮小最佳證據和臨床實踐之間距離的最佳臨床決策工具。高質量的指南對提高醫療服務治療、合理配置臨床資源、降低患者經濟負擔、保證患者權益起到了重要作用。相反,低質量指南可能會給患者造成傷害,浪費醫療資源,影響醫療決策[4]。因此,對指南的方法學和報告質量評價至關重要。臨床研究與評價工具Ⅱ(AGREEⅡ)是由 13 個國家的研究者制定的臨床實踐指南評價工具,是目前公認的指南質量評價工具[5]。目前已有研究采用 AGREEⅡ工具對現有指南進行評價,結果顯示指南數量雖逐漸增加,但存在質量參差不齊、方法學不夠嚴謹、制定過程不夠透明等局限性[6,7]。應用 AGREEⅡ評價工具對現有指南進行評價有利于提高指南制定的質量[8]。
我國近 20 年來,先后發布了 400 余部臨床實踐指南,但總體方法學和報告質量低于國際水平[6,9-11]。循證制定臨床實踐指南是當前國內臨床實踐指南發展趨勢,但指南開發方法的嚴謹性和報告規范等均有待提高[12]。近年來,在中華醫學會、中國醫師協會等學術團體的指導下,我國骨科專業的指南數量也逐漸增多。目前針對創傷、脊柱、關節、骨腫瘤、其他骨病等骨科方面疾病,已經發布了數十部指南或專家共識。隨著循證醫學的理念在我國扎根與快速發展,逐漸有一些指南開始采用了系統評價或證據推薦的方法。雖然我國骨科指南的數量逐年增加、指南方法學和報告質量在力求提高,但目前尚無研究對現有骨科指南質量進行評價。因此,本研究擬采用 AGREEⅡ工具評價目前國內已發布的骨科指南的方法學和報告質量,為提高骨科指南制定質量提供參考和建議。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準 指南內容涉及創傷、脊柱、關節、骨腫瘤、骨病等骨科相關領域;指南制作方法包括:會議共識、專家共識、循證方法等。語種限中文。
1.1.2 排除標準 重復發布的指南;外文指南的中譯本;不完整指南(摘要、目錄、紀要、述評等);指南后評價;撰寫指南的理論性文章和評價等。
1.2 檢索策略
計算機檢索 CNKI、CBM、VIP 和 WanFang Data 數據庫,搜集中國國內已發布的骨科指南,檢索時限均從建庫至 2016 年 10 月。此外,追溯納入文獻的參考文獻,以補充獲取相關文獻。同時,手工檢索 Google 和百度以及中國臨床指南文庫(http://www.cgc-chinaebm.org/)和中國臨床指南協作網(http://www.cpgn.net/)。中文檢索詞包括:指南、指引、專家共識、臨床實踐指南、最佳實踐等。檢索過程由兩名研究人員(邢丹、王斌)獨立進行并核對,如有爭議通過協商解決。以 CBM 為例,其具體檢索策略見框 1。
1.3 文獻篩選、資料提取和納入指南的質量評價
由 2 位研究者(邢丹、王斌)獨立進行文獻篩選、數據提取和質量評價,若有分歧則通過討論或交第三方裁定來解決。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。資料提取內容主要包括:指南的名稱、期刊、年份、發布機構、方法學特征、指南的目的人群、課題組組成、經費來源等。
采用 AGREE Ⅱ評價工具[5] 評價納入的中國骨科相關指南。該評價量表由 6 個結構域(23 個條目)組成,分別為范圍和目的(含 3 個條目)、參與人員(含 3 個條目)、制定的嚴謹性(含 8 個條目)、表達的清晰性(含 3 個條目)、應用性(含 4 個條目)以及編輯的獨立性(含 2 個條目)。每個條目的評分為 1~7 分,1 分為很不同意,7 分為很同意,2~6 分根據條目對標準的滿足程度進行打分。分值的高低取決于報告的完整性和質量。
1.4 統計分析
AGREEⅡ評價工具的結構域得分=[(該結構域實際得分–該結構域最小可能得分)/(該結構域最大可能得分–最小可能得分)]×100%。每個領域實際得分等于該領域中每一個條目分數的總和,并標準化為該領域可能的最高分數的百分比。最大可能得分=7 分(很同意)×條目數量×評價者人數;最小可能得分=1 分(很不同意)×條目數量×評價者人數。得分越高,說明指南在該結構域的方法學質量越高。
采用 SPSS 19.0 軟件對兩名評價者評分結果的一致性進行組內相關系數(intra-class correlation coefficient,ICC)檢驗[13,14]。如果 ICC<0.20,說明評價者間一致性差;如果 ICC 為 0.21~0.40,說明評價者間一致性一般;如果 ICC 為 0.41~0.60,說明評價者間一致性中等;如果 ICC 為 0.6l~0.80,說明評定者間一致性好;如果 ICC>0.80,說明評定者間一致性非常好。
2 結果
2.1 文獻檢索結果
初檢共獲得相關文獻 319 篇,通過逐層篩選,最終獲得 54 篇骨科指南。文獻篩選流程及結果見圖 1。

2.2 納入指南的基本特征
納入指南的基本特征見表 1。54 篇指南的名稱以“指南”和“專家共識”為主,沒有以“臨床實踐指南”為名的指南。指南發布年代從 2007 年至 2016 年,其中有 29 篇發表時間為 2015~2016 年,占到了納入全部指南數量的一半以上。在指南制定的組織機構方面,25 篇指南由學會牽頭制定,2 篇由雜志社牽頭制定,其余為專家團隊牽頭制定。
2.3 評價一致性檢驗結果
兩名評價者針對范圍和目的、參與人員、制定的嚴謹性、表達的清晰性、應用性、編輯的獨立性共六個結構域進行的一致性的檢驗結果分別為:0.65、0.44、0.89、0.61、0.30、0.82。兩名評價者評價的總一致性非常好[ICC=0.84,95%CI(0.80,0.87)]。
2.4 納入指南的 AGREEⅡ評分
中國骨科指南在 AGREEⅡ六個結構域的評分結果見表 2。54 篇指南在范圍和目的、參與人員、制定的嚴謹性、表達的清晰性、應用性、編輯的獨立性的平均得分分別為:60.44%、21.40%、5.17%、22.17%、6.02% 和 0.56%。


2.4.1 范圍和目的 本結構域的平均得分為 60.44%,是得分最高的結構域。該結構域包括了制定指南總目的、明確闡述臨床指南所涵蓋的衛生問題以及指南應用人群三個條目。納入的 54 篇指南均較具體地進行了描述。但多數指南缺少對于應用人群的描述,因此在此處進行了減分。
2.4.2 參與人員 本結構域的平均得分為 21.40%。該結構域包括了是否包括所有相關專業人員、目標人群的觀點和選擇以及是否明確指南使用者三個條目。納入的 54 篇指南大多數在制定過程缺少流行病學、方法學、統計學專家的參與,同時缺少對參與人員具體單位、職務的詳細描述,而且沒有指南考慮到患者偏好或者公眾的觀點。此外,部分指南缺少對指南使用者的明確說明。
2.4.3 制定的嚴謹性 本結構域的平均得分為 5.17%,得分較低(表 3)。該結構域包括了檢索方法、證據選擇、證據體描述、推薦意見形成方法、利弊權衡、推薦意見與證據的聯系、指南外審和指南更新六個條目。納入的指南大多數沒有采用循證醫學的方法,因此缺少詳細的檢索策略和證據體的評價體系。推薦意見的制定過程描述不清,缺少對干預措施副作用的描述等。沒有指南對是否會被更新、更新時間和周期進行描述。
2.4.4 表達的明晰性 本結構域的平均得分為 22.17%。該結構域包括了明確表達推薦意見、針對某一問題不同選題以及推薦意見清晰易變三個條目。納入指南多數缺少對推薦意見的清晰描述和對于推薦意見的匯總或突出顯示。
2.4.5 應用性 本結構域的平均得分為 6.02%,得分較低。該結構域包括了應用過程的促進或阻礙因素、推薦意見的配套工具、資源投入和審計或監控標準 4 個條目。目前,納入的指南多數缺少對于推進指南應用的描述,缺少對于指南應用成本的分析,缺少對于推薦意見應用的監測和審計。
2.4.6 編輯的獨立性 本結構域的平均得分為 0.56%,得分最低。該結構域包括了贊助單位的觀點是否影響指南內容和制定小組成員利益沖突兩個條目。除 2 篇指南以外,其余納入的指南均沒有提及指南制定過程中是否得到資助以及資助機構的觀點是否影響指南的制定。除 1 篇指南外,沒有指南聲明每一位指南制定小組成員是否存在任何利益沖突。
3 討論
在過去的 20 年中,指南的制定工作得到了快速的發展,它已成為一種建立最佳健康證據集合的有力工具[15]。同時指南制定的方法學和制定流程也在不斷的進步與規范[16,17]。指南的最終目的是服務于臨床實踐,從而提高醫療質量、確保醫療保健的連續性、降低醫療成本[18]。高質量的指南應該滿足以下幾個特點:① 臨床問題清晰和明確;② 有證據質量評價和分級;③ 根據證據分級和考慮了各種利弊、患者偏好和價值觀后提出明確的推薦強度等級;④ 注重證據向臨床轉化,定期更新[19]。然而,有學者對國外 600 余本指南進行質量評價,結果顯示雖然指南的質量在逐漸提高,但仍沒有達到高質量水平[20]。國內有研究指出[6],國內指南存在的主要問題是質量參差不齊,缺少國內自身高質量的臨床證據,多數指南沒有采用國際通用的標準或方法進行制定,沒有采用 GRADE 證據分級體系,沒有利益沖突聲明等。近年來,骨科指南的數量逐年增加,但是尚沒有研究對骨科指南的質量進行評價和探討。因此,本研究的目的是使用國際通用的 AGREEⅡ工具評價和分析目前國內已發布的骨科指南,最終為提高我們骨科指南制定質量提供參考和建議。
目前在國內,已有學者利用 AGREEⅡ工具對相關領域的臨床實踐指南進行了評價。陳耀龍等[7] 對 115 篇中醫藥臨床指南進行了評價。本研究結果顯示,中醫藥臨床指南 AGREEⅡ各領域得分由高到低依次為:41%、28%、33%、20%、9% 和 7%,這提示國內中醫藥臨床指南的整體方法學質量與國際平均水平還存在較大差距。趙麗平等[21] 利用 AGREEⅡ工具對全球現有的 9 部兒童維生素 D 缺乏癥藥物治療循證指南進行了質量評價,結果提示在六大領域的評分中,僅有“范圍與目的”和“明晰陳述與表達”得分超過 60%,各指南推薦內容差異較大。由此可見,目前指南存在的主要問題是質量參差不齊,且主要存在問題的是第三(制定的嚴謹性)、第四(表達的明晰性)、第五(應用性)、第六(編輯的獨立性)結構域。
本研究結果還顯示,納入評價的第一個結構域的評分最高,說明大多數指南在提出臨床問題方面以及指出制定指南目的方面都基本上達到了 AGREEⅡ工具要求的一般水平,但是在描述指南所要應用的人群方面存在較多的不足,缺少對于目標人群、性別、年齡、疾病分級、排除人群等的詳細描述。評分最低的三個結構域分別是第三、第五、第六結構域。多數指南缺少系統的檢索策略,缺少對于原始研究的質量評價和證據。在推薦意見形成過程中,僅有少數指南采用了 Delphi 方法[22],多數采用的是非正式的專家共識。大多數指南缺少指南發布前的外部評審環節以及如何將外審收集到的信息用于臨床指南或推薦意見的制定中。納入的全部指南均沒有提及指南是否會更新以及更新的周期與方法等。在指南的應用性方面,中國骨科指南缺少對于應用促進或阻礙因素的評價、缺少應用推薦建議時其他資源投入的考慮、缺少應用監測的評價標準。利益沖突聲明可以反映指南制定過程的透明度,但多數指南缺少此聲明或僅僅公開了利益沖突聲明,沒有闡明商業贊助是否影響指南的制定以及受資助人員是否參加了指南的制定過程。評價較低的兩個結構域是參加人員和表達的明晰性。最重要的問題在于,中國骨科指南制定過程中缺少方法學、醫學統計學等多學科人員的參加,或者雖有提及參加人員但并沒有對相關人員的專業進行描述。在表達的明晰性方面,大多數指南缺少對于推薦意見的明確表述,并缺少對推薦意見的突出顯示、分類匯總等。
基于上述分析,本研究結果顯示中國骨科指南面臨的問題包括以下 10 個方面:① 專家共識與臨床實踐指南定義掌握不清楚,缺少循證指南的制定方法;② 缺乏國內高質量的原始研究,無法得到中國患者的特征性研究數據;③ 缺乏專門的經費資助,對于醫藥公司的資金贊助缺乏有效的利益沖突聲明;④ 改編國外指南時沒有用國際通用的規則進行改編;⑤ 指南制定人員缺少方法學專家、社會學專家以及患者的參與;⑥ 指南制定的方法學闡述不清楚,沒有采用國際公認的 GRADE 系統;⑦ 指南推薦意見表述不清楚,而且對于證據和推薦意見之間的關系闡釋不清;⑧ 指南推薦意見的提出往往忽視投入-產出效率的分析以及利弊權衡的評價;⑨ 缺乏指南發表前的同行評審及進一步的更新計劃;⑩ 缺少指南的宣傳與傳播。
我們也要考慮到骨科指南的特殊性,包括:① 骨科領域高值耗材應用較多,醫藥或器材公司的資助可能在一定程度上對指南的制定產生影響;② 骨科是多以手術干預為主的學科,醫生和患者對手術的價值觀可能影響不同地區指南的制定;③ 骨科本身包括了多個亞專業,各個亞專業在循證醫學方面發展速度和進度不同,因此指南制定的證據基礎存在差別。
雖然本研究采用了國際通用的 AGREEⅡ工具評價了現有骨科指南,但仍可能存在以下局限性:① 僅計算機檢索可能遺漏發表在其他渠道上的指南,如教科書、報紙、健康宣傳手冊等;② 納入的指南均公開發表于雜志上,可能受篇幅的限制,很多方法學信息無法獲得;③ AGREEⅡ工具僅是對不同條目的報告情況進行評價,尚無法對指南內容的有效性進行評價。
為提高我國骨科指南的質量,我們提出如下 10 條建議:① 嚴格遵守制定指南的指南;② 加強人員的方法學培訓;③ 加強循證醫學思維的傳播和普及;④ 增加指南制定過程的透明度;⑤ 提高國內原始臨床研究質量;⑥ 推薦意見清晰明辨;⑦ 重視利益沖突聲明;⑧ 加強指南的傳播和實施;⑨ 加強指南的報告規范、更新機制;⑩ 建立公益基金會,減少商業利益干擾。總之,合格的骨科指南應該具有真實性、重要性、獨立性、可靠性、時效性、可讀性、實用性。
20 世紀 90 年代,臨床實踐指南首次被美國醫學科學院定義,即針對特定臨床問題、系統制定的幫助醫務人員和患者做出恰當處理的指導性意見或推薦意見[1]。1993 年 MEDLINE 數據庫將臨床實踐指南的核心概念“guideline”收錄為主題詞。美國醫學科學院在 2011 年對臨床實踐指南的定義又進行了更新,即臨床實踐指南是基于系統評價證據和衡量不同干預措施的利弊,在此基礎上形成的能夠為患者提供最佳保健服務的推薦意見[2]。隨著近年來循證醫學的發展,臨床實踐指南在臨床疾病的診斷治療中發揮的作用日益凸顯[3]。
臨床指南是縮小最佳證據和臨床實踐之間距離的最佳臨床決策工具。高質量的指南對提高醫療服務治療、合理配置臨床資源、降低患者經濟負擔、保證患者權益起到了重要作用。相反,低質量指南可能會給患者造成傷害,浪費醫療資源,影響醫療決策[4]。因此,對指南的方法學和報告質量評價至關重要。臨床研究與評價工具Ⅱ(AGREEⅡ)是由 13 個國家的研究者制定的臨床實踐指南評價工具,是目前公認的指南質量評價工具[5]。目前已有研究采用 AGREEⅡ工具對現有指南進行評價,結果顯示指南數量雖逐漸增加,但存在質量參差不齊、方法學不夠嚴謹、制定過程不夠透明等局限性[6,7]。應用 AGREEⅡ評價工具對現有指南進行評價有利于提高指南制定的質量[8]。
我國近 20 年來,先后發布了 400 余部臨床實踐指南,但總體方法學和報告質量低于國際水平[6,9-11]。循證制定臨床實踐指南是當前國內臨床實踐指南發展趨勢,但指南開發方法的嚴謹性和報告規范等均有待提高[12]。近年來,在中華醫學會、中國醫師協會等學術團體的指導下,我國骨科專業的指南數量也逐漸增多。目前針對創傷、脊柱、關節、骨腫瘤、其他骨病等骨科方面疾病,已經發布了數十部指南或專家共識。隨著循證醫學的理念在我國扎根與快速發展,逐漸有一些指南開始采用了系統評價或證據推薦的方法。雖然我國骨科指南的數量逐年增加、指南方法學和報告質量在力求提高,但目前尚無研究對現有骨科指南質量進行評價。因此,本研究擬采用 AGREEⅡ工具評價目前國內已發布的骨科指南的方法學和報告質量,為提高骨科指南制定質量提供參考和建議。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準 指南內容涉及創傷、脊柱、關節、骨腫瘤、骨病等骨科相關領域;指南制作方法包括:會議共識、專家共識、循證方法等。語種限中文。
1.1.2 排除標準 重復發布的指南;外文指南的中譯本;不完整指南(摘要、目錄、紀要、述評等);指南后評價;撰寫指南的理論性文章和評價等。
1.2 檢索策略
計算機檢索 CNKI、CBM、VIP 和 WanFang Data 數據庫,搜集中國國內已發布的骨科指南,檢索時限均從建庫至 2016 年 10 月。此外,追溯納入文獻的參考文獻,以補充獲取相關文獻。同時,手工檢索 Google 和百度以及中國臨床指南文庫(http://www.cgc-chinaebm.org/)和中國臨床指南協作網(http://www.cpgn.net/)。中文檢索詞包括:指南、指引、專家共識、臨床實踐指南、最佳實踐等。檢索過程由兩名研究人員(邢丹、王斌)獨立進行并核對,如有爭議通過協商解決。以 CBM 為例,其具體檢索策略見框 1。
1.3 文獻篩選、資料提取和納入指南的質量評價
由 2 位研究者(邢丹、王斌)獨立進行文獻篩選、數據提取和質量評價,若有分歧則通過討論或交第三方裁定來解決。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。資料提取內容主要包括:指南的名稱、期刊、年份、發布機構、方法學特征、指南的目的人群、課題組組成、經費來源等。
采用 AGREE Ⅱ評價工具[5] 評價納入的中國骨科相關指南。該評價量表由 6 個結構域(23 個條目)組成,分別為范圍和目的(含 3 個條目)、參與人員(含 3 個條目)、制定的嚴謹性(含 8 個條目)、表達的清晰性(含 3 個條目)、應用性(含 4 個條目)以及編輯的獨立性(含 2 個條目)。每個條目的評分為 1~7 分,1 分為很不同意,7 分為很同意,2~6 分根據條目對標準的滿足程度進行打分。分值的高低取決于報告的完整性和質量。
1.4 統計分析
AGREEⅡ評價工具的結構域得分=[(該結構域實際得分–該結構域最小可能得分)/(該結構域最大可能得分–最小可能得分)]×100%。每個領域實際得分等于該領域中每一個條目分數的總和,并標準化為該領域可能的最高分數的百分比。最大可能得分=7 分(很同意)×條目數量×評價者人數;最小可能得分=1 分(很不同意)×條目數量×評價者人數。得分越高,說明指南在該結構域的方法學質量越高。
采用 SPSS 19.0 軟件對兩名評價者評分結果的一致性進行組內相關系數(intra-class correlation coefficient,ICC)檢驗[13,14]。如果 ICC<0.20,說明評價者間一致性差;如果 ICC 為 0.21~0.40,說明評價者間一致性一般;如果 ICC 為 0.41~0.60,說明評價者間一致性中等;如果 ICC 為 0.6l~0.80,說明評定者間一致性好;如果 ICC>0.80,說明評定者間一致性非常好。
2 結果
2.1 文獻檢索結果
初檢共獲得相關文獻 319 篇,通過逐層篩選,最終獲得 54 篇骨科指南。文獻篩選流程及結果見圖 1。

2.2 納入指南的基本特征
納入指南的基本特征見表 1。54 篇指南的名稱以“指南”和“專家共識”為主,沒有以“臨床實踐指南”為名的指南。指南發布年代從 2007 年至 2016 年,其中有 29 篇發表時間為 2015~2016 年,占到了納入全部指南數量的一半以上。在指南制定的組織機構方面,25 篇指南由學會牽頭制定,2 篇由雜志社牽頭制定,其余為專家團隊牽頭制定。
2.3 評價一致性檢驗結果
兩名評價者針對范圍和目的、參與人員、制定的嚴謹性、表達的清晰性、應用性、編輯的獨立性共六個結構域進行的一致性的檢驗結果分別為:0.65、0.44、0.89、0.61、0.30、0.82。兩名評價者評價的總一致性非常好[ICC=0.84,95%CI(0.80,0.87)]。
2.4 納入指南的 AGREEⅡ評分
中國骨科指南在 AGREEⅡ六個結構域的評分結果見表 2。54 篇指南在范圍和目的、參與人員、制定的嚴謹性、表達的清晰性、應用性、編輯的獨立性的平均得分分別為:60.44%、21.40%、5.17%、22.17%、6.02% 和 0.56%。


2.4.1 范圍和目的 本結構域的平均得分為 60.44%,是得分最高的結構域。該結構域包括了制定指南總目的、明確闡述臨床指南所涵蓋的衛生問題以及指南應用人群三個條目。納入的 54 篇指南均較具體地進行了描述。但多數指南缺少對于應用人群的描述,因此在此處進行了減分。
2.4.2 參與人員 本結構域的平均得分為 21.40%。該結構域包括了是否包括所有相關專業人員、目標人群的觀點和選擇以及是否明確指南使用者三個條目。納入的 54 篇指南大多數在制定過程缺少流行病學、方法學、統計學專家的參與,同時缺少對參與人員具體單位、職務的詳細描述,而且沒有指南考慮到患者偏好或者公眾的觀點。此外,部分指南缺少對指南使用者的明確說明。
2.4.3 制定的嚴謹性 本結構域的平均得分為 5.17%,得分較低(表 3)。該結構域包括了檢索方法、證據選擇、證據體描述、推薦意見形成方法、利弊權衡、推薦意見與證據的聯系、指南外審和指南更新六個條目。納入的指南大多數沒有采用循證醫學的方法,因此缺少詳細的檢索策略和證據體的評價體系。推薦意見的制定過程描述不清,缺少對干預措施副作用的描述等。沒有指南對是否會被更新、更新時間和周期進行描述。
2.4.4 表達的明晰性 本結構域的平均得分為 22.17%。該結構域包括了明確表達推薦意見、針對某一問題不同選題以及推薦意見清晰易變三個條目。納入指南多數缺少對推薦意見的清晰描述和對于推薦意見的匯總或突出顯示。
2.4.5 應用性 本結構域的平均得分為 6.02%,得分較低。該結構域包括了應用過程的促進或阻礙因素、推薦意見的配套工具、資源投入和審計或監控標準 4 個條目。目前,納入的指南多數缺少對于推進指南應用的描述,缺少對于指南應用成本的分析,缺少對于推薦意見應用的監測和審計。
2.4.6 編輯的獨立性 本結構域的平均得分為 0.56%,得分最低。該結構域包括了贊助單位的觀點是否影響指南內容和制定小組成員利益沖突兩個條目。除 2 篇指南以外,其余納入的指南均沒有提及指南制定過程中是否得到資助以及資助機構的觀點是否影響指南的制定。除 1 篇指南外,沒有指南聲明每一位指南制定小組成員是否存在任何利益沖突。
3 討論
在過去的 20 年中,指南的制定工作得到了快速的發展,它已成為一種建立最佳健康證據集合的有力工具[15]。同時指南制定的方法學和制定流程也在不斷的進步與規范[16,17]。指南的最終目的是服務于臨床實踐,從而提高醫療質量、確保醫療保健的連續性、降低醫療成本[18]。高質量的指南應該滿足以下幾個特點:① 臨床問題清晰和明確;② 有證據質量評價和分級;③ 根據證據分級和考慮了各種利弊、患者偏好和價值觀后提出明確的推薦強度等級;④ 注重證據向臨床轉化,定期更新[19]。然而,有學者對國外 600 余本指南進行質量評價,結果顯示雖然指南的質量在逐漸提高,但仍沒有達到高質量水平[20]。國內有研究指出[6],國內指南存在的主要問題是質量參差不齊,缺少國內自身高質量的臨床證據,多數指南沒有采用國際通用的標準或方法進行制定,沒有采用 GRADE 證據分級體系,沒有利益沖突聲明等。近年來,骨科指南的數量逐年增加,但是尚沒有研究對骨科指南的質量進行評價和探討。因此,本研究的目的是使用國際通用的 AGREEⅡ工具評價和分析目前國內已發布的骨科指南,最終為提高我們骨科指南制定質量提供參考和建議。
目前在國內,已有學者利用 AGREEⅡ工具對相關領域的臨床實踐指南進行了評價。陳耀龍等[7] 對 115 篇中醫藥臨床指南進行了評價。本研究結果顯示,中醫藥臨床指南 AGREEⅡ各領域得分由高到低依次為:41%、28%、33%、20%、9% 和 7%,這提示國內中醫藥臨床指南的整體方法學質量與國際平均水平還存在較大差距。趙麗平等[21] 利用 AGREEⅡ工具對全球現有的 9 部兒童維生素 D 缺乏癥藥物治療循證指南進行了質量評價,結果提示在六大領域的評分中,僅有“范圍與目的”和“明晰陳述與表達”得分超過 60%,各指南推薦內容差異較大。由此可見,目前指南存在的主要問題是質量參差不齊,且主要存在問題的是第三(制定的嚴謹性)、第四(表達的明晰性)、第五(應用性)、第六(編輯的獨立性)結構域。
本研究結果還顯示,納入評價的第一個結構域的評分最高,說明大多數指南在提出臨床問題方面以及指出制定指南目的方面都基本上達到了 AGREEⅡ工具要求的一般水平,但是在描述指南所要應用的人群方面存在較多的不足,缺少對于目標人群、性別、年齡、疾病分級、排除人群等的詳細描述。評分最低的三個結構域分別是第三、第五、第六結構域。多數指南缺少系統的檢索策略,缺少對于原始研究的質量評價和證據。在推薦意見形成過程中,僅有少數指南采用了 Delphi 方法[22],多數采用的是非正式的專家共識。大多數指南缺少指南發布前的外部評審環節以及如何將外審收集到的信息用于臨床指南或推薦意見的制定中。納入的全部指南均沒有提及指南是否會更新以及更新的周期與方法等。在指南的應用性方面,中國骨科指南缺少對于應用促進或阻礙因素的評價、缺少應用推薦建議時其他資源投入的考慮、缺少應用監測的評價標準。利益沖突聲明可以反映指南制定過程的透明度,但多數指南缺少此聲明或僅僅公開了利益沖突聲明,沒有闡明商業贊助是否影響指南的制定以及受資助人員是否參加了指南的制定過程。評價較低的兩個結構域是參加人員和表達的明晰性。最重要的問題在于,中國骨科指南制定過程中缺少方法學、醫學統計學等多學科人員的參加,或者雖有提及參加人員但并沒有對相關人員的專業進行描述。在表達的明晰性方面,大多數指南缺少對于推薦意見的明確表述,并缺少對推薦意見的突出顯示、分類匯總等。
基于上述分析,本研究結果顯示中國骨科指南面臨的問題包括以下 10 個方面:① 專家共識與臨床實踐指南定義掌握不清楚,缺少循證指南的制定方法;② 缺乏國內高質量的原始研究,無法得到中國患者的特征性研究數據;③ 缺乏專門的經費資助,對于醫藥公司的資金贊助缺乏有效的利益沖突聲明;④ 改編國外指南時沒有用國際通用的規則進行改編;⑤ 指南制定人員缺少方法學專家、社會學專家以及患者的參與;⑥ 指南制定的方法學闡述不清楚,沒有采用國際公認的 GRADE 系統;⑦ 指南推薦意見表述不清楚,而且對于證據和推薦意見之間的關系闡釋不清;⑧ 指南推薦意見的提出往往忽視投入-產出效率的分析以及利弊權衡的評價;⑨ 缺乏指南發表前的同行評審及進一步的更新計劃;⑩ 缺少指南的宣傳與傳播。
我們也要考慮到骨科指南的特殊性,包括:① 骨科領域高值耗材應用較多,醫藥或器材公司的資助可能在一定程度上對指南的制定產生影響;② 骨科是多以手術干預為主的學科,醫生和患者對手術的價值觀可能影響不同地區指南的制定;③ 骨科本身包括了多個亞專業,各個亞專業在循證醫學方面發展速度和進度不同,因此指南制定的證據基礎存在差別。
雖然本研究采用了國際通用的 AGREEⅡ工具評價了現有骨科指南,但仍可能存在以下局限性:① 僅計算機檢索可能遺漏發表在其他渠道上的指南,如教科書、報紙、健康宣傳手冊等;② 納入的指南均公開發表于雜志上,可能受篇幅的限制,很多方法學信息無法獲得;③ AGREEⅡ工具僅是對不同條目的報告情況進行評價,尚無法對指南內容的有效性進行評價。
為提高我國骨科指南的質量,我們提出如下 10 條建議:① 嚴格遵守制定指南的指南;② 加強人員的方法學培訓;③ 加強循證醫學思維的傳播和普及;④ 增加指南制定過程的透明度;⑤ 提高國內原始臨床研究質量;⑥ 推薦意見清晰明辨;⑦ 重視利益沖突聲明;⑧ 加強指南的傳播和實施;⑨ 加強指南的報告規范、更新機制;⑩ 建立公益基金會,減少商業利益干擾。總之,合格的骨科指南應該具有真實性、重要性、獨立性、可靠性、時效性、可讀性、實用性。