引用本文: 周韋禾, 鄭元瑾, 樓姹, 鄭景偉, 葉聰, 梁遠波. 中國眼科臨床指南的質量評價. 中國循證醫學雜志, 2019, 19(1): 73-83. doi: 10.7507/1672-2531.201805157 復制
1990 年美國醫學研究所(Institute of Medicine,IOM)將臨床實踐指南定義為:應用系統方法開發的文件,能夠給從業者或患者提供針對某一臨床問題的適當解決方案[1]。二十多年來,臨床實踐指南發展迅速,其作用日漸受到重視。到 2016 年 IOM 收錄了來自 76 個國家的 6 200 篇指南[2]。指南的作用取決于它的質量,高質量的指南能改善患者預后、提高醫務工作者決策質量、節約醫療開支,然而低質量的指南會導致無效甚至有害的臨床干預,造成醫療資源的浪費[3]。因此,采用合適的工具評估指南的質量很有必要。
指南研究和評估工具Ⅱ(the appraisal of guidelines for research & evaluation Ⅱ instrument,AGREEⅡ)由 AGREE Ⅱ國際協作組織制訂,可用于評估和比較臨床實踐指南的質量[4]。AGREEⅡ是在 2003 年開發的 AGREE 基礎上改進而來,包含 6 個領域共 23 個條目。AGREEⅡ是目前國際上唯一開發并經過驗證的指南評價工具[5],已被翻譯成多種語言并得到多個組織認可[4]。
眼科是研究發生在視覺器官疾病的發生、發展和轉歸以及預防、診斷和治療的醫學科學。由于眼病的檢查和診治方法與其他臨床學科差別很大,眼科學也是當代醫學領域發展最快、最活躍的學科之一。本文采用 AGREE Ⅱ評價工具對我國眼科臨床實踐指南進行質量評價,期望能為我國的眼科臨床工作者和指南制訂專家未來開展指南制訂工作提供參考。
1 資料與方法
1.1 納入與排除標準
納入標準:① 指南內容涉及眼科、視光等相關領域;② 指南制作方法包括:會議共識、專家共識、循證指南制作方法等;③ 語言限中文;④ 暫未發行正式版本的指南草案或試行版。
排除標準:① 重復發表的指南;② 外文指南的中譯本;③ 單一作者的指南;④ 指南摘要;⑤ 已有指南的解讀。
1.2 文獻檢索策略
計算機檢索 CBM、CNKI、VIP 和 WanFang Data 數據庫,搜集中國眼科臨床實踐指南,檢索時限均為建庫至 2017 年 12 月。檢索采用主題詞聯合自由詞的方式,檢索詞包括:指南、專家共識、眼、近視、遠視、斜視、弱視。以 CBM 為例,具體檢索策略見框 1。

1.3 文獻篩選與資料提取
由 3 名研究者獨立進行文獻篩選,如有異議由 3 人討論或邀請第四名研究者(資深眼科專家)討論解決。資料提取的內容包括:納入指南的名稱、制訂單位、年份、發表機構、作者、指南開發方法、參考文獻數目、經費來源等。
1.4 評價方法
采用 AGREE Ⅱ工具[4]評價納入研究的眼科指南與專家共識。AGREE Ⅱ包含 6 個領域共 23 個條目。每個條目描述質量評價的一個具體問題,按 7 分劃分等級,1 分(很不同意)代表很不符合條目描述,7 分(很同意)代表非常符合描述,2~6 分根據指南對條目的滿足情況決定。如果評價者對同一條目評分差異較大,分值差異大于 2 分時,3 名研究者需對該內容進行討論再得出最終評分[6]。
每篇指南或共識分別計算 6 個領域的標化分值,計算公式為:
領域分值=(實際得分?最小可能得分)/(最大可能得分?最小可能得分)
最小可能得分=1 分(很不同意)×領域內條目數×評價者人數
最大可能得分=7 分(很同意)×領域內條目數×評價者人數
實際得分等于領域內每個條目所有評價者的實際給分的總和,領域分值的范圍為 0~100%。根據 AGREEⅡ評價標準:當得分>30% 的領域個數超過 4 個的指南列為推薦使用的指南;得分≤30% 的領域個數超過 3 個的指南為不推薦使用的指南;其余為經過修訂后推薦使用的指南[6]。
使用 SPSS 20.0 統計軟件分析數據。分類數據計算數量及相應百分比,AGREE Ⅱ各領域得分計算均數及極差。采用組內相關系數(intra-class correlation coefficient,ICC)評估 3 名評價者間一致性。
2 結果
2.1 文獻篩選流程及結果
初檢共獲得文獻 1 108 篇,經逐層篩選,最終納入文獻 61 篇[7-67],包括中國眼科臨床實踐指南 60 部(兩篇文獻[50, 51]為同一指南的兩個不同部分),文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:CNKI(
2.2 納入指南的基本特征
納入指南的基本特征見表 1。中國眼科臨床實踐指南的發表時間最早為 2001 年,此后發表篇數基本呈增長趨勢,2016 年開始明顯增長,2016、2017 兩年發表篇數之和占總數的一半(32 篇,53.3%)(圖 2)。指南的應用領域主要集中在診療(15 篇,25.0%)、技術(14 篇,23.3%)和治療(12 篇,20.0%)(圖 3)。指南制訂單位主要是中華醫學會眼科分會下各學組(46 篇,76.7%),其次為協會、制作小組等(10 篇,16.7%)(圖 4)。通過專家共識制訂的指南占比最大(81.6%),提及應用循證指南方法制訂的指南僅 1 篇(1.7%),8 篇(13.3%)指南沒有描述制訂所用方法(圖 5)。所有指南都沒有提及未來的更新方案。指南頁數的中位數為 4 頁,最少 1 頁,最多 15 頁。指南作者人數中位數為 33 人,有 7 篇(11.7%)指南沒有報告作者具體信息,只提供了指南制訂單位,作者人數最多者為 71 人。指南引用參考文獻篇數最多為 98 篇,中位數為 8.5 篇,其中 19 篇(31.7%)沒有提供所引用參考文獻信息(表 1)。





2.3 納入指南的 AGREE Ⅱ 評價結果
2.3.1 范圍與目的
納入指南在此領域平均得分 66.4%,最高得分 83.3%,最低得分 33.3%。其中 53 篇(88.3%)得分大于 50.0%,指南對于目的、所涵蓋的衛生問題及適用人群有較充分的描述。少數指南(比如《我國角膜上皮損傷臨床診治專家共識(2016)》[39])開篇直接描述疾病的定義、病理機制和臨床表現等,缺乏對目的的描述,導致該條目得分很低。
2.3.2 參與人員
所有納入指南在此領域得分都偏低,平均得分 24.7%,最高得分 50.0%。3 篇指南得分為 0,13 篇得分小于 20%。幾乎所有指南在制訂時都沒有考慮目標人群的意見,大多數指南都只有眼科專家參與開發,缺少方法學專家,如系統評價、流行病學、統計學等方面專家的參與。大多數指南對于指南使用者的描述也不夠明確。
2.3.3 嚴謹性
納入指南此領域平均得分 13.5%,其中 54 篇(90.0%)得分小于 20.0%,僅 1 篇(1.7%)得分大于 50.0%。絕大多數指南沒有描述應用系統方法檢索證據,缺乏對于證據選擇的標準及證據強度和局限性的描述,對于建議的形成方法描述不夠充分。形成推薦建議時對健康的影響有所考慮,但不充分。沒有指南在發布前進行外部專家評審,也沒有指南更新計劃。僅有《中國老年性黃斑變性臨床診斷治療路徑》[64]明確描述指南檢索方法、證據選擇標準、證據強度和推薦建議形成的方法等。
2.3.4 清晰性
納入指南此領域平均得分 67.4%,僅 1 篇(1.7%)指南得分<50.0%,最高得分為 88.89%。指南推薦意見的陳訴比較明確,對某一問題能從多方面進行考慮。比如《兒童屈光矯正專家共識》[9]對不同年齡段兒童的屈光不正矯正分別討論,對睫狀肌麻痹劑也給出了多種選擇,并就每一種藥物的適用條件做出了詳細描述。仍有一些文獻未強調對于指南中主要問題的推薦建議,讀者不易在文中發現相關建議。
2.3.5 應用性
納入指南此領域平均得分 14.5%,52 篇(86.7%)得分不到 20.0%。大多指南未考慮指南應用時的促進和阻礙因素,缺乏指南應用相關意見或工具的提供,也沒有考量推薦建議所需要的潛在資源。僅部分指南描述了推薦建議應用時的監督標準,比如《上瞼下垂診治專家共識》[19]明確指出術中矯正量的標準。
2.3.6 編輯獨立性
納入指南此領域平均得分 19.3%,其中 25 篇(41.7%)得分為 0,最高得分 36.1%。多數指南的資金來源不明,并未描述指南開發小組成員的利益沖突,僅有 35 篇指南聲明與相關產品的生產和銷售廠商無直接經濟利益關系。
2.3.7 總體指南推薦程度
根據 6 個領域的 AGREEⅡ評分(表 2),60 篇指南中僅 1 篇(1.7%)為值得推薦,21 篇(35%)不推薦使用,38 篇(63.3%)建議修訂后使用。

3 名研究者運用 AGREEⅡ工具獨立評價納入指南的結果一致性較好[ICC=0.73,95%CI(0.62,0.81)], 范圍和目的、參與人員、嚴謹性、清晰性、應用性和編輯獨立性 6 個領域評價結果 ICC 分別為 0.56、0.84、0.75、0.48、0.41、0.98。
2.4 制訂時間與指南質量的關系
納入指南中,近 5 年(2013~2017 年)發表 48 篇(80.0%),5 年以前發表 12 篇(20.0%)。近 5 年發表指南的 AGREEⅡ得分在除表達清晰性領域以外的 5 個領域都高于 5 年前發表的指南,參與人員、編輯獨立性分別增加了 14.34% 和 14.77%;范圍和目的、嚴謹性、應用性分別增加了 7.25%、4.98% 和 3.36%(表 3)。

2.5 我國眼科指南與國際指南、國內指南的比較結果
我國眼科指南 AGREE Ⅱ得分與國際眼科指南平均水平比較存在一定差距,尤其在參與人員、嚴謹性、應用性和編輯獨立性這幾個方面的得分差距較大,最大差值達到 30.5%。但與國內實踐指南平均水平比較,眼科指南的質量水平較優,AGREE Ⅱ6 個領域的得分都高于國內指南的平均值(表 4)。

3 討論
本研究首次使用 AGREE Ⅱ工具評價我國眼科臨床實踐指南的方法學質量。共納入 2001~2017 年發表的中文眼科指南 60 部,從 AGREE Ⅱ得分看,指南總體質量不高,且差異較大。范圍和目的、表達清晰性兩個領域得分尚可,但參與人員、嚴謹性、應用性和編輯獨立性得分低。近五年發表的眼科指南較以前發表的指南質量有所提高。
包含條目最多的嚴謹性領域得分最低。絕大多數國內眼科指南對于如何進行證據的選擇和評價沒有提及,包括沒有提供證據檢索方法、證據選擇標準和證據本身質量的考量。指南證據質量是指南質量的基礎[70],來源不明、沒有質量保證的證據可能降低指南的質量。大多數指南使用專家共識的方法形成推薦意見并以“專家共識”命名。有研究發現以“專家共識”命名指南的嚴謹性得分低于平均水平[71],但本研究發現納入指南不管題為“專家共識”或“指南”,在本領域得分均很低。所有指南都沒有敘述有關專家外部評審方面信息,所以指南在發布前是否經過外部評審不明確,這點與國際上廣泛使用的眼科指南相似[72-75]。有研究推薦指南至少 3 年更新一次[76],但本研究中所有指南都沒有設定更新,一些 10 多年前發布的指南截至目前仍未更新[25, 65]。
指南的應用性指其在制訂過程中考慮了應用時潛在的阻礙、需要的資源、輔助實施的附加材料和指南使用的審計或監督標準,即使指南擁有高質量的證據但不重視指南的臨床應用性也會阻礙其有效地指導醫療實踐。本研究納入指南的應用性得分低,平均得分只有 14.5%,得分最高的指南也沒有超過 50.0%[64],說明眼科指南在推廣實施方面沒有充分考慮,建議向國外高質量指南學習。例如英國國家衛生與保健研究所(National Institute for Health and Care Excellence)開發的青光眼指南[77]不僅提供了成本-效益分析,并且在每一條推薦建議后都提供了“經濟考量”。
除去沒有提供作者具體信息的 7 部指 南[8, 22, 24, 26, 27, 62, 65],大多數指南都給出了參與形成推薦共識的專家名單以及他們的工作單位,但沒有陳述各個作者在指南開發過程中所扮演的角色。從作者名單中看出,大多數指南缺乏方法學專家的參與。根據 AGREE Ⅱ的建議,指南開發還應納入目標人群的意見,但是國內眼科沒有指南記錄是否有目標人群參與。指南制訂小組成員應保證多樣性,才能確保制訂的建議合理、全面,避免對某些領域的偏見[70]。指南中的推薦建議大多可以通過分段和編號快速定位;然而國際上一些表述清晰、有效的眼科指南還采用了在附件中總結關鍵推薦意見[78]或在證據前設置方框標記證據強度[79]的方法。國內一些指南的內容沒有涉及編輯獨立性,其他指南只聲明了“內容與相關產品的生產和銷售廠商無經濟利益關系”,沒有指南具體資金來源的介紹,也沒有闡述開發小組成員的利益關系,對于指南潛在利益沖突的探究不夠充分。
本研究結果顯示,2013~2017 年 5 年間發表的指南與 2013 年之前發表的指南相比,在數量與質量上都呈上升趨勢,這與循證醫學在我國的快速普及和發展密不可分[80]。指南制訂工作近年來在我國逐漸受到重視,各學術組織紛紛推出指南制訂規范,國內學者對于指南及其方法學的研究不斷深入,一批高質量的國內原創指南的發表也促進了眼科指南的提高。
我國眼科指南質量與我國現階段的社會經濟發展水平相適應。我國的臨床實踐自 20 世紀 80 年代以來,總體來講是一種向國際的應用性學習。由于知識傳播途徑差異,不同層級的醫院接受國際先進知識、理念和對先進技術的掌握存在一定的時間差,因而在應用新技術、新產品、新方案的態度和能力方面也存在差別。另外,不同地區受社會經濟條件制約,對同一疾病可能有不同的應對策略,從而導致我國眼科醫生在指南制訂時,難以形成較為統一的意見,僅能采取專家共識的方式進行,而且對很多問題只能提出原則性意見。此外,我國高質量隨機對照臨床試驗開展不多,縱向預后研究也較少,導致基于我國本土的高質量證據較少,從而在一定程度上導致我國建立以證據為基礎的指南存在一定的困難。另外,我國眼科行業協會及臨床醫生,過多地強調臨床實踐的個性化、差異性,而對遵循指南和規范進行臨床實踐的重要性認識不夠,導致指南制訂過程不夠嚴謹和透明。
本研究存在局限性:① 納入指南僅來源于計算機檢索,可能遺漏一些其他渠道發表,如書本、宣傳手冊等的指南;② 文獻語言限定為中文,可能錯過在英文雜志上發表的中國指南;③ 由于發表雜志篇幅限制,一些指南可能沒有完全報告相關信息,導致指南質量得分降低,結果出現偏倚;④ 雖然 AGREEⅡ工具的有效性和可靠性已經得到證明,但評價中仍不可避免地受到評價人員主觀因素的影響;⑤ AGREE Ⅱ主要評價指南的方法學質量,但方法學質量更多取決于指南制訂人員的報告涵蓋了哪些內容,因此方法學的高質量并不等于證據的高質量和推薦建議的有效性。
綜上所述,中國眼科臨床實踐指南總體質量不高,雖然高于國內指南平均水平,但與國際水平相比還有不小差距,主要體現在參與人員、嚴謹性、應用性和編輯獨立性幾方面。在今后的指南制訂工作中,我們應主動學習并依照國際指南制訂推薦方法,規范流程、嚴格證據選擇、著實增強制訂過程的透明度和獨立性、注重指南的時效性和定期更新機制,還應加強基于我國臨床問題和臨床實踐的相關研究,為未來我國制訂眼科循證指南提供基礎。
1990 年美國醫學研究所(Institute of Medicine,IOM)將臨床實踐指南定義為:應用系統方法開發的文件,能夠給從業者或患者提供針對某一臨床問題的適當解決方案[1]。二十多年來,臨床實踐指南發展迅速,其作用日漸受到重視。到 2016 年 IOM 收錄了來自 76 個國家的 6 200 篇指南[2]。指南的作用取決于它的質量,高質量的指南能改善患者預后、提高醫務工作者決策質量、節約醫療開支,然而低質量的指南會導致無效甚至有害的臨床干預,造成醫療資源的浪費[3]。因此,采用合適的工具評估指南的質量很有必要。
指南研究和評估工具Ⅱ(the appraisal of guidelines for research & evaluation Ⅱ instrument,AGREEⅡ)由 AGREE Ⅱ國際協作組織制訂,可用于評估和比較臨床實踐指南的質量[4]。AGREEⅡ是在 2003 年開發的 AGREE 基礎上改進而來,包含 6 個領域共 23 個條目。AGREEⅡ是目前國際上唯一開發并經過驗證的指南評價工具[5],已被翻譯成多種語言并得到多個組織認可[4]。
眼科是研究發生在視覺器官疾病的發生、發展和轉歸以及預防、診斷和治療的醫學科學。由于眼病的檢查和診治方法與其他臨床學科差別很大,眼科學也是當代醫學領域發展最快、最活躍的學科之一。本文采用 AGREE Ⅱ評價工具對我國眼科臨床實踐指南進行質量評價,期望能為我國的眼科臨床工作者和指南制訂專家未來開展指南制訂工作提供參考。
1 資料與方法
1.1 納入與排除標準
納入標準:① 指南內容涉及眼科、視光等相關領域;② 指南制作方法包括:會議共識、專家共識、循證指南制作方法等;③ 語言限中文;④ 暫未發行正式版本的指南草案或試行版。
排除標準:① 重復發表的指南;② 外文指南的中譯本;③ 單一作者的指南;④ 指南摘要;⑤ 已有指南的解讀。
1.2 文獻檢索策略
計算機檢索 CBM、CNKI、VIP 和 WanFang Data 數據庫,搜集中國眼科臨床實踐指南,檢索時限均為建庫至 2017 年 12 月。檢索采用主題詞聯合自由詞的方式,檢索詞包括:指南、專家共識、眼、近視、遠視、斜視、弱視。以 CBM 為例,具體檢索策略見框 1。

1.3 文獻篩選與資料提取
由 3 名研究者獨立進行文獻篩選,如有異議由 3 人討論或邀請第四名研究者(資深眼科專家)討論解決。資料提取的內容包括:納入指南的名稱、制訂單位、年份、發表機構、作者、指南開發方法、參考文獻數目、經費來源等。
1.4 評價方法
采用 AGREE Ⅱ工具[4]評價納入研究的眼科指南與專家共識。AGREE Ⅱ包含 6 個領域共 23 個條目。每個條目描述質量評價的一個具體問題,按 7 分劃分等級,1 分(很不同意)代表很不符合條目描述,7 分(很同意)代表非常符合描述,2~6 分根據指南對條目的滿足情況決定。如果評價者對同一條目評分差異較大,分值差異大于 2 分時,3 名研究者需對該內容進行討論再得出最終評分[6]。
每篇指南或共識分別計算 6 個領域的標化分值,計算公式為:
領域分值=(實際得分?最小可能得分)/(最大可能得分?最小可能得分)
最小可能得分=1 分(很不同意)×領域內條目數×評價者人數
最大可能得分=7 分(很同意)×領域內條目數×評價者人數
實際得分等于領域內每個條目所有評價者的實際給分的總和,領域分值的范圍為 0~100%。根據 AGREEⅡ評價標準:當得分>30% 的領域個數超過 4 個的指南列為推薦使用的指南;得分≤30% 的領域個數超過 3 個的指南為不推薦使用的指南;其余為經過修訂后推薦使用的指南[6]。
使用 SPSS 20.0 統計軟件分析數據。分類數據計算數量及相應百分比,AGREE Ⅱ各領域得分計算均數及極差。采用組內相關系數(intra-class correlation coefficient,ICC)評估 3 名評價者間一致性。
2 結果
2.1 文獻篩選流程及結果
初檢共獲得文獻 1 108 篇,經逐層篩選,最終納入文獻 61 篇[7-67],包括中國眼科臨床實踐指南 60 部(兩篇文獻[50, 51]為同一指南的兩個不同部分),文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:CNKI(
2.2 納入指南的基本特征
納入指南的基本特征見表 1。中國眼科臨床實踐指南的發表時間最早為 2001 年,此后發表篇數基本呈增長趨勢,2016 年開始明顯增長,2016、2017 兩年發表篇數之和占總數的一半(32 篇,53.3%)(圖 2)。指南的應用領域主要集中在診療(15 篇,25.0%)、技術(14 篇,23.3%)和治療(12 篇,20.0%)(圖 3)。指南制訂單位主要是中華醫學會眼科分會下各學組(46 篇,76.7%),其次為協會、制作小組等(10 篇,16.7%)(圖 4)。通過專家共識制訂的指南占比最大(81.6%),提及應用循證指南方法制訂的指南僅 1 篇(1.7%),8 篇(13.3%)指南沒有描述制訂所用方法(圖 5)。所有指南都沒有提及未來的更新方案。指南頁數的中位數為 4 頁,最少 1 頁,最多 15 頁。指南作者人數中位數為 33 人,有 7 篇(11.7%)指南沒有報告作者具體信息,只提供了指南制訂單位,作者人數最多者為 71 人。指南引用參考文獻篇數最多為 98 篇,中位數為 8.5 篇,其中 19 篇(31.7%)沒有提供所引用參考文獻信息(表 1)。





2.3 納入指南的 AGREE Ⅱ 評價結果
2.3.1 范圍與目的
納入指南在此領域平均得分 66.4%,最高得分 83.3%,最低得分 33.3%。其中 53 篇(88.3%)得分大于 50.0%,指南對于目的、所涵蓋的衛生問題及適用人群有較充分的描述。少數指南(比如《我國角膜上皮損傷臨床診治專家共識(2016)》[39])開篇直接描述疾病的定義、病理機制和臨床表現等,缺乏對目的的描述,導致該條目得分很低。
2.3.2 參與人員
所有納入指南在此領域得分都偏低,平均得分 24.7%,最高得分 50.0%。3 篇指南得分為 0,13 篇得分小于 20%。幾乎所有指南在制訂時都沒有考慮目標人群的意見,大多數指南都只有眼科專家參與開發,缺少方法學專家,如系統評價、流行病學、統計學等方面專家的參與。大多數指南對于指南使用者的描述也不夠明確。
2.3.3 嚴謹性
納入指南此領域平均得分 13.5%,其中 54 篇(90.0%)得分小于 20.0%,僅 1 篇(1.7%)得分大于 50.0%。絕大多數指南沒有描述應用系統方法檢索證據,缺乏對于證據選擇的標準及證據強度和局限性的描述,對于建議的形成方法描述不夠充分。形成推薦建議時對健康的影響有所考慮,但不充分。沒有指南在發布前進行外部專家評審,也沒有指南更新計劃。僅有《中國老年性黃斑變性臨床診斷治療路徑》[64]明確描述指南檢索方法、證據選擇標準、證據強度和推薦建議形成的方法等。
2.3.4 清晰性
納入指南此領域平均得分 67.4%,僅 1 篇(1.7%)指南得分<50.0%,最高得分為 88.89%。指南推薦意見的陳訴比較明確,對某一問題能從多方面進行考慮。比如《兒童屈光矯正專家共識》[9]對不同年齡段兒童的屈光不正矯正分別討論,對睫狀肌麻痹劑也給出了多種選擇,并就每一種藥物的適用條件做出了詳細描述。仍有一些文獻未強調對于指南中主要問題的推薦建議,讀者不易在文中發現相關建議。
2.3.5 應用性
納入指南此領域平均得分 14.5%,52 篇(86.7%)得分不到 20.0%。大多指南未考慮指南應用時的促進和阻礙因素,缺乏指南應用相關意見或工具的提供,也沒有考量推薦建議所需要的潛在資源。僅部分指南描述了推薦建議應用時的監督標準,比如《上瞼下垂診治專家共識》[19]明確指出術中矯正量的標準。
2.3.6 編輯獨立性
納入指南此領域平均得分 19.3%,其中 25 篇(41.7%)得分為 0,最高得分 36.1%。多數指南的資金來源不明,并未描述指南開發小組成員的利益沖突,僅有 35 篇指南聲明與相關產品的生產和銷售廠商無直接經濟利益關系。
2.3.7 總體指南推薦程度
根據 6 個領域的 AGREEⅡ評分(表 2),60 篇指南中僅 1 篇(1.7%)為值得推薦,21 篇(35%)不推薦使用,38 篇(63.3%)建議修訂后使用。

3 名研究者運用 AGREEⅡ工具獨立評價納入指南的結果一致性較好[ICC=0.73,95%CI(0.62,0.81)], 范圍和目的、參與人員、嚴謹性、清晰性、應用性和編輯獨立性 6 個領域評價結果 ICC 分別為 0.56、0.84、0.75、0.48、0.41、0.98。
2.4 制訂時間與指南質量的關系
納入指南中,近 5 年(2013~2017 年)發表 48 篇(80.0%),5 年以前發表 12 篇(20.0%)。近 5 年發表指南的 AGREEⅡ得分在除表達清晰性領域以外的 5 個領域都高于 5 年前發表的指南,參與人員、編輯獨立性分別增加了 14.34% 和 14.77%;范圍和目的、嚴謹性、應用性分別增加了 7.25%、4.98% 和 3.36%(表 3)。

2.5 我國眼科指南與國際指南、國內指南的比較結果
我國眼科指南 AGREE Ⅱ得分與國際眼科指南平均水平比較存在一定差距,尤其在參與人員、嚴謹性、應用性和編輯獨立性這幾個方面的得分差距較大,最大差值達到 30.5%。但與國內實踐指南平均水平比較,眼科指南的質量水平較優,AGREE Ⅱ6 個領域的得分都高于國內指南的平均值(表 4)。

3 討論
本研究首次使用 AGREE Ⅱ工具評價我國眼科臨床實踐指南的方法學質量。共納入 2001~2017 年發表的中文眼科指南 60 部,從 AGREE Ⅱ得分看,指南總體質量不高,且差異較大。范圍和目的、表達清晰性兩個領域得分尚可,但參與人員、嚴謹性、應用性和編輯獨立性得分低。近五年發表的眼科指南較以前發表的指南質量有所提高。
包含條目最多的嚴謹性領域得分最低。絕大多數國內眼科指南對于如何進行證據的選擇和評價沒有提及,包括沒有提供證據檢索方法、證據選擇標準和證據本身質量的考量。指南證據質量是指南質量的基礎[70],來源不明、沒有質量保證的證據可能降低指南的質量。大多數指南使用專家共識的方法形成推薦意見并以“專家共識”命名。有研究發現以“專家共識”命名指南的嚴謹性得分低于平均水平[71],但本研究發現納入指南不管題為“專家共識”或“指南”,在本領域得分均很低。所有指南都沒有敘述有關專家外部評審方面信息,所以指南在發布前是否經過外部評審不明確,這點與國際上廣泛使用的眼科指南相似[72-75]。有研究推薦指南至少 3 年更新一次[76],但本研究中所有指南都沒有設定更新,一些 10 多年前發布的指南截至目前仍未更新[25, 65]。
指南的應用性指其在制訂過程中考慮了應用時潛在的阻礙、需要的資源、輔助實施的附加材料和指南使用的審計或監督標準,即使指南擁有高質量的證據但不重視指南的臨床應用性也會阻礙其有效地指導醫療實踐。本研究納入指南的應用性得分低,平均得分只有 14.5%,得分最高的指南也沒有超過 50.0%[64],說明眼科指南在推廣實施方面沒有充分考慮,建議向國外高質量指南學習。例如英國國家衛生與保健研究所(National Institute for Health and Care Excellence)開發的青光眼指南[77]不僅提供了成本-效益分析,并且在每一條推薦建議后都提供了“經濟考量”。
除去沒有提供作者具體信息的 7 部指 南[8, 22, 24, 26, 27, 62, 65],大多數指南都給出了參與形成推薦共識的專家名單以及他們的工作單位,但沒有陳述各個作者在指南開發過程中所扮演的角色。從作者名單中看出,大多數指南缺乏方法學專家的參與。根據 AGREE Ⅱ的建議,指南開發還應納入目標人群的意見,但是國內眼科沒有指南記錄是否有目標人群參與。指南制訂小組成員應保證多樣性,才能確保制訂的建議合理、全面,避免對某些領域的偏見[70]。指南中的推薦建議大多可以通過分段和編號快速定位;然而國際上一些表述清晰、有效的眼科指南還采用了在附件中總結關鍵推薦意見[78]或在證據前設置方框標記證據強度[79]的方法。國內一些指南的內容沒有涉及編輯獨立性,其他指南只聲明了“內容與相關產品的生產和銷售廠商無經濟利益關系”,沒有指南具體資金來源的介紹,也沒有闡述開發小組成員的利益關系,對于指南潛在利益沖突的探究不夠充分。
本研究結果顯示,2013~2017 年 5 年間發表的指南與 2013 年之前發表的指南相比,在數量與質量上都呈上升趨勢,這與循證醫學在我國的快速普及和發展密不可分[80]。指南制訂工作近年來在我國逐漸受到重視,各學術組織紛紛推出指南制訂規范,國內學者對于指南及其方法學的研究不斷深入,一批高質量的國內原創指南的發表也促進了眼科指南的提高。
我國眼科指南質量與我國現階段的社會經濟發展水平相適應。我國的臨床實踐自 20 世紀 80 年代以來,總體來講是一種向國際的應用性學習。由于知識傳播途徑差異,不同層級的醫院接受國際先進知識、理念和對先進技術的掌握存在一定的時間差,因而在應用新技術、新產品、新方案的態度和能力方面也存在差別。另外,不同地區受社會經濟條件制約,對同一疾病可能有不同的應對策略,從而導致我國眼科醫生在指南制訂時,難以形成較為統一的意見,僅能采取專家共識的方式進行,而且對很多問題只能提出原則性意見。此外,我國高質量隨機對照臨床試驗開展不多,縱向預后研究也較少,導致基于我國本土的高質量證據較少,從而在一定程度上導致我國建立以證據為基礎的指南存在一定的困難。另外,我國眼科行業協會及臨床醫生,過多地強調臨床實踐的個性化、差異性,而對遵循指南和規范進行臨床實踐的重要性認識不夠,導致指南制訂過程不夠嚴謹和透明。
本研究存在局限性:① 納入指南僅來源于計算機檢索,可能遺漏一些其他渠道發表,如書本、宣傳手冊等的指南;② 文獻語言限定為中文,可能錯過在英文雜志上發表的中國指南;③ 由于發表雜志篇幅限制,一些指南可能沒有完全報告相關信息,導致指南質量得分降低,結果出現偏倚;④ 雖然 AGREEⅡ工具的有效性和可靠性已經得到證明,但評價中仍不可避免地受到評價人員主觀因素的影響;⑤ AGREE Ⅱ主要評價指南的方法學質量,但方法學質量更多取決于指南制訂人員的報告涵蓋了哪些內容,因此方法學的高質量并不等于證據的高質量和推薦建議的有效性。
綜上所述,中國眼科臨床實踐指南總體質量不高,雖然高于國內指南平均水平,但與國際水平相比還有不小差距,主要體現在參與人員、嚴謹性、應用性和編輯獨立性幾方面。在今后的指南制訂工作中,我們應主動學習并依照國際指南制訂推薦方法,規范流程、嚴格證據選擇、著實增強制訂過程的透明度和獨立性、注重指南的時效性和定期更新機制,還應加強基于我國臨床問題和臨床實踐的相關研究,為未來我國制訂眼科循證指南提供基礎。