引用本文: 徐信, 陳邦, 左瑞東, 陳博. 中國胃癌臨床實踐指南的質量評價. 中國循證醫學雜志, 2018, 18(8): 865-870. doi: 10.7507/1672-2531.201802021 復制
胃癌是嚴重威脅人類生命的一種疾病。我國癌癥患者中,女性和男性胃癌的發病率分列第二、第三位,其死亡率也高居第二位[1]。為了規范胃癌診療行為,提高醫療服務水平,我國先后制訂了多部針對胃癌診療方面的臨床實踐指南(clinical practice guidelines,CPGs)。美國醫學科學院對 CPGs 的最新定義為:在系統評價證據和權衡不同干預措施利弊的基礎之上所形成的、能夠為患者提供最佳保健服務的推薦指導意見[2]。但是如果指南本身質量不高,則會對醫生形成不嚴謹甚至錯誤的導向,進而有可能給患者帶來嚴重的后果。因此對指南進行系統性的評價顯得格外重要。臨床指南研究與評價工具(appraisal of guidelines research and evaluation,AGREE)是由 13 個國家的研究者于 2003 年制訂的,后經反復更新后形成 AGREE Ⅱ[3],是目前國際上公認的指南質量評價工具。本文采用 AGREE Ⅱ工具評價我國現有的胃癌 CPGs 質量并對指南現狀加以分析,希望為以后相關指南制訂的規范性和嚴謹性提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 符合指南定義并已公開發表,包括臨床指南、診療規范和專家共識;② 由我國醫學專業組織團體或政府機構主持并制訂發布;③ 指南若有更新版,則將原版與更新版同時納入評價。
1.1.2 排除標準
① 對國外指南的翻譯或改編;② 對指南或共識的解讀;③ 預防、診斷等不含治療性質的指南或共識;④ 指南摘要或目錄指南;⑤ 中醫診療指南或共識。
1.2 文獻檢索策略
計算機檢索 CNKI、WanFang Data、CBM 和 VIP 數據庫,搜集我國已發布的胃癌 CPGs,檢索時限均從建庫至 2018 年 1 月 31 日。檢索詞包括:胃癌、胃惡性腫瘤、指南、規范、共識。以 CNKI 為例,其具體檢索策略見框 1。

1.3 文獻篩選與資料提取
由 4 位評價員按照事先制訂的納入與排除標準,獨立篩選文獻、提取資料,并交叉核對,如遇分歧,討論解決。指資料提取內容主要包括:名稱、制訂機構、發表年份、指南性質、參考文獻數目以及 AGREE Ⅱ評價的關鍵要素。
1.4 文獻的質量評價
正式評價前對 4 位評價員進行 AGREEⅡ條目的系統培訓,確保對每個條目的理解基本一致。評價員根據 AGREE Ⅱ對納入的指南進行質量評價。AGREE Ⅱ包括 6 個領域 23 個條目[4],分別為:① 范圍和目的(3 個條目);② 參與人員(3 個條目);③ 制訂的嚴謹性(8 個條目);④ 清晰性(3 個條目);⑤ 應用性(4 個條目);⑥ 編輯的獨立性(2 個條目)。每個條目的分值標準從 1 分(非常不符合)到 7 分(非常符合)。每個領域根據評分公式計算得分率,公式為:(實際得分–最低可能得分)/(最高可能得分–最低可能得分)×100%。最后根據各領域得分及評價員判斷,將指南的推薦級別分為 3 級,即 A 級(推薦):6 個領域得分均≥60%,可不更改直接推薦;B 級(不同程度修改完善后推薦):得分≥30% 的領域數≥3 個,但存在得分<60% 的領域,需不同程度修改完善;C 級(不推薦):得分<30% 的領域數≥3 個,其指南意見由于指南制訂方法較差或證據質量差暫時不推薦[5]。
1.5 統計分析
AGREE Ⅱ各領域最終得分運用 Excel 2016 軟件進行整理并用平均數表示。運用 SPSS 17.0 軟件對 4 位評價員的評分結果進行組內相關系數(intraclass correlation coefficient,ICC)一致性檢驗。ICC 值<0.4 時,說明評價員間一致性差;0.4~0.75 時,說明一致性一般;≥0.75 時,說明一致性好[6]。
2 結果
2.1 文獻篩選流程及結果
初檢共獲得相關文獻 2 361 篇,經逐層篩選,最終納入 12 篇[7-18]胃癌 CPGs,包括 4 個指南[7-10],8 個專家共識[11-18]。其中 10 篇[7-9, 12-18]為首版,2 篇[10, 11]為更新版,平均更新時間為 6 年。只有 2017 年發布的《胃癌腹膜轉移防治中國專家共識》[18]為循證指南。文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:CBM(
2.2 納入指南的基本特征
見表 1。

2.3 AGREEⅡ評價的一致性結果
一致性檢驗結果提示 4 位評價員之間的評價一致性好[ICC=0.929,95%CI(0.916,0.942),P<0.001]。
2.4 AGREEⅡ評分結果
所有指南 AGREE Ⅱ的 6 個領域平均得分率從高到低依次為:范圍和目的(83.3%)、清晰性(80.2%)、參與人員(42.2%)、應用性(37.3%)、制訂的嚴謹性(16.3%)、編輯的獨立性(0%)。其中范圍和目的以及清晰性的得分均>80%,而制訂的嚴謹性和編輯的獨立性得分則均<30%。在 12 篇指南中《胃癌腹膜轉移防治中國專家共識》[18]的綜合得分最高。有 3 篇指南[7-9]得分<30% 的領域數≥3 個,推薦等級為 C;其余 9 篇[10-18]指南推薦等級均為 B。所有納入指南 AGREEⅡ各領域具體評分見表 2。
另外,通過比較循證指南與非循證指南各領域平均得分率情況發現,除編輯的獨立性領域外,循證指南在其他所有領域的平均得分率均高于非循證指南,尤其是在制訂的嚴謹性領域(圖 2)。與原版指南的得分相比,更新后的 2 篇指南[10, 11]平均得分也有所提高。
2.4.1 范圍和目的
本領域要求詳細描述指南的總目的、指南所涵蓋的衛生問題以及指南應用的目標人群。該領域平均得分最高,納入的所有指南均能明確描述上述內容。
2.4.2 參與人員
本領域包括指南制訂小組所有相關專業人員組成、目標人群觀點和選擇的收集以及明確指南的使用者。該領域平均得分率為 42.2%,制訂時間較早的 3 部指南[7-9]缺少對制訂小組成員組成的描述,而其余指南制訂小組成員中均無統計學、方法學及其他相關專業人員參與。此外,所有指南均未考慮或收集目標人群的觀點和選擇。
2.4.3 制訂的嚴謹性
本領域包含的條目最多,也是決定指南質量高低的關鍵領域,包括證據檢索策略、證據篩選標準、證據主體描述、形成推薦意見的方法、推薦意見的利弊權衡、推薦意見與證據的聯系、指南外審及提供指南更新過程。該領域平均得分僅為 16.3%。僅有《胃癌腹膜轉移防治中國專家共識》[18]描述了運用國際上公認的證據推薦分級系統(The Grading of Recommendations Assessment, Development and Evaluation,GRADE)對證據質量和推薦強度進行分級,專家組采用德爾菲法形成最終推薦意見。然而,所有指南在發表之前均未經過專家外審,也未對指南更新過程做出描述。
2.4.4 清晰性
本領域包括推薦意見明確不含糊、明確列明臨床問題的不同選擇以及主要推薦意見清晰易辨。該領域平均得分較高,納入的所有指南均能較明確地描述推薦意見,同時列出針對某一問題的不同選擇,使用圖表、流程圖、加黑字體等方法突出主要推薦意見。
2.4.5 應用性
本領域平均得分相對較低,包括指南應用的促進和阻礙因素、指南實踐的附加材料、潛在的資源投入以及監控審查標準。納入的大部分指南均提供了圖表總結、診療流程圖、快速參考指南等,并提供了主要推薦意見的監控標準,從而有利于指南的應用和推廣。但是在指南應用的促進和阻礙因素以及潛在的資源投入方面則少有或未加以描述。
2.4.6 編輯的獨立性
本領域包括贊助單位觀點不影響指南內容以及制訂小組成員的利益沖突。納入的所有指南在該領域得分全部為 0,均未描述有無贊助單位以及小組成員的利益沖突。


Ⅰ:范圍和目的;Ⅱ:參與人員;Ⅲ:制定的嚴謹性;Ⅳ:清晰性;Ⅴ:應用性;Ⅵ:編輯的獨立性
3 討論
隨著醫學的不斷發展,我國制訂的臨床指南數量逐年增長,但其質量卻參差不齊。本文納入的 12 篇指南總體質量不高,沒有 1 篇指南推薦等級為 A 級,其中 9 篇[10-18]為 B 級,還有 3 篇[7-9]為 C 級。在 AGREEⅡ的 6 個領域中,制訂的嚴謹性和編輯的獨立性平均得分率最低。這 12 篇指南在檢索策略、檢索證據的納入和排除標準、有無贊助單位以及制訂小組成員的利益沖突方面全無描述,也均未考慮或收集目標人群的觀點和選擇,同時在發表之前均未經外部專家評審。另外,我國指南的制訂小組成員中往往只包括臨床專家,缺少統計學專家、方法學專家、其他相關專業人員及患者的參加。
在納入的所有指南中,《HER2 陽性晚期胃癌分子靶向治療的中國專家共識(2016 版)》[11]和《腹腔鏡胃癌手術操作指南(2016 版)》[10]屬于更新指南,更新時間分別為 3 年和 9 年。Shekelle 等[19]指出當原有干預措施利弊平衡發生改變、出現新干預措施、結局指標改變或醫療資源發生改變時,為保證指南的高質量應及時進行更新修訂。同時有研究表明指南的更新時間不應超過 3 年[20],然而目前我國只有約 10% 的指南進行了更新修訂,而且平均更新時間為 5.1 年[21]。同時,這 12 篇指南在今后是否會進行更新、更新過程與方法上均鮮有描述。
另外一個需要特別注意的是,在所有指南中只有 1 篇是循證指南,即《胃癌腹膜轉移防治中國專家共識》[18],同時這篇也是得分最高的指南。循證指南將推薦意見與證據質量結合起來,通過證據質量評價結果來確定推薦意見,被譽為是證據與臨床實踐之間的紐帶[22]。因此,循證指南的質量往往要明顯高于非循證指南。當前我國在 CPGs 制訂的方法學上與國際仍存在較大差距,這直接體現在制訂的嚴謹性領域的得分明顯偏低,所制訂的指南也大多是非循證指南,指南的推薦意見大部分是依靠制訂小組的專家經驗達成共識,缺少循證證據的支持。然而,制訂的嚴謹性正是決定指南質量高低的關鍵領域。因此,我們只有正視在指南制訂過程中嚴謹性方面的不足并加以改正才能制訂出高質量和服務于臨床的實踐指南。
本文的局限性:① 僅納入胃癌診療方面的臨床指南,而中醫指南及預防、診斷等不含治療性質的指南或共識均被排除,可能存在選擇偏倚;② 納入的指南可能受到版面篇幅及政策發布格式的限制而不能將指南制訂的全部內容展現出來,可能影響 AGREE Ⅱ對指南的評價結果;③ AGREE Ⅱ側重于對指南制訂的方法學進行評價,但是不能對指南推薦意見的科學性和有效性進行評價;④ 評價員可能對 AGREE Ⅱ的某些條目理解不夠透徹,從而影響了指南的最終評價結果。
綜上所述,為了今后我國能夠科學、規范地制訂出更多高質量的胃癌 CPGs,我們建議:① 注重以循證醫學為基礎的 CPGs 制訂方法,提前制訂出詳細的檢索策略及證據的納入和排除標準;② 制訂小組成員中應有統計學、方法學及其他相關專業的專家參與,由專業人員進行相關證據的全面檢索搜集;③ 注意收集并考慮目標人群的觀點和選擇;④ 運用 GRADE 系統將最終的推薦意見與證據的質量緊密聯系起來;⑤ 制訂的指南需通過外部專家的評審后才能予以公開發布;⑥ 指南中應明確描述贊助單位及制訂小組成員的利益沖突;⑦ 成立專門的指南更新小組,定期監測評估證據的變化并及時對指南做出更新修訂,提高指南質量。
胃癌是嚴重威脅人類生命的一種疾病。我國癌癥患者中,女性和男性胃癌的發病率分列第二、第三位,其死亡率也高居第二位[1]。為了規范胃癌診療行為,提高醫療服務水平,我國先后制訂了多部針對胃癌診療方面的臨床實踐指南(clinical practice guidelines,CPGs)。美國醫學科學院對 CPGs 的最新定義為:在系統評價證據和權衡不同干預措施利弊的基礎之上所形成的、能夠為患者提供最佳保健服務的推薦指導意見[2]。但是如果指南本身質量不高,則會對醫生形成不嚴謹甚至錯誤的導向,進而有可能給患者帶來嚴重的后果。因此對指南進行系統性的評價顯得格外重要。臨床指南研究與評價工具(appraisal of guidelines research and evaluation,AGREE)是由 13 個國家的研究者于 2003 年制訂的,后經反復更新后形成 AGREE Ⅱ[3],是目前國際上公認的指南質量評價工具。本文采用 AGREE Ⅱ工具評價我國現有的胃癌 CPGs 質量并對指南現狀加以分析,希望為以后相關指南制訂的規范性和嚴謹性提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 符合指南定義并已公開發表,包括臨床指南、診療規范和專家共識;② 由我國醫學專業組織團體或政府機構主持并制訂發布;③ 指南若有更新版,則將原版與更新版同時納入評價。
1.1.2 排除標準
① 對國外指南的翻譯或改編;② 對指南或共識的解讀;③ 預防、診斷等不含治療性質的指南或共識;④ 指南摘要或目錄指南;⑤ 中醫診療指南或共識。
1.2 文獻檢索策略
計算機檢索 CNKI、WanFang Data、CBM 和 VIP 數據庫,搜集我國已發布的胃癌 CPGs,檢索時限均從建庫至 2018 年 1 月 31 日。檢索詞包括:胃癌、胃惡性腫瘤、指南、規范、共識。以 CNKI 為例,其具體檢索策略見框 1。

1.3 文獻篩選與資料提取
由 4 位評價員按照事先制訂的納入與排除標準,獨立篩選文獻、提取資料,并交叉核對,如遇分歧,討論解決。指資料提取內容主要包括:名稱、制訂機構、發表年份、指南性質、參考文獻數目以及 AGREE Ⅱ評價的關鍵要素。
1.4 文獻的質量評價
正式評價前對 4 位評價員進行 AGREEⅡ條目的系統培訓,確保對每個條目的理解基本一致。評價員根據 AGREE Ⅱ對納入的指南進行質量評價。AGREE Ⅱ包括 6 個領域 23 個條目[4],分別為:① 范圍和目的(3 個條目);② 參與人員(3 個條目);③ 制訂的嚴謹性(8 個條目);④ 清晰性(3 個條目);⑤ 應用性(4 個條目);⑥ 編輯的獨立性(2 個條目)。每個條目的分值標準從 1 分(非常不符合)到 7 分(非常符合)。每個領域根據評分公式計算得分率,公式為:(實際得分–最低可能得分)/(最高可能得分–最低可能得分)×100%。最后根據各領域得分及評價員判斷,將指南的推薦級別分為 3 級,即 A 級(推薦):6 個領域得分均≥60%,可不更改直接推薦;B 級(不同程度修改完善后推薦):得分≥30% 的領域數≥3 個,但存在得分<60% 的領域,需不同程度修改完善;C 級(不推薦):得分<30% 的領域數≥3 個,其指南意見由于指南制訂方法較差或證據質量差暫時不推薦[5]。
1.5 統計分析
AGREE Ⅱ各領域最終得分運用 Excel 2016 軟件進行整理并用平均數表示。運用 SPSS 17.0 軟件對 4 位評價員的評分結果進行組內相關系數(intraclass correlation coefficient,ICC)一致性檢驗。ICC 值<0.4 時,說明評價員間一致性差;0.4~0.75 時,說明一致性一般;≥0.75 時,說明一致性好[6]。
2 結果
2.1 文獻篩選流程及結果
初檢共獲得相關文獻 2 361 篇,經逐層篩選,最終納入 12 篇[7-18]胃癌 CPGs,包括 4 個指南[7-10],8 個專家共識[11-18]。其中 10 篇[7-9, 12-18]為首版,2 篇[10, 11]為更新版,平均更新時間為 6 年。只有 2017 年發布的《胃癌腹膜轉移防治中國專家共識》[18]為循證指南。文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:CBM(
2.2 納入指南的基本特征
見表 1。

2.3 AGREEⅡ評價的一致性結果
一致性檢驗結果提示 4 位評價員之間的評價一致性好[ICC=0.929,95%CI(0.916,0.942),P<0.001]。
2.4 AGREEⅡ評分結果
所有指南 AGREE Ⅱ的 6 個領域平均得分率從高到低依次為:范圍和目的(83.3%)、清晰性(80.2%)、參與人員(42.2%)、應用性(37.3%)、制訂的嚴謹性(16.3%)、編輯的獨立性(0%)。其中范圍和目的以及清晰性的得分均>80%,而制訂的嚴謹性和編輯的獨立性得分則均<30%。在 12 篇指南中《胃癌腹膜轉移防治中國專家共識》[18]的綜合得分最高。有 3 篇指南[7-9]得分<30% 的領域數≥3 個,推薦等級為 C;其余 9 篇[10-18]指南推薦等級均為 B。所有納入指南 AGREEⅡ各領域具體評分見表 2。
另外,通過比較循證指南與非循證指南各領域平均得分率情況發現,除編輯的獨立性領域外,循證指南在其他所有領域的平均得分率均高于非循證指南,尤其是在制訂的嚴謹性領域(圖 2)。與原版指南的得分相比,更新后的 2 篇指南[10, 11]平均得分也有所提高。
2.4.1 范圍和目的
本領域要求詳細描述指南的總目的、指南所涵蓋的衛生問題以及指南應用的目標人群。該領域平均得分最高,納入的所有指南均能明確描述上述內容。
2.4.2 參與人員
本領域包括指南制訂小組所有相關專業人員組成、目標人群觀點和選擇的收集以及明確指南的使用者。該領域平均得分率為 42.2%,制訂時間較早的 3 部指南[7-9]缺少對制訂小組成員組成的描述,而其余指南制訂小組成員中均無統計學、方法學及其他相關專業人員參與。此外,所有指南均未考慮或收集目標人群的觀點和選擇。
2.4.3 制訂的嚴謹性
本領域包含的條目最多,也是決定指南質量高低的關鍵領域,包括證據檢索策略、證據篩選標準、證據主體描述、形成推薦意見的方法、推薦意見的利弊權衡、推薦意見與證據的聯系、指南外審及提供指南更新過程。該領域平均得分僅為 16.3%。僅有《胃癌腹膜轉移防治中國專家共識》[18]描述了運用國際上公認的證據推薦分級系統(The Grading of Recommendations Assessment, Development and Evaluation,GRADE)對證據質量和推薦強度進行分級,專家組采用德爾菲法形成最終推薦意見。然而,所有指南在發表之前均未經過專家外審,也未對指南更新過程做出描述。
2.4.4 清晰性
本領域包括推薦意見明確不含糊、明確列明臨床問題的不同選擇以及主要推薦意見清晰易辨。該領域平均得分較高,納入的所有指南均能較明確地描述推薦意見,同時列出針對某一問題的不同選擇,使用圖表、流程圖、加黑字體等方法突出主要推薦意見。
2.4.5 應用性
本領域平均得分相對較低,包括指南應用的促進和阻礙因素、指南實踐的附加材料、潛在的資源投入以及監控審查標準。納入的大部分指南均提供了圖表總結、診療流程圖、快速參考指南等,并提供了主要推薦意見的監控標準,從而有利于指南的應用和推廣。但是在指南應用的促進和阻礙因素以及潛在的資源投入方面則少有或未加以描述。
2.4.6 編輯的獨立性
本領域包括贊助單位觀點不影響指南內容以及制訂小組成員的利益沖突。納入的所有指南在該領域得分全部為 0,均未描述有無贊助單位以及小組成員的利益沖突。


Ⅰ:范圍和目的;Ⅱ:參與人員;Ⅲ:制定的嚴謹性;Ⅳ:清晰性;Ⅴ:應用性;Ⅵ:編輯的獨立性
3 討論
隨著醫學的不斷發展,我國制訂的臨床指南數量逐年增長,但其質量卻參差不齊。本文納入的 12 篇指南總體質量不高,沒有 1 篇指南推薦等級為 A 級,其中 9 篇[10-18]為 B 級,還有 3 篇[7-9]為 C 級。在 AGREEⅡ的 6 個領域中,制訂的嚴謹性和編輯的獨立性平均得分率最低。這 12 篇指南在檢索策略、檢索證據的納入和排除標準、有無贊助單位以及制訂小組成員的利益沖突方面全無描述,也均未考慮或收集目標人群的觀點和選擇,同時在發表之前均未經外部專家評審。另外,我國指南的制訂小組成員中往往只包括臨床專家,缺少統計學專家、方法學專家、其他相關專業人員及患者的參加。
在納入的所有指南中,《HER2 陽性晚期胃癌分子靶向治療的中國專家共識(2016 版)》[11]和《腹腔鏡胃癌手術操作指南(2016 版)》[10]屬于更新指南,更新時間分別為 3 年和 9 年。Shekelle 等[19]指出當原有干預措施利弊平衡發生改變、出現新干預措施、結局指標改變或醫療資源發生改變時,為保證指南的高質量應及時進行更新修訂。同時有研究表明指南的更新時間不應超過 3 年[20],然而目前我國只有約 10% 的指南進行了更新修訂,而且平均更新時間為 5.1 年[21]。同時,這 12 篇指南在今后是否會進行更新、更新過程與方法上均鮮有描述。
另外一個需要特別注意的是,在所有指南中只有 1 篇是循證指南,即《胃癌腹膜轉移防治中國專家共識》[18],同時這篇也是得分最高的指南。循證指南將推薦意見與證據質量結合起來,通過證據質量評價結果來確定推薦意見,被譽為是證據與臨床實踐之間的紐帶[22]。因此,循證指南的質量往往要明顯高于非循證指南。當前我國在 CPGs 制訂的方法學上與國際仍存在較大差距,這直接體現在制訂的嚴謹性領域的得分明顯偏低,所制訂的指南也大多是非循證指南,指南的推薦意見大部分是依靠制訂小組的專家經驗達成共識,缺少循證證據的支持。然而,制訂的嚴謹性正是決定指南質量高低的關鍵領域。因此,我們只有正視在指南制訂過程中嚴謹性方面的不足并加以改正才能制訂出高質量和服務于臨床的實踐指南。
本文的局限性:① 僅納入胃癌診療方面的臨床指南,而中醫指南及預防、診斷等不含治療性質的指南或共識均被排除,可能存在選擇偏倚;② 納入的指南可能受到版面篇幅及政策發布格式的限制而不能將指南制訂的全部內容展現出來,可能影響 AGREE Ⅱ對指南的評價結果;③ AGREE Ⅱ側重于對指南制訂的方法學進行評價,但是不能對指南推薦意見的科學性和有效性進行評價;④ 評價員可能對 AGREE Ⅱ的某些條目理解不夠透徹,從而影響了指南的最終評價結果。
綜上所述,為了今后我國能夠科學、規范地制訂出更多高質量的胃癌 CPGs,我們建議:① 注重以循證醫學為基礎的 CPGs 制訂方法,提前制訂出詳細的檢索策略及證據的納入和排除標準;② 制訂小組成員中應有統計學、方法學及其他相關專業的專家參與,由專業人員進行相關證據的全面檢索搜集;③ 注意收集并考慮目標人群的觀點和選擇;④ 運用 GRADE 系統將最終的推薦意見與證據的質量緊密聯系起來;⑤ 制訂的指南需通過外部專家的評審后才能予以公開發布;⑥ 指南中應明確描述贊助單位及制訂小組成員的利益沖突;⑦ 成立專門的指南更新小組,定期監測評估證據的變化并及時對指南做出更新修訂,提高指南質量。