引用本文: 段玉婷, 陳澤, 陳耀龍, 張宇, 陳玨璇, 王倩玫, 唐純志, 陸麗明. 針刺臨床實踐指南的質量評價. 中國循證醫學雜志, 2019, 19(8): 983-988. doi: 10.7507/1672-2531.201812138 復制
針灸作為傳統醫學中重要的干預手段,以其簡、便、驗等優勢被世界眾多國家廣泛使用。據世界衛生組織統計,截止 2013 年有 103 個世衛成員國承認針灸的使用。2013 年由世界針灸聯合會開展的調查顯示,202 個國家中有 183 個國家正在實現針灸的合法化,聯合國 192 個成員國中已有 178 國家出現針灸的身影,59 個國家將針灸療法納入本國醫保范圍,針灸在國際上發展迅速[1]。
臨床實踐指南是一種基于試驗研究、文獻匯總、以循證醫學證據分級為基礎、以關鍵問題探討形式呈現并提供清晰、嚴謹和系統性意見建議的規范性指導文件[2-4]。目前各國在指南的方法學和報告質量方面執行的標準也不盡相同,這些情況導致臨床實踐指南在實際運用時可能會面臨“推薦意見不清晰”、“證據支持不足”、“外推性較低”等問題。
作為全球發展最快的療法之一,截止 2014 年,全球針刺相關的系統評價和 Meta 分析文章數目已達 3 993 篇[5]。指南的制訂以系統評價為基石,在如此龐大的證據量基礎之上,針刺臨床實踐指南的數目毋庸置疑會呈現井噴式增長,因此有必要在針刺臨床實踐指南發展的“快速期”到來之前對其進行規范。
本研究對已發表的針刺臨床實踐指南進行方法學和報告質量評價,對比國內外針刺指南的優缺點,并提出相關意見和建議,旨在為今后研發針刺臨床實踐指南提供參考。
1 資料與方法
1.1 納入與排除標準
納入標準:國內外公開發表的針刺相關臨床指南,指南中需將針刺作為主要干預手段。排除標準:① 如指南有新舊兩個版本,則排除舊版;② 非中英文發表的指南全文;③ 指南的翻譯、摘譯或解釋版本。
1.2 文獻檢索策略
計算機檢索 GIN、NICE、AHRQ、PubMed、EMbase、AMED、CINAHL、WanFang Data、CNKI、VIP 和 CBM 數據庫,搜集國內外針刺臨床實踐指南,檢索時限均為建庫至 2018 年 9 月。同時補充檢索谷歌學術、醫脈通數據庫,以補充獲取相關指南。檢索采取主題詞和自由詞相結合的方式,中文檢索詞包括:針刺、針刺療法、指南、規范、共識等;英文檢索詞包括:practice guidelines as topic、practice guideline、guideline*、guidance*、recommendation*、acupuncture、acupuncture therapy 等。以 PubMed 為例,其具體檢索策略見框 1。

1.3 文獻篩選和數據提取
2 名研究者(段玉婷、陳澤)通過文獻管理軟件 Note Express 3.2.0.7 版獨立篩選文獻并提取數據,如遇分歧雙方或加入第三方(唐純志)討論予以解決。
1.4 質量評價
指南方法學評價工具 AGREE Ⅱ[6]分為 6 個領域,即“范圍和目的”、“參與人員”、“制訂嚴謹性”、“表達明晰性”、“應用性”、“編輯獨立性”,包括 23 個條目。采用給分制,最低分“1 分”代表強烈不贊成、完全不符合標準或未提及,最高分“7 分”代表強烈贊成、完全符合標準。每篇指南在各領域最終得分以百分比呈現,其計算公式為:各領域得分率=(實際分?最低分)/(最高分?最低分)×100%。
AGREE Ⅱ原版以英文撰寫,最后一次更新于 2016 年,中文翻譯版本最后一次更新于 2014 年,對比中英兩版后發現兩者在條目正文和解釋上有一定出入,研究小組最終決定依據英文版進行指南評估。為保證評價一致性,由 2 名評價人員(陳玨璇、王倩玫)在正式評價之前進行 2 輪預試驗,預評價周期 15 天。預評價結果顯示第一輪 Kappa 值(K=0.52)較低,表明 2 名評價員對條目認知差異較大,分歧交由第三方專家(陸麗明)判斷;第二輪 Kappa 值(K=0.82)為優良,表明不同研究者判斷的一致性良好,可以進行正式評價。
RIGHT[7]清單共包含 7 個領域、22 個主題、35 個條目。7 個領域分別為“基本信息”、“背景”、“證據”、“推薦意見”、“評審與質量保障”、“基金資助和利益沖突聲明與管理”及“其他信息”。本次研究根據針刺臨床實踐指南的特殊性在原 35 個條目基礎上分別就“指南制訂小組”和“形成推薦意見的原理和解釋”兩個主題上增加兩個條目,變為 37 個條目,條目的增設已取得 RIGHT 工作組同意。本研究設定每個條目評價結果分別為:“報告”、“未報告”和“不適用”。RIGHT 評價清單于 2017 年正式出臺,創作團隊為國內研究人員。2 輪預試驗顯示 Kappa 值分別為 0.63 和 0.79,表明兩名評價人員(段玉婷、陳澤)的一致性符合試驗要求,可以進行正式評價。對存在的分歧,由第三方專家負責處理(陳耀龍)。
1.5 統計分析
運用 IBM SPSS Statistics 25 軟件計算 Kappa 值,驗證評價人員運用評價工具時的一致性;運用 Excel 計算納入指南在 AGREE Ⅱ工具各領域得分、各領域得分的均值和標準差、RIGHT 評價“報告”、“未報告”及“不適用”各部分數量并計算其比例。
2 結果
2.1 文獻篩選流程及結果
初檢共獲得相關文獻 48 篇,經逐層篩選,最終納入 23 篇指南[2, 8-27]。文獻篩選流程及結果見圖 1。中國針灸學會在 2015 年發布了系列指南[8-27],共 20 個指南,其制定的方法和報告格式采用統一模式,故我們將其歸為一個指南系列。其后的方法學和質量評價,我們隨機選取該系列指南中的 3 篇[8, 9, 22],與國外發表的指南評價結果進行比較。

2.2 納入指南的基本特征
見表 1。

2.3 納入指南的 AGREE Ⅱ評價結果
納入指南的 AGREE Ⅱ評價顯示:“范圍和目的”為 62.18%、“參與人員”為 47.72%、“制訂嚴謹性”為 59.00%、“表達的清晰性”為 62.20%、“應用”為 1.25%、“編輯的獨立性”為 29.98%。總體評價得分最高項是“范圍和目的”和“表達的清晰性”,最低得分項是“應用”;國內指南在“范圍和目的”(72.2%)、“參與人員”(72.2%)、“制訂的嚴謹性”(90.4%)和“表達的清晰性”(72.2%)等方面得分均大于 50% 且超過國外指南的平均水平,但在“編輯獨立性”方面完全未提及(0%)。見表 2。

國內指南在“范圍和目的”、“參與人員”、“制訂嚴謹性”、“應用”、“表達清晰性”得分較國外指南高,僅“編輯獨立性”一項較低,總體推薦意見較國外指南強。相比而言,國內指南在方法學上更為完善。
2.4 納入指南的 RIGHT 評價結果
納入的 3 部國外指南報告項目占 52.38%、未報告占 38.09%、部分報告(不適用)占 6.66%;國內指南報告項目占 45.71%、未報告占 40%、部分報告(不適用)占 14.28%。仍以 6 部指南舉例說明,指南條目充分比例大于 50% 的條目共 16 條,分別為標題/副標題(1a~1c)、通信作者、簡要描述衛生問題、目標人群(7a~7b)、評價證據質量、推薦意見(13b~13c)、形成推薦意見的原理和解釋說明(14b)、質量保證。未報告比例大于 50% 的條目共 8 條,其中“術語/縮略語”條目未報告比例為 100%。“基本信息”、“背景”、“證據”、“推薦意見”4 大領域信息報告相對完整均大于 50%。基本信息方面,國外指南普遍沒有在標題中給出指南適用年份,沒有給出相關專業詞匯縮寫的解釋。背景方面,指南普遍沒有給出“亞組人群”、“指南適用的機構”、“參與者”、“貢獻者”名單。國外針刺指南的納入標準匯報、證據呈現相對國內較高。國外針刺指南“推薦意見”部分普遍較為完整,推薦觀點呈現都較為有序,推薦意見表和專家意見形成過程也普遍記述完整。評審方面,普遍有記錄指南形成時的獨立評審,但對指南的質量控制程序一般描述不足。6 部指南普遍缺乏資金來源及作用、利益沖突聲明和管理的描述。雖然對指南可及性基本有描述,但缺乏指南改進意見及自身不足(表 3)。

報告質量評價方面,國外指南報告條目占比為 50.45%,國內報告條目占比 43.2%;未報告條目占比分別為 35.1% 和 40.5%。均報告質量方面國外指南較國內更為規范。
3 討論
納入的針灸指南的發表時間主要集中在 2015~2017 年,僅 1 篇發表于 2006 年,而 AGREE Ⅱ評價工具的前身 AGREE 在 2003 年正式誕生,最新的 AGREE Ⅱ 2013 年更新,推測納入指南借鑒了 AGREE Ⅱ評價條目的相關意見,所以不論國外還是國內針刺指南在 AGREE Ⅱ評價得分普遍較高[28, 29]。國內外指南 AGREE Ⅱ評價都在“應用”領域得分最低(<5%),可能是針刺治療的簡易性、快捷性從而使指南制訂者忽視了在實際運用時的弊端和缺點。
2017 年,指南報告質量評價 RIGHT 工具正式出版,國內外指南參考相對滯后,國內外得分都相對較低。國外針刺的使用一般作為對某種疾病、某一特定方面的治療,病種范圍小、操作單一,其指導性相對不易變更,可能是其未提及亞組人群的原因。針刺相關的專屬詞匯較少,大多沒有特定的專業名詞,因而沒有給出相關的詞匯縮寫。針灸在國外主要使用者是私人診所或個體從業者,較少涉及其他醫療體。
本研究結果突出反映了當前針刺指南應用性差的問題。同時,推薦意見優劣闡述不清晰、配套工具、潛在資源、監控審計標準的缺失可能是導致該領域得分低的直接原因。指南制訂耗費大量的人力、物力,低應用度是對醫療資源的一種浪費,因此在后續針刺指南制訂完成后應該著重研究指南的實施和應用。建議如下:① 結合針刺指南的適用范圍,對“針刺”這一治療手段在實施過程中的優劣勢闡述清楚;② 提供可視化的推薦實施參照,如針刺過程中患者的疼痛分級表、穴位簡易定位法等[30];③ 根據針刺這一治療手段闡述所能運用的地區資源,并對所能產生的實際經濟效益加以詳細論述;④ 提供明確量效證據支持。通過以上幾點措施更能完整、詳細地反映針刺的有效性、便捷性、實惠性,提高廣大臨床醫生對針刺的關注和運用。
在相關方法學評價工具出現之前,指南的制訂沒有統一規范導致水平參差不齊,難以很好服務于臨床實踐,加之針刺的特異性[28],使得在這一問題上尤為突出。本研究顯示國內外針刺臨床實踐指南的方法學及報告質量均欠佳,建議今后制訂針刺指南應考慮以下幾個方面:① 指南制訂者在制訂之前應掌握 AGREE Ⅱ和 RIGHT 評價工具,使指南更符合國際要求;② 指南制訂小組成員必須有方法學家的參與,為指南方法學和報告質量提供支持;③ 應重視國際合作,盡量邀請多國針刺學家參與指南的制訂,以充分考慮指南的適用性;④ 由于針刺干預的特殊性及其實踐的廣泛性,因此在原有方法學和報告質量評價工具的基礎上,制訂適用于針刺領域的特定評價工具,是必不可少的一項研究工作,也將會是未來針刺領域研究的重要趨勢。
本研究存在一定局限性,如中文指南評價僅選取了其中 3 部指南,雖然 20 部中文指南均由中國針灸學會與中國中醫科學院編撰而成,且方法學和報告標準基本一致,但也可能由于僅選取 3 部而造成評價結果的偏倚。
綜上所述,國內外針刺臨床實踐指南的方法學及報告質量均較低,亟需進一步提高指南方法學水平及報告規范,并研發針對針刺領域指南的評價工具。
針灸作為傳統醫學中重要的干預手段,以其簡、便、驗等優勢被世界眾多國家廣泛使用。據世界衛生組織統計,截止 2013 年有 103 個世衛成員國承認針灸的使用。2013 年由世界針灸聯合會開展的調查顯示,202 個國家中有 183 個國家正在實現針灸的合法化,聯合國 192 個成員國中已有 178 國家出現針灸的身影,59 個國家將針灸療法納入本國醫保范圍,針灸在國際上發展迅速[1]。
臨床實踐指南是一種基于試驗研究、文獻匯總、以循證醫學證據分級為基礎、以關鍵問題探討形式呈現并提供清晰、嚴謹和系統性意見建議的規范性指導文件[2-4]。目前各國在指南的方法學和報告質量方面執行的標準也不盡相同,這些情況導致臨床實踐指南在實際運用時可能會面臨“推薦意見不清晰”、“證據支持不足”、“外推性較低”等問題。
作為全球發展最快的療法之一,截止 2014 年,全球針刺相關的系統評價和 Meta 分析文章數目已達 3 993 篇[5]。指南的制訂以系統評價為基石,在如此龐大的證據量基礎之上,針刺臨床實踐指南的數目毋庸置疑會呈現井噴式增長,因此有必要在針刺臨床實踐指南發展的“快速期”到來之前對其進行規范。
本研究對已發表的針刺臨床實踐指南進行方法學和報告質量評價,對比國內外針刺指南的優缺點,并提出相關意見和建議,旨在為今后研發針刺臨床實踐指南提供參考。
1 資料與方法
1.1 納入與排除標準
納入標準:國內外公開發表的針刺相關臨床指南,指南中需將針刺作為主要干預手段。排除標準:① 如指南有新舊兩個版本,則排除舊版;② 非中英文發表的指南全文;③ 指南的翻譯、摘譯或解釋版本。
1.2 文獻檢索策略
計算機檢索 GIN、NICE、AHRQ、PubMed、EMbase、AMED、CINAHL、WanFang Data、CNKI、VIP 和 CBM 數據庫,搜集國內外針刺臨床實踐指南,檢索時限均為建庫至 2018 年 9 月。同時補充檢索谷歌學術、醫脈通數據庫,以補充獲取相關指南。檢索采取主題詞和自由詞相結合的方式,中文檢索詞包括:針刺、針刺療法、指南、規范、共識等;英文檢索詞包括:practice guidelines as topic、practice guideline、guideline*、guidance*、recommendation*、acupuncture、acupuncture therapy 等。以 PubMed 為例,其具體檢索策略見框 1。

1.3 文獻篩選和數據提取
2 名研究者(段玉婷、陳澤)通過文獻管理軟件 Note Express 3.2.0.7 版獨立篩選文獻并提取數據,如遇分歧雙方或加入第三方(唐純志)討論予以解決。
1.4 質量評價
指南方法學評價工具 AGREE Ⅱ[6]分為 6 個領域,即“范圍和目的”、“參與人員”、“制訂嚴謹性”、“表達明晰性”、“應用性”、“編輯獨立性”,包括 23 個條目。采用給分制,最低分“1 分”代表強烈不贊成、完全不符合標準或未提及,最高分“7 分”代表強烈贊成、完全符合標準。每篇指南在各領域最終得分以百分比呈現,其計算公式為:各領域得分率=(實際分?最低分)/(最高分?最低分)×100%。
AGREE Ⅱ原版以英文撰寫,最后一次更新于 2016 年,中文翻譯版本最后一次更新于 2014 年,對比中英兩版后發現兩者在條目正文和解釋上有一定出入,研究小組最終決定依據英文版進行指南評估。為保證評價一致性,由 2 名評價人員(陳玨璇、王倩玫)在正式評價之前進行 2 輪預試驗,預評價周期 15 天。預評價結果顯示第一輪 Kappa 值(K=0.52)較低,表明 2 名評價員對條目認知差異較大,分歧交由第三方專家(陸麗明)判斷;第二輪 Kappa 值(K=0.82)為優良,表明不同研究者判斷的一致性良好,可以進行正式評價。
RIGHT[7]清單共包含 7 個領域、22 個主題、35 個條目。7 個領域分別為“基本信息”、“背景”、“證據”、“推薦意見”、“評審與質量保障”、“基金資助和利益沖突聲明與管理”及“其他信息”。本次研究根據針刺臨床實踐指南的特殊性在原 35 個條目基礎上分別就“指南制訂小組”和“形成推薦意見的原理和解釋”兩個主題上增加兩個條目,變為 37 個條目,條目的增設已取得 RIGHT 工作組同意。本研究設定每個條目評價結果分別為:“報告”、“未報告”和“不適用”。RIGHT 評價清單于 2017 年正式出臺,創作團隊為國內研究人員。2 輪預試驗顯示 Kappa 值分別為 0.63 和 0.79,表明兩名評價人員(段玉婷、陳澤)的一致性符合試驗要求,可以進行正式評價。對存在的分歧,由第三方專家負責處理(陳耀龍)。
1.5 統計分析
運用 IBM SPSS Statistics 25 軟件計算 Kappa 值,驗證評價人員運用評價工具時的一致性;運用 Excel 計算納入指南在 AGREE Ⅱ工具各領域得分、各領域得分的均值和標準差、RIGHT 評價“報告”、“未報告”及“不適用”各部分數量并計算其比例。
2 結果
2.1 文獻篩選流程及結果
初檢共獲得相關文獻 48 篇,經逐層篩選,最終納入 23 篇指南[2, 8-27]。文獻篩選流程及結果見圖 1。中國針灸學會在 2015 年發布了系列指南[8-27],共 20 個指南,其制定的方法和報告格式采用統一模式,故我們將其歸為一個指南系列。其后的方法學和質量評價,我們隨機選取該系列指南中的 3 篇[8, 9, 22],與國外發表的指南評價結果進行比較。

2.2 納入指南的基本特征
見表 1。

2.3 納入指南的 AGREE Ⅱ評價結果
納入指南的 AGREE Ⅱ評價顯示:“范圍和目的”為 62.18%、“參與人員”為 47.72%、“制訂嚴謹性”為 59.00%、“表達的清晰性”為 62.20%、“應用”為 1.25%、“編輯的獨立性”為 29.98%。總體評價得分最高項是“范圍和目的”和“表達的清晰性”,最低得分項是“應用”;國內指南在“范圍和目的”(72.2%)、“參與人員”(72.2%)、“制訂的嚴謹性”(90.4%)和“表達的清晰性”(72.2%)等方面得分均大于 50% 且超過國外指南的平均水平,但在“編輯獨立性”方面完全未提及(0%)。見表 2。

國內指南在“范圍和目的”、“參與人員”、“制訂嚴謹性”、“應用”、“表達清晰性”得分較國外指南高,僅“編輯獨立性”一項較低,總體推薦意見較國外指南強。相比而言,國內指南在方法學上更為完善。
2.4 納入指南的 RIGHT 評價結果
納入的 3 部國外指南報告項目占 52.38%、未報告占 38.09%、部分報告(不適用)占 6.66%;國內指南報告項目占 45.71%、未報告占 40%、部分報告(不適用)占 14.28%。仍以 6 部指南舉例說明,指南條目充分比例大于 50% 的條目共 16 條,分別為標題/副標題(1a~1c)、通信作者、簡要描述衛生問題、目標人群(7a~7b)、評價證據質量、推薦意見(13b~13c)、形成推薦意見的原理和解釋說明(14b)、質量保證。未報告比例大于 50% 的條目共 8 條,其中“術語/縮略語”條目未報告比例為 100%。“基本信息”、“背景”、“證據”、“推薦意見”4 大領域信息報告相對完整均大于 50%。基本信息方面,國外指南普遍沒有在標題中給出指南適用年份,沒有給出相關專業詞匯縮寫的解釋。背景方面,指南普遍沒有給出“亞組人群”、“指南適用的機構”、“參與者”、“貢獻者”名單。國外針刺指南的納入標準匯報、證據呈現相對國內較高。國外針刺指南“推薦意見”部分普遍較為完整,推薦觀點呈現都較為有序,推薦意見表和專家意見形成過程也普遍記述完整。評審方面,普遍有記錄指南形成時的獨立評審,但對指南的質量控制程序一般描述不足。6 部指南普遍缺乏資金來源及作用、利益沖突聲明和管理的描述。雖然對指南可及性基本有描述,但缺乏指南改進意見及自身不足(表 3)。

報告質量評價方面,國外指南報告條目占比為 50.45%,國內報告條目占比 43.2%;未報告條目占比分別為 35.1% 和 40.5%。均報告質量方面國外指南較國內更為規范。
3 討論
納入的針灸指南的發表時間主要集中在 2015~2017 年,僅 1 篇發表于 2006 年,而 AGREE Ⅱ評價工具的前身 AGREE 在 2003 年正式誕生,最新的 AGREE Ⅱ 2013 年更新,推測納入指南借鑒了 AGREE Ⅱ評價條目的相關意見,所以不論國外還是國內針刺指南在 AGREE Ⅱ評價得分普遍較高[28, 29]。國內外指南 AGREE Ⅱ評價都在“應用”領域得分最低(<5%),可能是針刺治療的簡易性、快捷性從而使指南制訂者忽視了在實際運用時的弊端和缺點。
2017 年,指南報告質量評價 RIGHT 工具正式出版,國內外指南參考相對滯后,國內外得分都相對較低。國外針刺的使用一般作為對某種疾病、某一特定方面的治療,病種范圍小、操作單一,其指導性相對不易變更,可能是其未提及亞組人群的原因。針刺相關的專屬詞匯較少,大多沒有特定的專業名詞,因而沒有給出相關的詞匯縮寫。針灸在國外主要使用者是私人診所或個體從業者,較少涉及其他醫療體。
本研究結果突出反映了當前針刺指南應用性差的問題。同時,推薦意見優劣闡述不清晰、配套工具、潛在資源、監控審計標準的缺失可能是導致該領域得分低的直接原因。指南制訂耗費大量的人力、物力,低應用度是對醫療資源的一種浪費,因此在后續針刺指南制訂完成后應該著重研究指南的實施和應用。建議如下:① 結合針刺指南的適用范圍,對“針刺”這一治療手段在實施過程中的優劣勢闡述清楚;② 提供可視化的推薦實施參照,如針刺過程中患者的疼痛分級表、穴位簡易定位法等[30];③ 根據針刺這一治療手段闡述所能運用的地區資源,并對所能產生的實際經濟效益加以詳細論述;④ 提供明確量效證據支持。通過以上幾點措施更能完整、詳細地反映針刺的有效性、便捷性、實惠性,提高廣大臨床醫生對針刺的關注和運用。
在相關方法學評價工具出現之前,指南的制訂沒有統一規范導致水平參差不齊,難以很好服務于臨床實踐,加之針刺的特異性[28],使得在這一問題上尤為突出。本研究顯示國內外針刺臨床實踐指南的方法學及報告質量均欠佳,建議今后制訂針刺指南應考慮以下幾個方面:① 指南制訂者在制訂之前應掌握 AGREE Ⅱ和 RIGHT 評價工具,使指南更符合國際要求;② 指南制訂小組成員必須有方法學家的參與,為指南方法學和報告質量提供支持;③ 應重視國際合作,盡量邀請多國針刺學家參與指南的制訂,以充分考慮指南的適用性;④ 由于針刺干預的特殊性及其實踐的廣泛性,因此在原有方法學和報告質量評價工具的基礎上,制訂適用于針刺領域的特定評價工具,是必不可少的一項研究工作,也將會是未來針刺領域研究的重要趨勢。
本研究存在一定局限性,如中文指南評價僅選取了其中 3 部指南,雖然 20 部中文指南均由中國針灸學會與中國中醫科學院編撰而成,且方法學和報告標準基本一致,但也可能由于僅選取 3 部而造成評價結果的偏倚。
綜上所述,國內外針刺臨床實踐指南的方法學及報告質量均較低,亟需進一步提高指南方法學水平及報告規范,并研發針對針刺領域指南的評價工具。