引用本文: 盛永成, 李莉, 汪琴, 康德英. 基于AGREE Ⅱ和AGREE-China的中國脆性骨折指南與共識的質量評價. 中國循證醫學雜志, 2022, 22(3): 351-359. doi: 10.7507/1672-2531.202110101 復制
脆性骨折(fragility fracture)亦稱骨質疏松性骨折,是骨質疏松癥的最嚴重后果。全球每年約有1 000萬例脆性骨折發生[1],我國2015年發生例次約為269萬,預計2035年約為483萬[2]。約50%女性和20%男性在50歲后會經歷首次脆性骨折[3-4],初次骨折后有50%患者將會發生再次骨折[5]。其發病率隨年齡上升而上升,研究發現脆性骨折在60歲以上老年人群中急劇增加[6]。絕經后婦女由于雌激素水平顯著降低,骨質流失嚴重而成為脆性骨折高發人群[7-8]。該骨折的好發部位包括胸腰椎段、髖部、橈骨遠端和肱骨近端[5],其中椎體和髖部骨折會嚴重降低老年人群壽命,長期臥床者1年病死率為20%,永久致殘率為25%~35%[9-10]。隨著我國人口老齡化程度加劇,該領域制定和發表的臨床實踐指南(簡稱“指南”)和專家共識(簡稱“共識”)越來越多。但這些指南/共識的質量參差不齊,來自不同的醫學團體機構(包括中華醫學會、中國醫師協會、中國老年醫學會、中國健康促進會等)或專家團體,存在諸多差異性,如制定方法缺乏科學性和規范性,制定版本繁多等問題[11-12],不僅妨礙臨床工作人員的選擇和使用,并嚴重影響其傳播,同時低質量指南/共識還可能對患者造成傷害。因此,對中國脆性骨折指南與共識的質量評價對臨床實踐具有重要意義。
國際上目前有20余種指南的評價工具,其中指南研究與評價工具Ⅱ(appraisal of guidelines for research and evaluation,AGREE Ⅱ)應用最為廣泛[13-14],但部分條目在國內指南/共識中尚不能做到,如審計工具等,存在局限性。考慮到中國臨床實踐的特點,當前已建立了更加符合中國實際情況、實用性較強的中國臨床實踐指南評價體系(AGREE-China,2017版),并對各條目評分標準進行了詳細解釋和初步驗證[15]。但自2018年發布以來,該工具的國內使用率仍較低,中文發布的相關指南/共識方法學評價仍以AGREE Ⅱ為主。目前,對AGREE-China適用性驗證的研究較少,也缺乏對中國脆性骨折指南/共識質量評價的相關研究。針對上述問題,本研究擬同時采用AGREE Ⅱ和AGREE-China對該領域中國指南/共識進行質量評價,以期遴選出高質量的中國脆性骨折指南/共識。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 疾病診斷標準符合脆性骨折或骨質疏松性骨折定義[16],包括老年人骨折、絕經期婦女骨折;② 符合臨床實踐指南、專家共識的定義和規范[17];③ 語種限定為中文。
1.1.2 排除標準
① 指南/共識解讀、摘要、評析、討論稿、草案和會議論文;② 重復發表、被新版代替的舊版指南/共識;③ 指南/共識整體是關于骨質疏松的防治,僅部分內容涉及脆性骨折的診療。
1.2 文獻檢索策略
計算機檢索CBM、CNKI、WanFang Data和VIP數據庫收錄國內期刊發表的脆性骨折的指南/共識,同時檢索醫脈通指南網、中華醫學會官網、中國醫師協會官網、中華中醫藥學會官網等獲取以專著或其他形式出版的脆性骨折指南/共識,檢索時限均從建庫至2021年8月2日。檢索詞包括:脆性、骨質疏松、老年、絕經、骨折、指南、共識等。以CBM為例,其具體檢索策略見框1。

1.3 文獻篩選與資料提取
2位評價者獨立篩選文獻、提取資料并交叉核對,若有不同意見,則請第三位評價者協助判斷。文獻篩選時先剔重,通過閱讀題目和摘要排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。資料提取內容包括指南/共識的名稱、發布時間、制定機構/作者、出版期刊、頁數、制定機構數、編寫人數、專家人數、參考文獻數、是否為循證指南、是否為更新版本、證據評級標準等。
1.4 納入研究的質量評價
分別使用AGREE Ⅱ和AGREE-China對納入的指南/共識進行質量評價。AGREE Ⅱ[14]包括6個領域(范圍和目的、參與人員、制定的嚴謹性、清晰性、應用性和編輯的獨立性),共23個條目,每個條目評分為1~7分,評分越高,質量越高。各領域得分率=[(評價者對該領域實際評分和?最低可能評分)/(該領域最高可能評分?最低可能評分)]×100%。最高可能評分=7分×評價者人數×領域條目數,最低可能評分=1分×評價者人數×領域條目數。根據各領域得分情況將指南或共識的推薦級別分為3級;A級(≥4個領域得分率≥50%)、B級(1~3個領域得分率≥50%)和C級(沒有領域得分率≥50%)[18-19]。AGREE-China[15]包括5個領域(科學性/嚴謹性、有效性/安全性、經濟性、可用性/可行性、利益沖突),共15個條目,每個條目評分為0~5分,權重系數為0.5~2,評分越高,則認為質量也越高。各領域得分率=(評價者對該領域評分和/最高可能評分和)×100%;最高可能評分=5分×各條目權重系數×評價者人數×領域條目數。指南整體的推薦級別可結合總得分率分為3級:強推薦(總得分率≥50%)、弱推薦(20%≤總得分率<50%)和不推薦(總得分率<20%)。
1.5 統計分析
對2個評價工具得出的指南推薦級別結果采用SAS 9.4軟件計算加權κ值[20],對相同條目的平均得分率采用SPSS 22.0軟件計算組內相關系數[21](intraclass correlation coefficients,ICC)來評價2個工具一致性。一般認為,當0.40<ICC或κ<0.75時為中度一致,ICC或κ≥0.75一致性極佳,ICC或κ≤0.40時,一致性極差[22]。2位評價者系統學習AGREE Ⅱ和AGREE-China評價工具,逐條梳理條目并達成一致認識,并計算各領域ICC。采用EXCEL 2016進行數據整理與分析。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻375篇,經逐層篩選后,最終納入25篇指南或共識[16,23-46]。文獻篩選流程及結果見圖1。

*所檢索的數據庫(網站)及檢出文獻數具體如下:CBM(
2.2 納入研究的基本特征
納入的研究以“指南”命名的有9部(36.0%)[16,25,30-31,34,39,41,43-44],以“共識”命名的有16部(64.0%)[23-24,26-29,32-33,35-38,40,42,45-46]。出版期刊為中華醫學會系列期刊的有21部(84.0%)[16,23-26,28-37,39-40,42,44-46],其他期刊的有4部(16.0%)[27,38,41,43]。僅3部(12.0%)指南為循證指南[16,30-31],其中2部(8.0%)使用牛津證據分級與推薦意見強度[30-31],1部(5.0%)使用GRADE分級系統[16];另有1部(5.0%)使用的證據評級標準不明確[24]。僅有1部(5.0%)為更新指南[39]。納入指南與共識的發表年份為2014—2021年,中位年份是2018年;發表頁數為4~13頁,中位頁數是7頁;制定機構數為1~6個(其中7部指南/共識未提及[28-30,33,41,44-45],占比28.0%),中位機構數是2個;編寫人數為2~44人(其中6部指南/共識未提及[27,31-32,36,38-39],占比24.0%),中位人數是11人;制定專家數為22~213人(其中8部指南/共識未提及[28-29,34,36,41-43,46],占比32.0%),中位專家數是46人;制定時參考文獻數為0~134條,中位參考文獻數是51條。
2.3 AGREE Ⅱ和AGREE-China的評價結果
納入的25部指南/共識使用AGREE Ⅱ和AGREE-China的評價結果見表1。在AGREE Ⅱ的6個領域中:① 范圍和目的。該領域包含3個條目,平均分及其標準差分別為5.02±0.87、4.16±0.68和5.02±0.89。該領域平均得分率為62.22%,最小和最大得分率分別為38.89%[45-46]和77.78%[16]。其中8部指南/共識[16,26-28,30,32,34,36]明確描述了總目的,其余在背景部分也較為清晰地說明制定目的;所有指南/共識雖然沒有報告明確的PICO原則,但較為準確地描述了所涵蓋的衛生問題,其中9部指南/共識[16,24-25,31,39-41,43-44]針對目標應用人群的診斷、分型十分清晰。② 參與人員。該領域包含3個條目,平均分及其標準差為3.86±1.18,1.00±0和4.42±1.34。該領域平均得分率為34.89%,最小值和最大值分別為16.67%[39-42,45]和55.56%[28-29]。評價中僅2部共識不僅報告了各專家的基本信息[28-29],還充分描述其職責和工作內容,其余指南/共識交代的姓名、所在單位和科室等內容不超過3項;所有指南/共識均未考慮目標人群的觀點和選擇;僅部分指南/共識提出明確的適用者。③ 制定的嚴謹性。該領域包含8個條目,平均分及其標準差分別為1.68±1.87、1.56±1.50、1.60±1.67、1.68±1.30、4.18±1.06、4.00±1.59、1.20±0.99和1.12±0.59。該領域平均得分率為18.79%,最小值和最大值分別為4.17%[41]和68.75%[16]。該領域所涉及的條目最多,且6項評分均較低,僅3部指南[16,30-31]應用了系統的方法學檢索證據并清楚地描述選擇證據的標準、證據群的優缺點及形成推薦建議的方法,2部[24-25]對形成推薦建議的方法并未詳細報告;大部分指南在形成推薦建議時考慮了對健康的效益、不良反應和風險,但推薦意見和支持證據間聯系較弱;僅1部[16]公布了外部專家評審和更新計劃。④ 清晰性。該領域包含3個條目,平均分及其標準差為3.58±1.64、4.06±1.08和3.58±1.79。該領域平均得分率為45.67%,最小和最大得分率分別為13.89%[45]和94.44%[30-31]。評價中7部指南/共識[16,23-24,26,30-32]重要的推薦意見都作為標題或單獨成一段落,容易識別,其中僅3部[16,30-31]采用牛津證據分級與推薦意見強度或GRADE系統,推薦意見明確;大部分雖然推薦意見分級不明確,但也都列出了不同的治療選擇。⑤ 應用性。該領域包含4個條目,平均分及其標準差分別為4.00±1.74、4.26±1.58、3.90±1.27和1.00±0.00。該領域平均得分率為38.17%,最小和最大得分率分別為16.67%[45]和58.33%[27-28,31]。評價中部分指南/共識描述了應用過程中遇到的阻礙因素可能源于學科與技術的進步對相關內容的不斷完善,同時臨床實踐也需要根據實際可得的醫療資源來調整;部分也提供了應用于實踐的推薦建議和(或)工具;但所有指南/共識均未提供檢測和(或)稽查的標準。⑥ 編輯獨立性。該領域包含2個條目,平均分及其標準差分別為1.00±0和2.60±2.36。該領域平均得分率為13.33%,且得分率只出現2種情況:8部指南/共識[16,23,26-30,32]未報告是否有贊助方,但公開了利益沖突聲明(得分率均為41.67%);其余[24-25,31,33-46]既無贊助方信息,也未報告制定成員間的利益關系和沖突(得分率均為0%)。綜上,25部指南/共識的推薦級別為A級3部,B級20部,C級2部。

在AGREE-China的5個領域中:① 科學性/嚴謹性。該領域包含8個條目,平均分及其標準差分別為2.46±0.71、3.38±1.41、1.34±1.08、0.52±1.43、0.32±0.62、0.72±1.70、0.12±0.59和0.12±0.59。該領域平均得分率為20.36%,最小和最大得分率分別為1.82%和67.27%。該領域所涉及的條目最多,且6項評分均較低,所有指南/共識均未明確是否有方法學家的參與,僅1部[16]有完整而詳細的檢索策略(包括檢索詞、數據庫、納排標準和檢索時間范圍)、證據的分級和定義、推薦意見的形成過程、推薦等級、專家外審和更新計劃等內容。② 有效性/安全性。該領域包含2個條目,平均分及其標準差為0.84±1.23和1.64±1.06。該領域平均得分率為25.20%,最小和最大得分率分別為0%和70.00%。大部分指南/共識在評價療效時報告具體數值的推薦方案占比低于25%,在報告不良反應方面,僅5部[16,24,26,31,36]報告了具體數據。③ 經濟性。該領域只有1個條目,平均分及其標準差為0.72±1.29,平均得分率為14.40%,且得分率只出現2種情況:6部指南/共識[16,23-24,36,39,43]提及衛生經濟學相關內容,但均沒有報告具體數據(得分率均為60.00%);其余19部[25-35,37-38,40-42,44-46]則均未提及(得分率均為0%)。④ 可用性/可行性。該領域包含3個條目,平均分及其標準差分別為1.32±1.87,3.08±0.40和2.88±0.59。該領域平均得分率為49.87%,最小和最大得分率分別為30.00%和86.67%[16]。所有指南/共識全文均在國內期刊發表,并能在數據庫中獲取;從參考文獻可看出,都使用了國內的研究證據;另外大部分指南/共識全文表達均較為清晰,其中3部[16,30-31]寫作尤為規范。⑤ 利益沖突。該領域只有1個條目,平均分及其標準差為3.64±0.94,平均得分率為72.80%,且得分率只出現2種情況:8部指南/共識[16,23,26-30,32]有利益沖突聲明(得分率均為100.00%),另外17部[24-25,31,33-46]雖無利益沖突聲明,但指南中未出現藥物的商品名,可能不會影響到指南的推薦意見(得分率均為60.00%)。綜上,25部指南/共識整體的印象條目評價為強推薦3部,弱推薦19部,不推薦3部。
2.4 評價結果的一致性
25部指南/共識使用AGREE Ⅱ和AGREE-China評價時,推薦級別的關系見表2,其中等級一致22部[16,23-40,42-43,45],不一致3部[41,44,46],推薦級別的加權κ值為0.694[95%CI(0.373,1.000),P<0.001],呈現中度一致性。兩種工具評價條目比較見表3,結果顯示,AGREE-China對AGREE Ⅱ評價條目作了較大幅度調整。其中,條目合并15個,拆分1個,改編2個,刪去1個,新增1個,基本未變4個。在4個基本未變的條目中,兩種評價工具ICC均大于0.85,一致性均較好,其中僅1個條目ICC的95%CI下限低于0.75。2名評價者對25部指南/共識使用AGREE Ⅱ和AGREE-China評價的各領域ICC均大于0.85,一致性均較好,結果見表4。



3 討論
本研究采用AGREE Ⅱ和AGREE-China兩種評價工具,共同遴選出3部高質量指南,分別為《中國脆性骨折術后規范化抗骨質疏松治療指南(2021)》[16]、《癥狀性陳舊性胸腰椎骨質疏松性骨折手術治療臨床指南》[30]和《急性癥狀性骨質疏松性胸腰椎壓縮骨折椎體強化術臨床指南》[31]。3部指南使用AGREE Ⅱ評價時,均有4個領域得分率大于50%;使用AGREE-China評價時,其總得分率均大于60%。
納入的25部指南/共識中有21部(94.00%)出自中華醫學會系列期刊。作為中國醫療行業的權威組織[12],中華醫學會近年來倡導使用循證指南方法,提高了指南的制定質量,例如本研究一致遴選出的3部指南[16,30-31]均為近3年發布的循證指南。其寫作均尤為規范,應用了系統的方法學檢索證據、清楚地描述了選擇證據的標準和形成推薦建議的方法,并采用了牛津證據分級與推薦意見強度或GRADE系統,且對有效性和安全性方面的描述也非常詳細。而對共識的認知,也并非如普遍觀點一樣,在科學性、透明性和可靠性方面低于指南[17]。在本研究中,僅2部最新共識[28-29]既交代了制定人員的基本信息,又充分描述各專家的職責和工作內容,在AGREE Ⅱ部分條目中評分略高。因此無論使用哪種指導性文件,使用者均應掌握對其質量和可信度進行評估的基本方法,以免受到不恰當推薦意見的誤導[17]。
盡管AGREE Ⅱ評價工具已被廣泛應用,但尚無統一標準來解釋得分并給出推薦意見[47],因此本研究為促進與現有研究的一致性,依據得分率≥50%的領域數來評判[18-19];而AGREE-China對整體印象的評價也存在類似問題,對此本研究遵照AGREE-China的使用方法,計算權重,統計了指南/共識的總得分率,這是以往大部分研究所忽略的[48-51],并參照AGREE Ⅱ以50%為界,最終以強、弱和不推薦3個等級結合總得分率確定,以增強總體評價的客觀性。盡管AGREE-China在AGREE Ⅱ的基礎上作了較大的修改,但通過計算加權κ值和ICC,均表明兩種評價工具有較好的一致性。相比于單用AGREE-China遴選指南/共識并驗證其實用性的研究[52],本研究聯合兩種工具評價的結果更可靠。
本研究的兩種評價工具各有優劣。AGREE Ⅱ中部分條目,目前國內指南/共識時尚不能做到,如考慮目標人群的觀點和選擇、監控和審計標準等,基本屬于無效條目,因此AGREE-China刪除了相關條目,其評價條目(n=15)較AGREE Ⅱ(n=23)更少,評價時間可大幅縮短[15]。除此之外,AGREE-China評分標準非常詳細,對每個條目賦分(1~5分)都給予了量化的評分細則,例如可根據行業專家的人數(1人、2~5人、5人以上)、推薦意見形成時考慮因素個數(1個、2個、多個)、推薦意見設置等級的占比(<50%、50%~75%、>75%)等匹配相應評分;而AGREE Ⅱ每個條目的賦分(1~7分)取決于報道的完整性和質量,結果主觀性較大且比較依賴評價者的熟練程度。由于AGREE-China比AGREE Ⅱ評分更簡便,評價者間的差異縮小,各領域得分率呈現高度一致,因此本研究結果與先前的初步驗證基本相符[15]。在本研究中,編輯獨立性得分率在AGREE Ⅱ評價中最低,而利益沖突得分率在AGREE-China評價中最高,原因是AGREE-China針對沒有報告利益沖突聲明的情況下,文獻只要未出現藥物的商品名便可給予中等評分(3分),而相同情況在AGREE Ⅱ中獲得的評分往往很低。由此可見,AGREE Ⅱ對贊助單位、利益沖突等內容的評價比AGREE-China更嚴格。此外,AGREE-China工具還存在一些不足,如在“經濟性”和“利益沖突”領域的評價標準僅制定了3個評分等級(0、3、5分),導致評分結果區分度不高,不能充分體現指南/共識間的差異性。特別是對“利益沖突”領域的評價,若指南報告不實,僅通過短短幾行聲明文字,便認可指南/共識的高“透明度”,則會導致錯誤的評價結果[53]。總體而言,AGREE-China的使用比AGREE Ⅱ更容易,鑒于中國臨床實踐的特點,AGREE-China更適合作為中國指南/共識的質量評價工具,尤其適用于初學者。
既往研究表明,中國部分領域指南/共識的方法學質量并不高:在宮頸癌[54]、肝癌[55]領域使用AGREE Ⅱ發現,指南主要是在參與人員、制定的嚴謹性、編輯的獨立性領域得分率較低;而在消化內科[52]、麻醉[48]、針灸[49]、社區獲得性肺炎[51]、結直腸癌[50]等領域,指南在科學性/嚴謹性、有效性/安全性和經濟性領域得分率較低。可見,以上評價領域的不足,是我國指南/共識存在的普遍問題,應當在今后的制定過程中進一步改善。
目前,國際上脆性骨折領域也相繼發表系列指南,主要制定者包括英國國家衛生與臨床優化研究所(National Institute for Health and Clinical Excellence,NICE)[56-58]和美國骨科醫師學會(American Academy of Orthopaedic Surgeons,AAOS)[59-61]。今后應針對國內、國外脆性骨折領域指南進行全面評價,為我國以后循證指南與共識意見的制定提供參考。
本研究存在一定的局限性:① 納入的指南/共識可能受期刊版面、發布標準格式等限制,未能充分展現其全部內容,且其許多補充材料與背景信息也往往未能公開,這可能會降低評分結果,導致部分指南/共識的質量被低估。② 方法學質量高并不等同于臨床實用性高。為解決方法質量和臨床有效性互相矛盾的問題,還應結合其他評價工具,如AGREE-REX[62]。③ AGREE-China中哪些條目和質量維度是必需的,其每個條目更精確的權重大小應由臨床實際的需要來確定并驗證。
綜上所述,AGREE Ⅱ和AGREE-China的一致性較高,但AGREE-China更適合作為中國指南/共識的質量評價工具。中國脆性骨折指南/共識整體方法學質量并不高,近3年發布的3部循證指南可作為臨床實踐的參考。
利益沖突:本研究無任何利益沖突。
脆性骨折(fragility fracture)亦稱骨質疏松性骨折,是骨質疏松癥的最嚴重后果。全球每年約有1 000萬例脆性骨折發生[1],我國2015年發生例次約為269萬,預計2035年約為483萬[2]。約50%女性和20%男性在50歲后會經歷首次脆性骨折[3-4],初次骨折后有50%患者將會發生再次骨折[5]。其發病率隨年齡上升而上升,研究發現脆性骨折在60歲以上老年人群中急劇增加[6]。絕經后婦女由于雌激素水平顯著降低,骨質流失嚴重而成為脆性骨折高發人群[7-8]。該骨折的好發部位包括胸腰椎段、髖部、橈骨遠端和肱骨近端[5],其中椎體和髖部骨折會嚴重降低老年人群壽命,長期臥床者1年病死率為20%,永久致殘率為25%~35%[9-10]。隨著我國人口老齡化程度加劇,該領域制定和發表的臨床實踐指南(簡稱“指南”)和專家共識(簡稱“共識”)越來越多。但這些指南/共識的質量參差不齊,來自不同的醫學團體機構(包括中華醫學會、中國醫師協會、中國老年醫學會、中國健康促進會等)或專家團體,存在諸多差異性,如制定方法缺乏科學性和規范性,制定版本繁多等問題[11-12],不僅妨礙臨床工作人員的選擇和使用,并嚴重影響其傳播,同時低質量指南/共識還可能對患者造成傷害。因此,對中國脆性骨折指南與共識的質量評價對臨床實踐具有重要意義。
國際上目前有20余種指南的評價工具,其中指南研究與評價工具Ⅱ(appraisal of guidelines for research and evaluation,AGREE Ⅱ)應用最為廣泛[13-14],但部分條目在國內指南/共識中尚不能做到,如審計工具等,存在局限性。考慮到中國臨床實踐的特點,當前已建立了更加符合中國實際情況、實用性較強的中國臨床實踐指南評價體系(AGREE-China,2017版),并對各條目評分標準進行了詳細解釋和初步驗證[15]。但自2018年發布以來,該工具的國內使用率仍較低,中文發布的相關指南/共識方法學評價仍以AGREE Ⅱ為主。目前,對AGREE-China適用性驗證的研究較少,也缺乏對中國脆性骨折指南/共識質量評價的相關研究。針對上述問題,本研究擬同時采用AGREE Ⅱ和AGREE-China對該領域中國指南/共識進行質量評價,以期遴選出高質量的中國脆性骨折指南/共識。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 疾病診斷標準符合脆性骨折或骨質疏松性骨折定義[16],包括老年人骨折、絕經期婦女骨折;② 符合臨床實踐指南、專家共識的定義和規范[17];③ 語種限定為中文。
1.1.2 排除標準
① 指南/共識解讀、摘要、評析、討論稿、草案和會議論文;② 重復發表、被新版代替的舊版指南/共識;③ 指南/共識整體是關于骨質疏松的防治,僅部分內容涉及脆性骨折的診療。
1.2 文獻檢索策略
計算機檢索CBM、CNKI、WanFang Data和VIP數據庫收錄國內期刊發表的脆性骨折的指南/共識,同時檢索醫脈通指南網、中華醫學會官網、中國醫師協會官網、中華中醫藥學會官網等獲取以專著或其他形式出版的脆性骨折指南/共識,檢索時限均從建庫至2021年8月2日。檢索詞包括:脆性、骨質疏松、老年、絕經、骨折、指南、共識等。以CBM為例,其具體檢索策略見框1。

1.3 文獻篩選與資料提取
2位評價者獨立篩選文獻、提取資料并交叉核對,若有不同意見,則請第三位評價者協助判斷。文獻篩選時先剔重,通過閱讀題目和摘要排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。資料提取內容包括指南/共識的名稱、發布時間、制定機構/作者、出版期刊、頁數、制定機構數、編寫人數、專家人數、參考文獻數、是否為循證指南、是否為更新版本、證據評級標準等。
1.4 納入研究的質量評價
分別使用AGREE Ⅱ和AGREE-China對納入的指南/共識進行質量評價。AGREE Ⅱ[14]包括6個領域(范圍和目的、參與人員、制定的嚴謹性、清晰性、應用性和編輯的獨立性),共23個條目,每個條目評分為1~7分,評分越高,質量越高。各領域得分率=[(評價者對該領域實際評分和?最低可能評分)/(該領域最高可能評分?最低可能評分)]×100%。最高可能評分=7分×評價者人數×領域條目數,最低可能評分=1分×評價者人數×領域條目數。根據各領域得分情況將指南或共識的推薦級別分為3級;A級(≥4個領域得分率≥50%)、B級(1~3個領域得分率≥50%)和C級(沒有領域得分率≥50%)[18-19]。AGREE-China[15]包括5個領域(科學性/嚴謹性、有效性/安全性、經濟性、可用性/可行性、利益沖突),共15個條目,每個條目評分為0~5分,權重系數為0.5~2,評分越高,則認為質量也越高。各領域得分率=(評價者對該領域評分和/最高可能評分和)×100%;最高可能評分=5分×各條目權重系數×評價者人數×領域條目數。指南整體的推薦級別可結合總得分率分為3級:強推薦(總得分率≥50%)、弱推薦(20%≤總得分率<50%)和不推薦(總得分率<20%)。
1.5 統計分析
對2個評價工具得出的指南推薦級別結果采用SAS 9.4軟件計算加權κ值[20],對相同條目的平均得分率采用SPSS 22.0軟件計算組內相關系數[21](intraclass correlation coefficients,ICC)來評價2個工具一致性。一般認為,當0.40<ICC或κ<0.75時為中度一致,ICC或κ≥0.75一致性極佳,ICC或κ≤0.40時,一致性極差[22]。2位評價者系統學習AGREE Ⅱ和AGREE-China評價工具,逐條梳理條目并達成一致認識,并計算各領域ICC。采用EXCEL 2016進行數據整理與分析。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻375篇,經逐層篩選后,最終納入25篇指南或共識[16,23-46]。文獻篩選流程及結果見圖1。

*所檢索的數據庫(網站)及檢出文獻數具體如下:CBM(
2.2 納入研究的基本特征
納入的研究以“指南”命名的有9部(36.0%)[16,25,30-31,34,39,41,43-44],以“共識”命名的有16部(64.0%)[23-24,26-29,32-33,35-38,40,42,45-46]。出版期刊為中華醫學會系列期刊的有21部(84.0%)[16,23-26,28-37,39-40,42,44-46],其他期刊的有4部(16.0%)[27,38,41,43]。僅3部(12.0%)指南為循證指南[16,30-31],其中2部(8.0%)使用牛津證據分級與推薦意見強度[30-31],1部(5.0%)使用GRADE分級系統[16];另有1部(5.0%)使用的證據評級標準不明確[24]。僅有1部(5.0%)為更新指南[39]。納入指南與共識的發表年份為2014—2021年,中位年份是2018年;發表頁數為4~13頁,中位頁數是7頁;制定機構數為1~6個(其中7部指南/共識未提及[28-30,33,41,44-45],占比28.0%),中位機構數是2個;編寫人數為2~44人(其中6部指南/共識未提及[27,31-32,36,38-39],占比24.0%),中位人數是11人;制定專家數為22~213人(其中8部指南/共識未提及[28-29,34,36,41-43,46],占比32.0%),中位專家數是46人;制定時參考文獻數為0~134條,中位參考文獻數是51條。
2.3 AGREE Ⅱ和AGREE-China的評價結果
納入的25部指南/共識使用AGREE Ⅱ和AGREE-China的評價結果見表1。在AGREE Ⅱ的6個領域中:① 范圍和目的。該領域包含3個條目,平均分及其標準差分別為5.02±0.87、4.16±0.68和5.02±0.89。該領域平均得分率為62.22%,最小和最大得分率分別為38.89%[45-46]和77.78%[16]。其中8部指南/共識[16,26-28,30,32,34,36]明確描述了總目的,其余在背景部分也較為清晰地說明制定目的;所有指南/共識雖然沒有報告明確的PICO原則,但較為準確地描述了所涵蓋的衛生問題,其中9部指南/共識[16,24-25,31,39-41,43-44]針對目標應用人群的診斷、分型十分清晰。② 參與人員。該領域包含3個條目,平均分及其標準差為3.86±1.18,1.00±0和4.42±1.34。該領域平均得分率為34.89%,最小值和最大值分別為16.67%[39-42,45]和55.56%[28-29]。評價中僅2部共識不僅報告了各專家的基本信息[28-29],還充分描述其職責和工作內容,其余指南/共識交代的姓名、所在單位和科室等內容不超過3項;所有指南/共識均未考慮目標人群的觀點和選擇;僅部分指南/共識提出明確的適用者。③ 制定的嚴謹性。該領域包含8個條目,平均分及其標準差分別為1.68±1.87、1.56±1.50、1.60±1.67、1.68±1.30、4.18±1.06、4.00±1.59、1.20±0.99和1.12±0.59。該領域平均得分率為18.79%,最小值和最大值分別為4.17%[41]和68.75%[16]。該領域所涉及的條目最多,且6項評分均較低,僅3部指南[16,30-31]應用了系統的方法學檢索證據并清楚地描述選擇證據的標準、證據群的優缺點及形成推薦建議的方法,2部[24-25]對形成推薦建議的方法并未詳細報告;大部分指南在形成推薦建議時考慮了對健康的效益、不良反應和風險,但推薦意見和支持證據間聯系較弱;僅1部[16]公布了外部專家評審和更新計劃。④ 清晰性。該領域包含3個條目,平均分及其標準差為3.58±1.64、4.06±1.08和3.58±1.79。該領域平均得分率為45.67%,最小和最大得分率分別為13.89%[45]和94.44%[30-31]。評價中7部指南/共識[16,23-24,26,30-32]重要的推薦意見都作為標題或單獨成一段落,容易識別,其中僅3部[16,30-31]采用牛津證據分級與推薦意見強度或GRADE系統,推薦意見明確;大部分雖然推薦意見分級不明確,但也都列出了不同的治療選擇。⑤ 應用性。該領域包含4個條目,平均分及其標準差分別為4.00±1.74、4.26±1.58、3.90±1.27和1.00±0.00。該領域平均得分率為38.17%,最小和最大得分率分別為16.67%[45]和58.33%[27-28,31]。評價中部分指南/共識描述了應用過程中遇到的阻礙因素可能源于學科與技術的進步對相關內容的不斷完善,同時臨床實踐也需要根據實際可得的醫療資源來調整;部分也提供了應用于實踐的推薦建議和(或)工具;但所有指南/共識均未提供檢測和(或)稽查的標準。⑥ 編輯獨立性。該領域包含2個條目,平均分及其標準差分別為1.00±0和2.60±2.36。該領域平均得分率為13.33%,且得分率只出現2種情況:8部指南/共識[16,23,26-30,32]未報告是否有贊助方,但公開了利益沖突聲明(得分率均為41.67%);其余[24-25,31,33-46]既無贊助方信息,也未報告制定成員間的利益關系和沖突(得分率均為0%)。綜上,25部指南/共識的推薦級別為A級3部,B級20部,C級2部。

在AGREE-China的5個領域中:① 科學性/嚴謹性。該領域包含8個條目,平均分及其標準差分別為2.46±0.71、3.38±1.41、1.34±1.08、0.52±1.43、0.32±0.62、0.72±1.70、0.12±0.59和0.12±0.59。該領域平均得分率為20.36%,最小和最大得分率分別為1.82%和67.27%。該領域所涉及的條目最多,且6項評分均較低,所有指南/共識均未明確是否有方法學家的參與,僅1部[16]有完整而詳細的檢索策略(包括檢索詞、數據庫、納排標準和檢索時間范圍)、證據的分級和定義、推薦意見的形成過程、推薦等級、專家外審和更新計劃等內容。② 有效性/安全性。該領域包含2個條目,平均分及其標準差為0.84±1.23和1.64±1.06。該領域平均得分率為25.20%,最小和最大得分率分別為0%和70.00%。大部分指南/共識在評價療效時報告具體數值的推薦方案占比低于25%,在報告不良反應方面,僅5部[16,24,26,31,36]報告了具體數據。③ 經濟性。該領域只有1個條目,平均分及其標準差為0.72±1.29,平均得分率為14.40%,且得分率只出現2種情況:6部指南/共識[16,23-24,36,39,43]提及衛生經濟學相關內容,但均沒有報告具體數據(得分率均為60.00%);其余19部[25-35,37-38,40-42,44-46]則均未提及(得分率均為0%)。④ 可用性/可行性。該領域包含3個條目,平均分及其標準差分別為1.32±1.87,3.08±0.40和2.88±0.59。該領域平均得分率為49.87%,最小和最大得分率分別為30.00%和86.67%[16]。所有指南/共識全文均在國內期刊發表,并能在數據庫中獲取;從參考文獻可看出,都使用了國內的研究證據;另外大部分指南/共識全文表達均較為清晰,其中3部[16,30-31]寫作尤為規范。⑤ 利益沖突。該領域只有1個條目,平均分及其標準差為3.64±0.94,平均得分率為72.80%,且得分率只出現2種情況:8部指南/共識[16,23,26-30,32]有利益沖突聲明(得分率均為100.00%),另外17部[24-25,31,33-46]雖無利益沖突聲明,但指南中未出現藥物的商品名,可能不會影響到指南的推薦意見(得分率均為60.00%)。綜上,25部指南/共識整體的印象條目評價為強推薦3部,弱推薦19部,不推薦3部。
2.4 評價結果的一致性
25部指南/共識使用AGREE Ⅱ和AGREE-China評價時,推薦級別的關系見表2,其中等級一致22部[16,23-40,42-43,45],不一致3部[41,44,46],推薦級別的加權κ值為0.694[95%CI(0.373,1.000),P<0.001],呈現中度一致性。兩種工具評價條目比較見表3,結果顯示,AGREE-China對AGREE Ⅱ評價條目作了較大幅度調整。其中,條目合并15個,拆分1個,改編2個,刪去1個,新增1個,基本未變4個。在4個基本未變的條目中,兩種評價工具ICC均大于0.85,一致性均較好,其中僅1個條目ICC的95%CI下限低于0.75。2名評價者對25部指南/共識使用AGREE Ⅱ和AGREE-China評價的各領域ICC均大于0.85,一致性均較好,結果見表4。



3 討論
本研究采用AGREE Ⅱ和AGREE-China兩種評價工具,共同遴選出3部高質量指南,分別為《中國脆性骨折術后規范化抗骨質疏松治療指南(2021)》[16]、《癥狀性陳舊性胸腰椎骨質疏松性骨折手術治療臨床指南》[30]和《急性癥狀性骨質疏松性胸腰椎壓縮骨折椎體強化術臨床指南》[31]。3部指南使用AGREE Ⅱ評價時,均有4個領域得分率大于50%;使用AGREE-China評價時,其總得分率均大于60%。
納入的25部指南/共識中有21部(94.00%)出自中華醫學會系列期刊。作為中國醫療行業的權威組織[12],中華醫學會近年來倡導使用循證指南方法,提高了指南的制定質量,例如本研究一致遴選出的3部指南[16,30-31]均為近3年發布的循證指南。其寫作均尤為規范,應用了系統的方法學檢索證據、清楚地描述了選擇證據的標準和形成推薦建議的方法,并采用了牛津證據分級與推薦意見強度或GRADE系統,且對有效性和安全性方面的描述也非常詳細。而對共識的認知,也并非如普遍觀點一樣,在科學性、透明性和可靠性方面低于指南[17]。在本研究中,僅2部最新共識[28-29]既交代了制定人員的基本信息,又充分描述各專家的職責和工作內容,在AGREE Ⅱ部分條目中評分略高。因此無論使用哪種指導性文件,使用者均應掌握對其質量和可信度進行評估的基本方法,以免受到不恰當推薦意見的誤導[17]。
盡管AGREE Ⅱ評價工具已被廣泛應用,但尚無統一標準來解釋得分并給出推薦意見[47],因此本研究為促進與現有研究的一致性,依據得分率≥50%的領域數來評判[18-19];而AGREE-China對整體印象的評價也存在類似問題,對此本研究遵照AGREE-China的使用方法,計算權重,統計了指南/共識的總得分率,這是以往大部分研究所忽略的[48-51],并參照AGREE Ⅱ以50%為界,最終以強、弱和不推薦3個等級結合總得分率確定,以增強總體評價的客觀性。盡管AGREE-China在AGREE Ⅱ的基礎上作了較大的修改,但通過計算加權κ值和ICC,均表明兩種評價工具有較好的一致性。相比于單用AGREE-China遴選指南/共識并驗證其實用性的研究[52],本研究聯合兩種工具評價的結果更可靠。
本研究的兩種評價工具各有優劣。AGREE Ⅱ中部分條目,目前國內指南/共識時尚不能做到,如考慮目標人群的觀點和選擇、監控和審計標準等,基本屬于無效條目,因此AGREE-China刪除了相關條目,其評價條目(n=15)較AGREE Ⅱ(n=23)更少,評價時間可大幅縮短[15]。除此之外,AGREE-China評分標準非常詳細,對每個條目賦分(1~5分)都給予了量化的評分細則,例如可根據行業專家的人數(1人、2~5人、5人以上)、推薦意見形成時考慮因素個數(1個、2個、多個)、推薦意見設置等級的占比(<50%、50%~75%、>75%)等匹配相應評分;而AGREE Ⅱ每個條目的賦分(1~7分)取決于報道的完整性和質量,結果主觀性較大且比較依賴評價者的熟練程度。由于AGREE-China比AGREE Ⅱ評分更簡便,評價者間的差異縮小,各領域得分率呈現高度一致,因此本研究結果與先前的初步驗證基本相符[15]。在本研究中,編輯獨立性得分率在AGREE Ⅱ評價中最低,而利益沖突得分率在AGREE-China評價中最高,原因是AGREE-China針對沒有報告利益沖突聲明的情況下,文獻只要未出現藥物的商品名便可給予中等評分(3分),而相同情況在AGREE Ⅱ中獲得的評分往往很低。由此可見,AGREE Ⅱ對贊助單位、利益沖突等內容的評價比AGREE-China更嚴格。此外,AGREE-China工具還存在一些不足,如在“經濟性”和“利益沖突”領域的評價標準僅制定了3個評分等級(0、3、5分),導致評分結果區分度不高,不能充分體現指南/共識間的差異性。特別是對“利益沖突”領域的評價,若指南報告不實,僅通過短短幾行聲明文字,便認可指南/共識的高“透明度”,則會導致錯誤的評價結果[53]。總體而言,AGREE-China的使用比AGREE Ⅱ更容易,鑒于中國臨床實踐的特點,AGREE-China更適合作為中國指南/共識的質量評價工具,尤其適用于初學者。
既往研究表明,中國部分領域指南/共識的方法學質量并不高:在宮頸癌[54]、肝癌[55]領域使用AGREE Ⅱ發現,指南主要是在參與人員、制定的嚴謹性、編輯的獨立性領域得分率較低;而在消化內科[52]、麻醉[48]、針灸[49]、社區獲得性肺炎[51]、結直腸癌[50]等領域,指南在科學性/嚴謹性、有效性/安全性和經濟性領域得分率較低。可見,以上評價領域的不足,是我國指南/共識存在的普遍問題,應當在今后的制定過程中進一步改善。
目前,國際上脆性骨折領域也相繼發表系列指南,主要制定者包括英國國家衛生與臨床優化研究所(National Institute for Health and Clinical Excellence,NICE)[56-58]和美國骨科醫師學會(American Academy of Orthopaedic Surgeons,AAOS)[59-61]。今后應針對國內、國外脆性骨折領域指南進行全面評價,為我國以后循證指南與共識意見的制定提供參考。
本研究存在一定的局限性:① 納入的指南/共識可能受期刊版面、發布標準格式等限制,未能充分展現其全部內容,且其許多補充材料與背景信息也往往未能公開,這可能會降低評分結果,導致部分指南/共識的質量被低估。② 方法學質量高并不等同于臨床實用性高。為解決方法質量和臨床有效性互相矛盾的問題,還應結合其他評價工具,如AGREE-REX[62]。③ AGREE-China中哪些條目和質量維度是必需的,其每個條目更精確的權重大小應由臨床實際的需要來確定并驗證。
綜上所述,AGREE Ⅱ和AGREE-China的一致性較高,但AGREE-China更適合作為中國指南/共識的質量評價工具。中國脆性骨折指南/共識整體方法學質量并不高,近3年發布的3部循證指南可作為臨床實踐的參考。
利益沖突:本研究無任何利益沖突。