引用本文: 李勝, 曾憲濤, 李曉東, 吳開杰, 訾豪, 賀大林, 王行環. 良性前列腺增生臨床實踐指南的質量評價. 中國循證醫學雜志, 2018, 18(1): 74-80. doi: 10.7507/1672-2531.201704003 復制
良性前列腺增生(benign prostatic hyperplasia,BPH)是中老年男性最常見的疾病之一。其全球發病率高,且患者有呈年輕化發展的趨勢。據不完全統計:美國 50 歲以上男性 BPH 患病率已達 50%,90 歲以上老年男性高達 90%[1, 2]。1998 年北京大學泌尿外科研究所的一組尸檢報告表明,我國的組織學 BPH 發生率到 60 歲時大于 50%,和歐美國家的組織學發生率大致相似,且均隨年齡增長呈明顯上升趨勢[3]。隨著國民經濟水平的不斷增長及社會老齡化的到來,BPH 已成為泌尿外科臨床工作及醫療衛生事業發展的重要問題,可導致嚴重的社會和經濟負擔。
臨床實踐指南(clinical practice guidelines,CPG)是針對患者的特定臨床問題,基于系統評價形成的證據,并對各種備選干預方式進行全面的利弊平衡分析后提出的最優指導意見[4]。BPH 臨床實踐指南的制定是醫學領域臨床診療規范中的一個重要部分,BPH 診治指南的完成及不斷更新對促進臨床醫療工作的規范化有著積極意義。近年來,許多國家尤其是發達國家為解決 BPH 臨床實踐中面臨的諸多難題,都致力于 BPH 診療指南的制定與應用,并取得了巨大的成就[5]。本文對當前 BPH 相關 CPGs 的方法學質量進行評價,以期為臨床應用及未來指南的研發提供參考。
1 資料與方法
1.1 納入與排除標準
納入標準:全球公開發表的、符合指南定義的 BPH 領域臨床實踐指南或共識(版本較多的,選擇最新版本)。納入指南或共識需由國內外學術團體或行政部門制訂并頒發;指南制作方法為會議共識法、專家共識法或循證方法等。排除標準:直接翻譯或改編的國外指南、指南解讀文件、技術或操作指導、講座、專家筆談和知識手冊。
1.2 文獻檢索策略
計算機檢索 PubMed、EMbase、CNKI、WanFang Data、VIP、CBM 數據庫、醫脈通官網和美國國家指南文庫(U.S National Guideline Clearinghouse,NGC)、國際指南聯盟(Guidelines International Network,GIN)、英國國家衛生和臨床示范研究所(National Institute for Health and Clinical Excellence,NICE)、英格蘭校際指南網絡(Scottish Intercollegiate Guidelines Network,SIGN)、世界衛生組織(World Health Organization,WHO)官網,并手工檢索部分相關文獻的參考文獻,納入 BPH 的指南或者共識,檢索時間截止到 2016 年 12 月 13 日。采用主題詞與自由詞相結合的方式進行檢索,中文檢索詞包括:前列腺增生、前列腺肥大、下尿路癥狀、指南、共識、規范、推薦等;英文檢索詞包括:benign prostatic hyperplasia、benign prostate hyperplasia、enlarged prostate、BPH、prostatomegaly、prostatauxe、prostatic hypertrophy、benign prostatic enlargement、benign prostatic obstruction、lower urinary tract symptoms、LUTS、guideline、specification、consensus。以 PubMed 為例,其具體檢索策略見框 1。

1.3 文獻篩選與資料提取
由 2 名評價員(李勝,李曉東)按照納入與排除標準獨立完成文獻篩選并交叉核對,若遇分歧則討論解決。按事先設計好的資料提取表提取資料,提取內容包括:指南名稱、研發團隊、發布國家、組織機構、發布或更新時間、涉及領域、診斷和/或治療意見、制定方法和參考文獻、經費來源和利益沖突、方法學特征等。
1.4 方法學質量評價
在正式評分之前進行 3 次預評分,并采用組內相關系數(intra-class correlation coefficient,ICC)檢測一致性,確保 4 名評論員(李勝,曾憲濤,訾豪,吳開杰)對每個條目的理解基本一致。然后,由這 4 名評價員運用臨床指南研究與評估系統(appraisal of guidelines for research & evaluation Ⅱ,AGREE Ⅱ)對納入指南的質量進行評價 [6]。評價內容包括:范圍和目的(3 個條目)、參與人員(3 個條目)、制定嚴謹性(8 個條目)、清晰性(3 個條目)、適用性(4 個條目)、編輯獨立性(2 個條目),共 6 大領域的 23 個條目。
1.5 統計分析
一致性檢驗采用 SPSS 19.0 軟件計算 4 名評價員的 ICC 值。ICC 值在 0~1 之間,<0.4 時,一致性差;0.4~0.75 時,一致性一般;≥0.75 時,一致性好;ICC 值通常應在 0.7 以上。
采用 Excel 2007 軟件進行描述性分析并呈現 AGREE Ⅱ質量評價結果。AGREE Ⅱ評價按下述步驟進行:① 對 6 個領域的 23 個條目進行評分;② 每個條目分數為 1~7 分,完全符合條目要求記 7 分,完全不符合記 1 分,介于兩者之間的根據評分者的判斷記 2~6 分;③ 根據 AGREE Ⅱ公式計算得分:領域分值=(實際得分–最小可能得分)/(最大可能得分–最小可能得分)×100%。領域標準化得分值越高,反映該領域指南制定時方法越完善和報道的完整程度越高。
2 結果
2.1 文獻檢索結果
初檢共得到相關文獻 2 022 篇,經過逐層篩選,最終納入指南 15 部[7-21],文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:PubMed(
2.2 納入指南的基本特征
納入 15 部指南的名稱以“指南(guideline)”和“共識(consensus)”為主。其中中國指南 2 部[8, 10],德國 2 部[13, 14],歐洲、美國、英國、日本、芬蘭、巴西、意大利、馬來西亞、加拿大、南非、WHO 各 1 部[7, 9, 11, 12, 15-21]。指南發布(或更新)介于 1991~2016 年間,大多數制訂機構提及根據證據更新情況考慮更新指南。納入指南的基本特征見表 1。

2.3 評價一致性結果
在正式評價前,分別針對歐洲、日本和中國的《良性前列腺增生臨床診治指南》[7-9]進行了 3 次預評分。得分結果:EAU(ICC 值=0.941)、JUA(ICC 值=0.872)、中國《良性前列腺增生臨床診治指南》(ICC 值=0.952)。ICC 值都在 0.7 以上,這確保了 4 名評價員對每個條目的理解基本一致。
正式評價中,4 名評價員針對 6 個結構域進行評價的 ICC 值及其檢驗結果見表 2,所有指南的 ICC 值均大于 0.87,表明其一致性好。

2.4 納入指南的 AGREE Ⅱ評分
指南在 AGREE Ⅱ的 6 個結構域的評分結果見表 3。15 部指南在范圍和目的、參與人員、制定的嚴謹性、表達的清晰性、適用性、編輯的獨立性的平均得分分別為:72%、38%、30%、58%、16% 和 40%。
2.4.1 范圍和目的
此領域考察指南是否明確描述了總目的、所涵蓋的衛生問題和適用人群。該領域得分的中位數(全距)為 72%(31%),表明納入的 15 部指南清晰地描述了范圍和目的,能夠幫助指南使用者快速了解該指南是否為自己所需。
2.4.2 參與人員
此領域考察了指南是否包括了所有相關專業的人員、是否收集了目標人群的觀點和選擇意愿、是否明確規定了指南的使用者。該領域中位數得分為 38%,僅 2 部指南的分值在 50% 以上[7, 15]。主要原因是多數納入的指南未考慮到目標人群(病人、公眾等)的觀點和選擇意愿。
2.4.3 嚴謹性
此領域考察指南制定過程中各步驟的嚴謹程度,主要涉及證據檢索方法和標準、證據利弊權衡、推薦意見的形成方法及與證據的關聯性、外部評審、指南更新。納入 15 部指南在該領域得分中位數(全距)為 30%(67%),中位數較低且全距大,說明僅小部分指南符合本領域標準,但仍有大部分指南的制定過程不夠嚴謹,主觀因素影響較大。
2.4.4 清晰性
此領域考察指南推薦建議的表達是否明確。包括推薦建議明確、明確列出不同的選擇或衛生問題、容易識別重要的推薦建議,能夠幫助指南使用者更好地解決問題。納入 15 部指南在該領域得分的中位數(全距)為 58%(46%),提示納入指南滿足本領域大多數條目的標準,但幾乎所有指南均未給出不同方案之間的利弊比較。我們注意到得分最低(33%)的南非指南[21],雖然給出了推薦治療方案,但未給出療程和治療劑量等指標。
2.4.5 適用性
本領域主要涉及指南應用時的優勢和劣勢、是否提供了實施工具或建議、是否考慮實施中潛在的資源投入、是否提供了監測標準。本領域得分中位數(全距)為 16%(51%),該領域得分的中位數最低。納入指南對于應用過程中的促進和阻礙因素描述均不明確。
2.4.6 獨立性
此領域考察指南制定過程中是否受其他因素的影響,包括贊助單位的觀點不影響指南的內容、指南開發小組成員的利益沖突要記載并公布。納入 15 部指南在該領域得分中位數(全距)為 40%(96%),中位數較低但全距大,說明僅小部分指南基本符合本領域標準,但仍有大部分指南未提及贊助單位和(或)聲明利益沖突。歐洲、中國、美國指南明確提出指南制定無任何個人及團體財務及利益沖突,故得分較高(表 3)。

3 討論
3.1 指南定義及要求的演變
1990 年,美國醫學研究所(Institute of Medicine,IOM)將 CPG 定義為“針對特定的臨床情況,系統制訂出幫助臨床醫生和患者做出恰當處理的指導性意見”。2011 年,IOM 對指南的定義進行了更新:臨床實踐指南是針對患者的特定臨床問題,基于系統評價形成的證據,并對各種備選干預方式進行全面的利弊平衡分析后提出的最優的指導意見,并明確指出循證臨床實踐指南(evidence-based clinical practice guideline,E-CPG)的 6 大特征:① 必須基于當前所有證據形成的系統評價/Meta 分析;② 指南制訂應該是多學科協作;③ 指南必須考慮患者的意愿和價值偏好;④ 指南的制訂過程要透明,最大程度地控制可能存在的偏倚,避免利益沖突;⑤ 指南需要明確患者臨床問題的結局指標和備選干預方案之間的邏輯關系,有明確的證據質量分級和推薦強度;⑥ 新的證據出現時,應當及時更新指南。這個定義提出后,進一步明確了循證臨床實踐指南的定義和特點,得到許多國家學者的認可與推崇。2012 年,WHO 也對指南的制訂提出了明確的定義:WHO 指南是指任何包含了有關衛生干預推薦意見的文件,這些干預涉及臨床、公共衛生或衛生政策。推薦意見告訴指南使用者“應該做什么”,指導人們在影響衛生保健和資源利用的不同干預之間做出選擇。WHO 指南需要遵循兩大原則:① 推薦意見基于對現有證據的全面客觀的評價;② 形成推薦意見的流程清晰明確。這標志著 E-CPG 時代的到來,也標志著指南的研發要基于臨床研究證據,沒有證據的指南其可信度會大打折扣,而單純基于專家意見得出的指南未來是不被推薦的[22]。
3.2 指南的作用
CPG 的首要作用是對于常見疾病的臨床診治和預防提供指導或參考。此外,CPG 亦是臨床路徑研發/修訂的重要依據。中華人民共和國國家衛生計生委給出的臨床路徑的定義為“針對某一疾病建立的一套標準化治療模式與治療程序,以循證醫學證據和指南為指導來促進治療和疾病管理的方法,最終起到規范醫療行為,減少變異,降低成本,提高質量的作用”。WHO 也明確指出臨床路徑也應當是在循證醫學方法指導下研發制定。因此,CPG 的優劣不僅直接影響了使用者的臨床實踐程度,還會對臨床路徑的優化與推薦產生影響。科學、客觀地評價已有的 CPG,能夠為研發/修訂新的 CPG 提供參考與借鑒;同時在具體開展臨床實踐時,亦需要對所能夠檢索到的 CPG 進行方法學質量評價,以判斷其參考價值。
3.3 AGREE Ⅱ工具在我國的使用情況
目前,AGREE Ⅱ工具具有最高的公信度,并在全球范圍內得到了廣泛使用。曾憲濤等[23]使用 AGREE Ⅱ工具對中國口腔醫學領域的 18 部 CPGs 進行了評價,6 個領域得分分別為 71.1%、40.1%、28.8%、71.5%、42.6% 和 8.6%,提示國內口腔醫學領域指南整體質量較差。邢丹等[24]使用 AGREE Ⅱ工具對中國骨科領域的 54 部 CPGs 進行了評價,6 個領域得分分別為 60.44%、21.40%、5.17%、22.17%、6.02% 和 0.56%,提示國內現有骨科臨床實踐指南總體質量不高。江梅等[25]使用該工具對我國呼吸疾病領域的 109 部 CPGs 進行了評價,6 個領域得分分別為 57.3%、55.2%、17.6%、10.2%、9.3% 和 1.1%,提示國內呼吸系統疾病指南的整體質量很低。陳尹等[26]使用該工具對我國高血壓領域的 17 部 CPGs 進行了評價,6 個領域的平均得分為 41%、28%、18%、41%、20% 和 16%,提示中國高血壓指南的方法學質量普遍較低。陳昊等[27]運用該工具對我國 15 部針灸領域的 CPGs 進行評價,6 個領域得分分別為 55%、27%、4%、54%、4% 和 1%,提示整體質量仍有待提升。靳英輝等[28]使用該工具對國內護理領域的 42 部 CPGs 進行了評價,6 個領域的得分分別為 66.04%、24.20%、5.99%、57.57%、29.76% 和 4.91%,提示中國護理領域指南的方法學質量普遍較低。可以看出,這些指南普遍在制定的嚴謹性、適用性和編輯的獨立性 3 個領域質量較差。
3.4 本研究的評價結果
本文使用 AGREE Ⅱ工具[4]對當前全球所有能夠檢索到的有關 BPH 的 CPG 進行方法學質量評價,并對各自涉及的診斷與治療部分內容進行對比分析,以期為臨床實踐、CPG 的修訂及 BPH 相關臨床路徑的制訂/修訂提供參考。從整體情況來看,在 AGREE Ⅱ工具涉及的 6 大領域的評分中,只有范圍和目的、清晰性兩個領域的得分>50%,參與人員、嚴謹性、適用性、獨立性四個領域均有待提高。在診斷與治療推薦意見方面,納入指南的推薦統一度分析得出:① 所有診斷指南都一致推薦檢查以下項目:病史和體格檢查(包括直腸指診)、前列腺超聲檢查、前列腺癥狀評分、尿常規、血清 PSA;② 觀察等待、行為與飲食治療是重要和必須的;③α-受體阻滯劑和 5α-還原酶抑制劑是應用較成熟的 BPH 治療藥物;④ 開放手術、TURP、TUIP、B-TURP、鈥激光和綠激光這 6 種外科治療手段的療效是肯定的。但在某些方面存在爭議,如:腎功能檢查、排尿日記、磷酸二酯酶 5 抑制劑和植物制劑的使用、聯合用藥的差異、前列腺支架和氣囊擴張的推薦等。這表明不同機構研發的指南在指標和/或干預措施選取方面是有差異的。因此,建議將來對 CPG 制定/修訂時,能夠盡量采用公認的標準進行。當然,基于公認的標準,結合本國、本地區的實際情況,將其修改為適合的標準也是允許的。
3.5 本研究的局限性
由于語言能力及數據庫使用權限所限,本研究僅檢索了中、英文的數據庫,納入了中文與英文發布的 CPGs。這可能會造成檢索偏倚,遺漏非中、英文發布的、方法學質量很好的 E-CPG。此外,AGREE Ⅱ工具并未給出如何決定最佳指南和不同維度分數如何加權,沒有設置一個最低分或一個固定模式來區分指南質量的高低,而是交給用戶來決定。這將會因為評價者的水平各異而導致評價結果的差異性。盡管本研究的評價者均受過系統的循證醫學方法學學習與培訓,但仍有產生偏倚的可能性。
綜上所述,BPH 臨床實踐指南整體質量良莠不齊、尚需統一。尤其是在領域五,由于大部分指南缺乏指南的優勢和劣勢分析、成本-效益分析,AGREE Ⅱ評價得分最低。因此,建議后續指南研發時,能夠嚴格遵照 NICE、WHO、SIGN 等的標準,全面納入相關的利益相關群體、報告資金來源等。
良性前列腺增生(benign prostatic hyperplasia,BPH)是中老年男性最常見的疾病之一。其全球發病率高,且患者有呈年輕化發展的趨勢。據不完全統計:美國 50 歲以上男性 BPH 患病率已達 50%,90 歲以上老年男性高達 90%[1, 2]。1998 年北京大學泌尿外科研究所的一組尸檢報告表明,我國的組織學 BPH 發生率到 60 歲時大于 50%,和歐美國家的組織學發生率大致相似,且均隨年齡增長呈明顯上升趨勢[3]。隨著國民經濟水平的不斷增長及社會老齡化的到來,BPH 已成為泌尿外科臨床工作及醫療衛生事業發展的重要問題,可導致嚴重的社會和經濟負擔。
臨床實踐指南(clinical practice guidelines,CPG)是針對患者的特定臨床問題,基于系統評價形成的證據,并對各種備選干預方式進行全面的利弊平衡分析后提出的最優指導意見[4]。BPH 臨床實踐指南的制定是醫學領域臨床診療規范中的一個重要部分,BPH 診治指南的完成及不斷更新對促進臨床醫療工作的規范化有著積極意義。近年來,許多國家尤其是發達國家為解決 BPH 臨床實踐中面臨的諸多難題,都致力于 BPH 診療指南的制定與應用,并取得了巨大的成就[5]。本文對當前 BPH 相關 CPGs 的方法學質量進行評價,以期為臨床應用及未來指南的研發提供參考。
1 資料與方法
1.1 納入與排除標準
納入標準:全球公開發表的、符合指南定義的 BPH 領域臨床實踐指南或共識(版本較多的,選擇最新版本)。納入指南或共識需由國內外學術團體或行政部門制訂并頒發;指南制作方法為會議共識法、專家共識法或循證方法等。排除標準:直接翻譯或改編的國外指南、指南解讀文件、技術或操作指導、講座、專家筆談和知識手冊。
1.2 文獻檢索策略
計算機檢索 PubMed、EMbase、CNKI、WanFang Data、VIP、CBM 數據庫、醫脈通官網和美國國家指南文庫(U.S National Guideline Clearinghouse,NGC)、國際指南聯盟(Guidelines International Network,GIN)、英國國家衛生和臨床示范研究所(National Institute for Health and Clinical Excellence,NICE)、英格蘭校際指南網絡(Scottish Intercollegiate Guidelines Network,SIGN)、世界衛生組織(World Health Organization,WHO)官網,并手工檢索部分相關文獻的參考文獻,納入 BPH 的指南或者共識,檢索時間截止到 2016 年 12 月 13 日。采用主題詞與自由詞相結合的方式進行檢索,中文檢索詞包括:前列腺增生、前列腺肥大、下尿路癥狀、指南、共識、規范、推薦等;英文檢索詞包括:benign prostatic hyperplasia、benign prostate hyperplasia、enlarged prostate、BPH、prostatomegaly、prostatauxe、prostatic hypertrophy、benign prostatic enlargement、benign prostatic obstruction、lower urinary tract symptoms、LUTS、guideline、specification、consensus。以 PubMed 為例,其具體檢索策略見框 1。

1.3 文獻篩選與資料提取
由 2 名評價員(李勝,李曉東)按照納入與排除標準獨立完成文獻篩選并交叉核對,若遇分歧則討論解決。按事先設計好的資料提取表提取資料,提取內容包括:指南名稱、研發團隊、發布國家、組織機構、發布或更新時間、涉及領域、診斷和/或治療意見、制定方法和參考文獻、經費來源和利益沖突、方法學特征等。
1.4 方法學質量評價
在正式評分之前進行 3 次預評分,并采用組內相關系數(intra-class correlation coefficient,ICC)檢測一致性,確保 4 名評論員(李勝,曾憲濤,訾豪,吳開杰)對每個條目的理解基本一致。然后,由這 4 名評價員運用臨床指南研究與評估系統(appraisal of guidelines for research & evaluation Ⅱ,AGREE Ⅱ)對納入指南的質量進行評價 [6]。評價內容包括:范圍和目的(3 個條目)、參與人員(3 個條目)、制定嚴謹性(8 個條目)、清晰性(3 個條目)、適用性(4 個條目)、編輯獨立性(2 個條目),共 6 大領域的 23 個條目。
1.5 統計分析
一致性檢驗采用 SPSS 19.0 軟件計算 4 名評價員的 ICC 值。ICC 值在 0~1 之間,<0.4 時,一致性差;0.4~0.75 時,一致性一般;≥0.75 時,一致性好;ICC 值通常應在 0.7 以上。
采用 Excel 2007 軟件進行描述性分析并呈現 AGREE Ⅱ質量評價結果。AGREE Ⅱ評價按下述步驟進行:① 對 6 個領域的 23 個條目進行評分;② 每個條目分數為 1~7 分,完全符合條目要求記 7 分,完全不符合記 1 分,介于兩者之間的根據評分者的判斷記 2~6 分;③ 根據 AGREE Ⅱ公式計算得分:領域分值=(實際得分–最小可能得分)/(最大可能得分–最小可能得分)×100%。領域標準化得分值越高,反映該領域指南制定時方法越完善和報道的完整程度越高。
2 結果
2.1 文獻檢索結果
初檢共得到相關文獻 2 022 篇,經過逐層篩選,最終納入指南 15 部[7-21],文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:PubMed(
2.2 納入指南的基本特征
納入 15 部指南的名稱以“指南(guideline)”和“共識(consensus)”為主。其中中國指南 2 部[8, 10],德國 2 部[13, 14],歐洲、美國、英國、日本、芬蘭、巴西、意大利、馬來西亞、加拿大、南非、WHO 各 1 部[7, 9, 11, 12, 15-21]。指南發布(或更新)介于 1991~2016 年間,大多數制訂機構提及根據證據更新情況考慮更新指南。納入指南的基本特征見表 1。

2.3 評價一致性結果
在正式評價前,分別針對歐洲、日本和中國的《良性前列腺增生臨床診治指南》[7-9]進行了 3 次預評分。得分結果:EAU(ICC 值=0.941)、JUA(ICC 值=0.872)、中國《良性前列腺增生臨床診治指南》(ICC 值=0.952)。ICC 值都在 0.7 以上,這確保了 4 名評價員對每個條目的理解基本一致。
正式評價中,4 名評價員針對 6 個結構域進行評價的 ICC 值及其檢驗結果見表 2,所有指南的 ICC 值均大于 0.87,表明其一致性好。

2.4 納入指南的 AGREE Ⅱ評分
指南在 AGREE Ⅱ的 6 個結構域的評分結果見表 3。15 部指南在范圍和目的、參與人員、制定的嚴謹性、表達的清晰性、適用性、編輯的獨立性的平均得分分別為:72%、38%、30%、58%、16% 和 40%。
2.4.1 范圍和目的
此領域考察指南是否明確描述了總目的、所涵蓋的衛生問題和適用人群。該領域得分的中位數(全距)為 72%(31%),表明納入的 15 部指南清晰地描述了范圍和目的,能夠幫助指南使用者快速了解該指南是否為自己所需。
2.4.2 參與人員
此領域考察了指南是否包括了所有相關專業的人員、是否收集了目標人群的觀點和選擇意愿、是否明確規定了指南的使用者。該領域中位數得分為 38%,僅 2 部指南的分值在 50% 以上[7, 15]。主要原因是多數納入的指南未考慮到目標人群(病人、公眾等)的觀點和選擇意愿。
2.4.3 嚴謹性
此領域考察指南制定過程中各步驟的嚴謹程度,主要涉及證據檢索方法和標準、證據利弊權衡、推薦意見的形成方法及與證據的關聯性、外部評審、指南更新。納入 15 部指南在該領域得分中位數(全距)為 30%(67%),中位數較低且全距大,說明僅小部分指南符合本領域標準,但仍有大部分指南的制定過程不夠嚴謹,主觀因素影響較大。
2.4.4 清晰性
此領域考察指南推薦建議的表達是否明確。包括推薦建議明確、明確列出不同的選擇或衛生問題、容易識別重要的推薦建議,能夠幫助指南使用者更好地解決問題。納入 15 部指南在該領域得分的中位數(全距)為 58%(46%),提示納入指南滿足本領域大多數條目的標準,但幾乎所有指南均未給出不同方案之間的利弊比較。我們注意到得分最低(33%)的南非指南[21],雖然給出了推薦治療方案,但未給出療程和治療劑量等指標。
2.4.5 適用性
本領域主要涉及指南應用時的優勢和劣勢、是否提供了實施工具或建議、是否考慮實施中潛在的資源投入、是否提供了監測標準。本領域得分中位數(全距)為 16%(51%),該領域得分的中位數最低。納入指南對于應用過程中的促進和阻礙因素描述均不明確。
2.4.6 獨立性
此領域考察指南制定過程中是否受其他因素的影響,包括贊助單位的觀點不影響指南的內容、指南開發小組成員的利益沖突要記載并公布。納入 15 部指南在該領域得分中位數(全距)為 40%(96%),中位數較低但全距大,說明僅小部分指南基本符合本領域標準,但仍有大部分指南未提及贊助單位和(或)聲明利益沖突。歐洲、中國、美國指南明確提出指南制定無任何個人及團體財務及利益沖突,故得分較高(表 3)。

3 討論
3.1 指南定義及要求的演變
1990 年,美國醫學研究所(Institute of Medicine,IOM)將 CPG 定義為“針對特定的臨床情況,系統制訂出幫助臨床醫生和患者做出恰當處理的指導性意見”。2011 年,IOM 對指南的定義進行了更新:臨床實踐指南是針對患者的特定臨床問題,基于系統評價形成的證據,并對各種備選干預方式進行全面的利弊平衡分析后提出的最優的指導意見,并明確指出循證臨床實踐指南(evidence-based clinical practice guideline,E-CPG)的 6 大特征:① 必須基于當前所有證據形成的系統評價/Meta 分析;② 指南制訂應該是多學科協作;③ 指南必須考慮患者的意愿和價值偏好;④ 指南的制訂過程要透明,最大程度地控制可能存在的偏倚,避免利益沖突;⑤ 指南需要明確患者臨床問題的結局指標和備選干預方案之間的邏輯關系,有明確的證據質量分級和推薦強度;⑥ 新的證據出現時,應當及時更新指南。這個定義提出后,進一步明確了循證臨床實踐指南的定義和特點,得到許多國家學者的認可與推崇。2012 年,WHO 也對指南的制訂提出了明確的定義:WHO 指南是指任何包含了有關衛生干預推薦意見的文件,這些干預涉及臨床、公共衛生或衛生政策。推薦意見告訴指南使用者“應該做什么”,指導人們在影響衛生保健和資源利用的不同干預之間做出選擇。WHO 指南需要遵循兩大原則:① 推薦意見基于對現有證據的全面客觀的評價;② 形成推薦意見的流程清晰明確。這標志著 E-CPG 時代的到來,也標志著指南的研發要基于臨床研究證據,沒有證據的指南其可信度會大打折扣,而單純基于專家意見得出的指南未來是不被推薦的[22]。
3.2 指南的作用
CPG 的首要作用是對于常見疾病的臨床診治和預防提供指導或參考。此外,CPG 亦是臨床路徑研發/修訂的重要依據。中華人民共和國國家衛生計生委給出的臨床路徑的定義為“針對某一疾病建立的一套標準化治療模式與治療程序,以循證醫學證據和指南為指導來促進治療和疾病管理的方法,最終起到規范醫療行為,減少變異,降低成本,提高質量的作用”。WHO 也明確指出臨床路徑也應當是在循證醫學方法指導下研發制定。因此,CPG 的優劣不僅直接影響了使用者的臨床實踐程度,還會對臨床路徑的優化與推薦產生影響。科學、客觀地評價已有的 CPG,能夠為研發/修訂新的 CPG 提供參考與借鑒;同時在具體開展臨床實踐時,亦需要對所能夠檢索到的 CPG 進行方法學質量評價,以判斷其參考價值。
3.3 AGREE Ⅱ工具在我國的使用情況
目前,AGREE Ⅱ工具具有最高的公信度,并在全球范圍內得到了廣泛使用。曾憲濤等[23]使用 AGREE Ⅱ工具對中國口腔醫學領域的 18 部 CPGs 進行了評價,6 個領域得分分別為 71.1%、40.1%、28.8%、71.5%、42.6% 和 8.6%,提示國內口腔醫學領域指南整體質量較差。邢丹等[24]使用 AGREE Ⅱ工具對中國骨科領域的 54 部 CPGs 進行了評價,6 個領域得分分別為 60.44%、21.40%、5.17%、22.17%、6.02% 和 0.56%,提示國內現有骨科臨床實踐指南總體質量不高。江梅等[25]使用該工具對我國呼吸疾病領域的 109 部 CPGs 進行了評價,6 個領域得分分別為 57.3%、55.2%、17.6%、10.2%、9.3% 和 1.1%,提示國內呼吸系統疾病指南的整體質量很低。陳尹等[26]使用該工具對我國高血壓領域的 17 部 CPGs 進行了評價,6 個領域的平均得分為 41%、28%、18%、41%、20% 和 16%,提示中國高血壓指南的方法學質量普遍較低。陳昊等[27]運用該工具對我國 15 部針灸領域的 CPGs 進行評價,6 個領域得分分別為 55%、27%、4%、54%、4% 和 1%,提示整體質量仍有待提升。靳英輝等[28]使用該工具對國內護理領域的 42 部 CPGs 進行了評價,6 個領域的得分分別為 66.04%、24.20%、5.99%、57.57%、29.76% 和 4.91%,提示中國護理領域指南的方法學質量普遍較低。可以看出,這些指南普遍在制定的嚴謹性、適用性和編輯的獨立性 3 個領域質量較差。
3.4 本研究的評價結果
本文使用 AGREE Ⅱ工具[4]對當前全球所有能夠檢索到的有關 BPH 的 CPG 進行方法學質量評價,并對各自涉及的診斷與治療部分內容進行對比分析,以期為臨床實踐、CPG 的修訂及 BPH 相關臨床路徑的制訂/修訂提供參考。從整體情況來看,在 AGREE Ⅱ工具涉及的 6 大領域的評分中,只有范圍和目的、清晰性兩個領域的得分>50%,參與人員、嚴謹性、適用性、獨立性四個領域均有待提高。在診斷與治療推薦意見方面,納入指南的推薦統一度分析得出:① 所有診斷指南都一致推薦檢查以下項目:病史和體格檢查(包括直腸指診)、前列腺超聲檢查、前列腺癥狀評分、尿常規、血清 PSA;② 觀察等待、行為與飲食治療是重要和必須的;③α-受體阻滯劑和 5α-還原酶抑制劑是應用較成熟的 BPH 治療藥物;④ 開放手術、TURP、TUIP、B-TURP、鈥激光和綠激光這 6 種外科治療手段的療效是肯定的。但在某些方面存在爭議,如:腎功能檢查、排尿日記、磷酸二酯酶 5 抑制劑和植物制劑的使用、聯合用藥的差異、前列腺支架和氣囊擴張的推薦等。這表明不同機構研發的指南在指標和/或干預措施選取方面是有差異的。因此,建議將來對 CPG 制定/修訂時,能夠盡量采用公認的標準進行。當然,基于公認的標準,結合本國、本地區的實際情況,將其修改為適合的標準也是允許的。
3.5 本研究的局限性
由于語言能力及數據庫使用權限所限,本研究僅檢索了中、英文的數據庫,納入了中文與英文發布的 CPGs。這可能會造成檢索偏倚,遺漏非中、英文發布的、方法學質量很好的 E-CPG。此外,AGREE Ⅱ工具并未給出如何決定最佳指南和不同維度分數如何加權,沒有設置一個最低分或一個固定模式來區分指南質量的高低,而是交給用戶來決定。這將會因為評價者的水平各異而導致評價結果的差異性。盡管本研究的評價者均受過系統的循證醫學方法學學習與培訓,但仍有產生偏倚的可能性。
綜上所述,BPH 臨床實踐指南整體質量良莠不齊、尚需統一。尤其是在領域五,由于大部分指南缺乏指南的優勢和劣勢分析、成本-效益分析,AGREE Ⅱ評價得分最低。因此,建議后續指南研發時,能夠嚴格遵照 NICE、WHO、SIGN 等的標準,全面納入相關的利益相關群體、報告資金來源等。