引用本文: 朱志軍, 孫麗瑩, 張海明, 施月仙. 2017 年全球移植領域臨床實踐指南的質量評價. 中國循證醫學雜志, 2018, 18(9): 964-968. doi: 10.7507/1672-2531.201805093 復制
器官移植是醫學發展的新領域,在傳統醫學認識和治療方法的基礎上,器官移植結合了多種醫學技術和免疫學知識[1, 2],因此移植工作者需要掌握更多的知識和技能[3, 4],需要在多種醫學和科學機制中確定臨床工作的具體方法。此外,器官移植不僅僅是一個治療過程,器官移植后免疫抑制人群存在多種新的醫學問題[5, 6],器官移植也導致了很多倫理問題[7],器官的捐獻與分配還對全社會的認識和行為產生了影響[8, 9]。多領域問題的相互交織,使得器官移植工作者面臨著前所未有的復雜醫療過程,需要多學科專家和多領域工作者針對患者的需求和臨床工作難點確定實踐的具體原則和方法。由于移植工作的特殊性,其臨床實踐指南的制訂流程、指南小組的構成、證據質量的評價、推薦意見產生的方法等方面也比其他臨床指南更復雜。目前移植領域的指南不斷被發表,但由于指南制訂組織的構成和學術背景不同、采用的證據來源和指南制訂方法學存在差異,導致不同指南的質量差異較大。我們總結了 2017 年發表的移植領域的指南,應用 AGREE Ⅱ評價工具進行指南質量評價,旨在初步明確目前該領域指南的質量情況。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 符合臨床實踐指南定義:基于系統評價證據,評價干預性研究的利弊,得出優化病人處置的指導意見[10];② 指南的目標人群為器官移植患者;③ 指南的指導意見針對臨床問題。
1.1.2 排除標準
① 指南摘要;② 政府發布的政策性指南;③ 書目指南;③ 指南解讀或評價性文章。
1.2 文獻檢索策略
計算機檢索 PubMed、英國國家衛生和臨床示范研究所(National Institute for Health and Clinical Excellence,NICE)、美國國家指南文庫(National Guideline Clearinghouse,NGC)、美國國家綜合癌癥網絡(National Comprehensive Cancer Network,NCCN)、蘇格蘭校際指南網絡(Scottish Intercollegiate Guidelines Network,SIGN)、加拿大醫學會臨床實踐指南文庫(Canadian Medical Association InfoBase for Clinical Practice Guidelines,CMA Infobase)和國際指南聯盟(Guidelines International Networks,GIN)數據庫。檢索時限為 2017 年 1 月 1 日至 2017 年 12 月 31 日。檢索詞包括:guideline、guidance、transplant、transplantation 等。
1.3 文獻篩選、資料提取與納入指南的質量評價
由 4 名專家組成指南評價小組合作完成。4 名專家的專業方向分別為肝移植外科、移植內科和重癥治療、器官移植臨床研究及循證醫學。文獻篩選由 2 名專家獨立完成,如遇分歧,則由 4 名專家討論解決。指南的質量評價采用 AGREE Ⅱ評估工具(2017 年 12 月更新),包括 6 個領域的 23 個條目[11]。6 個領域分別為:“范圍和目的”、“參與人員”、“制訂的嚴謹性”、“表達的明晰性”、“應用性”和“編輯的獨立性”,最后進行總體評分。4 名專家分別獨立進行評價,每個條目最低分為 1 分,最高分為 7 分。最后將評分匯總并標準化為百分比,公式如下:
領域得分(百分比)=(領域總分–理論最低分)/(理論最高分–理論最低分)×100%
理論最高分=條目最高分(7)×條目數(2~8)×評閱人數(4)
理論最低分=條目最低分(1)×條目數(2~8)×評閱人數(4)
條目總分=評價者 1 評分+評價者 2 評分+評價者 3 評分+評價者 4 評分
領域總分=條目 1 總分+條目 2 總分+ ······ +條目 23 總分(領域內所有條目總分之和)
1.4 統計分析
采用 SPSS 18.0 軟件進行統計分析和統計圖的繪制。所有指南各領域的平均得分采用平均數及其 95% 可信區間(CI)表示,各領域間差異通過重復測量方差分析計算,設定 P<0.05 時具有統計學意義。
2 結果
2.1 文獻檢索結果
對各數據庫進行檢索,最終獲得 2017 年度發表的移植領域指南 10 部[12-21](表 1)。

2.2 納入指南的基本特征
2017 年度移植領域的指南主要來自英國和美國的數據庫,包括造血干細胞移植指南 6 篇、肝移植指南 1 篇、心臟移植指南 1 篇和腎移植指南 2 篇(表 2)。按發布學術組織的地域劃分,國際學術組織指南 3 篇[12-14],英國學術組織(NICE)指南 3 篇[15-17],美國[18]、加拿大[19]、巴西[20]和中國(臺灣)[21]的學術組織指南各 1 篇。3 篇指南的推薦條目多于 20 條,分別來自國際學術組織和美國的學術組織,其它地區的指南的推薦條目少于 15 條。

2.3 指南的質量評價結果
4 名專家采用 AGREEⅡ評價工具對指南進行評價,結果見表 3。各領域得分存在顯著性差異(P=0.001,圖 1)。2017 年移植領域指南在范圍和目的、表達的明晰性和總體得分方面較為理想,平均得分分別為 90.8%[95%CI(83.5%,98.1%)]、82.5%[95%CI(72.7%,92.3%)]和 75.6%[95%CI(66.6%,84.6%)]。制訂的嚴謹性和編輯的獨立性平均得分為 56.3%[95%CI(41.7%,70.8%)]和 48.4%[95%CI(23.6%,72.7%)],兩者處于中等水平。參與人員和應用性得分最低,分別為 40.0%[95%CI(32.4%,47.6%)]和 27.8%[95%CI(11.2%,44.5%)]。


*:
3 討論
3.1 范圍和目的及表達的明晰性
范圍和目的領域的評分非常理想,多數指南的得分超過 90%。由于器官移植領域的臨床問題非常復雜,指南所面對的具體問題常為該領域特有的問題,因此在指南的制訂和撰寫時,專家們常需要較為詳細地闡明問題。由于移植領域目標人群的特殊性和復雜性,具體推薦條目針對性較強,因此對于目標人群的描述也通常會得到專家重視。這可能是該領域得分較高的原因。在其它領域指南[22, 23]的制訂過程中,常存在多領域、不同患者和不同醫療過程的共性問題,因此具體問題的陳述常省略部分內容,導致 AGREEⅡ評分可能受到影響[24]。由于醫療問題的適用范圍不同,這些模糊的闡述可能導致的實際影響不盡相同。在指南的制訂過程中,出于對嚴謹性的考慮,應注意明確范圍和目的。指南目的和范圍的闡明不僅對使用者非常重要,同時也為同領域指南的制訂提供范圍參考。
表達的明晰性也存在相似情況。指南推薦意見與范圍目的清晰陳述的得分較為一致。具體臨床問題的明確,可以幫助明確 PICO 問題,最終形成清晰的推薦意見。如前所述,由于移植領域問題和人群的特殊常被專家所強調;具體醫療背景和人群背景變化后推薦意見可能發生明顯變化,因此推薦意見均能夠非常明確地闡明具體問題的細節。在非移植指南推薦意見的闡述過程中,由于推薦意見的普適性,很可能更多地省略部分背景和人群特征的陳述,這可能導致應用指南意見時出現偏差。但由于具體領域不同,發生偏差的風險和危害不同,因此不同學科的指南不宜簡單依據表達形式進行比較。
3.2 制訂的嚴謹性和編輯的獨立性
制訂的嚴謹性反應了在指南制訂過程中,是否正確評價了現有證據,是否依據了嚴格的方法。而嚴謹的制訂過程不能彌補證據不足的問題,因此證據基礎差別巨大時,嚴謹的方法仍不足以得出可靠的推薦意見。在證據基礎薄弱的領域可能指南制訂的嚴謹性容易被忽視,而此時遵循嚴謹的方法,會導致文獻的評價整理工作也相對困難。移植作為新興領域,問題眾多,由于患者人群較小,高質量研究缺乏。因此在指南的制訂過程中,雖然均強調了證據和方法,但細節展示不夠具體,各個環節的控制可能不夠理想。
編輯的獨立性與嚴謹性相似,均體現了指南制訂過程中可能存在的偏差。編輯的獨立性反應出非學術干擾因素的影響,從利益角度考評指南的可靠性。當前的評價體系,在反應利益沖突問題上尚有不足。雖然通過提高指南制訂過程中對利益沖突的重視,盡量控制指南各個環節的利益沖突,可能會在一定程度上避免利益沖突的干擾。然而簡單的通過利益聲明進行評價,可能難以推測具體制訂過程中的利益問題。如所面向的臨床問題與利益的關聯程度并不相同;利益聯系密切的問題,即使進行詳細的利益問題控制,仍可能存在利益的影響;而幾乎無利益沖突的問題,可能僅需要簡單的聲明即可。
3.3 參與人員和應用性
參與人員的構成和學術背景,對控制指南的質量非常重要。在指南評價過程中該領域的得分受到兩方面因素的制約:對于人員構成的重視程度和實際工作的難度。在指南的制訂過程中,多學科人員需要投入相當多的經歷進行工作,資深專家的參與時間常常有限。而協調不同學科的人員也存在困難。因此過于追求人員構成的合理性,有時會增加實際工作的難度,參與人員的組織很大程度上依賴指南制訂組織的影響力和資源。移植領域涉及問題復雜,涉及學科多,因此需要組建相對復雜的指南制訂小組,并聽取多領域的建議。而從事移植的人員相對較少,資深專家缺乏,因此在指南制訂的過程中可能捉襟見肘。
應用性方面的不足說明了推薦意見的實施過程可能較為困難。首先目前移植領域的問題,仍停留在原則和概念層面,因此具體措施和方法仍難以推行。其次移植領域涉及多種不同器官和疾病的臨床過程,常需參考不同疾病在非移植背景下的處置方式,而移植領域的特殊性問題因器官和疾病而異,難以尋找共性的方法,得出系統性結論。因此推薦意見常不夠具體,難以實施,或問題的表述過于碎片化,難以形成完善的體系。
雖然指南制訂方法不斷完善,但對于復雜背景下的臨床問題,指南的制訂流程、方法學和形式并不能完全反應結論的實際價值。具體臨床研究的樣本量、異質性和適用方面的評價需要豐富的臨床和方法學知識,以及對臨床具體過程的了解。當臨床問題變得更為復雜時,對于評價者或評價小組的要求更為嚴格。因此在移植領域的文獻和指南的評價中,偏倚和適用性的判定均更加復雜。目前簡單的形式評價仍不足以反應這些問題。在本次評價的基礎上,仍需更深入地結合臨床實踐,更廣泛地總結指南應用效果,從而得出最終評價結果。
綜上所述,2017 年全球移植領域臨床實踐指南的不同領域得分差異較大,該領域指南在參與人員和應用性方面需要進一步提高。移植領域指南的制訂存在很多特殊問題。對于一個目標人群較小的學科,指南質量的提高,可能需要更長期工作積累。而參與人員和應用性方面問題的解決可能需要更廣泛的合作和更多的資源投入。
器官移植是醫學發展的新領域,在傳統醫學認識和治療方法的基礎上,器官移植結合了多種醫學技術和免疫學知識[1, 2],因此移植工作者需要掌握更多的知識和技能[3, 4],需要在多種醫學和科學機制中確定臨床工作的具體方法。此外,器官移植不僅僅是一個治療過程,器官移植后免疫抑制人群存在多種新的醫學問題[5, 6],器官移植也導致了很多倫理問題[7],器官的捐獻與分配還對全社會的認識和行為產生了影響[8, 9]。多領域問題的相互交織,使得器官移植工作者面臨著前所未有的復雜醫療過程,需要多學科專家和多領域工作者針對患者的需求和臨床工作難點確定實踐的具體原則和方法。由于移植工作的特殊性,其臨床實踐指南的制訂流程、指南小組的構成、證據質量的評價、推薦意見產生的方法等方面也比其他臨床指南更復雜。目前移植領域的指南不斷被發表,但由于指南制訂組織的構成和學術背景不同、采用的證據來源和指南制訂方法學存在差異,導致不同指南的質量差異較大。我們總結了 2017 年發表的移植領域的指南,應用 AGREE Ⅱ評價工具進行指南質量評價,旨在初步明確目前該領域指南的質量情況。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 符合臨床實踐指南定義:基于系統評價證據,評價干預性研究的利弊,得出優化病人處置的指導意見[10];② 指南的目標人群為器官移植患者;③ 指南的指導意見針對臨床問題。
1.1.2 排除標準
① 指南摘要;② 政府發布的政策性指南;③ 書目指南;③ 指南解讀或評價性文章。
1.2 文獻檢索策略
計算機檢索 PubMed、英國國家衛生和臨床示范研究所(National Institute for Health and Clinical Excellence,NICE)、美國國家指南文庫(National Guideline Clearinghouse,NGC)、美國國家綜合癌癥網絡(National Comprehensive Cancer Network,NCCN)、蘇格蘭校際指南網絡(Scottish Intercollegiate Guidelines Network,SIGN)、加拿大醫學會臨床實踐指南文庫(Canadian Medical Association InfoBase for Clinical Practice Guidelines,CMA Infobase)和國際指南聯盟(Guidelines International Networks,GIN)數據庫。檢索時限為 2017 年 1 月 1 日至 2017 年 12 月 31 日。檢索詞包括:guideline、guidance、transplant、transplantation 等。
1.3 文獻篩選、資料提取與納入指南的質量評價
由 4 名專家組成指南評價小組合作完成。4 名專家的專業方向分別為肝移植外科、移植內科和重癥治療、器官移植臨床研究及循證醫學。文獻篩選由 2 名專家獨立完成,如遇分歧,則由 4 名專家討論解決。指南的質量評價采用 AGREE Ⅱ評估工具(2017 年 12 月更新),包括 6 個領域的 23 個條目[11]。6 個領域分別為:“范圍和目的”、“參與人員”、“制訂的嚴謹性”、“表達的明晰性”、“應用性”和“編輯的獨立性”,最后進行總體評分。4 名專家分別獨立進行評價,每個條目最低分為 1 分,最高分為 7 分。最后將評分匯總并標準化為百分比,公式如下:
領域得分(百分比)=(領域總分–理論最低分)/(理論最高分–理論最低分)×100%
理論最高分=條目最高分(7)×條目數(2~8)×評閱人數(4)
理論最低分=條目最低分(1)×條目數(2~8)×評閱人數(4)
條目總分=評價者 1 評分+評價者 2 評分+評價者 3 評分+評價者 4 評分
領域總分=條目 1 總分+條目 2 總分+ ······ +條目 23 總分(領域內所有條目總分之和)
1.4 統計分析
采用 SPSS 18.0 軟件進行統計分析和統計圖的繪制。所有指南各領域的平均得分采用平均數及其 95% 可信區間(CI)表示,各領域間差異通過重復測量方差分析計算,設定 P<0.05 時具有統計學意義。
2 結果
2.1 文獻檢索結果
對各數據庫進行檢索,最終獲得 2017 年度發表的移植領域指南 10 部[12-21](表 1)。

2.2 納入指南的基本特征
2017 年度移植領域的指南主要來自英國和美國的數據庫,包括造血干細胞移植指南 6 篇、肝移植指南 1 篇、心臟移植指南 1 篇和腎移植指南 2 篇(表 2)。按發布學術組織的地域劃分,國際學術組織指南 3 篇[12-14],英國學術組織(NICE)指南 3 篇[15-17],美國[18]、加拿大[19]、巴西[20]和中國(臺灣)[21]的學術組織指南各 1 篇。3 篇指南的推薦條目多于 20 條,分別來自國際學術組織和美國的學術組織,其它地區的指南的推薦條目少于 15 條。

2.3 指南的質量評價結果
4 名專家采用 AGREEⅡ評價工具對指南進行評價,結果見表 3。各領域得分存在顯著性差異(P=0.001,圖 1)。2017 年移植領域指南在范圍和目的、表達的明晰性和總體得分方面較為理想,平均得分分別為 90.8%[95%CI(83.5%,98.1%)]、82.5%[95%CI(72.7%,92.3%)]和 75.6%[95%CI(66.6%,84.6%)]。制訂的嚴謹性和編輯的獨立性平均得分為 56.3%[95%CI(41.7%,70.8%)]和 48.4%[95%CI(23.6%,72.7%)],兩者處于中等水平。參與人員和應用性得分最低,分別為 40.0%[95%CI(32.4%,47.6%)]和 27.8%[95%CI(11.2%,44.5%)]。


*:
3 討論
3.1 范圍和目的及表達的明晰性
范圍和目的領域的評分非常理想,多數指南的得分超過 90%。由于器官移植領域的臨床問題非常復雜,指南所面對的具體問題常為該領域特有的問題,因此在指南的制訂和撰寫時,專家們常需要較為詳細地闡明問題。由于移植領域目標人群的特殊性和復雜性,具體推薦條目針對性較強,因此對于目標人群的描述也通常會得到專家重視。這可能是該領域得分較高的原因。在其它領域指南[22, 23]的制訂過程中,常存在多領域、不同患者和不同醫療過程的共性問題,因此具體問題的陳述常省略部分內容,導致 AGREEⅡ評分可能受到影響[24]。由于醫療問題的適用范圍不同,這些模糊的闡述可能導致的實際影響不盡相同。在指南的制訂過程中,出于對嚴謹性的考慮,應注意明確范圍和目的。指南目的和范圍的闡明不僅對使用者非常重要,同時也為同領域指南的制訂提供范圍參考。
表達的明晰性也存在相似情況。指南推薦意見與范圍目的清晰陳述的得分較為一致。具體臨床問題的明確,可以幫助明確 PICO 問題,最終形成清晰的推薦意見。如前所述,由于移植領域問題和人群的特殊常被專家所強調;具體醫療背景和人群背景變化后推薦意見可能發生明顯變化,因此推薦意見均能夠非常明確地闡明具體問題的細節。在非移植指南推薦意見的闡述過程中,由于推薦意見的普適性,很可能更多地省略部分背景和人群特征的陳述,這可能導致應用指南意見時出現偏差。但由于具體領域不同,發生偏差的風險和危害不同,因此不同學科的指南不宜簡單依據表達形式進行比較。
3.2 制訂的嚴謹性和編輯的獨立性
制訂的嚴謹性反應了在指南制訂過程中,是否正確評價了現有證據,是否依據了嚴格的方法。而嚴謹的制訂過程不能彌補證據不足的問題,因此證據基礎差別巨大時,嚴謹的方法仍不足以得出可靠的推薦意見。在證據基礎薄弱的領域可能指南制訂的嚴謹性容易被忽視,而此時遵循嚴謹的方法,會導致文獻的評價整理工作也相對困難。移植作為新興領域,問題眾多,由于患者人群較小,高質量研究缺乏。因此在指南的制訂過程中,雖然均強調了證據和方法,但細節展示不夠具體,各個環節的控制可能不夠理想。
編輯的獨立性與嚴謹性相似,均體現了指南制訂過程中可能存在的偏差。編輯的獨立性反應出非學術干擾因素的影響,從利益角度考評指南的可靠性。當前的評價體系,在反應利益沖突問題上尚有不足。雖然通過提高指南制訂過程中對利益沖突的重視,盡量控制指南各個環節的利益沖突,可能會在一定程度上避免利益沖突的干擾。然而簡單的通過利益聲明進行評價,可能難以推測具體制訂過程中的利益問題。如所面向的臨床問題與利益的關聯程度并不相同;利益聯系密切的問題,即使進行詳細的利益問題控制,仍可能存在利益的影響;而幾乎無利益沖突的問題,可能僅需要簡單的聲明即可。
3.3 參與人員和應用性
參與人員的構成和學術背景,對控制指南的質量非常重要。在指南評價過程中該領域的得分受到兩方面因素的制約:對于人員構成的重視程度和實際工作的難度。在指南的制訂過程中,多學科人員需要投入相當多的經歷進行工作,資深專家的參與時間常常有限。而協調不同學科的人員也存在困難。因此過于追求人員構成的合理性,有時會增加實際工作的難度,參與人員的組織很大程度上依賴指南制訂組織的影響力和資源。移植領域涉及問題復雜,涉及學科多,因此需要組建相對復雜的指南制訂小組,并聽取多領域的建議。而從事移植的人員相對較少,資深專家缺乏,因此在指南制訂的過程中可能捉襟見肘。
應用性方面的不足說明了推薦意見的實施過程可能較為困難。首先目前移植領域的問題,仍停留在原則和概念層面,因此具體措施和方法仍難以推行。其次移植領域涉及多種不同器官和疾病的臨床過程,常需參考不同疾病在非移植背景下的處置方式,而移植領域的特殊性問題因器官和疾病而異,難以尋找共性的方法,得出系統性結論。因此推薦意見常不夠具體,難以實施,或問題的表述過于碎片化,難以形成完善的體系。
雖然指南制訂方法不斷完善,但對于復雜背景下的臨床問題,指南的制訂流程、方法學和形式并不能完全反應結論的實際價值。具體臨床研究的樣本量、異質性和適用方面的評價需要豐富的臨床和方法學知識,以及對臨床具體過程的了解。當臨床問題變得更為復雜時,對于評價者或評價小組的要求更為嚴格。因此在移植領域的文獻和指南的評價中,偏倚和適用性的判定均更加復雜。目前簡單的形式評價仍不足以反應這些問題。在本次評價的基礎上,仍需更深入地結合臨床實踐,更廣泛地總結指南應用效果,從而得出最終評價結果。
綜上所述,2017 年全球移植領域臨床實踐指南的不同領域得分差異較大,該領域指南在參與人員和應用性方面需要進一步提高。移植領域指南的制訂存在很多特殊問題。對于一個目標人群較小的學科,指南質量的提高,可能需要更長期工作積累。而參與人員和應用性方面問題的解決可能需要更廣泛的合作和更多的資源投入。