引用本文: 周英鳳, 王強, 胡雁, 邢唯杰, 章孟星, 鐘婕, 傅亮. 中國護理臨床實踐指南質量評價標準的信效度評價. 中國循證醫學雜志, 2019, 19(1): 84-88. doi: 10.7507/1672-2531.201807027 復制
20 世紀 80 年代臨床實踐指南制訂工作開始在全球范圍開展,其作為指導醫療護理實踐活動的重要工具和決策依據,受到了研究者、實踐者和管理者的極大關注,國際國內臨床實踐指南的數量不斷增加[1, 2]。隨著循證醫學的發展及對指南構建方法學的影響,美國醫學研究所(institute of medicine,IOM)于 2011 年更新了對指南的定義:綜合考慮基于系統評價的證據并權衡不同干預措施的利弊,形成為患者提供最佳保健服務的推薦意見[3]。基于循證證據的臨床實踐指南也被視為無偏倚的衛生標準,能夠規范醫療護理行為,降低醫療費用,提高醫療服務質量[4]。然而,現有指南的制訂因存在方法學和報告缺陷導致指南質量參差不齊[5, 6]。為了提高臨床實踐指南的質量,推動指南的發表和傳播,國際上推出了指南質量評價工具(the Appraisal of Guidelines for Research & Evaluation, AGREE Ⅱ),但該工具缺乏對指南內容真實性的評價,各條目權重不清及個別條目不完全適用于中國指南[7]。因此,2017 年 9 月受國家衛生健康委醫療管理服務指導中心的委托,由復旦大學循證護理中心牽頭聯合全國護理行業專家,在復旦大學王吉耀教授團隊制作的“中國醫療領域臨床實踐指南質量評價標準(草案)”的基礎上,結合護理學科的特點和循證護理實踐發展要求,制定了中國護理領域臨床實踐指南質量評價標準。本研究旨在評估該指南質量評價標準的信效度,為我國護理領域內指南的質量管理提供標準和評價依據。
1 對象與方法
1.1 評價對象
本研究選取護理領域內艾滋病臨床護理實踐指南及靜脈輸液臨床實踐指南作為評價對象。艾滋病臨床護理實踐指南由上海市公共衛生臨床中心與復旦大學 JBI 循證護理合作中心共同構建,并于 2014 年 3 月推出,其指南涵蓋了艾滋病高效聯合抗反轉錄病毒治療依從性及艾滋病相關的 12 大癥狀方面護理的證據和推薦意見[8]。靜脈輸液臨床實踐指南是由美國靜脈輸液協會 2016 年推出的指南,涵蓋了靜脈輸液相關人員、血管通路裝置、輸液治療及相關并發癥等 9 大方面的證據和推薦意見[9]。
1.2 評價人員
采用目的抽樣法,遵循專業性和科學性原則,選取相關領域專家組成質量評價小組。遴選標準:具有碩士及以上學歷、受過循證方法學專業教育、參與或主持過護理領域臨床實踐指南的制定。評價小組共包括 5 位成員:平均年齡 34.8±10.1 歲;3 位具有博士學位,2 位具有碩士學位;1 位具有高級職稱,1 位具有副高職稱。所有專家均參與過護理領域臨床實踐指南的制定,具有臨床實踐指南質量評價的研究經歷。
1.3 評價工具
1.3.1 中國護理領域臨床實踐指南質量評價標準
該標準經過兩輪團體焦點訪談法,包括 5 個維度的 15 個條目,從指南制定過程的科學性/嚴謹性、推薦意見有效性/安全性、經濟性、指南的可用性/可行性、指南制定過程的利益沖突 5 大方面對護理領域臨床實踐指南質量進行評價。每個條目均采用 0~5 分制進行評分(0 分為完全不符合,5 分為完全符合),并考慮到不同條目對指南質量的影響程度設置了不同的權重,總分 100 分,60 分以上為強推薦,31~59 分為弱推薦,30 分以下為不推薦。我國護理領域臨床實踐指南質量評價標準與 AGREE Ⅱ 相比:① 在評價條目上,由 23 條精簡到 15 條,實際評價中更簡單高效;② 在內容上考慮到臨床實踐者更關注有效性和安全性,因此將其作為單獨的評價領域,并強調并納入中國本土化研究證據及考慮護理領域證據的多元性;③ 在評分上由 7 分制改為 5 分制,根據不同條目的重要性不同設置了相應的權重;④ 在評分標準上,采用逐級評分的方法,將定性描述和定量評價相結合,具有較好的可操作性[10, 11]。
1.3.2 AGREE Ⅱ
AGREE Ⅱ 由英國 AGREE 國際協作組織于 2003 年制定,在 2009 年發布了第二版[12],包括 6 個領域 23 個條目,內容涵蓋范圍和目的、參與人員、制定的嚴謹性、清晰性與可讀性、適用性、編輯的獨立性。每個條目均采用 1~7 分進行評價(1 分為非常不同意,7 分為非常同意),然后計算每個領域的得分,并進行標準化處理。最后確定指南總體意見是推薦、修改后推薦或不推薦。
1.4 評價方法
將“艾滋病臨床護理實踐指南”、“靜脈輸液臨床實踐指南”與兩個指南評價工具一起發給評價者,為避免 AGREE Ⅱ對中國護理領域臨床實踐指南質量評價標準的影響,要求所有成員首先采用中國護理領域臨床實踐指南質量評價標準對兩份指南進行質量評價,然后再采用 AGREE Ⅱ對兩份指南進行質量評價。所有成員均獨立完成 2 種質量評價標準對指南的評價。
1.5 統計方法
采用 SPSS 22.0 軟件進行統計分析,采用均數±標準差、變異系數來描述各評價條目在評價人員之間的集中和離散趨勢。中國護理領域臨床實踐指南質量評價標準的信度采用組內相關系數(intraclass correlation coefficient,ICC)對同一份指南在不同評價人員間的內部一致性進行測定,當 ICC 值>0.70 時代表評價者間具有非常好的一致性。中國護理領域臨床實踐指南質量評價標準的效度采用與 AGREEⅡ比較的一致性檢驗進行測定。由于中國護理領域臨床實踐指南質量評價標準和 AGREE Ⅱ 在維度、條目數及各條目的評分標準均不同,因此,借鑒 AGREEⅠ 標準化處理方式,即是對每位評價者的評分進行標準化處理:標準化得分率=(評價的實際得分?最小可能得分)/(最大可能得分?最小可能得分)×100%,然后進行一致性檢驗,當一致性系數>0.75 代表兩個評價工具間具有非常好的一致性[13, 14]。
2 結果
2.1 兩個評價工具對兩份指南的評價情況
首先采用中國護理領域臨床實踐指南質量評價標準對艾滋病指南進行評價,結果顯示,評價者對 3 個條目評價的不一致性較高,變異系數>0.3;對靜脈輸液指南的評價結果顯示,評價者對 10 個條目評價的不一致性較高,變異系數>0.3。不一致性主要集中在證據的質量評價、證據體的分級、形成推薦意見的方法、推薦等級、推薦方案的有效性、安全性及推薦意見的經濟性等條目上。評價者再采用 AGREE Ⅱ 對兩份指南進行質量評價,結果顯示,在艾滋病指南的評價中,評價者對 5 個條目的評價存在不一致,變異系數>0.3;在靜脈輸液指南中,評價者對 13 個條目評價的不一致性較高,變異系數>0.3。具體見表 1。

2.2 中國護理領域臨床實踐指南質量評價標準的信效度測定
5 位評價者采用中國護理領域臨床實踐指南質量評價標準對艾滋病指南及靜脈輸液指南進行評價,評價者組內相關系數(ICC)分別為 0.979 及 0.890。采用 AGREEⅡ對艾滋病指南及靜脈輸液指南進行質量評價,ICC 分別為 0.957 及 0.887。采用中國護理領域臨床實踐指南質量評價標準及 AGREEⅡ對艾滋病指南評價的標準化得分率分別為 83%、83.2%、80%、77%、71.8% 及 81.9%、87.7%、79.7%、73.2%、63%,兩個評價工具用于評價該指南之間的一致性系數為 0.880,呈高度一致性。采用中國護理領域臨床實踐指南質量評價標準及 AGREEⅡ對靜脈輸液指南評價的標準化得分率分別為 68.6%、56.4%、57.4%、43.4%、46.8% 及 75.4%、50.0%、66.7%、51.4%、47.8%,兩個評價工具用于評價該指南之間的一致性系數為 0.886,亦呈高度一致性。
3 討論
3.1 中國護理領域臨床實踐指南質量評價標準具有較好的信效度
臨床實踐指南作為醫務人員臨床決策的指導性工具,有助于醫護人員了解當前的最佳證據及指南的推薦意見是否能幫助其解決所面臨的具體臨床問題[15]。因此,臨床實踐指南質量的高低對醫護人員做出科學、合理的臨床決策至關重要,這就迫切需要一個幫助醫護人員對臨床實踐指南進行快速有效判斷的評價工具,以判斷該指南的質量和效用。目前國際上已發布了多個指南評價工具,但有研究指出這些評價工具存在較大的差異性[16, 17],雖然這些工具日趨全面和實用,但仍然缺乏對指南內容的評價,也無法很好地應用于中國指南[7]。國際上應用最廣泛的 AGREE Ⅱ 工具作為唯一使用數字評分且經過驗證的指南評價工具,仍然存在條目眾多、缺乏對指南內容真實性的評價及條目權重不清等問題[7]。而本研究所構建的中國護理領域臨床實踐指南質量評價標準,包括 5 個維度、15 個條目,秉持了 AGREEⅡ 使用數字評分的方法,但同時增加了對指南推薦意見的安全性、有效性及經濟性的評價,且對每個條目設置了權重,彌補了 AGREEⅡ 的缺陷。此外,AGREEⅡ 推薦每個指南至少有 2 名、最好有 4 名評價人員進行質量評價[18],本研究在充分考慮評價人員的資質及專業背景的情況下,遴選了 5 位評價者采用上述兩種標準對 2 篇護理領域內的臨床實踐指南進行質量評價,結果表明,中國護理領域臨床實踐指南質量評價標準在不同評價者之間具有較好的一致性,且對同 1 篇指南,中國護理領域臨床實踐指南質量評價標準與 AGREEⅡ的評價結果具有高度一致性。因此,中國護理領域臨床實踐指南質量評價標準具有較好的信度和效度,可以作為護理研究者、管理者及實踐者評價護理領域內臨床實踐指南質量的工具。
3.2 評價者使用中國護理領域臨床實踐指南質量評價工具時應對該工具詳細解讀
盡管中國護理領域臨床實踐指南質量評價標準具有較好的信度和效度,但是從本研究的評價結果看,不同評價者對同一條目的評價仍存在較大的不一致性,主要集中在證據的質量評價、形成推薦意見的方法、推薦方案的有效性、推薦意見的經濟學問題等條目,不同評價者之間的變異系數>0.3。特別是對靜脈輸液指南,不同評價者不一致的條目較多。首先,這可能與本研究未對評價者進行統一培訓有關。本研究為避免培訓對評價者帶來的影響,未對 5 位評價者在指南評價前進行統一培訓。其次,靜脈輸液指南中對上述條目的描述比較籠統,導致不同評價者對其的判斷和評價存在較大差異。盡管靜脈輸液指南已經由中華護理學會翻譯漢化并發布,但該指南仍更適用于美國靜脈輸液環境,這也反映了中國護理領域臨床實踐指南質量評價標準對中國本土化指南具有更好的適用性。但上述不一致的條目仍反映了指南內容的真實性及推薦意見對臨床具體問題的影響,故對這些條目評價的準確性至關重要。因此,建議護理指南評價者在使用該指南質量評價標準前,應了解循證護理的理論,熟悉指南制定的方法學,并認真解讀該指南質量評價標準,理解評價條目的內涵及評分標準。若有多位評價者使用該工具對多份指南進行質量評價,建議在評價前對評價者進行統一培訓,減少不同評價者對指南質量評價理解不一致導致的偏倚。此外,本研究僅選取了兩篇護理領域內的臨床實踐指南對中國護理領域臨床實踐指南質量評價標準的信效度進行預評價,尚未進行大規模驗證和評價,因此,該指南質量評價標準隨著其在更大范圍的推廣和使用,仍需持續更新和完善。
20 世紀 80 年代臨床實踐指南制訂工作開始在全球范圍開展,其作為指導醫療護理實踐活動的重要工具和決策依據,受到了研究者、實踐者和管理者的極大關注,國際國內臨床實踐指南的數量不斷增加[1, 2]。隨著循證醫學的發展及對指南構建方法學的影響,美國醫學研究所(institute of medicine,IOM)于 2011 年更新了對指南的定義:綜合考慮基于系統評價的證據并權衡不同干預措施的利弊,形成為患者提供最佳保健服務的推薦意見[3]。基于循證證據的臨床實踐指南也被視為無偏倚的衛生標準,能夠規范醫療護理行為,降低醫療費用,提高醫療服務質量[4]。然而,現有指南的制訂因存在方法學和報告缺陷導致指南質量參差不齊[5, 6]。為了提高臨床實踐指南的質量,推動指南的發表和傳播,國際上推出了指南質量評價工具(the Appraisal of Guidelines for Research & Evaluation, AGREE Ⅱ),但該工具缺乏對指南內容真實性的評價,各條目權重不清及個別條目不完全適用于中國指南[7]。因此,2017 年 9 月受國家衛生健康委醫療管理服務指導中心的委托,由復旦大學循證護理中心牽頭聯合全國護理行業專家,在復旦大學王吉耀教授團隊制作的“中國醫療領域臨床實踐指南質量評價標準(草案)”的基礎上,結合護理學科的特點和循證護理實踐發展要求,制定了中國護理領域臨床實踐指南質量評價標準。本研究旨在評估該指南質量評價標準的信效度,為我國護理領域內指南的質量管理提供標準和評價依據。
1 對象與方法
1.1 評價對象
本研究選取護理領域內艾滋病臨床護理實踐指南及靜脈輸液臨床實踐指南作為評價對象。艾滋病臨床護理實踐指南由上海市公共衛生臨床中心與復旦大學 JBI 循證護理合作中心共同構建,并于 2014 年 3 月推出,其指南涵蓋了艾滋病高效聯合抗反轉錄病毒治療依從性及艾滋病相關的 12 大癥狀方面護理的證據和推薦意見[8]。靜脈輸液臨床實踐指南是由美國靜脈輸液協會 2016 年推出的指南,涵蓋了靜脈輸液相關人員、血管通路裝置、輸液治療及相關并發癥等 9 大方面的證據和推薦意見[9]。
1.2 評價人員
采用目的抽樣法,遵循專業性和科學性原則,選取相關領域專家組成質量評價小組。遴選標準:具有碩士及以上學歷、受過循證方法學專業教育、參與或主持過護理領域臨床實踐指南的制定。評價小組共包括 5 位成員:平均年齡 34.8±10.1 歲;3 位具有博士學位,2 位具有碩士學位;1 位具有高級職稱,1 位具有副高職稱。所有專家均參與過護理領域臨床實踐指南的制定,具有臨床實踐指南質量評價的研究經歷。
1.3 評價工具
1.3.1 中國護理領域臨床實踐指南質量評價標準
該標準經過兩輪團體焦點訪談法,包括 5 個維度的 15 個條目,從指南制定過程的科學性/嚴謹性、推薦意見有效性/安全性、經濟性、指南的可用性/可行性、指南制定過程的利益沖突 5 大方面對護理領域臨床實踐指南質量進行評價。每個條目均采用 0~5 分制進行評分(0 分為完全不符合,5 分為完全符合),并考慮到不同條目對指南質量的影響程度設置了不同的權重,總分 100 分,60 分以上為強推薦,31~59 分為弱推薦,30 分以下為不推薦。我國護理領域臨床實踐指南質量評價標準與 AGREE Ⅱ 相比:① 在評價條目上,由 23 條精簡到 15 條,實際評價中更簡單高效;② 在內容上考慮到臨床實踐者更關注有效性和安全性,因此將其作為單獨的評價領域,并強調并納入中國本土化研究證據及考慮護理領域證據的多元性;③ 在評分上由 7 分制改為 5 分制,根據不同條目的重要性不同設置了相應的權重;④ 在評分標準上,采用逐級評分的方法,將定性描述和定量評價相結合,具有較好的可操作性[10, 11]。
1.3.2 AGREE Ⅱ
AGREE Ⅱ 由英國 AGREE 國際協作組織于 2003 年制定,在 2009 年發布了第二版[12],包括 6 個領域 23 個條目,內容涵蓋范圍和目的、參與人員、制定的嚴謹性、清晰性與可讀性、適用性、編輯的獨立性。每個條目均采用 1~7 分進行評價(1 分為非常不同意,7 分為非常同意),然后計算每個領域的得分,并進行標準化處理。最后確定指南總體意見是推薦、修改后推薦或不推薦。
1.4 評價方法
將“艾滋病臨床護理實踐指南”、“靜脈輸液臨床實踐指南”與兩個指南評價工具一起發給評價者,為避免 AGREE Ⅱ對中國護理領域臨床實踐指南質量評價標準的影響,要求所有成員首先采用中國護理領域臨床實踐指南質量評價標準對兩份指南進行質量評價,然后再采用 AGREE Ⅱ對兩份指南進行質量評價。所有成員均獨立完成 2 種質量評價標準對指南的評價。
1.5 統計方法
采用 SPSS 22.0 軟件進行統計分析,采用均數±標準差、變異系數來描述各評價條目在評價人員之間的集中和離散趨勢。中國護理領域臨床實踐指南質量評價標準的信度采用組內相關系數(intraclass correlation coefficient,ICC)對同一份指南在不同評價人員間的內部一致性進行測定,當 ICC 值>0.70 時代表評價者間具有非常好的一致性。中國護理領域臨床實踐指南質量評價標準的效度采用與 AGREEⅡ比較的一致性檢驗進行測定。由于中國護理領域臨床實踐指南質量評價標準和 AGREE Ⅱ 在維度、條目數及各條目的評分標準均不同,因此,借鑒 AGREEⅠ 標準化處理方式,即是對每位評價者的評分進行標準化處理:標準化得分率=(評價的實際得分?最小可能得分)/(最大可能得分?最小可能得分)×100%,然后進行一致性檢驗,當一致性系數>0.75 代表兩個評價工具間具有非常好的一致性[13, 14]。
2 結果
2.1 兩個評價工具對兩份指南的評價情況
首先采用中國護理領域臨床實踐指南質量評價標準對艾滋病指南進行評價,結果顯示,評價者對 3 個條目評價的不一致性較高,變異系數>0.3;對靜脈輸液指南的評價結果顯示,評價者對 10 個條目評價的不一致性較高,變異系數>0.3。不一致性主要集中在證據的質量評價、證據體的分級、形成推薦意見的方法、推薦等級、推薦方案的有效性、安全性及推薦意見的經濟性等條目上。評價者再采用 AGREE Ⅱ 對兩份指南進行質量評價,結果顯示,在艾滋病指南的評價中,評價者對 5 個條目的評價存在不一致,變異系數>0.3;在靜脈輸液指南中,評價者對 13 個條目評價的不一致性較高,變異系數>0.3。具體見表 1。

2.2 中國護理領域臨床實踐指南質量評價標準的信效度測定
5 位評價者采用中國護理領域臨床實踐指南質量評價標準對艾滋病指南及靜脈輸液指南進行評價,評價者組內相關系數(ICC)分別為 0.979 及 0.890。采用 AGREEⅡ對艾滋病指南及靜脈輸液指南進行質量評價,ICC 分別為 0.957 及 0.887。采用中國護理領域臨床實踐指南質量評價標準及 AGREEⅡ對艾滋病指南評價的標準化得分率分別為 83%、83.2%、80%、77%、71.8% 及 81.9%、87.7%、79.7%、73.2%、63%,兩個評價工具用于評價該指南之間的一致性系數為 0.880,呈高度一致性。采用中國護理領域臨床實踐指南質量評價標準及 AGREEⅡ對靜脈輸液指南評價的標準化得分率分別為 68.6%、56.4%、57.4%、43.4%、46.8% 及 75.4%、50.0%、66.7%、51.4%、47.8%,兩個評價工具用于評價該指南之間的一致性系數為 0.886,亦呈高度一致性。
3 討論
3.1 中國護理領域臨床實踐指南質量評價標準具有較好的信效度
臨床實踐指南作為醫務人員臨床決策的指導性工具,有助于醫護人員了解當前的最佳證據及指南的推薦意見是否能幫助其解決所面臨的具體臨床問題[15]。因此,臨床實踐指南質量的高低對醫護人員做出科學、合理的臨床決策至關重要,這就迫切需要一個幫助醫護人員對臨床實踐指南進行快速有效判斷的評價工具,以判斷該指南的質量和效用。目前國際上已發布了多個指南評價工具,但有研究指出這些評價工具存在較大的差異性[16, 17],雖然這些工具日趨全面和實用,但仍然缺乏對指南內容的評價,也無法很好地應用于中國指南[7]。國際上應用最廣泛的 AGREE Ⅱ 工具作為唯一使用數字評分且經過驗證的指南評價工具,仍然存在條目眾多、缺乏對指南內容真實性的評價及條目權重不清等問題[7]。而本研究所構建的中國護理領域臨床實踐指南質量評價標準,包括 5 個維度、15 個條目,秉持了 AGREEⅡ 使用數字評分的方法,但同時增加了對指南推薦意見的安全性、有效性及經濟性的評價,且對每個條目設置了權重,彌補了 AGREEⅡ 的缺陷。此外,AGREEⅡ 推薦每個指南至少有 2 名、最好有 4 名評價人員進行質量評價[18],本研究在充分考慮評價人員的資質及專業背景的情況下,遴選了 5 位評價者采用上述兩種標準對 2 篇護理領域內的臨床實踐指南進行質量評價,結果表明,中國護理領域臨床實踐指南質量評價標準在不同評價者之間具有較好的一致性,且對同 1 篇指南,中國護理領域臨床實踐指南質量評價標準與 AGREEⅡ的評價結果具有高度一致性。因此,中國護理領域臨床實踐指南質量評價標準具有較好的信度和效度,可以作為護理研究者、管理者及實踐者評價護理領域內臨床實踐指南質量的工具。
3.2 評價者使用中國護理領域臨床實踐指南質量評價工具時應對該工具詳細解讀
盡管中國護理領域臨床實踐指南質量評價標準具有較好的信度和效度,但是從本研究的評價結果看,不同評價者對同一條目的評價仍存在較大的不一致性,主要集中在證據的質量評價、形成推薦意見的方法、推薦方案的有效性、推薦意見的經濟學問題等條目,不同評價者之間的變異系數>0.3。特別是對靜脈輸液指南,不同評價者不一致的條目較多。首先,這可能與本研究未對評價者進行統一培訓有關。本研究為避免培訓對評價者帶來的影響,未對 5 位評價者在指南評價前進行統一培訓。其次,靜脈輸液指南中對上述條目的描述比較籠統,導致不同評價者對其的判斷和評價存在較大差異。盡管靜脈輸液指南已經由中華護理學會翻譯漢化并發布,但該指南仍更適用于美國靜脈輸液環境,這也反映了中國護理領域臨床實踐指南質量評價標準對中國本土化指南具有更好的適用性。但上述不一致的條目仍反映了指南內容的真實性及推薦意見對臨床具體問題的影響,故對這些條目評價的準確性至關重要。因此,建議護理指南評價者在使用該指南質量評價標準前,應了解循證護理的理論,熟悉指南制定的方法學,并認真解讀該指南質量評價標準,理解評價條目的內涵及評分標準。若有多位評價者使用該工具對多份指南進行質量評價,建議在評價前對評價者進行統一培訓,減少不同評價者對指南質量評價理解不一致導致的偏倚。此外,本研究僅選取了兩篇護理領域內的臨床實踐指南對中國護理領域臨床實踐指南質量評價標準的信效度進行預評價,尚未進行大規模驗證和評價,因此,該指南質量評價標準隨著其在更大范圍的推廣和使用,仍需持續更新和完善。