引用本文: 張淼, 刁莎, 曾力楠, 易秋莎, 李海龍, 陳哲, 黃超, 王強, 張伶俐. 指南臨床適用性評價工具(2.0版)信效度分析. 中國循證醫學雜志, 2023, 23(1): 80-84. doi: 10.7507/1672-2531.202209044 復制
ADAPTE(guideline adaptation: a resource toolkit)定義指南臨床適用性是指:推薦意見能夠在臨床實踐中推廣使用的程度,其影響因素包括內部因素和外部因素,例如指南質量(如是否清晰定義了目標患者,并與當地患者相符),實施推薦意見所需的技能、設備和人員等[1]。有研究表明,推廣與實施效果不理想是現有大多數指南存在的共同問題[2],即臨床適用性差。但目前全球沒有公認或統一的指南臨床適用性評價標準[3]。因此,本課題組前期已經制訂了指南臨床適用性評價工具(1.0版)[4](以下簡稱“工具(1.0版)”),并評價了其信效度[5]。為進一步提高已建立的指南臨床適用性評價體系的科學性和可行性,我們通過更新系統評價結果和德爾菲專家咨詢完善了工具(1.0版)評價條目,形成了指南臨床適用性評價工具(2.0版)[6](以下簡稱“工具(2.0版)”)。為評價修訂后工具(2.0版)的可靠性和準確性,需分析其信度和效度[7]。因此,本研究采用工具(2.0版)評價《手癬和足癬診療指南(2017修訂版)》[8](以下簡稱《手癬和足癬指南》)和《中國腦出血診治指南(2019)》[9](以下簡稱《腦出血指南》),分析工具(2.0版)的信度和效度,以驗證其可靠性和準確性。
1 資料與方法
1.1 調查對象
根據多因素分析需要,調查研究樣本量預估為影響因素的5~20倍,若設樣本量為影響因素的5倍,則最小樣本量為60例[10]。《手癬和足癬指南》臨床適用性評價調查,分別從東、中、西部地區抽取已開展手癬和足癬相關診治工作的各級醫療機構,在每家醫療機構抽取皮膚病科、內分泌科、感染科等共6~8人,其中高級職稱2~3人、中級職稱2~3人、初級職稱2人[6]。《腦出血指南》臨床適用性評價調查,分別從東、中、西部地區抽取已開展腦出血診治工作的各級醫療機構,在每家醫療機構抽取神經內科、神經外科、急診科等共6~8人,其中高級職稱2~3人、中級職稱2~3人、初級職稱2人。采用電子郵件發送工具(2.0版)進行調查。
1.2 研究工具
工具(2.0版)包括兩部分,第一部分為評價者基本信息:年齡、地區、學歷、人員類別、職稱、機構性質、機構等級、利益沖突說明等;第二部分為評價條目:評價條目與領域所表述內容的相關程度,包括4個維度共12個條目。其中,9個條目采用5級李克特評分量表進行評價,分數越高,說明條目與領域所述內容越相關,即1分為完全不相關,5分為非常相關;2個條目采用多選形式,1個條目采用自由填寫形式,但這三個條目均不納入分析。漏答3個問題以上的問卷視為無效問卷[7]。
1.3 統計分析
采用SPSS 26.0軟件和AMOS 24.0軟件對數據進行統計分析,包括工具(2.0版)用于評價《手癬和足癬指南》和《腦出血指南》的信度和效度。信度包括:① 內在信度:計算各維度評分及總體評價的克朗巴赫系數(Cronbach’s α),一般認為該系數大于0.7為良好[7,11-13];② 分半信度:通過奇偶分半法將4個維度的8項評價條目按照奇偶順序平均分為2組,計算斯皮爾曼-布朗公式計算分半信度(Spearman-Brown)系數,一般認為該系數大于0.7為良好[7,12]。效度包括:① 內容效度:通過計算條目水平內容效度指數(item-the content validity index,I-CVI)、工具水平的內容效度指數(S-CVI/Ave)及調整后的Kappa值(K*)反映條目與相應評價領域的關聯性或代表性[7,14];② 結構效度:采用結構方程模型進行驗證性因子分析以評價工具的結構效度,若卡方/自由度(χ2/df)<3、比較擬合指數(CFI)>0.90、擬合優度指數(GFI)>0.90、增值擬合指數(IFI)>0.90、均方根殘差(RMR)<0.05、近似誤差均方根(RMSEA)<0.09、RMSEA假設檢驗P值>0.05,則認為模型擬合較好[7,12,15];③ 集合效度和區分效度:計算各條目與所在維度的相關系數,若相關系數≥0.4,則記為一個集合效度實驗成功[16];計算各條目與其他維度的相關系數并進行假設檢驗,若結果有統計學差異,則記為一個區分效度定標實驗成功[17]。集合效度和區分效度實驗成功率≥80%,則認為效度良好[11,18-19]。
2 結果
2.1 問卷回收結果
《手癬和足癬指南》臨床適用性評價共發放199份問卷,回收問卷198份,回收率為99.5%;有效問卷198份,有效回收率100%。《腦出血指南》臨床適用性評價發放86份問卷,回收問卷61份,回收率為70.9%;有效問卷61份,有效回收率100%。
2.2 信度分析
2.2.1 內在信度
分析結果顯示,兩部指南總體評價的Cronbach's α系數分別為0.886和0.872,各維度評分的Cronbach's α系數均大于0.7,說明工具(2.0版)的內部一致性信度良好(表1)。

2.2.2 分半信度
分析結果顯示,用Spearman-Brown公式校正后,兩部指南的分半信度分別為0.859和0.809,均大于0.7,說明工具(2.0版)的分半信度良好。
2.3 效度分析
2.3.1 內容效度
兩部指南的可獲得性的I-CVI分別為0.596和0.639,K*分別為0.595和0.636,其余維度各條目的I-CVI和K*均大于0.712,這提示工具(2.0版)內容效度較好,各條目有很好的相關性和代表性。內容效度指數S-CVI/Ave分別為0.806和0.874,這說明工具(2.0版)整體的內容效度良好(表2)。

2.3.2 集合效度和區分效度
集合效度結果顯示,各條目與所在維度的相關系數均大于0.4;區分效度結果顯示,各條目與其他維度的相關系數假設檢驗的結果均有統計學差異(P<0.05)。兩部指南的集合效度定標試驗的成功率均為100%。區分效度定標試驗的成功率分別為100%和96%,均大于80%。這說明工具(2.0版)的集合效度和區分效度良好(表3和表4)。


2.3.3 結構效度
根據工具(2.0版)評分理論結構,將8個評分條目作為測量變量,4個維度作為一階因子,構建結構方程模型,并對模型進行擬合。結構效度的結果顯示,兩部指南的模型χ2/df均小于3,模擬比較擬合指數(CFI)、擬合優度指數(GFI)、增值擬合指數(IFI)均大于0.9,均方根殘差(RMR)均小于0.05,近似誤差均方根(RMSEA)均小于0.09,RESEA假設檢驗的P值大于0.05。這說明工具測量結果和工具設計結構擬合效果較好,工具(2.0版)具有良好的結構效度(表5)。

3 討論
本研究評價了指南臨床適用性評價工具(2.0版)應用于《手癬和足癬指南》和《腦出血指南》的信度和效度。信度結果顯示,各維度和條目總體的Cronbach's α系數在0.745~0.937范圍內,均大于0.7,這說明工具(2.0版)用于評價各維度和總體評價的內部一致性程度較好。AGREE Ⅱ工具是用于評估臨床實踐指南質量的國際評估工具,在開發AGREE Ⅱ時也對各維度進行了信效度評價,結果顯示,AGREE Ⅱ工具的Cronbach's α系數在0.64~0.89范圍內,其中臨床適用性維度的Cronbach's α系數為0.8[20]。雖然AGREE Ⅱ被認為是國際指南評價的“金標準”,但該工具僅有一個領域與指南臨床適用性評價有關[4]。Li等[21]針對中醫領域臨床指南制訂了指南臨床適用性評價工具,結果顯示,各維度和條目總體的Cronbach's α系數均大于0.8,說明該工具的內部一致性好。本研究結果顯示,與其他指南評價工具相比,工具(2.0版)更適用于指南臨床適用性的評價,并且信度較好。
從內容效度來看,兩部指南除可獲得性的內容效度指數I-CVI和K*小于0.6外,其余各維度的I-CVI和K*均大于0.712,這說明工具(2.0版)的可讀性、可接受性、可行性這3各維度有很好的相關性和代表性,但在可獲得性方面還有待進一步調整和完善。就集合效度和區分效度而言,各條目與所在維度的相關系數均大于0.4,各條目與其他維度的相關系數假設檢驗的結果均有統計學差異(P<0.05),且集合效度和區分效度定標試驗的成功率均大于80%,說明工具(2.0版)能夠對各維度進行很好的區分,條目歸屬清晰,具有良好的集合效度和區分效度,這與之前的研究結果類似[5]。結構效度結果顯示,χ2/df小于3,CFI、GFI、IFI均大于0.9,RMR均小于0.05,RMSEA均小于0.09,RESEA假設檢驗的P值大于0.05,提示工具(2.0版)的模型擬合程度較好,具有較好的結構效度。由于指南臨床適用性主要由可獲得性、可讀性、可接受性、可行性這4個維度組成,而本研究結果顯示工具(2.0版)在這4個維度均較好,這主要得益于前期采用系統評價方法對臨床適用性評價條目的梳理,及德爾菲專家咨詢對各條目的篩選和外審專家的修訂。
為進一步驗證已建立的指南臨床適用性評價標準體系,提高工具(1.0版)的科學性和可行性,本研究通過更新系統評價和德爾菲專家咨詢法完善了工具(1.0版),形成了工具(2.0版)。相較于工具(1.0版),工具(2.0版)在可行性方面的條目更加全面;同時,結合全球與指南適用性相關的文獻,增加并修改了一些條目措辭。本研究結果表明,工具(2.0版)信度和效度均較好。但本研究受限于成本和時間,僅對兩部指南進行了信效度分析,結果的代表性尚有不足,未來可能還需通過對更多的臨床指南進行信效度分析,以驗證指南臨床適用性評價工具(2.0版)的可靠性和準確性,為進一步優化指南臨床適用性評價工具提供參考。
ADAPTE(guideline adaptation: a resource toolkit)定義指南臨床適用性是指:推薦意見能夠在臨床實踐中推廣使用的程度,其影響因素包括內部因素和外部因素,例如指南質量(如是否清晰定義了目標患者,并與當地患者相符),實施推薦意見所需的技能、設備和人員等[1]。有研究表明,推廣與實施效果不理想是現有大多數指南存在的共同問題[2],即臨床適用性差。但目前全球沒有公認或統一的指南臨床適用性評價標準[3]。因此,本課題組前期已經制訂了指南臨床適用性評價工具(1.0版)[4](以下簡稱“工具(1.0版)”),并評價了其信效度[5]。為進一步提高已建立的指南臨床適用性評價體系的科學性和可行性,我們通過更新系統評價結果和德爾菲專家咨詢完善了工具(1.0版)評價條目,形成了指南臨床適用性評價工具(2.0版)[6](以下簡稱“工具(2.0版)”)。為評價修訂后工具(2.0版)的可靠性和準確性,需分析其信度和效度[7]。因此,本研究采用工具(2.0版)評價《手癬和足癬診療指南(2017修訂版)》[8](以下簡稱《手癬和足癬指南》)和《中國腦出血診治指南(2019)》[9](以下簡稱《腦出血指南》),分析工具(2.0版)的信度和效度,以驗證其可靠性和準確性。
1 資料與方法
1.1 調查對象
根據多因素分析需要,調查研究樣本量預估為影響因素的5~20倍,若設樣本量為影響因素的5倍,則最小樣本量為60例[10]。《手癬和足癬指南》臨床適用性評價調查,分別從東、中、西部地區抽取已開展手癬和足癬相關診治工作的各級醫療機構,在每家醫療機構抽取皮膚病科、內分泌科、感染科等共6~8人,其中高級職稱2~3人、中級職稱2~3人、初級職稱2人[6]。《腦出血指南》臨床適用性評價調查,分別從東、中、西部地區抽取已開展腦出血診治工作的各級醫療機構,在每家醫療機構抽取神經內科、神經外科、急診科等共6~8人,其中高級職稱2~3人、中級職稱2~3人、初級職稱2人。采用電子郵件發送工具(2.0版)進行調查。
1.2 研究工具
工具(2.0版)包括兩部分,第一部分為評價者基本信息:年齡、地區、學歷、人員類別、職稱、機構性質、機構等級、利益沖突說明等;第二部分為評價條目:評價條目與領域所表述內容的相關程度,包括4個維度共12個條目。其中,9個條目采用5級李克特評分量表進行評價,分數越高,說明條目與領域所述內容越相關,即1分為完全不相關,5分為非常相關;2個條目采用多選形式,1個條目采用自由填寫形式,但這三個條目均不納入分析。漏答3個問題以上的問卷視為無效問卷[7]。
1.3 統計分析
采用SPSS 26.0軟件和AMOS 24.0軟件對數據進行統計分析,包括工具(2.0版)用于評價《手癬和足癬指南》和《腦出血指南》的信度和效度。信度包括:① 內在信度:計算各維度評分及總體評價的克朗巴赫系數(Cronbach’s α),一般認為該系數大于0.7為良好[7,11-13];② 分半信度:通過奇偶分半法將4個維度的8項評價條目按照奇偶順序平均分為2組,計算斯皮爾曼-布朗公式計算分半信度(Spearman-Brown)系數,一般認為該系數大于0.7為良好[7,12]。效度包括:① 內容效度:通過計算條目水平內容效度指數(item-the content validity index,I-CVI)、工具水平的內容效度指數(S-CVI/Ave)及調整后的Kappa值(K*)反映條目與相應評價領域的關聯性或代表性[7,14];② 結構效度:采用結構方程模型進行驗證性因子分析以評價工具的結構效度,若卡方/自由度(χ2/df)<3、比較擬合指數(CFI)>0.90、擬合優度指數(GFI)>0.90、增值擬合指數(IFI)>0.90、均方根殘差(RMR)<0.05、近似誤差均方根(RMSEA)<0.09、RMSEA假設檢驗P值>0.05,則認為模型擬合較好[7,12,15];③ 集合效度和區分效度:計算各條目與所在維度的相關系數,若相關系數≥0.4,則記為一個集合效度實驗成功[16];計算各條目與其他維度的相關系數并進行假設檢驗,若結果有統計學差異,則記為一個區分效度定標實驗成功[17]。集合效度和區分效度實驗成功率≥80%,則認為效度良好[11,18-19]。
2 結果
2.1 問卷回收結果
《手癬和足癬指南》臨床適用性評價共發放199份問卷,回收問卷198份,回收率為99.5%;有效問卷198份,有效回收率100%。《腦出血指南》臨床適用性評價發放86份問卷,回收問卷61份,回收率為70.9%;有效問卷61份,有效回收率100%。
2.2 信度分析
2.2.1 內在信度
分析結果顯示,兩部指南總體評價的Cronbach's α系數分別為0.886和0.872,各維度評分的Cronbach's α系數均大于0.7,說明工具(2.0版)的內部一致性信度良好(表1)。

2.2.2 分半信度
分析結果顯示,用Spearman-Brown公式校正后,兩部指南的分半信度分別為0.859和0.809,均大于0.7,說明工具(2.0版)的分半信度良好。
2.3 效度分析
2.3.1 內容效度
兩部指南的可獲得性的I-CVI分別為0.596和0.639,K*分別為0.595和0.636,其余維度各條目的I-CVI和K*均大于0.712,這提示工具(2.0版)內容效度較好,各條目有很好的相關性和代表性。內容效度指數S-CVI/Ave分別為0.806和0.874,這說明工具(2.0版)整體的內容效度良好(表2)。

2.3.2 集合效度和區分效度
集合效度結果顯示,各條目與所在維度的相關系數均大于0.4;區分效度結果顯示,各條目與其他維度的相關系數假設檢驗的結果均有統計學差異(P<0.05)。兩部指南的集合效度定標試驗的成功率均為100%。區分效度定標試驗的成功率分別為100%和96%,均大于80%。這說明工具(2.0版)的集合效度和區分效度良好(表3和表4)。


2.3.3 結構效度
根據工具(2.0版)評分理論結構,將8個評分條目作為測量變量,4個維度作為一階因子,構建結構方程模型,并對模型進行擬合。結構效度的結果顯示,兩部指南的模型χ2/df均小于3,模擬比較擬合指數(CFI)、擬合優度指數(GFI)、增值擬合指數(IFI)均大于0.9,均方根殘差(RMR)均小于0.05,近似誤差均方根(RMSEA)均小于0.09,RESEA假設檢驗的P值大于0.05。這說明工具測量結果和工具設計結構擬合效果較好,工具(2.0版)具有良好的結構效度(表5)。

3 討論
本研究評價了指南臨床適用性評價工具(2.0版)應用于《手癬和足癬指南》和《腦出血指南》的信度和效度。信度結果顯示,各維度和條目總體的Cronbach's α系數在0.745~0.937范圍內,均大于0.7,這說明工具(2.0版)用于評價各維度和總體評價的內部一致性程度較好。AGREE Ⅱ工具是用于評估臨床實踐指南質量的國際評估工具,在開發AGREE Ⅱ時也對各維度進行了信效度評價,結果顯示,AGREE Ⅱ工具的Cronbach's α系數在0.64~0.89范圍內,其中臨床適用性維度的Cronbach's α系數為0.8[20]。雖然AGREE Ⅱ被認為是國際指南評價的“金標準”,但該工具僅有一個領域與指南臨床適用性評價有關[4]。Li等[21]針對中醫領域臨床指南制訂了指南臨床適用性評價工具,結果顯示,各維度和條目總體的Cronbach's α系數均大于0.8,說明該工具的內部一致性好。本研究結果顯示,與其他指南評價工具相比,工具(2.0版)更適用于指南臨床適用性的評價,并且信度較好。
從內容效度來看,兩部指南除可獲得性的內容效度指數I-CVI和K*小于0.6外,其余各維度的I-CVI和K*均大于0.712,這說明工具(2.0版)的可讀性、可接受性、可行性這3各維度有很好的相關性和代表性,但在可獲得性方面還有待進一步調整和完善。就集合效度和區分效度而言,各條目與所在維度的相關系數均大于0.4,各條目與其他維度的相關系數假設檢驗的結果均有統計學差異(P<0.05),且集合效度和區分效度定標試驗的成功率均大于80%,說明工具(2.0版)能夠對各維度進行很好的區分,條目歸屬清晰,具有良好的集合效度和區分效度,這與之前的研究結果類似[5]。結構效度結果顯示,χ2/df小于3,CFI、GFI、IFI均大于0.9,RMR均小于0.05,RMSEA均小于0.09,RESEA假設檢驗的P值大于0.05,提示工具(2.0版)的模型擬合程度較好,具有較好的結構效度。由于指南臨床適用性主要由可獲得性、可讀性、可接受性、可行性這4個維度組成,而本研究結果顯示工具(2.0版)在這4個維度均較好,這主要得益于前期采用系統評價方法對臨床適用性評價條目的梳理,及德爾菲專家咨詢對各條目的篩選和外審專家的修訂。
為進一步驗證已建立的指南臨床適用性評價標準體系,提高工具(1.0版)的科學性和可行性,本研究通過更新系統評價和德爾菲專家咨詢法完善了工具(1.0版),形成了工具(2.0版)。相較于工具(1.0版),工具(2.0版)在可行性方面的條目更加全面;同時,結合全球與指南適用性相關的文獻,增加并修改了一些條目措辭。本研究結果表明,工具(2.0版)信度和效度均較好。但本研究受限于成本和時間,僅對兩部指南進行了信效度分析,結果的代表性尚有不足,未來可能還需通過對更多的臨床指南進行信效度分析,以驗證指南臨床適用性評價工具(2.0版)的可靠性和準確性,為進一步優化指南臨床適用性評價工具提供參考。