引用本文: 李海龍, 張川, 黃超, 曾力楠, 楊春松, 黃宗瑤, 易秋莎, 徐佩佩, 劉關鍵, 康德英, 劉巧蘭, 趙榮生, 劉翰旻, 張俊華, 李幼平, 王強, 張伶俐. 指南臨床適用性評價工具信效度分析. 中國循證醫學雜志, 2020, 20(4): 378-382. doi: 10.7507/1672-2531.201909124 復制
本課題組前期組建了由多學科人員組成的指南適用性評價工具制訂團隊,通過循證方法初步制訂了指南臨床適用性評價工具。為考察指南臨床適應性評價工具的可靠性和有效性,需要分析該評價工具的信度和效度[1, 2]。本研究旨在采用初步修訂的指南臨床適應性評價工具(以下簡稱“工具”)評價《中國腎移植排斥反應臨床診療指南(2016 版)》(以下簡稱“腎移植指南”)和《中國 2 型糖尿病防治指南(2017 版)》(以下簡稱“糖尿病指南”)兩部指南[3, 4],分析該工具的信度和效度,驗證其可靠性和有效性。
1 對象與方法
1.1 調查對象和方法
根據多因素分析需要[5],調查研究法樣本量預估為影響因素的 5~20 倍。設定樣本量為影響因素的 5 倍,失訪率 20%,算出最小樣本量為 80 例。專家咨詢對象為制訂組專家,由來自全國各地的多學科專家組成,包括指南方法學、臨床醫學、藥學、護理、醫院管理專家等,參與專家咨詢的制訂組專家共 89 名,其中具有指南制訂背景專家 11 名。采用電子郵件發送調查問卷,調查評價條目與領域所表述內容的相關程度分為 1~5 分,1 分為完全不相關,5 分為非常相關。
“腎移植指南”適用性評價調查,抽取國內已開展腎移植工作的醫療機構 16 家,每家醫療機構抽取腎移植科或相關科室醫生 6~8 人,其中高級職稱 2~3 名、中級職稱 2~3 名、初級職稱 2 名。“糖尿病指南”適用性評價調查,分別從東、中、西部地區抽取已開展糖尿病相關診治工作的醫療機構,每家醫療機構抽取老年科、內分泌科、腎臟科或相關科室醫生 6~8 人,其中高級職稱 2~3 名、中級職稱 2~3 名、初級職稱 2 名。被調查醫生現場閱讀指南后填寫設計好的紙質版問卷,另外通過電子問卷形式對未到現場的評價者進行調查。
1.2 研究工具
指南臨床適用性評價問卷由兩部分構成,第一部分為評價者基本信息:年齡、地區、學歷、人員類別、職稱、機構性質、機構等級、利益沖突說明等;第二部分為評價工具:由可獲得性、可讀性、可接受性、可行性 4 個維度以及總體評價,一共 12 個條目 Q1~Q12 構成。其中 Q2、Q10 和 Q12 為非計分題,不納入分析。其余為計分題,采用 Likert 5 級評分法評分。漏答 3 題以上的問卷視為無效問卷。
1.3 統計分析
采用 Epidata 軟件由兩位研究人員雙向比對錄入紙質版問卷,不一致的數據由第三位研究人員查閱原始問卷確認,電子問卷直接從網上導出數據。采用 SPSS 22.0 和 AMOS 22.0 軟件進行統計分析。采用均數、標準差、中位數、四分位數間距、最小值、最大值等指標描述總體評價和各維度評分等計量資料;通過計算組內相關系數(ICC)評價各維度加和評分與總體評價的一致性。信度分析包括內在信度和分半信度:內在信度通過計算各維度評分及整體工具的克朗巴赫系數(Cronbach's α)得出;分半信度:采用奇偶分半法將 4 個維度的 8 項評價條目按照奇偶順序平分為 2 組,利用斯皮爾曼-布朗公式(Spearman-Brown)計算分半信度系數,一般認為分半信度大于 0.7 為良好[2, 6-8]。效度分析包括內容效度、結構效度、集合效度和區分效度[2, 5, 6, 8, 9]。內容效度根據評價條目與相應評價領域的關聯性或代表性,計算內容效度指數(the content validity index,CVI)、條目水平內容效度指數(I-CVI)、工具水平的內容效度指數(S-CVI/Ave)及調整后的 Kappa 值(K*);結構效度通過結構方程模型進行驗證性因子分析,評價工具結構效度,評價指標包括,卡方/自由度(χ2/df<3 為優,<5 為良)、比較擬合指數(CFI>0.95 為優,>0.85 為良好)、擬合優度指數(GFI>0.95 為優)、調整擬合優度指數(AGFI>0.80 為優)、標準均方根殘差(SRMR<0.09 為優)、近似誤差均方根(RMSEA<0.09 為優,0.5~0.1 為良好)、RMSEA 假設檢驗 P 值(>0.05 為優);集合效度和區分效度比較條目與所在維度的相關系數,當相關系數>0.4,則記為一個集合效度定標實驗成功;比較條目與其他維度的相關系數,并進行假設檢驗[9],若假設檢驗結果有統計學意義則一個區分效度定標成功。成功率≥80% 則認為效度良好。
2 結果
2.1 問卷回收情況
“腎移植指南”評價調查發放問卷 128 份,回收 105 份,回收率 82.03%;符合剔除標準 0 份,有效問卷 105 份,有效回收率 82.03%。“糖尿病指南”評價調查發放問卷 725 份,回收 725 份,回收率 100%;符合剔除標準 3 份,有效問卷 722 份,有效回收率 99.59%。
2.2 指南評分情況
工具的內容效度指數 S-CVI/Ave 為 0.916,大于 0.90,提示工具整體內容效度良好。各條目的 I-CVI 均大于 0.762,K* 均大于 0.762(表 1),顯示所有條目內容效度為優,有很好的相關性和代表性。

兩部指南的臨床適用性各維度和總體評價標準化得分見表 2 和表 3,結果顯示兩部指南在可獲得性方面的評分最低,可接受性方面的評分最高。“腎移植指南”各維度的加和評分與總體評價的組內相關系數 ICC=0.674,95%CI(0.516,0.780);“糖尿病指南”的組內相關系數 ICC=0.687,95%CI(0.638,0.729),兩部指南的各維度加和評分與總體評價的一致性均較好。


2.3 信度分析
2.3.1 內在信度
內在信度分析結果顯示,兩部指南整體工具的 Cronbach's α 系數分別為 0.803 和 0.783,均大于 0.7;各維度評分的 Cronbach's α 系數均大于 0.7,表明工具的內部一致性信度較好(表 4)。

2.3.2 分半信度
分半信度結果顯示,“腎移植指南”的兩組評分 Pearson 相關系數為 0.764,Spearman-Brown 校正相關系數得到的分半信度為 0.857;“糖尿病指南”的兩組評分 Pearson 相關系數為 0.771,Spearman-Brown 校正的分半信度為 0.863。工具評價兩部指南的分半信度均大于 0.8,表明工具分半信度較好。
2.4 效度分析
2.4.1 集合效度和區分效度
相關性分析結果顯示,工具各條目與其所屬維度之間的相關系數 r 均大于 0.80,且均大于與其他維度之間的相關系數,差異均有統計學意義(P<0.05)。本研究兩個指南顯示的集合效度和區分效度的實驗成功率均達到 100%。均表明該工具的集合效度和區分效度較好(表 5 和表 6)。


2.4.2 結構效度
根據指南適用性評價工具評分理論結構,以 8 個評分條目作為測量變量,4 個維度作為一階因子,構建結構方程模型,使用最大似然法對模型進行擬合。結果顯示工具評價“腎移植指南”模型卡方/自由度在可接受范圍內(χ2/df=3.379),“糖尿病指南”模型卡方/自由度為優(χ2/df=2.463),“腎移植指南”模型比較擬合指數 CFI 良好,“糖尿病指南”為優。工具評價兩部指南的擬合優度指數 GFI 均大于 0.95,調整擬合優度指數 AGFI 均大于 0.8,標準均方根殘差 SRMR 和近似誤差均方根 RMSEA 均小于 0.09,RMSEA 假設檢驗 P 值均大于 0.05(表 7)。以上結果提示工具測量結果與工具設計結構擬合效果較好,說明該工具具有較好的結構效度。

3 討論
本研究結果顯示,整體評分以及各維度評分的 Cronbach's α 系數在 0.728 到 0.846 之間,均大于 0.7,提示評價條目整體以及各維度的信度較好。Li 等[10]針對中醫領域臨床指南制訂指南適用性評價工具,并評價工具信效度。結果顯示,工具整體的 Cronbach's α 系數為 0.9,4 個維度的 Cronbach's α 系數均大于 0.8,提示工具內部一致性佳[10]。AGREE 和 AGREE Ⅱ 工具在制訂時也進行了相應的信效度評價,結果發現 AGREE 工具各維度的 Cronbach's α 系數相似在 0.64 到 0.88 之間,AGREE Ⅱ 工具在 0.64~0.89 之間,其中適用性維度的 Cronbach's α 系數為 0.8[11, 12]。與以往類似研究相比,本研究評價工具的一致性信度處于中上水平。
結構效度分析的各項擬合指標均達標,提示指南適用性評價工具的理論結構合理,即指南適用性主要由 4 個維度組成,可獲得性、可讀性、可接受性、可行性。這得益于前期通過系統評價方法對指南適用性條目的梳理,Delphi 專家咨詢方法對條目的篩選以及外審專家的修訂。雖然評價工具的結構效度較好,但 4 個維度對指南適用性的貢獻(權重)尚不明確,這是目前指南評價研究的難點,有待今后進一步深入探索[10, 11]。
與臨床指南一樣,指南評價工具在制訂之后需要定期進行更新修訂,使其更好地滿足用戶的需求。作為國際公認的指南評價“金標準” AGREE 工具[11],為了進一步提高其可靠性和有效性,AGREE 工作組于 2009 年修訂了第 1 版的工具[12, 13],形成 AGREE Ⅱ[14]。本研究受限于時間和成本,僅對兩部臨床指南進行適用性評價調查并做信效度分析,結果的代表性尚存不足,需要通過對更多臨床指南的評價和信效度分析,以驗證工具的有效性和可靠性,并為進一步完善和優化工具提供依據。隨著更多醫務人員利用工具評價不同的臨床指南,我們期待從中發現新的研究問題,通過解決這些問題不斷提高指南的臨床適用性。
本課題組前期組建了由多學科人員組成的指南適用性評價工具制訂團隊,通過循證方法初步制訂了指南臨床適用性評價工具。為考察指南臨床適應性評價工具的可靠性和有效性,需要分析該評價工具的信度和效度[1, 2]。本研究旨在采用初步修訂的指南臨床適應性評價工具(以下簡稱“工具”)評價《中國腎移植排斥反應臨床診療指南(2016 版)》(以下簡稱“腎移植指南”)和《中國 2 型糖尿病防治指南(2017 版)》(以下簡稱“糖尿病指南”)兩部指南[3, 4],分析該工具的信度和效度,驗證其可靠性和有效性。
1 對象與方法
1.1 調查對象和方法
根據多因素分析需要[5],調查研究法樣本量預估為影響因素的 5~20 倍。設定樣本量為影響因素的 5 倍,失訪率 20%,算出最小樣本量為 80 例。專家咨詢對象為制訂組專家,由來自全國各地的多學科專家組成,包括指南方法學、臨床醫學、藥學、護理、醫院管理專家等,參與專家咨詢的制訂組專家共 89 名,其中具有指南制訂背景專家 11 名。采用電子郵件發送調查問卷,調查評價條目與領域所表述內容的相關程度分為 1~5 分,1 分為完全不相關,5 分為非常相關。
“腎移植指南”適用性評價調查,抽取國內已開展腎移植工作的醫療機構 16 家,每家醫療機構抽取腎移植科或相關科室醫生 6~8 人,其中高級職稱 2~3 名、中級職稱 2~3 名、初級職稱 2 名。“糖尿病指南”適用性評價調查,分別從東、中、西部地區抽取已開展糖尿病相關診治工作的醫療機構,每家醫療機構抽取老年科、內分泌科、腎臟科或相關科室醫生 6~8 人,其中高級職稱 2~3 名、中級職稱 2~3 名、初級職稱 2 名。被調查醫生現場閱讀指南后填寫設計好的紙質版問卷,另外通過電子問卷形式對未到現場的評價者進行調查。
1.2 研究工具
指南臨床適用性評價問卷由兩部分構成,第一部分為評價者基本信息:年齡、地區、學歷、人員類別、職稱、機構性質、機構等級、利益沖突說明等;第二部分為評價工具:由可獲得性、可讀性、可接受性、可行性 4 個維度以及總體評價,一共 12 個條目 Q1~Q12 構成。其中 Q2、Q10 和 Q12 為非計分題,不納入分析。其余為計分題,采用 Likert 5 級評分法評分。漏答 3 題以上的問卷視為無效問卷。
1.3 統計分析
采用 Epidata 軟件由兩位研究人員雙向比對錄入紙質版問卷,不一致的數據由第三位研究人員查閱原始問卷確認,電子問卷直接從網上導出數據。采用 SPSS 22.0 和 AMOS 22.0 軟件進行統計分析。采用均數、標準差、中位數、四分位數間距、最小值、最大值等指標描述總體評價和各維度評分等計量資料;通過計算組內相關系數(ICC)評價各維度加和評分與總體評價的一致性。信度分析包括內在信度和分半信度:內在信度通過計算各維度評分及整體工具的克朗巴赫系數(Cronbach's α)得出;分半信度:采用奇偶分半法將 4 個維度的 8 項評價條目按照奇偶順序平分為 2 組,利用斯皮爾曼-布朗公式(Spearman-Brown)計算分半信度系數,一般認為分半信度大于 0.7 為良好[2, 6-8]。效度分析包括內容效度、結構效度、集合效度和區分效度[2, 5, 6, 8, 9]。內容效度根據評價條目與相應評價領域的關聯性或代表性,計算內容效度指數(the content validity index,CVI)、條目水平內容效度指數(I-CVI)、工具水平的內容效度指數(S-CVI/Ave)及調整后的 Kappa 值(K*);結構效度通過結構方程模型進行驗證性因子分析,評價工具結構效度,評價指標包括,卡方/自由度(χ2/df<3 為優,<5 為良)、比較擬合指數(CFI>0.95 為優,>0.85 為良好)、擬合優度指數(GFI>0.95 為優)、調整擬合優度指數(AGFI>0.80 為優)、標準均方根殘差(SRMR<0.09 為優)、近似誤差均方根(RMSEA<0.09 為優,0.5~0.1 為良好)、RMSEA 假設檢驗 P 值(>0.05 為優);集合效度和區分效度比較條目與所在維度的相關系數,當相關系數>0.4,則記為一個集合效度定標實驗成功;比較條目與其他維度的相關系數,并進行假設檢驗[9],若假設檢驗結果有統計學意義則一個區分效度定標成功。成功率≥80% 則認為效度良好。
2 結果
2.1 問卷回收情況
“腎移植指南”評價調查發放問卷 128 份,回收 105 份,回收率 82.03%;符合剔除標準 0 份,有效問卷 105 份,有效回收率 82.03%。“糖尿病指南”評價調查發放問卷 725 份,回收 725 份,回收率 100%;符合剔除標準 3 份,有效問卷 722 份,有效回收率 99.59%。
2.2 指南評分情況
工具的內容效度指數 S-CVI/Ave 為 0.916,大于 0.90,提示工具整體內容效度良好。各條目的 I-CVI 均大于 0.762,K* 均大于 0.762(表 1),顯示所有條目內容效度為優,有很好的相關性和代表性。

兩部指南的臨床適用性各維度和總體評價標準化得分見表 2 和表 3,結果顯示兩部指南在可獲得性方面的評分最低,可接受性方面的評分最高。“腎移植指南”各維度的加和評分與總體評價的組內相關系數 ICC=0.674,95%CI(0.516,0.780);“糖尿病指南”的組內相關系數 ICC=0.687,95%CI(0.638,0.729),兩部指南的各維度加和評分與總體評價的一致性均較好。


2.3 信度分析
2.3.1 內在信度
內在信度分析結果顯示,兩部指南整體工具的 Cronbach's α 系數分別為 0.803 和 0.783,均大于 0.7;各維度評分的 Cronbach's α 系數均大于 0.7,表明工具的內部一致性信度較好(表 4)。

2.3.2 分半信度
分半信度結果顯示,“腎移植指南”的兩組評分 Pearson 相關系數為 0.764,Spearman-Brown 校正相關系數得到的分半信度為 0.857;“糖尿病指南”的兩組評分 Pearson 相關系數為 0.771,Spearman-Brown 校正的分半信度為 0.863。工具評價兩部指南的分半信度均大于 0.8,表明工具分半信度較好。
2.4 效度分析
2.4.1 集合效度和區分效度
相關性分析結果顯示,工具各條目與其所屬維度之間的相關系數 r 均大于 0.80,且均大于與其他維度之間的相關系數,差異均有統計學意義(P<0.05)。本研究兩個指南顯示的集合效度和區分效度的實驗成功率均達到 100%。均表明該工具的集合效度和區分效度較好(表 5 和表 6)。


2.4.2 結構效度
根據指南適用性評價工具評分理論結構,以 8 個評分條目作為測量變量,4 個維度作為一階因子,構建結構方程模型,使用最大似然法對模型進行擬合。結果顯示工具評價“腎移植指南”模型卡方/自由度在可接受范圍內(χ2/df=3.379),“糖尿病指南”模型卡方/自由度為優(χ2/df=2.463),“腎移植指南”模型比較擬合指數 CFI 良好,“糖尿病指南”為優。工具評價兩部指南的擬合優度指數 GFI 均大于 0.95,調整擬合優度指數 AGFI 均大于 0.8,標準均方根殘差 SRMR 和近似誤差均方根 RMSEA 均小于 0.09,RMSEA 假設檢驗 P 值均大于 0.05(表 7)。以上結果提示工具測量結果與工具設計結構擬合效果較好,說明該工具具有較好的結構效度。

3 討論
本研究結果顯示,整體評分以及各維度評分的 Cronbach's α 系數在 0.728 到 0.846 之間,均大于 0.7,提示評價條目整體以及各維度的信度較好。Li 等[10]針對中醫領域臨床指南制訂指南適用性評價工具,并評價工具信效度。結果顯示,工具整體的 Cronbach's α 系數為 0.9,4 個維度的 Cronbach's α 系數均大于 0.8,提示工具內部一致性佳[10]。AGREE 和 AGREE Ⅱ 工具在制訂時也進行了相應的信效度評價,結果發現 AGREE 工具各維度的 Cronbach's α 系數相似在 0.64 到 0.88 之間,AGREE Ⅱ 工具在 0.64~0.89 之間,其中適用性維度的 Cronbach's α 系數為 0.8[11, 12]。與以往類似研究相比,本研究評價工具的一致性信度處于中上水平。
結構效度分析的各項擬合指標均達標,提示指南適用性評價工具的理論結構合理,即指南適用性主要由 4 個維度組成,可獲得性、可讀性、可接受性、可行性。這得益于前期通過系統評價方法對指南適用性條目的梳理,Delphi 專家咨詢方法對條目的篩選以及外審專家的修訂。雖然評價工具的結構效度較好,但 4 個維度對指南適用性的貢獻(權重)尚不明確,這是目前指南評價研究的難點,有待今后進一步深入探索[10, 11]。
與臨床指南一樣,指南評價工具在制訂之后需要定期進行更新修訂,使其更好地滿足用戶的需求。作為國際公認的指南評價“金標準” AGREE 工具[11],為了進一步提高其可靠性和有效性,AGREE 工作組于 2009 年修訂了第 1 版的工具[12, 13],形成 AGREE Ⅱ[14]。本研究受限于時間和成本,僅對兩部臨床指南進行適用性評價調查并做信效度分析,結果的代表性尚存不足,需要通過對更多臨床指南的評價和信效度分析,以驗證工具的有效性和可靠性,并為進一步完善和優化工具提供依據。隨著更多醫務人員利用工具評價不同的臨床指南,我們期待從中發現新的研究問題,通過解決這些問題不斷提高指南的臨床適用性。