引用本文: 楊威, 李萌, 郭淑巖, 楊婷婷, 董四平. 醫院效率數據包絡分析模型有效性評價方法研究. 華西醫學, 2020, 35(12): 1435-1440. doi: 10.7507/1002-0179.202011259 復制
醫院效率評價是醫院績效考核的一個重要維度。數據包絡分析(data envelopment analysis,DEA)是最常用的醫院效率評價方法之一。DEA 基于線性規劃方法,不設定確定形式的生產函數,因此其輸入輸出選擇具有較大的自由度。這一方面方便了 DEA 的應用,但是另一方面其輸入輸出選擇從理論、時間、數據檢驗角度都缺乏明確的規定和限制[1],給模型有效性評價帶來較大困難。不同 DEA 模型的效能和有效性比較一直是 DEA 中一個容易被忽略的問題。Parkin 等[1]建議采用檢驗有效性的一般框架,通過建立多個 DEA 模型,并通過同一機構多年份 DEA 結果比較來驗證模型的有效性。在目前缺乏規范的模型有效性檢驗標準的情況下,這也成為了目前最常用的檢驗模型有效性的方法,被國內外許多學者廣泛采納[2-3]。本研究采用湖北省 2017 年—2018 年三級醫院疾病診斷相關分組(diagnosis-related group,DRG)試點數據,試將 DRG 指標引入醫院效率評價,豐富投入產出指標的細節,并對不同模型的有效性和效能進行分析。
1 資料與方法
1.1 數據來源
以 2017 年—2018 年湖北省三級醫院為研究對象。醫院運行、財務等數據來自于 2017 年—2018 年的衛生統計報表和 2014 年—2015 年的衛生財務報表。其中醫生和護士工資來自于衛生財務報表,因缺少當年度的衛生財務報表數據,以 2014 年—2015 年的衛生財務報表數據代替,2014、2015 年 2 年間醫生和護士的工資相關系數分別為 0.90 和 0.76,因此短期內可認為醫生和護士勞動力價格無重大變化。DRG 相關數據來自湖北省 2017 年—2018 年 2 年的 DRG 試點數據,2 年分別有 68 家醫院納入,其中 66 家醫院 2 年都納入。由于部分醫院運營數據缺失,共有 46 家醫院納入分析。
1.2 模型設定與評價
1.2.1 模型設定
分別建立 6 個模型以比較不同投入產出設定的結果,確定合理模型(表 1)。其中模型 1 是醫院效率分析中最常用的模型,投入變量為在職員工數和實際開放床位數,產出變量為門診人次和出院人次。模型 2 采用 DRG 指標進行分析,用 DRG 總權重對出院人次進行了替代。考慮到我國公立醫院精確的成本支出數據難以獲得,且大部分醫院財務收支基本平衡(該省 2015 年衛生財務報表中全部醫院的財務數據分析得出醫療支出與醫療收入的相關系數約為 0.998(P<0.01),模型 3 在模型 2 的基礎上,把醫療收入作為醫療支出的代理變量。模型 4 進一步把人員進行了細化,把不同類型的員工(醫生、護士、其他人員)作為不同種類的投入納入模型。模型 5 考慮不同醫院員工素質的差異,將不同類型員工的總工資作為投入變量替代員工數量,通過計算發現其他人員工資可能存在較大誤差,故在分析中僅納入醫生和護士工資。模型 6 是考慮了投入價格的成本最小化模型,所得效率為成本效率。模型 6 在模型 5 的基礎上,將床位、資產、收入的價格分別以單位值(即 1)納入模型,而將醫生和護士平均工資作為醫生和護士勞動力價格納入模型。以貨幣反映的資產,其價格應當是社會平均的資產價格,包含了資產折舊和利息[4],但由于同年份比較時不存在跨期現象,因此所有醫院的貨幣資產價格相同,模型 6 中以單位價格代表資產價格。

1.2.2 模型評價
根據社會科學中測量的基本理論,模型有效性的評價分為效度和信度 2 個方面。效度包括結果效度和測量效度 2 個方面,結果效度反映結果的可推廣性,主要取決于樣本選擇;有關 DEA 效度的探討應主要集中于測量效度,測量效度包括結構效度、內容效度和效標效度。結構效度,或稱構造效度,以與理論中其他因素的相關性來表示,在本研究中通過效率指標與其他醫院運營指標的關系進行分析。內容效度通過測量結果與概念的一致性來表示,本研究中內容效度的分析主要通過對投入產出指標的選擇和醫院效率概念的一致性的探討來完成。效標效度通過測量結果與金標準的比較來衡量,有部分學者通過 DEA 和其他參數方法的比較來評價模型有效性[2, 5]。本研究探討的是不同輸入輸出指標的選擇,因此不探討效標效度。模型信度反映測量的穩健性,一般通過內部一致性信度、折半信度和重測信度進行測量,本研究借鑒 Hollingsworth 等[5]的方法,通過連續 2 年效率值的相關度來近似反映。
DEA 分析的主要目標在于對不同效率的醫院進行區分,因此不少研究者將模型區分度作為模型效能的重要指標[6]。本研究在對比不同模型的有效性的同時,通過區分度來評價模型效能。
1.3 統計學方法
DEA 效率評價方法的缺陷之一在于未考慮隨機因素對效率的影響,因此結果穩健性較差。Simar 等[7]將 Bootstrap 方法應用于 DEA 分析,可計算效率值的置信區間并增強了計算結果的穩健性。本研究采用 R 4.0.0 軟件中的 rDEA 包(1.2-6)進行 Bootstrap-DEA 效率值計算,設定模型為輸出導向、規模報酬可變,通過 Bootstrap 重復抽樣 1 000 次。成本效率分析中采用成本最小化模型。計算 Pearson 相關系數,反映效率指標與其他指標的相關度、連續 2 年效率值的相關度,雙側檢驗水準 α=0.05。
2 結果
2.1 模型區分度
所有模型偏度系數都為負值,說明效率值分布都存在左偏。且模型 2~5 的偏度系數相比模型 1 有所增加,更加左偏。模型 6 的偏度系數最接近 0,相比其他模型較少左偏。模型 2~5 的峰度系數≥0,說明數據分布較為集中,模型 1 和模型 6 峰度系數<0,其中模型 6 的峰度系數最低,最接近扁平。見表 2。

2.2 模型效度
在 6 個 DEA 模型中,所有模型的效率值都和出院人次呈正相關(P<0.05)。模型 4、5 和總權重相關關系無統計學意義(P>0.05),其他模型都和總權重呈正相關(P<0.05)。模型 6 的效率值還和門診人次呈正相關(P<0.05)。此外,模型 2 的效率值和 DRG 組數呈正相關(P<0.01)。費用消耗指數(cost consume index,CCI)和所有 DRG 指標及醫院投入、產出規模指標都存在正相關(P<0.05),說明醫院規模越大,醫院的費用越高;但是時間消耗指數(time consume index,TCI)和 DRG 指標及醫院投入、產出規模指標無相關關系(P>0.05)。模型 5 的效率值和 TCI 呈現負相關(P<0.01),說明時間費用消耗越低,模型 5 的效率值越高。見表 3。

2.3 模型信度
從 2017 年和 2018 年 2 年間模型結果的穩健性來看,模型 1 和模型 6 這 2 年間數據的相關系數最高。見表 4。

3 討論
3.1 模型區分度分析
效率分析的目的在于區分效率不同的醫院,因此區分度是評價模型優劣和區分效能的重要指標之一。模型 6 的偏度系數最接近 0,峰度系數也最低,數據更接近扁平且無偏,區分度最好。
3.2 模型效度分析
3.2.1 模型內容效度分析
內容效度主要反映測量結果與概念的一致性程度。在 DEA 分析中,其測得的“效率”即為帕累托效率,因此內容效度主要取決于輸入輸出變量的選擇。經典的生產理論中生產的投入包括土地、資本和勞動力[8]。在有關醫院效率的研究中,最常使用的投入指標是床位和在職員工,產出指標是出院人次和門診人次[9-10],其中床位常常被用于作為資產和醫療技術的代理變量[11]。本研究對投入和產出指標都進行了調整。
模型 3~6 中沒有將床位數作為資產的代理變量納入,而是納入總資產作為固定資產的代理變量、醫療收入作為流動資產的代理變量。之所以沒有將床位數作為資產的代理變量納入,是因為相同床位數的醫院資產可能具有較大差異,如果不考慮床位資產的價格,僅納入床位數就忽視了床位的異質性。同時本研究將較少作為投入的醫療費用納入 DEA 分析,是因為投入的醫療費用實際是醫院用于治療疾病所消耗的資源,因此應當作為流動資本放在投入中。而且從社會角度,對醫院的投入既包含了政府向醫院的直接投資,也包括政府為患者提供的醫療保障和患者的花費。模型 3 和模型 2 相比,偏度系數更小,模型更加左偏,峰度系數更大,數據分布趨向于向均值集中。納入資產因素對計算結果產生了相對較大的影響。
模型 4 分別納入了醫生、護士和其他員工,模型 5、6 在此基礎上納入了員工的工資作為員工價格的體現,反映不同醫療機構在員工素質和成本上的差異。一方面,在實際的醫療活動中,醫生和非醫療技術人員在醫療活動中扮演的角色完全不同,對產出的貢獻也具有較大差別,因此有必要對在職員工中醫生、護士和其他員工加以區別。另一方面,僅考慮員工的數量而不考慮員工在知識技能存在的差異和成本差異也會造成比較時的偏倚。模型 4 和模型 3 相比,以及模型 5 和模型 4 相比,都呈現偏度系數更小,模型更加左偏,峰度系數更大,數據分布趨向于向均值集中。說明在區分高水平醫院方面,是否考慮員工成本,結果會有較大差異。
模型 1 和模型 2 的區別在于用 DRG 來代替出院人次。從政策和管理角度,DRG 不僅僅是支付工具,也是醫療機構效率評價的工具。我國已有大量醫院將 DRG 用于績效管理,特別是科室績效分配,國外也有研究者將 DRG 引入醫院效率評價[12-13],但在國內采用 DRG 為產出指標的醫院效率評價研究還較少[14]。但從結果來看,采用 DRG 和出院人次沒有顯著差別。模型峰度系數和偏度系數都沒有太大變化,數據分布類似。主要原因在于出院人次和 DRG 組數有非常強的正相關,因此二者結果也并未出現較大差別,只是局部調整。
模型 6 為成本效率模型,其與模型 5 納入的因素相同,區別在于把投入拆分為數量和價格 2 個部分。國內有關醫院效率的研究多采用技術效率,采用成本效率進行評價的研究較少。技術效率僅僅反映生產的效率,而忽略了其中各類投入的價格差異和資源配置因素,成本效率則是經濟效率的綜合反映,因此成本效率更能夠反映社會對醫院的效率期望。從結果來看,模型 6 和模型 5 相比,模型偏度系數更大,左偏程度較低,峰度系數更小,數據分布更加均勻,數據分布產生了較大變化。
3.2.2 模型結構效度
結構效度應當分析效率和相關因素之間的關系,例如醫院管理水平等[15]。模型 6 和 2 個輸出變量都有正相關關系,而模型 1~5 只和出院人次有關,因此模型 6 的綜合能力更強,更符合效率與相關變量的關系。此外,DRG 指標中的 TCI 和 CCI 是常用的 DRG 效率評價指標。但是兩者和 DRG 組數、病例組合指數都呈現負相關關系,僅此采用這兩者進行效率評價與人們通常對效率的感知相反。而 DEA 結果和醫院規模呈正相關,且和 DRG 效率指標都呈負相關,因此采用 DEA 效率值進行效率評價更符合實際情況。
3.3 模型信度分析
信度評價通常采用內部一致性信度、折半信度和重測信度。內部一致性信度和折半信度適用于多指標的量表,且要求不同指標具有一定的相關定。重測信度測量前后 2 次測量的相關性,由于無法獲得同一年度 2 次不同報表的數據,因此我們假定醫院在不同年份間效率值不會發生較大變化,從而用 2 年間數據的相關性反映重測信度。結果表明,模型 1、6 的 2 年間的數據相關性較強,模型具備較強的穩健性。
綜合來看,在加入了資產、各類人員數量、人員工資和 DRG 后,醫院投入產出的細節得到豐富,效率值排名和原始的模型發生了較大差異,模型的綜合反映產出的能力、年度數據的穩健性、模型區分度都更好。
醫院效率評價是醫院績效考核的一個重要維度。數據包絡分析(data envelopment analysis,DEA)是最常用的醫院效率評價方法之一。DEA 基于線性規劃方法,不設定確定形式的生產函數,因此其輸入輸出選擇具有較大的自由度。這一方面方便了 DEA 的應用,但是另一方面其輸入輸出選擇從理論、時間、數據檢驗角度都缺乏明確的規定和限制[1],給模型有效性評價帶來較大困難。不同 DEA 模型的效能和有效性比較一直是 DEA 中一個容易被忽略的問題。Parkin 等[1]建議采用檢驗有效性的一般框架,通過建立多個 DEA 模型,并通過同一機構多年份 DEA 結果比較來驗證模型的有效性。在目前缺乏規范的模型有效性檢驗標準的情況下,這也成為了目前最常用的檢驗模型有效性的方法,被國內外許多學者廣泛采納[2-3]。本研究采用湖北省 2017 年—2018 年三級醫院疾病診斷相關分組(diagnosis-related group,DRG)試點數據,試將 DRG 指標引入醫院效率評價,豐富投入產出指標的細節,并對不同模型的有效性和效能進行分析。
1 資料與方法
1.1 數據來源
以 2017 年—2018 年湖北省三級醫院為研究對象。醫院運行、財務等數據來自于 2017 年—2018 年的衛生統計報表和 2014 年—2015 年的衛生財務報表。其中醫生和護士工資來自于衛生財務報表,因缺少當年度的衛生財務報表數據,以 2014 年—2015 年的衛生財務報表數據代替,2014、2015 年 2 年間醫生和護士的工資相關系數分別為 0.90 和 0.76,因此短期內可認為醫生和護士勞動力價格無重大變化。DRG 相關數據來自湖北省 2017 年—2018 年 2 年的 DRG 試點數據,2 年分別有 68 家醫院納入,其中 66 家醫院 2 年都納入。由于部分醫院運營數據缺失,共有 46 家醫院納入分析。
1.2 模型設定與評價
1.2.1 模型設定
分別建立 6 個模型以比較不同投入產出設定的結果,確定合理模型(表 1)。其中模型 1 是醫院效率分析中最常用的模型,投入變量為在職員工數和實際開放床位數,產出變量為門診人次和出院人次。模型 2 采用 DRG 指標進行分析,用 DRG 總權重對出院人次進行了替代。考慮到我國公立醫院精確的成本支出數據難以獲得,且大部分醫院財務收支基本平衡(該省 2015 年衛生財務報表中全部醫院的財務數據分析得出醫療支出與醫療收入的相關系數約為 0.998(P<0.01),模型 3 在模型 2 的基礎上,把醫療收入作為醫療支出的代理變量。模型 4 進一步把人員進行了細化,把不同類型的員工(醫生、護士、其他人員)作為不同種類的投入納入模型。模型 5 考慮不同醫院員工素質的差異,將不同類型員工的總工資作為投入變量替代員工數量,通過計算發現其他人員工資可能存在較大誤差,故在分析中僅納入醫生和護士工資。模型 6 是考慮了投入價格的成本最小化模型,所得效率為成本效率。模型 6 在模型 5 的基礎上,將床位、資產、收入的價格分別以單位值(即 1)納入模型,而將醫生和護士平均工資作為醫生和護士勞動力價格納入模型。以貨幣反映的資產,其價格應當是社會平均的資產價格,包含了資產折舊和利息[4],但由于同年份比較時不存在跨期現象,因此所有醫院的貨幣資產價格相同,模型 6 中以單位價格代表資產價格。

1.2.2 模型評價
根據社會科學中測量的基本理論,模型有效性的評價分為效度和信度 2 個方面。效度包括結果效度和測量效度 2 個方面,結果效度反映結果的可推廣性,主要取決于樣本選擇;有關 DEA 效度的探討應主要集中于測量效度,測量效度包括結構效度、內容效度和效標效度。結構效度,或稱構造效度,以與理論中其他因素的相關性來表示,在本研究中通過效率指標與其他醫院運營指標的關系進行分析。內容效度通過測量結果與概念的一致性來表示,本研究中內容效度的分析主要通過對投入產出指標的選擇和醫院效率概念的一致性的探討來完成。效標效度通過測量結果與金標準的比較來衡量,有部分學者通過 DEA 和其他參數方法的比較來評價模型有效性[2, 5]。本研究探討的是不同輸入輸出指標的選擇,因此不探討效標效度。模型信度反映測量的穩健性,一般通過內部一致性信度、折半信度和重測信度進行測量,本研究借鑒 Hollingsworth 等[5]的方法,通過連續 2 年效率值的相關度來近似反映。
DEA 分析的主要目標在于對不同效率的醫院進行區分,因此不少研究者將模型區分度作為模型效能的重要指標[6]。本研究在對比不同模型的有效性的同時,通過區分度來評價模型效能。
1.3 統計學方法
DEA 效率評價方法的缺陷之一在于未考慮隨機因素對效率的影響,因此結果穩健性較差。Simar 等[7]將 Bootstrap 方法應用于 DEA 分析,可計算效率值的置信區間并增強了計算結果的穩健性。本研究采用 R 4.0.0 軟件中的 rDEA 包(1.2-6)進行 Bootstrap-DEA 效率值計算,設定模型為輸出導向、規模報酬可變,通過 Bootstrap 重復抽樣 1 000 次。成本效率分析中采用成本最小化模型。計算 Pearson 相關系數,反映效率指標與其他指標的相關度、連續 2 年效率值的相關度,雙側檢驗水準 α=0.05。
2 結果
2.1 模型區分度
所有模型偏度系數都為負值,說明效率值分布都存在左偏。且模型 2~5 的偏度系數相比模型 1 有所增加,更加左偏。模型 6 的偏度系數最接近 0,相比其他模型較少左偏。模型 2~5 的峰度系數≥0,說明數據分布較為集中,模型 1 和模型 6 峰度系數<0,其中模型 6 的峰度系數最低,最接近扁平。見表 2。

2.2 模型效度
在 6 個 DEA 模型中,所有模型的效率值都和出院人次呈正相關(P<0.05)。模型 4、5 和總權重相關關系無統計學意義(P>0.05),其他模型都和總權重呈正相關(P<0.05)。模型 6 的效率值還和門診人次呈正相關(P<0.05)。此外,模型 2 的效率值和 DRG 組數呈正相關(P<0.01)。費用消耗指數(cost consume index,CCI)和所有 DRG 指標及醫院投入、產出規模指標都存在正相關(P<0.05),說明醫院規模越大,醫院的費用越高;但是時間消耗指數(time consume index,TCI)和 DRG 指標及醫院投入、產出規模指標無相關關系(P>0.05)。模型 5 的效率值和 TCI 呈現負相關(P<0.01),說明時間費用消耗越低,模型 5 的效率值越高。見表 3。

2.3 模型信度
從 2017 年和 2018 年 2 年間模型結果的穩健性來看,模型 1 和模型 6 這 2 年間數據的相關系數最高。見表 4。

3 討論
3.1 模型區分度分析
效率分析的目的在于區分效率不同的醫院,因此區分度是評價模型優劣和區分效能的重要指標之一。模型 6 的偏度系數最接近 0,峰度系數也最低,數據更接近扁平且無偏,區分度最好。
3.2 模型效度分析
3.2.1 模型內容效度分析
內容效度主要反映測量結果與概念的一致性程度。在 DEA 分析中,其測得的“效率”即為帕累托效率,因此內容效度主要取決于輸入輸出變量的選擇。經典的生產理論中生產的投入包括土地、資本和勞動力[8]。在有關醫院效率的研究中,最常使用的投入指標是床位和在職員工,產出指標是出院人次和門診人次[9-10],其中床位常常被用于作為資產和醫療技術的代理變量[11]。本研究對投入和產出指標都進行了調整。
模型 3~6 中沒有將床位數作為資產的代理變量納入,而是納入總資產作為固定資產的代理變量、醫療收入作為流動資產的代理變量。之所以沒有將床位數作為資產的代理變量納入,是因為相同床位數的醫院資產可能具有較大差異,如果不考慮床位資產的價格,僅納入床位數就忽視了床位的異質性。同時本研究將較少作為投入的醫療費用納入 DEA 分析,是因為投入的醫療費用實際是醫院用于治療疾病所消耗的資源,因此應當作為流動資本放在投入中。而且從社會角度,對醫院的投入既包含了政府向醫院的直接投資,也包括政府為患者提供的醫療保障和患者的花費。模型 3 和模型 2 相比,偏度系數更小,模型更加左偏,峰度系數更大,數據分布趨向于向均值集中。納入資產因素對計算結果產生了相對較大的影響。
模型 4 分別納入了醫生、護士和其他員工,模型 5、6 在此基礎上納入了員工的工資作為員工價格的體現,反映不同醫療機構在員工素質和成本上的差異。一方面,在實際的醫療活動中,醫生和非醫療技術人員在醫療活動中扮演的角色完全不同,對產出的貢獻也具有較大差別,因此有必要對在職員工中醫生、護士和其他員工加以區別。另一方面,僅考慮員工的數量而不考慮員工在知識技能存在的差異和成本差異也會造成比較時的偏倚。模型 4 和模型 3 相比,以及模型 5 和模型 4 相比,都呈現偏度系數更小,模型更加左偏,峰度系數更大,數據分布趨向于向均值集中。說明在區分高水平醫院方面,是否考慮員工成本,結果會有較大差異。
模型 1 和模型 2 的區別在于用 DRG 來代替出院人次。從政策和管理角度,DRG 不僅僅是支付工具,也是醫療機構效率評價的工具。我國已有大量醫院將 DRG 用于績效管理,特別是科室績效分配,國外也有研究者將 DRG 引入醫院效率評價[12-13],但在國內采用 DRG 為產出指標的醫院效率評價研究還較少[14]。但從結果來看,采用 DRG 和出院人次沒有顯著差別。模型峰度系數和偏度系數都沒有太大變化,數據分布類似。主要原因在于出院人次和 DRG 組數有非常強的正相關,因此二者結果也并未出現較大差別,只是局部調整。
模型 6 為成本效率模型,其與模型 5 納入的因素相同,區別在于把投入拆分為數量和價格 2 個部分。國內有關醫院效率的研究多采用技術效率,采用成本效率進行評價的研究較少。技術效率僅僅反映生產的效率,而忽略了其中各類投入的價格差異和資源配置因素,成本效率則是經濟效率的綜合反映,因此成本效率更能夠反映社會對醫院的效率期望。從結果來看,模型 6 和模型 5 相比,模型偏度系數更大,左偏程度較低,峰度系數更小,數據分布更加均勻,數據分布產生了較大變化。
3.2.2 模型結構效度
結構效度應當分析效率和相關因素之間的關系,例如醫院管理水平等[15]。模型 6 和 2 個輸出變量都有正相關關系,而模型 1~5 只和出院人次有關,因此模型 6 的綜合能力更強,更符合效率與相關變量的關系。此外,DRG 指標中的 TCI 和 CCI 是常用的 DRG 效率評價指標。但是兩者和 DRG 組數、病例組合指數都呈現負相關關系,僅此采用這兩者進行效率評價與人們通常對效率的感知相反。而 DEA 結果和醫院規模呈正相關,且和 DRG 效率指標都呈負相關,因此采用 DEA 效率值進行效率評價更符合實際情況。
3.3 模型信度分析
信度評價通常采用內部一致性信度、折半信度和重測信度。內部一致性信度和折半信度適用于多指標的量表,且要求不同指標具有一定的相關定。重測信度測量前后 2 次測量的相關性,由于無法獲得同一年度 2 次不同報表的數據,因此我們假定醫院在不同年份間效率值不會發生較大變化,從而用 2 年間數據的相關性反映重測信度。結果表明,模型 1、6 的 2 年間的數據相關性較強,模型具備較強的穩健性。
綜合來看,在加入了資產、各類人員數量、人員工資和 DRG 后,醫院投入產出的細節得到豐富,效率值排名和原始的模型發生了較大差異,模型的綜合反映產出的能力、年度數據的穩健性、模型區分度都更好。