引用本文: 楊曉妍, 王覓也, 張睿, 李楠, 師慶科, 黃勇. 某三甲醫院住院患者分類及費用影響因素分析. 中國循證醫學雜志, 2015, 15(11): 1246-1253. doi: 10.7507/1672-2531.20150206 復制
新醫改推進以來,“看病難、看病貴”背后的諸多問題仍未得到有效解決 [1-5]。作為改革重中之重的公立醫院,如何在保證醫療服務質量的同時合理控費,以應對補償機制與支付方式的改革 [6-12],是擺在醫院管理者面前的重要命題。另一方面,大數據時代的到來及醫院信息系統(HIS)的建設完善為醫療服務數據挖掘提供了可能。系統中保存著的豐富數據既是患者診治過程的重要資料,又蘊含著可服務于醫院管理、醫療服務或學科發展的寶貴信息,但這些數據格式不一、質量有別,需經合理抽取、清洗、轉換、分析后方能很好地利用。本研究以住院患者診療數據為研究對象,分析基于住院費用的患者分類、病種分布及費用影響因素,以期為進一步研究病例組合積累基礎數據,并為費用控制與病種管理提供依據。
1 資料與方法
1.1 資料來源
本研究所有資料來自某三甲醫院2013年HIS記錄的全年住院患者診療數據。
1.2 研究內容
住院費用情況及其分布,住院患者分類和病種分布情況以及住院費用的影響因素。
1.3 統計分析
采用EXCEL 2010收集整理數據,并對錄入資料進行邏輯檢錯,保證數據的準確性。采用SPSS 16.0和STATA 12.0軟件進行統計分析。用百分位數(中位數及四分位數)描述住院費用分布情況;用K-均值聚類法進行患者分類并分析影響該分類的費用類別;用秩和檢驗(Kruskal-Wallis H檢驗)分析各類患者住院費用的差異;基于國際疾病分類第十次修訂本(ICD-10)進行病種分析;用中位數回歸分析住院費用的影響因素。
2 結果
2.1 住院費用情況
全年總住院人次175 333例。總費用均數19 370.21元,中位數10 016.31元,四分位數間距15 791.06元(5 527.05元~21 318.11元)。基于核算字典表,將住院費用分為12類,分別為:治療費用(包括治療費、放療費、輸氧費)、檢查費用(包括檢查費、病理、測查費)、影像費用(包括CT費、磁共振、放射費、核醫學、造影費)、診察費用(包括會診費、診查費、出診費)、材料費用(包括材料費、術材料、放材料、麻材料、血材料)、床位費用(包括床位費、冷暖費)、護理費用(包括護理費、監護費)、化驗費用(包括化驗費、配血檢)、手術費用(包括介入費、麻醉費、手術費、術設備)、藥品費用(包括西藥費、中藥費)、輸血費用(包括輸血費)和其他費用(包括膳食費),各類住院費用分布情況見表 1。

2.2 住院患者分類情況
2.2.1 數據準備
表 1可見,各類費用均數和中位數差異較大。經檢驗,費用合計為正偏態分布(偏度系數6.851,P<0.001),12類費用均不符合正態(P<0.001)。此外,盡管各類費用量綱相同,但取值差異很大,而K-均值聚類法無法自動對數據進行標準化。因此,首先對12類費用進行標準化處理后納入后續分析。對費用分別取常用對數后做P-P圖,正態性明顯改善,以治療收入為例,見圖 1。

2.2.2 預聚類
由于缺乏住院患者分類類別數的經驗數據,本研究首先嘗試了不同類別數設定下的分類情況。發現有無“輸血費用”對分類影響極大,有“輸血費用”類共37例住院患者,該類患者占全年住院患者總數的比重極小。當分類數設定少于11類時,類別數的增加主要是對37例患者的進一步細分,而占比很大的無“輸血費用”類病例基本無變化;當分類數設定達11類后,無“輸血費用”類病例才會得到細分。
2.2.3 正式聚類
按有無“輸血費用”先將患者分為兩組,分別對兩組進行聚類。在無“輸血費用”組,進一步將患者分為五類(類別編碼1-5),在有“輸血費用”組,進一步將患者分為兩類(類別編碼6-7)。
由表 2可知,各類患者分別可概括為:第1類,無輸血費用組無手術高費用類;第2類,無輸血費用組有手術高費用類;第3類,無輸血費用組無手術低費用類;第4類,無輸血費用組有手術低費用類;第5類,無輸血費用組有手術中費用類;第6類,有輸血費用組低費用類,第7類,有輸血費用組高費用類(圖 2)。


圖 2為7類患者示意圖。以有無輸血費用為橫軸,以有無手術費用為縱軸將平面分為四個象限,圓球的大小代表住院人次,圓球的位置代表費用合計的高低。為了在較小面積內清晰顯示所有圓球,將第6類和第7類的樣本量分別擴大了10倍;而圓球的位置只是同一象限內費用合計相對高低的示意,不代表其間的實際數量關系。進一步分析各費用類別對患者分類的影響,結果見表 3、表 4。


無輸血費用患者各類費用對患者分類均有意義(P<0.001),其中影響前三位的費用分別為手術費用、化驗費用和診察費用(表 3)。有輸血費用患者對患者分類有意義的費用類別分別為輸血費用、化驗費用和診察費用,影響依次降低(P<0.05);可能有影響的有治療費用和護理費用(P值接近0.05)(表 4)。
2.3 病種分析
基于上述7種患者分類,分析其病種分布情況。第1~7類的病種數(ICD-10亞目即四位編碼)分別為2 147種(住院人次44 607)、2 182種(住院人次41 287)、1 499種(住院人次26 370)、1 301種(住院人次22 011)、2 059種(住院人次41 019)、22種(住院人次22)和14種(住院人次15)。將各類患者全年住院人次分別從高到低排序,前5位病種情況見表 5。

7類患者病種分布有交叉,同一病種所屬患者類別數越多,表明該病種費用變異越大,或者說,整個治療過程的變異越大。限于篇幅,表 5僅列出了各類患者住院人次前5位的病種,若將其展示完整,可得到各類患者所有ICD-10亞目病種的分布。將病種上歸一級到ICD-10類目(三位編碼),分析前50%的病種可知,2個及以上患者類別的有60種,分別是:帶狀皰疹(B02)、慢性病毒性肝炎(B18)、食管惡性腫瘤(C15)、胃惡性腫瘤(C16)、直腸惡性腫瘤(C20)、肝和肝內膽管惡性腫瘤(C22)、膽道其他和未特指部位的惡性腫瘤(不包括肝內膽管,C24)、支氣管和肺惡性腫瘤(C34)、腎(除外腎盂)惡性腫瘤(C64)、甲狀腺惡性腫瘤(C73)、彌漫性非霍奇金淋巴瘤(C83)、多發性骨髓瘤和惡性漿細胞腫瘤(C90)、淋巴樣細胞白血病(C91)、髓樣白血病(C92)、血管瘤和淋巴管瘤,任何部位(D18)、腦脊膜良性腫瘤(D32)、內分泌腺其他和未特指良性腫瘤(D35)、非胰島素依賴型糖尿病(E11)、精神分裂癥(F20)、老年性白內障(H25)、其他白內障(H26)、視網膜脫離和斷裂(H33)、多個心瓣膜疾病(I08)、心絞痛(I20)、急性心肌梗死(I21)、慢性缺血性心臟病(I25)、陣發性心動過速(I47)、心房纖顫和撲動(I48)、蛛網膜下出血(I60)、腦內出血(I61)、腦梗死(I63)、肺炎,病原體未特指(J18)、聲帶和喉疾病,不可歸類在他處者(J38)、其他慢性阻塞性肺病(J44)、其他呼吸性疾患(J98)、急性闌尾炎(K35)、腹股溝疝(K40)、麻痹性腸梗阻和不伴有疝的腸梗阻(K56)、肝纖維化和肝硬變(K74)、肝的其他疾病(K76)、膽石癥(K80)、急性胰腺炎(K85)、消化系統的其他疾病(K92)、膝關節病(M17)、系統性紅斑狼瘡(M32)、骨質疏松伴有病理性骨折(M80)、腎病綜合征(N04)、梗阻性和反流性尿路病(N13)、慢性腎衰竭(N18)、腎和輸尿管結石(N20)、前列腺增生(N40)、心間隔先天性畸形(Q21)、睪丸未降(Q53)、中樞神經系統診斷性影像檢查的異常所見(R90)、顱內損傷(S06)、股骨骨折(S72)、軀干燒傷和腐蝕傷(T21)、操作并發癥,不可歸類在他處者(T81)、其他矯形外科的隨診醫療(Z47)、其他醫療照顧(Z51,如放射治療療程、為腫瘤化學治療療程)。
2.4 住院費用的影響因素分析
由于數據來源于HIS,變量繁多且完整性參差不齊,在進行影響因素分析前先對各變量進行梳理:對反映同一主題的變量,選擇數據缺失少、邏輯錯誤少的指標來代表該因素,如抗生素使用類變量、呼吸機使用類變量等;結合國家相關管理要求與臨床實踐重建相關變量,如基于使用一線、二線、三線、四線抗生素產生新變量“治療使用二線及以上抗生素”;對取值分類太多且無必要分析所有類別或分類過細導致某些類別樣本量過少的變量進行兩分類處理,如將現住址分為市內外、省內外,將國籍分為國內外等,然后用中位數回歸方法分析可能影響費用合計的因素。以住院總費用為因變量,以各相關因素(表 6)為自變量進行中位數回歸,先進行單因素分析,對單因素分析有意義的變量進行多因素分析(逐步回歸)。表 6是單因素分析結果,表 7是多因素分析結果。表 6可見,除民族外各變量均有統計學意義(P<0.001)。單因素分析結果有意義的變量納入多因素分析時,僅“國籍”變量未進入最終模型。表 7可見,使費用增加的因素包括:年齡增加、住院天數增加、門急診與出院診斷不吻合、省內患者、市外患者、男性患者、已婚或其他(離異、喪偶等)、有轉科、非現金付費方式、出院時除主診斷外有其他診斷、有手術、有搶救、死亡患者、使用過呼吸機、治療使用過二線及以上抗生素、由其他醫療機構轉入的患者。上述因素可概括為患者相關因素和診治相關因素兩大類。患者相關因素包括年齡、性別、婚姻狀況、住址,診治相關因素為上述其余變量。


3 討論
本研究采用的K-均值聚類法是最常用的非層次聚類法,該方法分析得到的結果能較好地區分影響住院費用的最主要特征,且各類患者費用差異存在統計學意義。有研究表明,K-均值聚類法能較好地將患者分類并用于后續處理,具有良好的應用性 [13]。但K-均值聚類法的缺點在于需要自定義類別數。本研究通過反復嘗試,最終將患者分成了7類,各類患者可以用3個費用維度來粗略地定義其特征:即是否有輸血費用、是否有手術費用及總費用高低。對于無輸血費用的第1~5類患者,各類費用對分類的影響均有統計學意義,其中手術費用的影響最大,其次是化驗和診察費用;對有輸血費用的第6、7類患者,對分類有意義的變量分別為輸血費用、化驗費用和診察費用,可能有影響的有治療費用和護理費用。有輸血費用的37例患者中33例輸過Rh陰性紅細胞懸液,其余4例輸過病毒滅活血漿。可見,除輸血、手術費用外,化驗和診察費用是影響患者分類的重要因素,上述費用類別是進行費用控制時需著重考慮的方面。
本研究基于費用將患者進行分類,并對各類患者的病種分布進行了描述。從病種分布看,第6、7類患者病種數較少,與這兩類患者總數很少相一致。這兩類患者中89%輸注了Rh陰性紅細胞懸液。在漢族及大多數民族人群中,Rh陰性血型約占0.4%或略高 [14, 15],Rh陰性血來源困難,需支付輸血費用。此外,由表 2可知,這兩類患者各類費用均較高,尤其是治療、材料、護理、化驗和藥品費用。這兩類患者罹患的病種主要是某些惡性腫瘤及個別循環、呼吸、消化、泌尿系統疾病及嚴重創傷等,可為醫院高額病種管理的病種選擇提供參考,同時為Rh血型與疾病的相關性研究提供線索。本研究提示,分布于2類及以上患者的類目病種有60種,這種臨床變異可能是由于疾病本身的特性所致,或者是收治住院患者本身的差異較大,或者是主要用于人群疾病統計上報的ICD-10在臨床的適用性欠佳,有待進一步研究。當然,由于數據涵蓋全年各科近20萬病例且分類僅基于費用且分組數很少,對由很多因素決定的病種分組區分度欠佳是可能的,從學界用500至1 000余種疾病診斷相關組(diagnostic related groups,DRGs)來區分各病種就比較好理解這一點。盡管如此,本研究基于費用的患者分類可以提示我們,從管理上加大力度提高診治的一致性可減少臨床處置及費用的差異,同時,可為臨床路徑病種選擇及路徑管理提供參考。這種疾病與治療過程本身的個體化、差異化特征提示我們,應加強醫院戰略定位的宣傳與分級醫療及雙向轉診,盡量收治與醫院定位目標相一致的患者;同時加強指南學習、促進醫護技合作,盡量較少診治過程的變異以規范診療、降低風險,同時注意特殊病例的個體化治療。
關于費用影響因素分析:中位數回歸參數估計采用最小一乘準則,最小一乘思想的提出遠比最小二乘早,但由于計算復雜并未得到普遍應用 [16]。由于費用合計呈偏態分布且存在極端值,本研究采用中位數回歸分析費用影響因素,以避免數據不滿足模型條件時最小二乘法模型穩健性受影響而得到不同程度偏離真值的整體擬合結果 [17, 18]。影響費用的多因素分析結果提示,現住址這個因素,住院治療的市外患者費用高于市內患者、省內患者高于省外患者。疾病復雜程度與輕重緩急、就診距離及醫院技術實力等會影響患者的就醫選擇(數據顯示市內患者占所有患者的40.9%,省外患者僅占所有患者的7.9%),可造成不同疾病及其嚴重程度的患者分布不均衡,同時也提示我們對患者來源地及病種的進一步分析可幫助明確醫院及其各臨床科室提供服務的輻射區域。需要指出的是,本研究分析的數據是全院各科病例,且是基于HIS的回顧性業務數據,相關因素只能是普適性變量且可用數量有限、完整性參差不齊,今后可結合各科專病數據庫開展進一步分析。
本研究的局限性:① 本研究是在醫改前提下開展,尚未形成成熟醫療費用支付模式,因此,醫療信息系統、醫療編碼系統及標準數據庫等還有待基于支付方式作進一步完善。② 本研究僅是基于一家醫院的初步嘗試,未收集到各病種所有特異及非特異性因素,亦未嘗試與比較多種統計方法,需要進一步開展相關研究進行探討。
總之,本研究嘗試利用HIS進行數據挖掘。其結果表明,所得患者分類能較好地解釋其重要特征及費用差異,為不同患者各類費用的控制提供依據;基于患者分類的病種分析為病種管理提供參考;住院費用的影響因素分析為患者收治與診治管理提供信息。
新醫改推進以來,“看病難、看病貴”背后的諸多問題仍未得到有效解決 [1-5]。作為改革重中之重的公立醫院,如何在保證醫療服務質量的同時合理控費,以應對補償機制與支付方式的改革 [6-12],是擺在醫院管理者面前的重要命題。另一方面,大數據時代的到來及醫院信息系統(HIS)的建設完善為醫療服務數據挖掘提供了可能。系統中保存著的豐富數據既是患者診治過程的重要資料,又蘊含著可服務于醫院管理、醫療服務或學科發展的寶貴信息,但這些數據格式不一、質量有別,需經合理抽取、清洗、轉換、分析后方能很好地利用。本研究以住院患者診療數據為研究對象,分析基于住院費用的患者分類、病種分布及費用影響因素,以期為進一步研究病例組合積累基礎數據,并為費用控制與病種管理提供依據。
1 資料與方法
1.1 資料來源
本研究所有資料來自某三甲醫院2013年HIS記錄的全年住院患者診療數據。
1.2 研究內容
住院費用情況及其分布,住院患者分類和病種分布情況以及住院費用的影響因素。
1.3 統計分析
采用EXCEL 2010收集整理數據,并對錄入資料進行邏輯檢錯,保證數據的準確性。采用SPSS 16.0和STATA 12.0軟件進行統計分析。用百分位數(中位數及四分位數)描述住院費用分布情況;用K-均值聚類法進行患者分類并分析影響該分類的費用類別;用秩和檢驗(Kruskal-Wallis H檢驗)分析各類患者住院費用的差異;基于國際疾病分類第十次修訂本(ICD-10)進行病種分析;用中位數回歸分析住院費用的影響因素。
2 結果
2.1 住院費用情況
全年總住院人次175 333例。總費用均數19 370.21元,中位數10 016.31元,四分位數間距15 791.06元(5 527.05元~21 318.11元)。基于核算字典表,將住院費用分為12類,分別為:治療費用(包括治療費、放療費、輸氧費)、檢查費用(包括檢查費、病理、測查費)、影像費用(包括CT費、磁共振、放射費、核醫學、造影費)、診察費用(包括會診費、診查費、出診費)、材料費用(包括材料費、術材料、放材料、麻材料、血材料)、床位費用(包括床位費、冷暖費)、護理費用(包括護理費、監護費)、化驗費用(包括化驗費、配血檢)、手術費用(包括介入費、麻醉費、手術費、術設備)、藥品費用(包括西藥費、中藥費)、輸血費用(包括輸血費)和其他費用(包括膳食費),各類住院費用分布情況見表 1。

2.2 住院患者分類情況
2.2.1 數據準備
表 1可見,各類費用均數和中位數差異較大。經檢驗,費用合計為正偏態分布(偏度系數6.851,P<0.001),12類費用均不符合正態(P<0.001)。此外,盡管各類費用量綱相同,但取值差異很大,而K-均值聚類法無法自動對數據進行標準化。因此,首先對12類費用進行標準化處理后納入后續分析。對費用分別取常用對數后做P-P圖,正態性明顯改善,以治療收入為例,見圖 1。

2.2.2 預聚類
由于缺乏住院患者分類類別數的經驗數據,本研究首先嘗試了不同類別數設定下的分類情況。發現有無“輸血費用”對分類影響極大,有“輸血費用”類共37例住院患者,該類患者占全年住院患者總數的比重極小。當分類數設定少于11類時,類別數的增加主要是對37例患者的進一步細分,而占比很大的無“輸血費用”類病例基本無變化;當分類數設定達11類后,無“輸血費用”類病例才會得到細分。
2.2.3 正式聚類
按有無“輸血費用”先將患者分為兩組,分別對兩組進行聚類。在無“輸血費用”組,進一步將患者分為五類(類別編碼1-5),在有“輸血費用”組,進一步將患者分為兩類(類別編碼6-7)。
由表 2可知,各類患者分別可概括為:第1類,無輸血費用組無手術高費用類;第2類,無輸血費用組有手術高費用類;第3類,無輸血費用組無手術低費用類;第4類,無輸血費用組有手術低費用類;第5類,無輸血費用組有手術中費用類;第6類,有輸血費用組低費用類,第7類,有輸血費用組高費用類(圖 2)。


圖 2為7類患者示意圖。以有無輸血費用為橫軸,以有無手術費用為縱軸將平面分為四個象限,圓球的大小代表住院人次,圓球的位置代表費用合計的高低。為了在較小面積內清晰顯示所有圓球,將第6類和第7類的樣本量分別擴大了10倍;而圓球的位置只是同一象限內費用合計相對高低的示意,不代表其間的實際數量關系。進一步分析各費用類別對患者分類的影響,結果見表 3、表 4。


無輸血費用患者各類費用對患者分類均有意義(P<0.001),其中影響前三位的費用分別為手術費用、化驗費用和診察費用(表 3)。有輸血費用患者對患者分類有意義的費用類別分別為輸血費用、化驗費用和診察費用,影響依次降低(P<0.05);可能有影響的有治療費用和護理費用(P值接近0.05)(表 4)。
2.3 病種分析
基于上述7種患者分類,分析其病種分布情況。第1~7類的病種數(ICD-10亞目即四位編碼)分別為2 147種(住院人次44 607)、2 182種(住院人次41 287)、1 499種(住院人次26 370)、1 301種(住院人次22 011)、2 059種(住院人次41 019)、22種(住院人次22)和14種(住院人次15)。將各類患者全年住院人次分別從高到低排序,前5位病種情況見表 5。

7類患者病種分布有交叉,同一病種所屬患者類別數越多,表明該病種費用變異越大,或者說,整個治療過程的變異越大。限于篇幅,表 5僅列出了各類患者住院人次前5位的病種,若將其展示完整,可得到各類患者所有ICD-10亞目病種的分布。將病種上歸一級到ICD-10類目(三位編碼),分析前50%的病種可知,2個及以上患者類別的有60種,分別是:帶狀皰疹(B02)、慢性病毒性肝炎(B18)、食管惡性腫瘤(C15)、胃惡性腫瘤(C16)、直腸惡性腫瘤(C20)、肝和肝內膽管惡性腫瘤(C22)、膽道其他和未特指部位的惡性腫瘤(不包括肝內膽管,C24)、支氣管和肺惡性腫瘤(C34)、腎(除外腎盂)惡性腫瘤(C64)、甲狀腺惡性腫瘤(C73)、彌漫性非霍奇金淋巴瘤(C83)、多發性骨髓瘤和惡性漿細胞腫瘤(C90)、淋巴樣細胞白血病(C91)、髓樣白血病(C92)、血管瘤和淋巴管瘤,任何部位(D18)、腦脊膜良性腫瘤(D32)、內分泌腺其他和未特指良性腫瘤(D35)、非胰島素依賴型糖尿病(E11)、精神分裂癥(F20)、老年性白內障(H25)、其他白內障(H26)、視網膜脫離和斷裂(H33)、多個心瓣膜疾病(I08)、心絞痛(I20)、急性心肌梗死(I21)、慢性缺血性心臟病(I25)、陣發性心動過速(I47)、心房纖顫和撲動(I48)、蛛網膜下出血(I60)、腦內出血(I61)、腦梗死(I63)、肺炎,病原體未特指(J18)、聲帶和喉疾病,不可歸類在他處者(J38)、其他慢性阻塞性肺病(J44)、其他呼吸性疾患(J98)、急性闌尾炎(K35)、腹股溝疝(K40)、麻痹性腸梗阻和不伴有疝的腸梗阻(K56)、肝纖維化和肝硬變(K74)、肝的其他疾病(K76)、膽石癥(K80)、急性胰腺炎(K85)、消化系統的其他疾病(K92)、膝關節病(M17)、系統性紅斑狼瘡(M32)、骨質疏松伴有病理性骨折(M80)、腎病綜合征(N04)、梗阻性和反流性尿路病(N13)、慢性腎衰竭(N18)、腎和輸尿管結石(N20)、前列腺增生(N40)、心間隔先天性畸形(Q21)、睪丸未降(Q53)、中樞神經系統診斷性影像檢查的異常所見(R90)、顱內損傷(S06)、股骨骨折(S72)、軀干燒傷和腐蝕傷(T21)、操作并發癥,不可歸類在他處者(T81)、其他矯形外科的隨診醫療(Z47)、其他醫療照顧(Z51,如放射治療療程、為腫瘤化學治療療程)。
2.4 住院費用的影響因素分析
由于數據來源于HIS,變量繁多且完整性參差不齊,在進行影響因素分析前先對各變量進行梳理:對反映同一主題的變量,選擇數據缺失少、邏輯錯誤少的指標來代表該因素,如抗生素使用類變量、呼吸機使用類變量等;結合國家相關管理要求與臨床實踐重建相關變量,如基于使用一線、二線、三線、四線抗生素產生新變量“治療使用二線及以上抗生素”;對取值分類太多且無必要分析所有類別或分類過細導致某些類別樣本量過少的變量進行兩分類處理,如將現住址分為市內外、省內外,將國籍分為國內外等,然后用中位數回歸方法分析可能影響費用合計的因素。以住院總費用為因變量,以各相關因素(表 6)為自變量進行中位數回歸,先進行單因素分析,對單因素分析有意義的變量進行多因素分析(逐步回歸)。表 6是單因素分析結果,表 7是多因素分析結果。表 6可見,除民族外各變量均有統計學意義(P<0.001)。單因素分析結果有意義的變量納入多因素分析時,僅“國籍”變量未進入最終模型。表 7可見,使費用增加的因素包括:年齡增加、住院天數增加、門急診與出院診斷不吻合、省內患者、市外患者、男性患者、已婚或其他(離異、喪偶等)、有轉科、非現金付費方式、出院時除主診斷外有其他診斷、有手術、有搶救、死亡患者、使用過呼吸機、治療使用過二線及以上抗生素、由其他醫療機構轉入的患者。上述因素可概括為患者相關因素和診治相關因素兩大類。患者相關因素包括年齡、性別、婚姻狀況、住址,診治相關因素為上述其余變量。


3 討論
本研究采用的K-均值聚類法是最常用的非層次聚類法,該方法分析得到的結果能較好地區分影響住院費用的最主要特征,且各類患者費用差異存在統計學意義。有研究表明,K-均值聚類法能較好地將患者分類并用于后續處理,具有良好的應用性 [13]。但K-均值聚類法的缺點在于需要自定義類別數。本研究通過反復嘗試,最終將患者分成了7類,各類患者可以用3個費用維度來粗略地定義其特征:即是否有輸血費用、是否有手術費用及總費用高低。對于無輸血費用的第1~5類患者,各類費用對分類的影響均有統計學意義,其中手術費用的影響最大,其次是化驗和診察費用;對有輸血費用的第6、7類患者,對分類有意義的變量分別為輸血費用、化驗費用和診察費用,可能有影響的有治療費用和護理費用。有輸血費用的37例患者中33例輸過Rh陰性紅細胞懸液,其余4例輸過病毒滅活血漿。可見,除輸血、手術費用外,化驗和診察費用是影響患者分類的重要因素,上述費用類別是進行費用控制時需著重考慮的方面。
本研究基于費用將患者進行分類,并對各類患者的病種分布進行了描述。從病種分布看,第6、7類患者病種數較少,與這兩類患者總數很少相一致。這兩類患者中89%輸注了Rh陰性紅細胞懸液。在漢族及大多數民族人群中,Rh陰性血型約占0.4%或略高 [14, 15],Rh陰性血來源困難,需支付輸血費用。此外,由表 2可知,這兩類患者各類費用均較高,尤其是治療、材料、護理、化驗和藥品費用。這兩類患者罹患的病種主要是某些惡性腫瘤及個別循環、呼吸、消化、泌尿系統疾病及嚴重創傷等,可為醫院高額病種管理的病種選擇提供參考,同時為Rh血型與疾病的相關性研究提供線索。本研究提示,分布于2類及以上患者的類目病種有60種,這種臨床變異可能是由于疾病本身的特性所致,或者是收治住院患者本身的差異較大,或者是主要用于人群疾病統計上報的ICD-10在臨床的適用性欠佳,有待進一步研究。當然,由于數據涵蓋全年各科近20萬病例且分類僅基于費用且分組數很少,對由很多因素決定的病種分組區分度欠佳是可能的,從學界用500至1 000余種疾病診斷相關組(diagnostic related groups,DRGs)來區分各病種就比較好理解這一點。盡管如此,本研究基于費用的患者分類可以提示我們,從管理上加大力度提高診治的一致性可減少臨床處置及費用的差異,同時,可為臨床路徑病種選擇及路徑管理提供參考。這種疾病與治療過程本身的個體化、差異化特征提示我們,應加強醫院戰略定位的宣傳與分級醫療及雙向轉診,盡量收治與醫院定位目標相一致的患者;同時加強指南學習、促進醫護技合作,盡量較少診治過程的變異以規范診療、降低風險,同時注意特殊病例的個體化治療。
關于費用影響因素分析:中位數回歸參數估計采用最小一乘準則,最小一乘思想的提出遠比最小二乘早,但由于計算復雜并未得到普遍應用 [16]。由于費用合計呈偏態分布且存在極端值,本研究采用中位數回歸分析費用影響因素,以避免數據不滿足模型條件時最小二乘法模型穩健性受影響而得到不同程度偏離真值的整體擬合結果 [17, 18]。影響費用的多因素分析結果提示,現住址這個因素,住院治療的市外患者費用高于市內患者、省內患者高于省外患者。疾病復雜程度與輕重緩急、就診距離及醫院技術實力等會影響患者的就醫選擇(數據顯示市內患者占所有患者的40.9%,省外患者僅占所有患者的7.9%),可造成不同疾病及其嚴重程度的患者分布不均衡,同時也提示我們對患者來源地及病種的進一步分析可幫助明確醫院及其各臨床科室提供服務的輻射區域。需要指出的是,本研究分析的數據是全院各科病例,且是基于HIS的回顧性業務數據,相關因素只能是普適性變量且可用數量有限、完整性參差不齊,今后可結合各科專病數據庫開展進一步分析。
本研究的局限性:① 本研究是在醫改前提下開展,尚未形成成熟醫療費用支付模式,因此,醫療信息系統、醫療編碼系統及標準數據庫等還有待基于支付方式作進一步完善。② 本研究僅是基于一家醫院的初步嘗試,未收集到各病種所有特異及非特異性因素,亦未嘗試與比較多種統計方法,需要進一步開展相關研究進行探討。
總之,本研究嘗試利用HIS進行數據挖掘。其結果表明,所得患者分類能較好地解釋其重要特征及費用差異,為不同患者各類費用的控制提供依據;基于患者分類的病種分析為病種管理提供參考;住院費用的影響因素分析為患者收治與診治管理提供信息。