引用本文: 楊赫祎, 馮玉, 李天俊, 盧施岐, 黃磊. 基于特征篩選與機器學習的醫療保險報銷比例預測研究. 中國循證醫學雜志, 2023, 23(4): 373-378. doi: 10.7507/1672-2531.202205076 復制
近年來,我國全民醫保體系逐漸完善,醫療服務能力顯著提升[1-2],然而不斷增加的醫療費用加重了患者的經濟負擔與醫保基金支付的壓力。疾病診斷相關分組(diagnosis related groups,DRG)是綜合考慮患者疾病診斷、治療方式、合并癥、并發癥及患者年齡等因素,將疾病過程、資源消耗相似疾病進行分組的一種方式。基于DRG的醫保支付方式能夠有效控制治療費用的不合理增長,提高醫保基金使用效率,推進分級診療,促進醫療服務模式轉變[3-4]。按國家醫療保障局制定的DRG/DIP支付方式改革三年行動計劃,2024年將實現全國統籌地區DRG/DIP付費的全面覆蓋[5]。按病種付費政策的推進將促使醫療機構更加關注患者在醫院端的醫保報銷狀況,結合病種支付額度預測年度超支結余情況;而醫保經辦機構也需要在政策制定時根據歷年醫院結算情況對醫保基金支出情況進行測算,控制超支風險[6]。
本文選取四川省某大型三甲醫院2020年1月至2020年12月胸部大手術病例信息作為研究對象,采用基于特征篩選的機器學習改進方法建立預測模型,對患者的醫保報銷比例進行預測,以篩選影響報銷比例的因素,并選擇運行效率高、預測效果好的機器學習方法,以期為醫療機構、醫保經辦機構在按病種付費下開展醫保基金支出預測提供思路。
1 資料與方法
1.1 數據來源
本研究收集四川省某大型三甲醫院2020年1月至2020年12月按國家醫療保障疾病診斷相關分組(CHS-DRG)標準分組為胸部大手術的病例信息,CHS-DRG核心疾病診斷相關組編碼為MDCE-EB1。在保證資料完整性、邏輯性與規范性的前提下,對數據進行清洗、匹配診斷名稱與診斷碼、剔除重復值、缺失值及異常值等操作,僅考慮醫保類型為成都市城鎮職工和城鄉居民的患者,最終納入1 554例患者信息。本研究已通過四川大學華西醫院醫學倫理委員會審批(審批號:2023年審〔319〕號)。
1.2 數據集變量
本數據集有19個變量,將患者基本信息劃分為7個類別:年齡、性別、醫保類型、住院天數、疾病診斷數量、手術操作數量、Ⅰ級護理天數。將住院費用劃分為11個類別:治療費、檢查費、材料費、床位費、放射檢查費、護理費、化驗費、麻醉費、配血檢、手術費、西藥費。將醫保報銷比例作為響應變量。
1.3 數據預處理
患者住院總費用為11項費用之和,報銷金額與住院總費用之比為醫保報銷比例。因醫保報銷比例與11項費用間存在多重共線性,為避免共線性帶來模型預測的過擬合問題,將各項費用依照金額區間設置為等級變量。同樣地,疾病診斷數量、手術操作數量與治療費、手術費等具有較強的相關性,故將病案數量與手術數量作等級化處理。將醫保報銷比例以35%為臨界值設置為二分類變量,報銷比例大于35%記為1,反之記為0。
1.4 模型評價指標
依據預測模型下的混淆矩陣,計算預測模型的準確度、精確度、敏感性、特異性、Kappa系數和受試者工作特征(receiver operating characteristic,ROC)曲線的曲線下面積(area under curve,AUC)6個指標。上述指標綜合考慮了模型的預測準確率、漏診率與誤診率,各指標值越大,模型的預測性能越優[7]。同時納入篩選的特征數量及運行時間等因素,對不同特征篩選方法及預測模型進行評價。用TP,FP,TN,FN分別表示真陽性、假陽性、真陰性、假陰性,則模型評價指標可通過下式計算:
![]() |
其中,
1.5 模型建立與算法
首先,建立傳統的多元線性回歸模型,利用逐步回歸法進行變量篩選,選擇AIC信息統計量最小的多元線性回歸模型作為最優模型,對報銷金額進行預測,進而得到分類結果。
其次,利用信息增益、信息增益比、Relief和One-R四種特征篩選方法[8],計算不同特征篩選方法下各特征的重要程度并進行排序。由于不同特征篩選方法的取值情況不同,故僅比較同一方法下各個特征指標重要程度的相對大小。按照不同特征篩選方法下各特征重要程度的相對大小,依次選取14個和10個重要特征,利用支持向量機(support vector machines,SVM)、隨機森林與Logistic回歸三種機器學習方法進行分類。
本研究采用R 4.1.0軟件進行回歸預測及機器學習訓練測試。在回歸模型預測中,利用逐步回歸計算函數step(),以AIC信息統計量為準則,通過選擇最小的AIC信息統計量,以達到刪除或增加變量的目的,從而選出最優模型。利用訓練集得到多元線性回歸模型,利用測試集進行報銷金額的預測,借助住院總費用計算預測報銷比例,分析模型的測試結果。
在機器學習訓練測試中,首先將數據集分為訓練集和測試集,以訓練集訓練并調節各模型參數,使得分類模型性能最佳。通過測試集測試各模型的泛化性能,避免過擬合的狀態出現,并得到最終模型。SVM方法通過調節懲罰因子(cost)、分類類型(SVM-type)、核函數(SVM-kernel)以及各核函數超參數等參數,使得模型分類性能最優[9-10];隨機森林方法借助模型誤判率均值的比較,以調節節點中用于二叉樹的變量個數(mtry),繪制模型誤差與決策樹數量關系得到最佳的決策樹數目(ntree),使得模型分類性能最優[11-12];Logistic回歸采用逐步回歸方法,對多重共線性變量予以篩選,從而得到分類性能最優的模型[13-14]。保存三個模型及其對應超參數,利用測試集進行預測,分析各模型的測試結果,并與傳統的多元線性回歸模型結果進行對比。基于特征篩選與機器學習的預測模型流程如圖1所示。

2 結果
2.1 研究對象的基本特征
1 554例患者基本特征的描述性統計結果見表1。940例患者的醫保報銷比例在35%以上,比例為60.49%。

2.2 不同機器學習方法的預測結果
若不加以特征篩選,考慮數據集全部的18個特征,以全部數據集的70%作為訓練數據集,30%作為測試數據集,利用SVM、隨機森林與Logistic回歸三種機器學習方法對醫保報銷比例進行預測,結果見表2。三種方法預測模型的準確率均達到75%以上,且各模型評價指標相近,三種方法均具有較好的預測效果。

2.3 基于特征篩選的機器學習方法改進結果
利用特征篩選方法,得到4種特征篩選方法下各特征的重要程度,見表3。在全模型18個特征的基礎上,依據不同特征篩選方法下特征重要程度的排序,依次選取重要程度最高的14個和10個特征,以全部數據集的70%作為訓練數據集,30%作為測試數據集并利用三種機器學習方法進行預測,各預測指標值的結果見表4和表5。



對特征篩選方法分析,顯示Relief方法篩選出的特征在預測時的效果較差,信息增益、信息增益比和One-R方法篩選出的變量及預測效果水平相近。對篩選特征的數量分析,選取特征數量的多少對預測的準確率和模型評價指標產生影響,同時影響運行的時間。與不進行特征篩選的預測模型比較,選取14個重要特征后,模型評價指標均有所提高;但選取10個重要特征后,模型的評價指標則出現小幅度降低。綜合評估模型的各項評價指標,確定利用信息增益比選取14個重要特征后,通過隨機森林方法預測的模型為最優模型。
建立多元線性回歸模型,基于AIC信息統計量,利用逐步回歸法篩選出最優特征子集為:患者年齡(X1)、醫保類型(X2)、住院天數(X3)、手術費(X4)、西藥費(X5)、材料費(X6)、治療費(X7)、護理費(X8)、床位費(X9)、檢查費(X10)、化驗費(X11)、放射檢查費(X12)、手術數目(X13)及I級護理天數(X14)。最優模型的回歸方程為:
y=3068+21.25X1?2217X2+364.8X3+0.016X4+0.078X5+0.084X6+1.112X7?3.338X8?0.194X9+0.452X10+0.384X11+0.729X12+608.7X13?76.33X14
將傳統多元線性回歸模型與基于特征篩選的機器學習改進方法進行對比分析,見表6。在基于特征篩選的機器學習改進方法下,模型的準確率、敏感性、特異性、精確度等指標均優于傳統回歸模型,且Kappa值具有大幅度提高。

3 討論
3.1 疾病診斷數量、手術操作數量和患者年齡是對報銷比例影響最大的基本特征因素
本研究結果顯示,手術操作數量、I級護理天數、住院天數和患者年齡等患者基本特征相對重要程度較高,是對報銷比例影響最大的基本特征因素。疾病診斷數量和手術操作數量則決定著患者住院及護理天數。研究表明,患者的手術操作數量及疾病診斷數量越多,相應的住院天數增加,患者需承擔更多床位費、綜合服務費用,進而影響報銷比例[15-17]。
患者疾病診斷數量及手術操作數量越多,也意味著患者有較重的合并癥或并發癥,疾病嚴重程度也更高,提示在CHS-DRG胸部大手術組中可能還存在其他細分組方案,也顯示出醫保報銷政策在保障重病時可能存在一定的不足。對于CHS-DRG病組內存在較大差異的還需再進行細分組,真正將資源消耗相近的病例歸入一組并進行賦值,避免出現醫院之間推諉重病患者的問題,也能夠更好地激發醫院自主管理的能動性。
根據患者特征識別低報銷比例患者可以應用于醫院對住院患者住院預交金的精細化管理上。而對于醫療保險管理部門來講,在目前基本醫療保險“保基本”的情況下,通過識別特征人群,有針對性地加強目標人群購買近年來發展起來的政府強主導的“城市型普惠商業醫療保險”作為基本醫療保險的補充,是避免患者因病致貧的一種有效策略。
本研究納入的研究對象,男性患者雖數量較少,但住院費用較高,且年齡多為50歲以上。提示該特征人群應當成為衛生預防保健以及控制醫療費用的主要目標人群。同時,醫院也應當注重醫療技術水平的提升,提高醫療服務效率,實施臨床路徑管理,減少病人等候檢查與手術時間,從而減輕患者的醫療負擔[18]。
3.2 治療費、材料費、手術費、西藥費等是住院費用的主要構成方面
本研究結果顯示,在住院費用的構成方面,治療費、材料費、手術費和西藥費的重要程度較高;且根據臨床經驗可知,上述費用為醫保患者住院的主要構成方面。已有研究表明,西藥費是造成患者醫療負擔過重的主要原因。醫療機構應當建立臨床合理合規用藥的考核體系,鼓勵臨床藥師介入,適當控制藥品占比,以幫助減輕患者的醫療負擔[19]。此外,外科新技術與新材料應用帶來的醫療質量與效率的提升,使得新型醫用材料在臨床的使用需求量增加,手術費和材料費顯著上漲,在住院費用中呈現正向變動的趨勢[20-21]。因此,應該持續推進國家集中帶量采購、省級聯盟帶量采購政策,建立醫用耗材的評價考核機制,并配套實施相應的醫保報銷、結余留用政策,正向引導臨床合理合規使用醫療耗材,降低醫保基金及患者疾病負擔[22]。
3.3 基于特征篩選的機器學習改進方法應用價值
醫保報銷比例是患者就醫時重點考慮的因素之一,選擇何種建模方式進行預測是本研究的重點。相較于多元線性回歸等傳統的統計方法,機器學習方法預測效果更優,模型性能更佳,且能夠發現人類無法識別的數據規律,得到不同準確度的預測結果。然而,機器學習方法的預測準確性會受到數據集中不重要特征的影響[23]。因此,特征篩選是數據分析中重要的先行步驟和必要條件,先確定各特征的重要程度,進而應用機器學習方法對疾病的分類進行預測。
從預測效果來看,剔除少量特征后的模型預測效果更優,但篩選的特征過少則不利于模型的預測。從運行效率來看,篩選的特征數量會一定程度上影響程序運行的效率,特征數量過多可能導致運行速度較慢,特征數量過少則會導致分類效果下降。因此,選用合適的特征數量與預測效果好的機器學習方法,對于預測醫保報銷的比例具有重要意義。
然而,本研究只介紹了方法在醫保報銷比例預測上的應用,其同樣可推廣至其他數據結構相似的疾病診斷過程中。通過機器學習方法,短時間內對大量醫療數據進行數據分析、建模和訓練,得到各醫學指標間的關系,并通過訓練后的模型進行疾病預測,輔助診斷疾病,提高診斷的準確率。在醫學領域,可通過SVM、決策樹等傳統機器學習方法,對數據間的相似度進行衡量,以進行疾病預測、輔助診斷和預后評價等[24-25];也可通過非監督學習研究樣本間的相似性進行輔助診療。機器學習方法無需數據的分布假設,可依據實際的數據特征建立模型,并在建模過程中不斷改進與優化,為醫療領域的進一步發展做出一定貢獻[26]。
綜上所述,在患者的基本特征方面,疾病診斷數量、手術操作數量及患者年齡對報銷比例的影響最顯著;在住院費用的構成方面,治療費、材料費、手術費、西藥費的重要程度高,是住院費用的主要組成部分,也是影響報銷比例的關鍵因素。完善CHS-DRG的細分組方案,依據患者特征精準識別低報銷比例患者,合理合規使用藥品及醫療耗材,是提升報銷比例,減輕患者負擔的有效方案。選擇合適的基于特征篩選的機器學習改進方法,也有助于對報銷比例進行精準預測,為醫務人員及醫保工作者提供有價值的參考。
近年來,我國全民醫保體系逐漸完善,醫療服務能力顯著提升[1-2],然而不斷增加的醫療費用加重了患者的經濟負擔與醫保基金支付的壓力。疾病診斷相關分組(diagnosis related groups,DRG)是綜合考慮患者疾病診斷、治療方式、合并癥、并發癥及患者年齡等因素,將疾病過程、資源消耗相似疾病進行分組的一種方式。基于DRG的醫保支付方式能夠有效控制治療費用的不合理增長,提高醫保基金使用效率,推進分級診療,促進醫療服務模式轉變[3-4]。按國家醫療保障局制定的DRG/DIP支付方式改革三年行動計劃,2024年將實現全國統籌地區DRG/DIP付費的全面覆蓋[5]。按病種付費政策的推進將促使醫療機構更加關注患者在醫院端的醫保報銷狀況,結合病種支付額度預測年度超支結余情況;而醫保經辦機構也需要在政策制定時根據歷年醫院結算情況對醫保基金支出情況進行測算,控制超支風險[6]。
本文選取四川省某大型三甲醫院2020年1月至2020年12月胸部大手術病例信息作為研究對象,采用基于特征篩選的機器學習改進方法建立預測模型,對患者的醫保報銷比例進行預測,以篩選影響報銷比例的因素,并選擇運行效率高、預測效果好的機器學習方法,以期為醫療機構、醫保經辦機構在按病種付費下開展醫保基金支出預測提供思路。
1 資料與方法
1.1 數據來源
本研究收集四川省某大型三甲醫院2020年1月至2020年12月按國家醫療保障疾病診斷相關分組(CHS-DRG)標準分組為胸部大手術的病例信息,CHS-DRG核心疾病診斷相關組編碼為MDCE-EB1。在保證資料完整性、邏輯性與規范性的前提下,對數據進行清洗、匹配診斷名稱與診斷碼、剔除重復值、缺失值及異常值等操作,僅考慮醫保類型為成都市城鎮職工和城鄉居民的患者,最終納入1 554例患者信息。本研究已通過四川大學華西醫院醫學倫理委員會審批(審批號:2023年審〔319〕號)。
1.2 數據集變量
本數據集有19個變量,將患者基本信息劃分為7個類別:年齡、性別、醫保類型、住院天數、疾病診斷數量、手術操作數量、Ⅰ級護理天數。將住院費用劃分為11個類別:治療費、檢查費、材料費、床位費、放射檢查費、護理費、化驗費、麻醉費、配血檢、手術費、西藥費。將醫保報銷比例作為響應變量。
1.3 數據預處理
患者住院總費用為11項費用之和,報銷金額與住院總費用之比為醫保報銷比例。因醫保報銷比例與11項費用間存在多重共線性,為避免共線性帶來模型預測的過擬合問題,將各項費用依照金額區間設置為等級變量。同樣地,疾病診斷數量、手術操作數量與治療費、手術費等具有較強的相關性,故將病案數量與手術數量作等級化處理。將醫保報銷比例以35%為臨界值設置為二分類變量,報銷比例大于35%記為1,反之記為0。
1.4 模型評價指標
依據預測模型下的混淆矩陣,計算預測模型的準確度、精確度、敏感性、特異性、Kappa系數和受試者工作特征(receiver operating characteristic,ROC)曲線的曲線下面積(area under curve,AUC)6個指標。上述指標綜合考慮了模型的預測準確率、漏診率與誤診率,各指標值越大,模型的預測性能越優[7]。同時納入篩選的特征數量及運行時間等因素,對不同特征篩選方法及預測模型進行評價。用TP,FP,TN,FN分別表示真陽性、假陽性、真陰性、假陰性,則模型評價指標可通過下式計算:
![]() |
其中,
1.5 模型建立與算法
首先,建立傳統的多元線性回歸模型,利用逐步回歸法進行變量篩選,選擇AIC信息統計量最小的多元線性回歸模型作為最優模型,對報銷金額進行預測,進而得到分類結果。
其次,利用信息增益、信息增益比、Relief和One-R四種特征篩選方法[8],計算不同特征篩選方法下各特征的重要程度并進行排序。由于不同特征篩選方法的取值情況不同,故僅比較同一方法下各個特征指標重要程度的相對大小。按照不同特征篩選方法下各特征重要程度的相對大小,依次選取14個和10個重要特征,利用支持向量機(support vector machines,SVM)、隨機森林與Logistic回歸三種機器學習方法進行分類。
本研究采用R 4.1.0軟件進行回歸預測及機器學習訓練測試。在回歸模型預測中,利用逐步回歸計算函數step(),以AIC信息統計量為準則,通過選擇最小的AIC信息統計量,以達到刪除或增加變量的目的,從而選出最優模型。利用訓練集得到多元線性回歸模型,利用測試集進行報銷金額的預測,借助住院總費用計算預測報銷比例,分析模型的測試結果。
在機器學習訓練測試中,首先將數據集分為訓練集和測試集,以訓練集訓練并調節各模型參數,使得分類模型性能最佳。通過測試集測試各模型的泛化性能,避免過擬合的狀態出現,并得到最終模型。SVM方法通過調節懲罰因子(cost)、分類類型(SVM-type)、核函數(SVM-kernel)以及各核函數超參數等參數,使得模型分類性能最優[9-10];隨機森林方法借助模型誤判率均值的比較,以調節節點中用于二叉樹的變量個數(mtry),繪制模型誤差與決策樹數量關系得到最佳的決策樹數目(ntree),使得模型分類性能最優[11-12];Logistic回歸采用逐步回歸方法,對多重共線性變量予以篩選,從而得到分類性能最優的模型[13-14]。保存三個模型及其對應超參數,利用測試集進行預測,分析各模型的測試結果,并與傳統的多元線性回歸模型結果進行對比。基于特征篩選與機器學習的預測模型流程如圖1所示。

2 結果
2.1 研究對象的基本特征
1 554例患者基本特征的描述性統計結果見表1。940例患者的醫保報銷比例在35%以上,比例為60.49%。

2.2 不同機器學習方法的預測結果
若不加以特征篩選,考慮數據集全部的18個特征,以全部數據集的70%作為訓練數據集,30%作為測試數據集,利用SVM、隨機森林與Logistic回歸三種機器學習方法對醫保報銷比例進行預測,結果見表2。三種方法預測模型的準確率均達到75%以上,且各模型評價指標相近,三種方法均具有較好的預測效果。

2.3 基于特征篩選的機器學習方法改進結果
利用特征篩選方法,得到4種特征篩選方法下各特征的重要程度,見表3。在全模型18個特征的基礎上,依據不同特征篩選方法下特征重要程度的排序,依次選取重要程度最高的14個和10個特征,以全部數據集的70%作為訓練數據集,30%作為測試數據集并利用三種機器學習方法進行預測,各預測指標值的結果見表4和表5。



對特征篩選方法分析,顯示Relief方法篩選出的特征在預測時的效果較差,信息增益、信息增益比和One-R方法篩選出的變量及預測效果水平相近。對篩選特征的數量分析,選取特征數量的多少對預測的準確率和模型評價指標產生影響,同時影響運行的時間。與不進行特征篩選的預測模型比較,選取14個重要特征后,模型評價指標均有所提高;但選取10個重要特征后,模型的評價指標則出現小幅度降低。綜合評估模型的各項評價指標,確定利用信息增益比選取14個重要特征后,通過隨機森林方法預測的模型為最優模型。
建立多元線性回歸模型,基于AIC信息統計量,利用逐步回歸法篩選出最優特征子集為:患者年齡(X1)、醫保類型(X2)、住院天數(X3)、手術費(X4)、西藥費(X5)、材料費(X6)、治療費(X7)、護理費(X8)、床位費(X9)、檢查費(X10)、化驗費(X11)、放射檢查費(X12)、手術數目(X13)及I級護理天數(X14)。最優模型的回歸方程為:
y=3068+21.25X1?2217X2+364.8X3+0.016X4+0.078X5+0.084X6+1.112X7?3.338X8?0.194X9+0.452X10+0.384X11+0.729X12+608.7X13?76.33X14
將傳統多元線性回歸模型與基于特征篩選的機器學習改進方法進行對比分析,見表6。在基于特征篩選的機器學習改進方法下,模型的準確率、敏感性、特異性、精確度等指標均優于傳統回歸模型,且Kappa值具有大幅度提高。

3 討論
3.1 疾病診斷數量、手術操作數量和患者年齡是對報銷比例影響最大的基本特征因素
本研究結果顯示,手術操作數量、I級護理天數、住院天數和患者年齡等患者基本特征相對重要程度較高,是對報銷比例影響最大的基本特征因素。疾病診斷數量和手術操作數量則決定著患者住院及護理天數。研究表明,患者的手術操作數量及疾病診斷數量越多,相應的住院天數增加,患者需承擔更多床位費、綜合服務費用,進而影響報銷比例[15-17]。
患者疾病診斷數量及手術操作數量越多,也意味著患者有較重的合并癥或并發癥,疾病嚴重程度也更高,提示在CHS-DRG胸部大手術組中可能還存在其他細分組方案,也顯示出醫保報銷政策在保障重病時可能存在一定的不足。對于CHS-DRG病組內存在較大差異的還需再進行細分組,真正將資源消耗相近的病例歸入一組并進行賦值,避免出現醫院之間推諉重病患者的問題,也能夠更好地激發醫院自主管理的能動性。
根據患者特征識別低報銷比例患者可以應用于醫院對住院患者住院預交金的精細化管理上。而對于醫療保險管理部門來講,在目前基本醫療保險“保基本”的情況下,通過識別特征人群,有針對性地加強目標人群購買近年來發展起來的政府強主導的“城市型普惠商業醫療保險”作為基本醫療保險的補充,是避免患者因病致貧的一種有效策略。
本研究納入的研究對象,男性患者雖數量較少,但住院費用較高,且年齡多為50歲以上。提示該特征人群應當成為衛生預防保健以及控制醫療費用的主要目標人群。同時,醫院也應當注重醫療技術水平的提升,提高醫療服務效率,實施臨床路徑管理,減少病人等候檢查與手術時間,從而減輕患者的醫療負擔[18]。
3.2 治療費、材料費、手術費、西藥費等是住院費用的主要構成方面
本研究結果顯示,在住院費用的構成方面,治療費、材料費、手術費和西藥費的重要程度較高;且根據臨床經驗可知,上述費用為醫保患者住院的主要構成方面。已有研究表明,西藥費是造成患者醫療負擔過重的主要原因。醫療機構應當建立臨床合理合規用藥的考核體系,鼓勵臨床藥師介入,適當控制藥品占比,以幫助減輕患者的醫療負擔[19]。此外,外科新技術與新材料應用帶來的醫療質量與效率的提升,使得新型醫用材料在臨床的使用需求量增加,手術費和材料費顯著上漲,在住院費用中呈現正向變動的趨勢[20-21]。因此,應該持續推進國家集中帶量采購、省級聯盟帶量采購政策,建立醫用耗材的評價考核機制,并配套實施相應的醫保報銷、結余留用政策,正向引導臨床合理合規使用醫療耗材,降低醫保基金及患者疾病負擔[22]。
3.3 基于特征篩選的機器學習改進方法應用價值
醫保報銷比例是患者就醫時重點考慮的因素之一,選擇何種建模方式進行預測是本研究的重點。相較于多元線性回歸等傳統的統計方法,機器學習方法預測效果更優,模型性能更佳,且能夠發現人類無法識別的數據規律,得到不同準確度的預測結果。然而,機器學習方法的預測準確性會受到數據集中不重要特征的影響[23]。因此,特征篩選是數據分析中重要的先行步驟和必要條件,先確定各特征的重要程度,進而應用機器學習方法對疾病的分類進行預測。
從預測效果來看,剔除少量特征后的模型預測效果更優,但篩選的特征過少則不利于模型的預測。從運行效率來看,篩選的特征數量會一定程度上影響程序運行的效率,特征數量過多可能導致運行速度較慢,特征數量過少則會導致分類效果下降。因此,選用合適的特征數量與預測效果好的機器學習方法,對于預測醫保報銷的比例具有重要意義。
然而,本研究只介紹了方法在醫保報銷比例預測上的應用,其同樣可推廣至其他數據結構相似的疾病診斷過程中。通過機器學習方法,短時間內對大量醫療數據進行數據分析、建模和訓練,得到各醫學指標間的關系,并通過訓練后的模型進行疾病預測,輔助診斷疾病,提高診斷的準確率。在醫學領域,可通過SVM、決策樹等傳統機器學習方法,對數據間的相似度進行衡量,以進行疾病預測、輔助診斷和預后評價等[24-25];也可通過非監督學習研究樣本間的相似性進行輔助診療。機器學習方法無需數據的分布假設,可依據實際的數據特征建立模型,并在建模過程中不斷改進與優化,為醫療領域的進一步發展做出一定貢獻[26]。
綜上所述,在患者的基本特征方面,疾病診斷數量、手術操作數量及患者年齡對報銷比例的影響最顯著;在住院費用的構成方面,治療費、材料費、手術費、西藥費的重要程度高,是住院費用的主要組成部分,也是影響報銷比例的關鍵因素。完善CHS-DRG的細分組方案,依據患者特征精準識別低報銷比例患者,合理合規使用藥品及醫療耗材,是提升報銷比例,減輕患者負擔的有效方案。選擇合適的基于特征篩選的機器學習改進方法,也有助于對報銷比例進行精準預測,為醫務人員及醫保工作者提供有價值的參考。