慢性心力衰竭(chronic heart failure,CHF)是由心臟結構和/或功能異常引起的一種復雜的臨床綜合征[1]。盡管心力衰竭(heart failure,HF)的診斷、治療和預后管理已取得重大進展,但其再入院率和死亡率仍居高不下[2]。CHF預后不良給患者、患者家庭和醫療衛生系統帶來巨大的疾病負擔,已成為全球重大的公共衛生問題[2-4]。準確評估患者預后不良結局風險對減輕患者疾病負擔和優化醫療資源分配至關重要。CHF患者預后預測模型通過患者的疾病數據全面評估患者預后不良結局風險,可幫助醫護人員及時識別及干預高危人群[5]。現有的預測模型可分為傳統統計模型與機器學習模型[4]。機器學習模型能處理復雜、多維的數據,其算法不受傳統統計方法的限制,但其預測性能是否優于傳統統計模型尚不明確[2,6-7]。目前,國內已開發了多種CHF患者預后預測模型,但尚不清楚哪種預測模型可投入臨床實踐。因此,需充分評估已開發預測模型的開發質量、模型預測性能和適用性。此外,中國CHF患者與西方國家CHF患者的社會經濟地位、藥物治療、合并癥等人群特點存在較大差異,在歐洲或美國人群中開發的預測模型不能直接應用于中國人群[8-9]。因此,醫護人員應謹慎應用西方CHF患者預后預測模型來預測中國CHF患者的預后風險分層[10-11]。綜上所述,本研究系統評價中國CHF患者預后預測模型,比較不同模型間的性能優劣,以期為中國CHF患者預后預測模型的構建、完善、應用提供參考。
1 資料與方法
1.1 納入和排除標準
納入標準:(1)研究對象:中國CHF患者;(2)研究內容:CHF患者預后預測模型,并描述模型構建和(或)驗證的過程;(3)結局指標:至少需包含再入院率、死亡率及心血管不良事件發生率中的任意1項。排除標準:(1)通過各種渠道均無法獲得數據的文獻;(2)非中文或英文文獻;(3)排除在已有模型的基礎上增加指標的研究;(4)會議摘要、綜述等;(5)僅涉及CHF預后危險因素,但沒有構建預測模型的研究。
1.2 文獻檢索
系統檢索The Cochrane Library、PubMed、EMbase、Web of Science、中國知網、維普、萬方和中國生物醫學文獻數據庫中有關中國CHF預后預測模型的相關研究,檢索時限為建庫至2023年3月31日,同時追溯納入文獻的參考文獻,以補充相關文獻。中文檢索詞包括:心力衰竭、慢性心力衰竭、心衰、心功能不全、充血性心力衰竭、病人再入院、再入院、死亡率、死亡數、心血管不良事件、不良心臟事件、預測、預測模型、預測因素、預后、受試者工作特征曲線、曲線下面積、校準、C統計量、一致性指數等。英文檢索詞包括:chronic heart failure、CHF、HF、cardiac failure、patient readmission、case fatality rate、rehospitalization、unplanned readmission、unplanned hospital readmission、hospital readmission、mortality、major adverse cardiovascular events、predict*、prediction model、prognostic model、prognos*、stratification、ROC curve、discrimination、discriminate、c-statistic、area under the curve、AUC、calibration等。檢索均采取主題詞與自由詞聯合檢索的方式。此外,本研究使用了“用于查找疾病預后和診斷預測模型的檢索過濾器”以精確檢索[12]。
1.3 文獻篩選及資料提取
兩名研究者獨立閱讀文獻題目和摘要,嚴格遵循納入與排除標準篩選文獻,初步確定納入研究后,閱讀全文復篩文獻。當篩選結果不一致時,咨詢第3名研究者協助判斷。確定納入研究后,2名研究者根據預測模型研究系統評價的關鍵評估和數據提取清單(critical appraisal and data extraction for systematic reviews of prediction modeling studies,CHARMS)獨立提取數據并交叉核對[13]。提取的內容包括:(1)納入文獻的基本特征:第一作者、研究對象、研究類型、CHF的診斷標準等;(2)納入文獻建模的基本情況:建模方法、建模樣本量、驗模方法、驗模樣本量、靈敏度、特異度、模型中納入的預測因素等;(3)結局指標:結局指標的定義、結局指標的測量方法、預測因素和結局指標測量的時間間隔。
1.4 模型質量評價
兩名研究人員采用預測模型研究偏倚風險評價工具(prediction model risk of bias assessment tool,PROBAST)獨立評價模型質量,若評價結果存在分歧,則與第3名研究員討論并達成一致意見[14]。PROBAST旨在評估用于診斷或預后的多變量預測模型的偏倚風險和適用性,其由4個領域組成,包含20個信號問題,預測模型整體的偏倚風險和適用性評價可被判斷為“高風險”、“低風險”或“不清楚”[14]。4個領域分別為:(1)研究對象:研究的數據來源及其納入排除標準;(2)預測因素:預測因素的定義、測量方法、測量時間、是否使用盲法等;(3)結局:結局指標的定義、測量方法、測量時間、是否使用盲法等;(4)分析:缺失數據處理、分類變量處理等影響模型預測性能的關鍵統計因素是否得到正確處理。最后依據“短板理論”綜合各領域的評價結果,對預測模型的偏倚風險和適用性做出整體評價,即只要有1個領域為“高風險”,則模型整體偏倚風險評價結果為“高風險”。此外,對于模型開發研究,即使模型評估的4個領域均為“低風險”,若模型缺乏外部驗證則仍調整為“高風險”[14]。
2 結果
2.1 文獻篩選結果
數據庫檢索共獲得7281篇相關文獻,使用使用EndNote X9剔除重復文獻后剩余5205篇文獻,逐層篩選后納入25篇文獻,包括10項[5,15-23]回顧性研究和15項[2-3,24-36]前瞻性研究。文獻篩選流程見圖1。中國CHF患者非計劃性再入院率范圍為3.50%~59.00%,死亡率范圍為4.90%~29.00%。納入文獻的基本特征見表1。

*:The Cochrane Library(

2.2 預測模型構建情況與預測性能
25項研究報告了123個CHF患者預后預測模型。研究對象方面,4項研究[17,33-34,36]構建了特異性CHF患者預后預測模型,其中2項研究[17,34]針對收縮性CHF患者,1項研究[36]針對老年CHF患者,1項研究[33]針對CHF易損期的患者。建模方法方面,10項研究[2-3,5,21-22,24,27-28,31,36]應用了Cox比例風險模型,8項研究[15,18-20,26,30,32-33]采用了logistic回歸模型,4項研究[25-26,32,35]采用隨機森林模型,其他研究[25,32,34]采用高斯過程模型、支持向量機等方法構建模型。模型主要以列線圖的形式呈現,此外3項研究[2,22,33]采用列線圖與回歸方程結合的方式呈現結果,2項研究[18,30]僅以回歸方程的方式展現結果,2項研究[15,20]開發了風險評估表,1項研究[26]開發了在線風險計算器。納入模型的區分度主要通過受試者工作特征曲線下面積(area under the curve,AUC)、C統計量(C-index)評估,采用Hosmer-Lemeshow檢驗(P>0.05)和校準圖進行校準度評估。模型驗證方面,除3項研究[18-19,27]外其余研究均開展了模型內部驗證,43個模型內部驗證的AUC均>0.7,模型的預測性能良好。7項研究[3,17,23,26,29-30,33]開展了模型外部驗證,但4項研究[17,23,26,33]未報告模型外部驗證的AUC。模型中出現頻率前5的預測因素是氨基末端腦鈉尿肽前體(N-terminal pro-B-type natriuretic peptide,NT-Pro BNP)、年齡、左心室射血分數(left ventricular ejection fraction,LVEF)、紐約心臟協會心功能分級、體重指數(body mass index,BMI)。納入文獻建模的基本情況見表2。

2.3 偏倚風險與適用性評價
2.3.1 研究對象領域
10項研究[2-3, 17, 24-26, 29-30, 32, 34]研究對象領域偏倚風險低,其余研究研究對象領域偏倚風險高。導致偏倚風險高的主要原因是研究設計多為回顧性研究、病例對照研究。建議未來開發預后預測模型時采用前瞻性隊列研究設計,以降低研究對象偏倚風險[37]。
2.3.2 預測因素領域
14項研究[3, 16, 18-24, 27, 31-33, 35]預測因素領域偏倚風險高,6項研究[5, 15, 25, 28, 34, 36]偏倚風險不清楚,其余研究偏倚風險低。7項研究[3, 23-24, 26, 31-32, 35]開展多中心研究,各中心的預測因素收集與評估的方式可能存在差異,從而降低了數據的可靠性。10項回顧性研究[5, 15-23]在結果已知情況下測量預測因素,無法對研究人員使用盲法,測量過程容易受結局影響。6項研究[5, 15, 25, 28, 34, 36]未報告預測因素的定義或測量方法,預測因素的偏倚風險不清楚。
2.3.3 結果領域
1項研究[18]結果領域偏倚風險高,3項研究[20-21, 28]結果領域偏倚風險不清楚,其余21項研究結果領域偏倚風險低。劉黎霞等[18]的研究中,結局指標為住院期間CHF患者的死亡率,預測因素評估和結果確定的時間間隔較短,因此偏倚評價問題“預測因素評估和結果確定的時間間隔是否合理?”評價為“否”。Lin等[20]的研究中未報告預測因素評估與結果確定的時間間隔,因此,偏倚評價問題“預測因素評估和結果確定的時間間隔是否合理?”評價為“不清楚”。2項研究[21, 28]對結局的判定方法未進行詳細說明,缺乏對臨床結局被恰當地判定的信息。
2.3.4 分析領域
3項研究[3, 19, 28]分析領域的偏倚風險為“不清楚”,其余研究分析領域偏倚風險高。建模時每個變量所對應的事件發生數應≥20,驗模的樣本量應≥100例,但13項研究[5, 15-16, 21-22, 25, 27, 29-30, 33-36]的建模樣本量不足,5項研究[17, 25, 29, 34-35]的驗模樣本量<100例[38]。7項研究[2-3, 5, 24, 26, 31-32]采用Miss forest插補法、多重插補處理缺失數據,2項研究[15-16]直接排除了數據缺失的病例,其余研究均未報告數據是否缺失;模型中變量的篩選應結合臨床知識、預測因素測量的一致性等因素篩選,而18項研究[2-3, 5, 15, 18, 20-25, 27-31, 35-36]僅通過單因素分析法、多因素分析篩選變量;數據復雜性方面,25項研究均未報告數據復雜性;2項研究[16-17]未報告模型的AUC,7項研究[16-18, 30-32, 35]未評估校準度,模型性能評價指標報告不全;模型偏倚風險和適用性評價情況見表3。

2.3.5 適用性評價
評價結果顯示,所有研究在研究對象、預測因素、結果3個方面都有良好的適用性。
3 討論
盡管所有預測模型的區分度為中等到良好,但由于建模樣本量不足、模型缺少外部驗證、缺失數據處理不當、預測因素篩選方法不當等因素導致所有模型均為高偏倚風險,模型的預測性能可能被高估[39]。方法學質量較差造成的偏倚是無法挽回的,所以PROBAST的方法學質量遵循“最低評級”原則。以預測因素的篩選為例:NT-pro BNP作為HF高危人群識別、診斷及預后評估的最主要的生物標志物是模型中最常被納入的預測因子[40-41]。HF預后生物標志物指南指出心型脂肪酸結合蛋白、C反應蛋白或白細胞介素-6等生物標志物有助于HF的危險分層及預后評估[42]。但這幾種生物標志物尚未被納入預測模型,分析造成該結果的原因可能為多數研究僅采用單因素分析與多因素分析的方法篩選預測因素,可能遺漏了重要的預測因素。因此,未來的研究建模前應全面納入患者基線特征、實驗室檢查、治療用藥、生物標志物等所有預疾病預后相關的預測因素,統一預測因素的評估方法,建模時使用合理的方法篩選預測因素,嚴格遵循PROBAST開發高質量預后預測模型[14]。
清晰透明的研究結果報告對提高模型再現性和解釋如何在臨床環境中應用該模型至關重要[43]。但部分研究由于預測因素的測量方法未報告、模型評價指標數據報告不全、模型呈現方式未報告等因素,導致其他研究人員難以驗證及使用這些模型。因此,未來的研究應遵循預測模型報告指南,清晰地報告預測模型建模過程、驗模過程、模型評價指標、模型呈現形式等關鍵信息,以提高模型的透明度和可推廣性。
此外,為篩選出最優模型將其應用于臨床實踐,開展模型性能優劣的比較至關重要。10項研究[2-3, 5, 21-22, 24, 27-28, 31, 36]采用Cox比例風險回歸模型建模,其中Gao等[3]建立的模型樣本量充足,模型內部驗證與外部驗證的AUC均>0.7,模型預測性能良好,其余9項研究均未開展模型外部驗證,模型預測性能有待驗證。8項研究[15, 18-20, 26, 30, 32-33]采用logistic回歸模型建模,其中王金琳等[30]所建模型的內部驗證與外部驗證AUC均>0.8,模型預測性能良好。4項研究[25-26, 31-32]比較了傳統統計模型與機器學習模型預測性能的優劣,其中3項研究[25-26, 32]顯示機器學習模型預測性能更佳,1項研究[31]顯示ELM Cox模型性能最佳。雖機器學習模型預測性能良好,但其可解釋性低,提高模型的可解釋性可幫助醫護人員做出更精準的治療決策[44]。沙普利值加性解釋(SHapley Additive exPlanation,SHAP)是解釋各種機器學習模型黑盒的新框架[45]。Tian等[26]發現使用SHAP框架后模型的解釋性得到提高。因此,未來構建機器學習模型時可使用SHAP框架提高模型的可解釋性。此外,本系統評價納入的研究缺乏預后預測模型與常規CHF患者預后風險評分、中國本土開發CHF患者預后預測模型與國外CHF患者預后預測模型間預測性能的優劣的比較,為篩選出預測性能最佳的預測模型,未來可開展多個預測模型性能的橫向比較研究。
同時本研究發現各預測模型納入的預測因素、隨訪時間、結局指標、建模方法不盡相同,給模型的比較、應用與推廣帶來了困難。結局指標方面,不同研究中的結局指標的定義不同,導致不同研究間CHF預后事件的發生率差異較大。如陳章煒等[27]的研究中結局指標特指因HF導致的患者再入院率,而Han等[24]的研究中結局指標則為HF患者的全因再入院率。因此,未來的研究應標準化結局指標,以便精準比較不同預后預測模型的預測性能。隨訪期方面,納入研究的隨訪時間范圍為31 d至5年[22-23]。部分研究結局時間為31 d或住院期間,預測時間過短[18, 22]。而CHF為長期潛伏性慢性疾病,因此CHF患者的預后分析會涉及到不同時間段的再入院、心血管事件、死亡情況的預測。未來的研究可延長結局指標觀察時間開展CHF預后軌跡預測,以加強中長期預后風險預測。研究方法方面,由于各項研究使用不同的建模方法、納入不同的預測因素,而臨床實踐所使用的適當模型將取決于該醫療場所的特定患者和數據收集系統,導致文獻難以量性綜合,預測模型難以推廣[39]。為解決模型的適用性受目標人群限制的問題,建議未來的研究根據CHF疾病亞型開發針對性的風險模型,將有助于為患者提供個性化預防和治療策略[46]。機器學習模型能整合病例信息系統中大型、復雜和多維的數據,可同時處理大量輸入變量,而各大醫院的病例信息采集系統內容不盡相同,且病例系統可能無法包括建模所需的全部數據,這給預后模型的臨床應用帶來了困難[47]。此外,模型中納入預測因素數量過多也會給數據收集與處理帶來不便。因此,為推動預測模型的臨床應用與普及,需開發標準化的醫院電子病歷系統以供訓練機器學習模型,建模時還需考慮模型中預測因素的數量與收集的難易程度,以納入合理數量的預測因素達到最佳預測效果,提高模型的推廣性。
研究的局限性:本研究僅納入中、英文文獻,可能存在發表偏倚;由于研究設計和統計數據的異質性,本研究無法開展定量分析;其次,部分文獻未報告模型的特異度、靈敏度、校準度等模型性能評價指標,系統評價結果只基于當前證據;此外,本研究納入的大部分模型未進行外部驗證,且尚未發現已應用于臨床的預測模型,模型的可推廣性有待驗證。
綜上,本研究共納入25篇文獻,報道了123個中國CHF患者預后預測模型。所有模型偏倚風險高,且各模型納入的預測因素、隨訪時間、結局指標、建模方法不盡相同,模型的預測性能、穩定性和可推廣性還需驗證。對于已開發的模型,應大力開展這些模型的外部驗證和臨床應用研究,以提高模型的可推廣性。對于模型開發研究,建模前研究人員應全面掌握PROBAST標準全面納入與疾病預后相關的各類預測因素,選擇合適的建模與驗模方法開發高質量預測模型,使用多變量預測模型報告指南全面報告研究結果。
利益沖突:無。
作者貢獻:賈盈盈負責論文設計,數據核對,論文撰寫和修改;胡歡婷、胡婧妮、尤敏和袁天漫負責數據整理與分析;胡歡婷和宋劍平負責論文設計,審閱與修改。
慢性心力衰竭(chronic heart failure,CHF)是由心臟結構和/或功能異常引起的一種復雜的臨床綜合征[1]。盡管心力衰竭(heart failure,HF)的診斷、治療和預后管理已取得重大進展,但其再入院率和死亡率仍居高不下[2]。CHF預后不良給患者、患者家庭和醫療衛生系統帶來巨大的疾病負擔,已成為全球重大的公共衛生問題[2-4]。準確評估患者預后不良結局風險對減輕患者疾病負擔和優化醫療資源分配至關重要。CHF患者預后預測模型通過患者的疾病數據全面評估患者預后不良結局風險,可幫助醫護人員及時識別及干預高危人群[5]。現有的預測模型可分為傳統統計模型與機器學習模型[4]。機器學習模型能處理復雜、多維的數據,其算法不受傳統統計方法的限制,但其預測性能是否優于傳統統計模型尚不明確[2,6-7]。目前,國內已開發了多種CHF患者預后預測模型,但尚不清楚哪種預測模型可投入臨床實踐。因此,需充分評估已開發預測模型的開發質量、模型預測性能和適用性。此外,中國CHF患者與西方國家CHF患者的社會經濟地位、藥物治療、合并癥等人群特點存在較大差異,在歐洲或美國人群中開發的預測模型不能直接應用于中國人群[8-9]。因此,醫護人員應謹慎應用西方CHF患者預后預測模型來預測中國CHF患者的預后風險分層[10-11]。綜上所述,本研究系統評價中國CHF患者預后預測模型,比較不同模型間的性能優劣,以期為中國CHF患者預后預測模型的構建、完善、應用提供參考。
1 資料與方法
1.1 納入和排除標準
納入標準:(1)研究對象:中國CHF患者;(2)研究內容:CHF患者預后預測模型,并描述模型構建和(或)驗證的過程;(3)結局指標:至少需包含再入院率、死亡率及心血管不良事件發生率中的任意1項。排除標準:(1)通過各種渠道均無法獲得數據的文獻;(2)非中文或英文文獻;(3)排除在已有模型的基礎上增加指標的研究;(4)會議摘要、綜述等;(5)僅涉及CHF預后危險因素,但沒有構建預測模型的研究。
1.2 文獻檢索
系統檢索The Cochrane Library、PubMed、EMbase、Web of Science、中國知網、維普、萬方和中國生物醫學文獻數據庫中有關中國CHF預后預測模型的相關研究,檢索時限為建庫至2023年3月31日,同時追溯納入文獻的參考文獻,以補充相關文獻。中文檢索詞包括:心力衰竭、慢性心力衰竭、心衰、心功能不全、充血性心力衰竭、病人再入院、再入院、死亡率、死亡數、心血管不良事件、不良心臟事件、預測、預測模型、預測因素、預后、受試者工作特征曲線、曲線下面積、校準、C統計量、一致性指數等。英文檢索詞包括:chronic heart failure、CHF、HF、cardiac failure、patient readmission、case fatality rate、rehospitalization、unplanned readmission、unplanned hospital readmission、hospital readmission、mortality、major adverse cardiovascular events、predict*、prediction model、prognostic model、prognos*、stratification、ROC curve、discrimination、discriminate、c-statistic、area under the curve、AUC、calibration等。檢索均采取主題詞與自由詞聯合檢索的方式。此外,本研究使用了“用于查找疾病預后和診斷預測模型的檢索過濾器”以精確檢索[12]。
1.3 文獻篩選及資料提取
兩名研究者獨立閱讀文獻題目和摘要,嚴格遵循納入與排除標準篩選文獻,初步確定納入研究后,閱讀全文復篩文獻。當篩選結果不一致時,咨詢第3名研究者協助判斷。確定納入研究后,2名研究者根據預測模型研究系統評價的關鍵評估和數據提取清單(critical appraisal and data extraction for systematic reviews of prediction modeling studies,CHARMS)獨立提取數據并交叉核對[13]。提取的內容包括:(1)納入文獻的基本特征:第一作者、研究對象、研究類型、CHF的診斷標準等;(2)納入文獻建模的基本情況:建模方法、建模樣本量、驗模方法、驗模樣本量、靈敏度、特異度、模型中納入的預測因素等;(3)結局指標:結局指標的定義、結局指標的測量方法、預測因素和結局指標測量的時間間隔。
1.4 模型質量評價
兩名研究人員采用預測模型研究偏倚風險評價工具(prediction model risk of bias assessment tool,PROBAST)獨立評價模型質量,若評價結果存在分歧,則與第3名研究員討論并達成一致意見[14]。PROBAST旨在評估用于診斷或預后的多變量預測模型的偏倚風險和適用性,其由4個領域組成,包含20個信號問題,預測模型整體的偏倚風險和適用性評價可被判斷為“高風險”、“低風險”或“不清楚”[14]。4個領域分別為:(1)研究對象:研究的數據來源及其納入排除標準;(2)預測因素:預測因素的定義、測量方法、測量時間、是否使用盲法等;(3)結局:結局指標的定義、測量方法、測量時間、是否使用盲法等;(4)分析:缺失數據處理、分類變量處理等影響模型預測性能的關鍵統計因素是否得到正確處理。最后依據“短板理論”綜合各領域的評價結果,對預測模型的偏倚風險和適用性做出整體評價,即只要有1個領域為“高風險”,則模型整體偏倚風險評價結果為“高風險”。此外,對于模型開發研究,即使模型評估的4個領域均為“低風險”,若模型缺乏外部驗證則仍調整為“高風險”[14]。
2 結果
2.1 文獻篩選結果
數據庫檢索共獲得7281篇相關文獻,使用使用EndNote X9剔除重復文獻后剩余5205篇文獻,逐層篩選后納入25篇文獻,包括10項[5,15-23]回顧性研究和15項[2-3,24-36]前瞻性研究。文獻篩選流程見圖1。中國CHF患者非計劃性再入院率范圍為3.50%~59.00%,死亡率范圍為4.90%~29.00%。納入文獻的基本特征見表1。

*:The Cochrane Library(

2.2 預測模型構建情況與預測性能
25項研究報告了123個CHF患者預后預測模型。研究對象方面,4項研究[17,33-34,36]構建了特異性CHF患者預后預測模型,其中2項研究[17,34]針對收縮性CHF患者,1項研究[36]針對老年CHF患者,1項研究[33]針對CHF易損期的患者。建模方法方面,10項研究[2-3,5,21-22,24,27-28,31,36]應用了Cox比例風險模型,8項研究[15,18-20,26,30,32-33]采用了logistic回歸模型,4項研究[25-26,32,35]采用隨機森林模型,其他研究[25,32,34]采用高斯過程模型、支持向量機等方法構建模型。模型主要以列線圖的形式呈現,此外3項研究[2,22,33]采用列線圖與回歸方程結合的方式呈現結果,2項研究[18,30]僅以回歸方程的方式展現結果,2項研究[15,20]開發了風險評估表,1項研究[26]開發了在線風險計算器。納入模型的區分度主要通過受試者工作特征曲線下面積(area under the curve,AUC)、C統計量(C-index)評估,采用Hosmer-Lemeshow檢驗(P>0.05)和校準圖進行校準度評估。模型驗證方面,除3項研究[18-19,27]外其余研究均開展了模型內部驗證,43個模型內部驗證的AUC均>0.7,模型的預測性能良好。7項研究[3,17,23,26,29-30,33]開展了模型外部驗證,但4項研究[17,23,26,33]未報告模型外部驗證的AUC。模型中出現頻率前5的預測因素是氨基末端腦鈉尿肽前體(N-terminal pro-B-type natriuretic peptide,NT-Pro BNP)、年齡、左心室射血分數(left ventricular ejection fraction,LVEF)、紐約心臟協會心功能分級、體重指數(body mass index,BMI)。納入文獻建模的基本情況見表2。

2.3 偏倚風險與適用性評價
2.3.1 研究對象領域
10項研究[2-3, 17, 24-26, 29-30, 32, 34]研究對象領域偏倚風險低,其余研究研究對象領域偏倚風險高。導致偏倚風險高的主要原因是研究設計多為回顧性研究、病例對照研究。建議未來開發預后預測模型時采用前瞻性隊列研究設計,以降低研究對象偏倚風險[37]。
2.3.2 預測因素領域
14項研究[3, 16, 18-24, 27, 31-33, 35]預測因素領域偏倚風險高,6項研究[5, 15, 25, 28, 34, 36]偏倚風險不清楚,其余研究偏倚風險低。7項研究[3, 23-24, 26, 31-32, 35]開展多中心研究,各中心的預測因素收集與評估的方式可能存在差異,從而降低了數據的可靠性。10項回顧性研究[5, 15-23]在結果已知情況下測量預測因素,無法對研究人員使用盲法,測量過程容易受結局影響。6項研究[5, 15, 25, 28, 34, 36]未報告預測因素的定義或測量方法,預測因素的偏倚風險不清楚。
2.3.3 結果領域
1項研究[18]結果領域偏倚風險高,3項研究[20-21, 28]結果領域偏倚風險不清楚,其余21項研究結果領域偏倚風險低。劉黎霞等[18]的研究中,結局指標為住院期間CHF患者的死亡率,預測因素評估和結果確定的時間間隔較短,因此偏倚評價問題“預測因素評估和結果確定的時間間隔是否合理?”評價為“否”。Lin等[20]的研究中未報告預測因素評估與結果確定的時間間隔,因此,偏倚評價問題“預測因素評估和結果確定的時間間隔是否合理?”評價為“不清楚”。2項研究[21, 28]對結局的判定方法未進行詳細說明,缺乏對臨床結局被恰當地判定的信息。
2.3.4 分析領域
3項研究[3, 19, 28]分析領域的偏倚風險為“不清楚”,其余研究分析領域偏倚風險高。建模時每個變量所對應的事件發生數應≥20,驗模的樣本量應≥100例,但13項研究[5, 15-16, 21-22, 25, 27, 29-30, 33-36]的建模樣本量不足,5項研究[17, 25, 29, 34-35]的驗模樣本量<100例[38]。7項研究[2-3, 5, 24, 26, 31-32]采用Miss forest插補法、多重插補處理缺失數據,2項研究[15-16]直接排除了數據缺失的病例,其余研究均未報告數據是否缺失;模型中變量的篩選應結合臨床知識、預測因素測量的一致性等因素篩選,而18項研究[2-3, 5, 15, 18, 20-25, 27-31, 35-36]僅通過單因素分析法、多因素分析篩選變量;數據復雜性方面,25項研究均未報告數據復雜性;2項研究[16-17]未報告模型的AUC,7項研究[16-18, 30-32, 35]未評估校準度,模型性能評價指標報告不全;模型偏倚風險和適用性評價情況見表3。

2.3.5 適用性評價
評價結果顯示,所有研究在研究對象、預測因素、結果3個方面都有良好的適用性。
3 討論
盡管所有預測模型的區分度為中等到良好,但由于建模樣本量不足、模型缺少外部驗證、缺失數據處理不當、預測因素篩選方法不當等因素導致所有模型均為高偏倚風險,模型的預測性能可能被高估[39]。方法學質量較差造成的偏倚是無法挽回的,所以PROBAST的方法學質量遵循“最低評級”原則。以預測因素的篩選為例:NT-pro BNP作為HF高危人群識別、診斷及預后評估的最主要的生物標志物是模型中最常被納入的預測因子[40-41]。HF預后生物標志物指南指出心型脂肪酸結合蛋白、C反應蛋白或白細胞介素-6等生物標志物有助于HF的危險分層及預后評估[42]。但這幾種生物標志物尚未被納入預測模型,分析造成該結果的原因可能為多數研究僅采用單因素分析與多因素分析的方法篩選預測因素,可能遺漏了重要的預測因素。因此,未來的研究建模前應全面納入患者基線特征、實驗室檢查、治療用藥、生物標志物等所有預疾病預后相關的預測因素,統一預測因素的評估方法,建模時使用合理的方法篩選預測因素,嚴格遵循PROBAST開發高質量預后預測模型[14]。
清晰透明的研究結果報告對提高模型再現性和解釋如何在臨床環境中應用該模型至關重要[43]。但部分研究由于預測因素的測量方法未報告、模型評價指標數據報告不全、模型呈現方式未報告等因素,導致其他研究人員難以驗證及使用這些模型。因此,未來的研究應遵循預測模型報告指南,清晰地報告預測模型建模過程、驗模過程、模型評價指標、模型呈現形式等關鍵信息,以提高模型的透明度和可推廣性。
此外,為篩選出最優模型將其應用于臨床實踐,開展模型性能優劣的比較至關重要。10項研究[2-3, 5, 21-22, 24, 27-28, 31, 36]采用Cox比例風險回歸模型建模,其中Gao等[3]建立的模型樣本量充足,模型內部驗證與外部驗證的AUC均>0.7,模型預測性能良好,其余9項研究均未開展模型外部驗證,模型預測性能有待驗證。8項研究[15, 18-20, 26, 30, 32-33]采用logistic回歸模型建模,其中王金琳等[30]所建模型的內部驗證與外部驗證AUC均>0.8,模型預測性能良好。4項研究[25-26, 31-32]比較了傳統統計模型與機器學習模型預測性能的優劣,其中3項研究[25-26, 32]顯示機器學習模型預測性能更佳,1項研究[31]顯示ELM Cox模型性能最佳。雖機器學習模型預測性能良好,但其可解釋性低,提高模型的可解釋性可幫助醫護人員做出更精準的治療決策[44]。沙普利值加性解釋(SHapley Additive exPlanation,SHAP)是解釋各種機器學習模型黑盒的新框架[45]。Tian等[26]發現使用SHAP框架后模型的解釋性得到提高。因此,未來構建機器學習模型時可使用SHAP框架提高模型的可解釋性。此外,本系統評價納入的研究缺乏預后預測模型與常規CHF患者預后風險評分、中國本土開發CHF患者預后預測模型與國外CHF患者預后預測模型間預測性能的優劣的比較,為篩選出預測性能最佳的預測模型,未來可開展多個預測模型性能的橫向比較研究。
同時本研究發現各預測模型納入的預測因素、隨訪時間、結局指標、建模方法不盡相同,給模型的比較、應用與推廣帶來了困難。結局指標方面,不同研究中的結局指標的定義不同,導致不同研究間CHF預后事件的發生率差異較大。如陳章煒等[27]的研究中結局指標特指因HF導致的患者再入院率,而Han等[24]的研究中結局指標則為HF患者的全因再入院率。因此,未來的研究應標準化結局指標,以便精準比較不同預后預測模型的預測性能。隨訪期方面,納入研究的隨訪時間范圍為31 d至5年[22-23]。部分研究結局時間為31 d或住院期間,預測時間過短[18, 22]。而CHF為長期潛伏性慢性疾病,因此CHF患者的預后分析會涉及到不同時間段的再入院、心血管事件、死亡情況的預測。未來的研究可延長結局指標觀察時間開展CHF預后軌跡預測,以加強中長期預后風險預測。研究方法方面,由于各項研究使用不同的建模方法、納入不同的預測因素,而臨床實踐所使用的適當模型將取決于該醫療場所的特定患者和數據收集系統,導致文獻難以量性綜合,預測模型難以推廣[39]。為解決模型的適用性受目標人群限制的問題,建議未來的研究根據CHF疾病亞型開發針對性的風險模型,將有助于為患者提供個性化預防和治療策略[46]。機器學習模型能整合病例信息系統中大型、復雜和多維的數據,可同時處理大量輸入變量,而各大醫院的病例信息采集系統內容不盡相同,且病例系統可能無法包括建模所需的全部數據,這給預后模型的臨床應用帶來了困難[47]。此外,模型中納入預測因素數量過多也會給數據收集與處理帶來不便。因此,為推動預測模型的臨床應用與普及,需開發標準化的醫院電子病歷系統以供訓練機器學習模型,建模時還需考慮模型中預測因素的數量與收集的難易程度,以納入合理數量的預測因素達到最佳預測效果,提高模型的推廣性。
研究的局限性:本研究僅納入中、英文文獻,可能存在發表偏倚;由于研究設計和統計數據的異質性,本研究無法開展定量分析;其次,部分文獻未報告模型的特異度、靈敏度、校準度等模型性能評價指標,系統評價結果只基于當前證據;此外,本研究納入的大部分模型未進行外部驗證,且尚未發現已應用于臨床的預測模型,模型的可推廣性有待驗證。
綜上,本研究共納入25篇文獻,報道了123個中國CHF患者預后預測模型。所有模型偏倚風險高,且各模型納入的預測因素、隨訪時間、結局指標、建模方法不盡相同,模型的預測性能、穩定性和可推廣性還需驗證。對于已開發的模型,應大力開展這些模型的外部驗證和臨床應用研究,以提高模型的可推廣性。對于模型開發研究,建模前研究人員應全面掌握PROBAST標準全面納入與疾病預后相關的各類預測因素,選擇合適的建模與驗模方法開發高質量預測模型,使用多變量預測模型報告指南全面報告研究結果。
利益沖突:無。
作者貢獻:賈盈盈負責論文設計,數據核對,論文撰寫和修改;胡歡婷、胡婧妮、尤敏和袁天漫負責數據整理與分析;胡歡婷和宋劍平負責論文設計,審閱與修改。