引用本文: 鄭帥, 黃韜, 楊瑞, 李莉, 喬萌萌, 陳沖, 呂軍. 多變量選擇方法在臨床預測模型中的驗證:基于MIMIC數據庫. 中國循證醫學雜志, 2021, 21(12): 1463-1467. doi: 10.7507/1672-2531.202107175 復制
在醫學研究領域中,觀察性研究通常在預后或病因學方面進行,多變量建模是推斷流行病學因果關系和調查流行病學預后因素的基本工具[1]。而多元回歸模型已廣泛應用于健康科學相關的探索性和驗證性研究中。
通常,研究數據收集的目的是希望解釋某些變量之間存在的相互關系或確定影響特定不良事件的因素。多元回歸模型是這類研究中常用的工具,許多觀察性研究使用多元回歸方法來確定一個結局的重要預測模型[2-4],最終目標將是獲得一個簡化的模型。該模型從生物學角度講是有意義的,而且在應用于獨立數據時可提供有效預測[5]。在模型建立之初,應做的是變量選擇,即將清洗后的數據,根據相應的科學依據和可靠的統計手段,盡量選擇有意義的變量納入模型進行分析。變量選擇有兩個目的,首先,它有助于確定與結果相關的變量集合,從而使模型完整,準確。其次,它通過消除不相關的變量來幫助構建緊湊模型,提升模型精度并減少模型復雜性。最終,變量選擇應在簡單性和完整性之間取得平衡[6]。
常用的變量篩選方法有直接進入法、逐步回歸法(向前和向后)、LASSO法、嶺回歸和基于隨機森林的變量重要性算法等,而如何選擇合適的變量篩選方法比較困難。當研究報告了生存時間數據時,COX模型是最常用的生存分析方法。本文將基于COX模型對MIMIC數據庫中多組數據采用不同變量篩選方法構建臨床預測模型,并通過模型的相關性能指數對比進行驗證。
1 數據與方法
1.1 數據
本次研究的所有數據均來源于MIMIC數據庫,MIMIC是由麻省理工大學計算生理學實驗室開發的、可公開獲取的數據集,包括約60 000例重癥監護病房就診相關的身份不明患者的健康信息數據。數據包括人口統計資料、生命體征、實驗室檢查和用藥方案等。該數據庫具有樣本量大、數據全面、長期患者追蹤、可免費使用等優點,為重癥監護研究提供了豐富資源[7,8]。我們從數據庫中提取了3種疾病的數據作為本次研究的3個樣本集,樣本集1是急性心梗患者,包含4 612例樣本,72個變量;樣本集2是膿毒癥患者,包含1 289例樣本,39個變量;樣本集3是腦出血患者,包含813例樣本,76個變量。3種疾病研究的結局指標均是死亡,且包含時間協變量,變量中均包含了患者年齡、性別等人口學特征資料,同時也納入了實驗室檢查數據。
1.2 方法
對3組樣本集做基于COX比例風險回歸的臨床預測模型研究。根據不同疾病的特質,分別建立了長-短期生存分析模型。首先我們對3組數據進行了描述性分析,其次分別對3組樣本的分類變量和連續變量進行統計推斷,采用卡方檢驗和T檢驗,得到相關P值,可確認根據結局分組在不同變量之間是否存在統計學差異。然后通過R語言將數據按3∶7的比例劃分為訓練集和測試集。在篩選變量進入模型時分別采用了直接進入法(P<0.05)、逐步向前法(P<0.05)、逐步向后法(P<0.05)、Lasso法、嶺回歸和變量重要性6種方法。根據不同的篩選結果各自建立模型,并計算各模型的C指數、AUC值(受試者工作特征曲線下面積)和校準曲線判斷模型的性能,從而選擇模型性能較好的變量選擇方法。數據處理工具包括R語言、SPSS、EXCEL。模型建立流程圖如圖1所示。

2 結果
根據結局(生/死)對分類變量和連續變量分別做了卡方檢驗和t檢驗,并計算每組變量的P值,結果如超鏈接所示(各組患者的變量特征表),3組數據均以患者發生死亡為結局,其中急性心梗組有4 612例患者,納入了26個分類變量和46個連續變量;膿毒癥組有1 289例患者,納入了4個分類變量和35個連續變量;而腦出血組有813例患者,納入了28個分類變量和48個連續變量。各組通過6種不同變量篩選方法的統計結果如表1所示,在急性心梗組又12個變量被6種方法共同識別對預后有影響,膿毒癥組有9個變量,而腦出血組有6個變量。但在急性心梗組利用變量重要性的方法可識別47個變量,是利用直接進入法識別個數(18個)的兩倍多。而其他兩組在利用不同方法識別時變量數量的表現相對穩定。

各組的C指數和AUC的統計結果如表2、3所示,在測試集中急性心梗組C指數表現最好的是嶺回歸(0.833),AUC表現最好的是變量重要性(0.819);膿毒癥組C指數最高的是逐步向后LR(0.731),AUC值最高的是Lasso(0.754);而腦出血組C指數和AUC表現最好的分別是逐步向后LR(0.770)和直接進入法(0.842),3組數據中各模型都表現出良好的校準度,預測值與真實值接近,但并沒有凸顯出某一方法具有獨特的優勢(校準圖可聯系作者獲取)。

3 討論
生物醫學研究中的因果關系問題需要采用觀察性研究和實驗性研究等多種試驗設計方法去驗證。而流行病學研究中多變量建模的結果為評估假定的危險因素在人類疾病中的潛在因果作用提供了寶貴的信息[1]。但在建模之初,變量的有效識別是影響整個模型的真實性和有效性的直接因素。
由于數字化的快速發展,大數據在醫療保健領域已成為重要的數據來源。精準健康包括根據可用的臨床和生物學數據應用適當的統計模型,以更準確地預測患者的預后。而大數據集包含數千個變量,這使得傳統方法很難有效地處理和管理數據。因此,變量選擇已成為大數據分析領域許多研究的重點[9]
從數據集中所有可用變量中識別出潛在候選變量后,進一步選擇變量將其包含在最終模型中。選擇模型變量有不同的方法,但是關于哪種方法最好目前尚無共識[10]。本文將常見的6種變量篩選方法應用于3種疾病的生存分析研究,并在表2和表3中總結了最終模型的性能指標。本次研究的結果顯示不同方法識別的變量和數量均有差異,但在3個數據集中均未發現哪種方法的使用可使模型的性能總體得到提升,結果同時表明模型納入的變量數并不是影響模型結果的因素,打破了“包含變量數越多,模型越好”的悖論。在C指數和AUC值的統計結果中,心梗組和腦出血組的總體表現優于膿毒癥組,可看出似乎數據本身才是影響模型性能的根本原因,校準圖的表現同樣證明了此觀點。盡管變量選擇方法易于使用且易于構建多變量模型,但從業人員(如數據收集者)常常忽視諸如選擇不確定性或報告數量偏差等問題[11]。如何合理地選擇統計方法應嚴格取決于所要解決的研究問題本身,這對模型構建、數據分析和數據解釋具有重要影響[1]。

COX比例風險回歸是一種多因素的生存分析方法,它可同時分析眾多因素對生存期的影響,且不要求估計資料的生存函數分布類型,因此它的使用范圍極其廣泛,在處理生存分析數據時非常受歡迎,臨床預測模型也多基于此建立。但是COX模型要求變量間相互獨立(至少不能存在很強的關聯),且所研究的樣本量要大于變量總數,如果忽略這些條件將會降低模型的穩定性和可解釋性[12]。一般在使用COX回歸時可分別使用3種不同的變量進入方法(直接進入法、逐步向前進入法和逐步向后進入法),這3種方法是基于SPSS完成。嶺回歸的基本原理也是基于修正后的最小二乘法,它的算法在限定了某些系數后使殘差平方和最小化,它的優點是可有效處理多重共線性使模型更加穩定,提高預測性,它的缺點是在處理變量多而樣本少的情況下,得到較多的自變量,影響模型的可解釋性。LASSO回歸相比嶺回歸簡化了模型,減少了不必要的自變量,提高了模型的預測性能。而LASSO的缺點是當自變量遠多于樣本量時,可能會丟失一些非常重要的有意義的變量,導致回歸模型的可信度會降低[13]。LASSO變量選擇方法與常規回歸相比在樣本量小的研究中更能體現它的優勢[14]。而變量重要性是一種新的基于隨機森林的特征選擇方法,它提供了從信息系統中無偏且穩定地選擇重要和非重要屬性的方法,本次研究的變量重要性結果是基于R語言的Boruta包實現(http://CRAN.R-project.org/package=Boruta)。該算法通過比較真實特征與隨機特征的相關性來確定相關性,它迭代地刪除統計測試證明與隨機特征相關性較低的特征,采用了一種新穎的特征選擇算法來查找所有相關變量[15]。在模型建立的時候每個步驟都有其參考的指標,如變量納入模型時一般要求P<0.05,但P值同樣不能量化模型在預測時犯錯的概率,這只是可接受的閾值[16]。在設定P值時,應嚴格按照研究設計方案,根據樣本量分析、研究目的的性質以及臨床經驗設定合理的檢驗標準(alpha),平衡研究結果中的一類錯誤和二類錯誤。從整體模型的性能考慮,常規回歸一般會先擇AIC、BIC值最小的模型,但這也只是在現有方法中選取最好的模型的手段,目前深度學習、機器學習相繼提出新的變量選擇的算法[17,18],但同樣沒有指出哪種變量選擇方法是最佳的。
本文的研究結果從區分度和校準度角度驗證了上述6種變量選擇方法在應用于臨床預測模型研究的數據時,并沒有哪一種方法明顯使模型的性能提高。總之,在使用變量選擇方法之前,應該批判性地考慮在特定研究中是否完全需要這樣的方法,如果是,則僅通過“讓數據說話”就有足夠的理由來證明在模型中消除或包含變量是合理的[11]。因此,建模應基于有背景知識和可驗證的假設開始,這些知識應來自于同一研究領域的前期研究、專家經驗或常識。遵循這一黃金法則,通常可在不使用手頭數據集來揭示變量與結果之間的關系的情況下就可建立一個初始的變量集合,即“全模型”[19],但是更多情況下,研究的目的是探索一些未知的變量對結局的影響,因此變量選擇是研究中必不可少的。而樣本大小和候選預測變量個數是最有影響力的模擬條件[20]。試圖以選取某一變量選擇方法或盲目增加變量來提高模型性能的手段是不可靠的。而收集到高質量的數據是建立一個擁有優良性能模型的前提,其次通過合理的研究設計,在合成數據集時就應依據文獻指南等知識排除混雜因素,不能以“豐富數據”或“探索未知”的思維而納入各種不確定因素導致結論與真實情況的偏倚增大,而是應結合研究目的,以最終數據類型選取合適的變量選擇方法。
本文的局限性:① 此研究僅涉及到半參數COX回歸的生存模型建立;② 數據僅來源于重癥相關疾病,在后續的研究中還需利用更豐富的數據以及更多的變量選擇方法驗證此結論,以提高結論的普適性。
總之,在使用變量選擇方法建立臨床預測模型前應首先明確研究目的并判斷數據類型,結合醫學知識選擇可同時滿足數據類型和達到研究目的的方法。
在醫學研究領域中,觀察性研究通常在預后或病因學方面進行,多變量建模是推斷流行病學因果關系和調查流行病學預后因素的基本工具[1]。而多元回歸模型已廣泛應用于健康科學相關的探索性和驗證性研究中。
通常,研究數據收集的目的是希望解釋某些變量之間存在的相互關系或確定影響特定不良事件的因素。多元回歸模型是這類研究中常用的工具,許多觀察性研究使用多元回歸方法來確定一個結局的重要預測模型[2-4],最終目標將是獲得一個簡化的模型。該模型從生物學角度講是有意義的,而且在應用于獨立數據時可提供有效預測[5]。在模型建立之初,應做的是變量選擇,即將清洗后的數據,根據相應的科學依據和可靠的統計手段,盡量選擇有意義的變量納入模型進行分析。變量選擇有兩個目的,首先,它有助于確定與結果相關的變量集合,從而使模型完整,準確。其次,它通過消除不相關的變量來幫助構建緊湊模型,提升模型精度并減少模型復雜性。最終,變量選擇應在簡單性和完整性之間取得平衡[6]。
常用的變量篩選方法有直接進入法、逐步回歸法(向前和向后)、LASSO法、嶺回歸和基于隨機森林的變量重要性算法等,而如何選擇合適的變量篩選方法比較困難。當研究報告了生存時間數據時,COX模型是最常用的生存分析方法。本文將基于COX模型對MIMIC數據庫中多組數據采用不同變量篩選方法構建臨床預測模型,并通過模型的相關性能指數對比進行驗證。
1 數據與方法
1.1 數據
本次研究的所有數據均來源于MIMIC數據庫,MIMIC是由麻省理工大學計算生理學實驗室開發的、可公開獲取的數據集,包括約60 000例重癥監護病房就診相關的身份不明患者的健康信息數據。數據包括人口統計資料、生命體征、實驗室檢查和用藥方案等。該數據庫具有樣本量大、數據全面、長期患者追蹤、可免費使用等優點,為重癥監護研究提供了豐富資源[7,8]。我們從數據庫中提取了3種疾病的數據作為本次研究的3個樣本集,樣本集1是急性心梗患者,包含4 612例樣本,72個變量;樣本集2是膿毒癥患者,包含1 289例樣本,39個變量;樣本集3是腦出血患者,包含813例樣本,76個變量。3種疾病研究的結局指標均是死亡,且包含時間協變量,變量中均包含了患者年齡、性別等人口學特征資料,同時也納入了實驗室檢查數據。
1.2 方法
對3組樣本集做基于COX比例風險回歸的臨床預測模型研究。根據不同疾病的特質,分別建立了長-短期生存分析模型。首先我們對3組數據進行了描述性分析,其次分別對3組樣本的分類變量和連續變量進行統計推斷,采用卡方檢驗和T檢驗,得到相關P值,可確認根據結局分組在不同變量之間是否存在統計學差異。然后通過R語言將數據按3∶7的比例劃分為訓練集和測試集。在篩選變量進入模型時分別采用了直接進入法(P<0.05)、逐步向前法(P<0.05)、逐步向后法(P<0.05)、Lasso法、嶺回歸和變量重要性6種方法。根據不同的篩選結果各自建立模型,并計算各模型的C指數、AUC值(受試者工作特征曲線下面積)和校準曲線判斷模型的性能,從而選擇模型性能較好的變量選擇方法。數據處理工具包括R語言、SPSS、EXCEL。模型建立流程圖如圖1所示。

2 結果
根據結局(生/死)對分類變量和連續變量分別做了卡方檢驗和t檢驗,并計算每組變量的P值,結果如超鏈接所示(各組患者的變量特征表),3組數據均以患者發生死亡為結局,其中急性心梗組有4 612例患者,納入了26個分類變量和46個連續變量;膿毒癥組有1 289例患者,納入了4個分類變量和35個連續變量;而腦出血組有813例患者,納入了28個分類變量和48個連續變量。各組通過6種不同變量篩選方法的統計結果如表1所示,在急性心梗組又12個變量被6種方法共同識別對預后有影響,膿毒癥組有9個變量,而腦出血組有6個變量。但在急性心梗組利用變量重要性的方法可識別47個變量,是利用直接進入法識別個數(18個)的兩倍多。而其他兩組在利用不同方法識別時變量數量的表現相對穩定。

各組的C指數和AUC的統計結果如表2、3所示,在測試集中急性心梗組C指數表現最好的是嶺回歸(0.833),AUC表現最好的是變量重要性(0.819);膿毒癥組C指數最高的是逐步向后LR(0.731),AUC值最高的是Lasso(0.754);而腦出血組C指數和AUC表現最好的分別是逐步向后LR(0.770)和直接進入法(0.842),3組數據中各模型都表現出良好的校準度,預測值與真實值接近,但并沒有凸顯出某一方法具有獨特的優勢(校準圖可聯系作者獲取)。

3 討論
生物醫學研究中的因果關系問題需要采用觀察性研究和實驗性研究等多種試驗設計方法去驗證。而流行病學研究中多變量建模的結果為評估假定的危險因素在人類疾病中的潛在因果作用提供了寶貴的信息[1]。但在建模之初,變量的有效識別是影響整個模型的真實性和有效性的直接因素。
由于數字化的快速發展,大數據在醫療保健領域已成為重要的數據來源。精準健康包括根據可用的臨床和生物學數據應用適當的統計模型,以更準確地預測患者的預后。而大數據集包含數千個變量,這使得傳統方法很難有效地處理和管理數據。因此,變量選擇已成為大數據分析領域許多研究的重點[9]
從數據集中所有可用變量中識別出潛在候選變量后,進一步選擇變量將其包含在最終模型中。選擇模型變量有不同的方法,但是關于哪種方法最好目前尚無共識[10]。本文將常見的6種變量篩選方法應用于3種疾病的生存分析研究,并在表2和表3中總結了最終模型的性能指標。本次研究的結果顯示不同方法識別的變量和數量均有差異,但在3個數據集中均未發現哪種方法的使用可使模型的性能總體得到提升,結果同時表明模型納入的變量數并不是影響模型結果的因素,打破了“包含變量數越多,模型越好”的悖論。在C指數和AUC值的統計結果中,心梗組和腦出血組的總體表現優于膿毒癥組,可看出似乎數據本身才是影響模型性能的根本原因,校準圖的表現同樣證明了此觀點。盡管變量選擇方法易于使用且易于構建多變量模型,但從業人員(如數據收集者)常常忽視諸如選擇不確定性或報告數量偏差等問題[11]。如何合理地選擇統計方法應嚴格取決于所要解決的研究問題本身,這對模型構建、數據分析和數據解釋具有重要影響[1]。

COX比例風險回歸是一種多因素的生存分析方法,它可同時分析眾多因素對生存期的影響,且不要求估計資料的生存函數分布類型,因此它的使用范圍極其廣泛,在處理生存分析數據時非常受歡迎,臨床預測模型也多基于此建立。但是COX模型要求變量間相互獨立(至少不能存在很強的關聯),且所研究的樣本量要大于變量總數,如果忽略這些條件將會降低模型的穩定性和可解釋性[12]。一般在使用COX回歸時可分別使用3種不同的變量進入方法(直接進入法、逐步向前進入法和逐步向后進入法),這3種方法是基于SPSS完成。嶺回歸的基本原理也是基于修正后的最小二乘法,它的算法在限定了某些系數后使殘差平方和最小化,它的優點是可有效處理多重共線性使模型更加穩定,提高預測性,它的缺點是在處理變量多而樣本少的情況下,得到較多的自變量,影響模型的可解釋性。LASSO回歸相比嶺回歸簡化了模型,減少了不必要的自變量,提高了模型的預測性能。而LASSO的缺點是當自變量遠多于樣本量時,可能會丟失一些非常重要的有意義的變量,導致回歸模型的可信度會降低[13]。LASSO變量選擇方法與常規回歸相比在樣本量小的研究中更能體現它的優勢[14]。而變量重要性是一種新的基于隨機森林的特征選擇方法,它提供了從信息系統中無偏且穩定地選擇重要和非重要屬性的方法,本次研究的變量重要性結果是基于R語言的Boruta包實現(http://CRAN.R-project.org/package=Boruta)。該算法通過比較真實特征與隨機特征的相關性來確定相關性,它迭代地刪除統計測試證明與隨機特征相關性較低的特征,采用了一種新穎的特征選擇算法來查找所有相關變量[15]。在模型建立的時候每個步驟都有其參考的指標,如變量納入模型時一般要求P<0.05,但P值同樣不能量化模型在預測時犯錯的概率,這只是可接受的閾值[16]。在設定P值時,應嚴格按照研究設計方案,根據樣本量分析、研究目的的性質以及臨床經驗設定合理的檢驗標準(alpha),平衡研究結果中的一類錯誤和二類錯誤。從整體模型的性能考慮,常規回歸一般會先擇AIC、BIC值最小的模型,但這也只是在現有方法中選取最好的模型的手段,目前深度學習、機器學習相繼提出新的變量選擇的算法[17,18],但同樣沒有指出哪種變量選擇方法是最佳的。
本文的研究結果從區分度和校準度角度驗證了上述6種變量選擇方法在應用于臨床預測模型研究的數據時,并沒有哪一種方法明顯使模型的性能提高。總之,在使用變量選擇方法之前,應該批判性地考慮在特定研究中是否完全需要這樣的方法,如果是,則僅通過“讓數據說話”就有足夠的理由來證明在模型中消除或包含變量是合理的[11]。因此,建模應基于有背景知識和可驗證的假設開始,這些知識應來自于同一研究領域的前期研究、專家經驗或常識。遵循這一黃金法則,通常可在不使用手頭數據集來揭示變量與結果之間的關系的情況下就可建立一個初始的變量集合,即“全模型”[19],但是更多情況下,研究的目的是探索一些未知的變量對結局的影響,因此變量選擇是研究中必不可少的。而樣本大小和候選預測變量個數是最有影響力的模擬條件[20]。試圖以選取某一變量選擇方法或盲目增加變量來提高模型性能的手段是不可靠的。而收集到高質量的數據是建立一個擁有優良性能模型的前提,其次通過合理的研究設計,在合成數據集時就應依據文獻指南等知識排除混雜因素,不能以“豐富數據”或“探索未知”的思維而納入各種不確定因素導致結論與真實情況的偏倚增大,而是應結合研究目的,以最終數據類型選取合適的變量選擇方法。
本文的局限性:① 此研究僅涉及到半參數COX回歸的生存模型建立;② 數據僅來源于重癥相關疾病,在后續的研究中還需利用更豐富的數據以及更多的變量選擇方法驗證此結論,以提高結論的普適性。
總之,在使用變量選擇方法建立臨床預測模型前應首先明確研究目的并判斷數據類型,結合醫學知識選擇可同時滿足數據類型和達到研究目的的方法。