引用本文: 王明旭, 張海濤, 熊瑤, 王滋, 姚熠, 陳昱昊, 王璐. 基于機器學習及氣象因素對成都市某醫院缺血性腦卒中日發病人數預測的效果評價. 華西醫學, 2023, 38(2): 233-239. doi: 10.7507/1002-0179.202205042 復制
腦卒中是我國成年人致死、致殘的首要病因[1],其具有高發病率、高死亡率以及高復發率的特點,腦卒中患者中近 70% 為缺血性腦卒中[2],是我國目前迫切需要解決的重大醫療問題之一。近年來隨著空氣污染物臭氧(O3)、二氧化氮(NO2)、細顆粒物(particulate matter 2.5, PM2.5)等含量增長,環境污染日趨嚴重,人體健康受到影響。大量研究發現腦卒中發病與氣象和空氣質量因素有關,這些因素包括天氣、溫度、濕度、氣壓以及空氣污染物二氧化硫(SO2)、NO2、PM2.5 含量等[2-8]。隨著大數據時代的到來,在醫療領域,復雜的氣象和空氣質量因素被整合為大數據,為醫療領域機器學習方法的引入創造了條件。王克英等[6]通過對 2006 年-2010 年北京市確診為急性腦血管疾病的急救病例研究,發現各季節最低氣溫、最高氣溫、平均氣溫、平均風速、極大風速、相對濕度、日較差對腦卒中發病率有顯著影響。2018 年,程學偉等[9]采用支持向量機和隨機森林的方法建立了日就診人數預測模型和日就診人數與氣象因素的關系模型并得到了較高的預測率。以往的研究主要致力于探究不同空氣污染、天氣指標及季節因素與腦卒中的相關性以及探索影響腦卒中發病率的主要天氣指標,通過建立機器模型對腦卒中日發病率進行擬合的研究較少。基于此,本研究通過建立不同機器學習模型對缺血性腦卒中日發病人數進行預測并探究不同機器模型的擬合情況,旨在基于機器學習模型評價氣象和空氣質量因素對每日缺血性腦卒中確診人數的預測效果,為預測缺血性腦卒中發病人數的影響提供有效的評價工具。
1 資料與方法
1.1 資料來源
缺血性腦卒中確診患者數據來源于成都市第三人民醫院,缺血性腦卒中診斷依據《中國急性缺血性腦卒中診療指南 2018》[10],數據包含 2019 年 1 月 1 日-2021 年 3 月 28 日成都市第三人民醫院每日缺血性腦卒中確診人數,該時段確診人數合計 2125 人,共包含 794 天數據(2019 年 1 月 1 日-2021 年 3 月 28 日共 818 天,其中 24 天因缺少天氣數據信息刪除)。同期成都市的氣象和空氣質量數據來源于中國天氣網,氣象要素包括天氣、最高溫度(℃)、最低溫度(℃)、平均溫度(℃)、濕度(%)、風速(m/s)、風級、風向角度(°)、風向、氣壓(hPa)、能見度(km)、日降雨量(mm)、平均總云量(%)、SO2(μg/m3)、NO2(μg/m3)、一氧化碳(CO)(μg/m3)、O3(μg/m3)、PM2.5(μg/m3)、可吸入顆粒物(particulate matter 10, PM10)(μg/m3)、空氣質量指數(air quality index, AQI)、綜合指數共 21 個因素。在數據中,天氣數據包括陰、晴、多云、雨、小雨、中雨、大雨、大暴雨、特大暴雨、雷陣雨轉小雨、霧、輕霧、揚沙;風向包括東風、東南風、南風、西南風、西風、西北風、北風、東北風;AQI 是環境 AQI,描述了空氣清潔或者污染的程度,以及對健康的影響,AQI 的重點是評估呼吸幾小時或者幾天污染空氣對健康的影響;綜合指數指的是環境空氣質量綜合指數,是描述城市環境空氣質量綜合狀況的無量綱指數。
1.2 數據預處理
原始數據集包括分類變量和連續變量,首先對原始數據集中的缺失數據進行預處理。對于分類變量,由于缺失數據較少(其缺失數據約為總數據量的 3%,共 24 個),故選擇直接剔除相關變量數據;對于連續變量,利用 SPSS 22.0 軟件采用回歸多重插補法對缺失數據進行插補,使得原有數據集成為一個完整的數據集并且減少由于數據缺失造成的估計量的偏差。
為提高機器學習的效果,將數據根據缺血性腦卒中日確診人數分為 4 組:組 0(日確診人數=0),組 1(0<日確診人數≤4),組 2(4<日確診人數≤8),組 3(日確診人數>8)。
1.3 影響因素分析
在建立模型之前,首先采用相關、回歸及主成分分析(principal component analysis, PCA)方法分別進行缺血性腦卒中日確診人數分組的影響因素分析,初步得到變量間的關系以及與響應變量相關的解釋變量。
1.3.1 相關性分析
采用 R 4.1.2 軟件,對于等級資料和連續變量(包括最高溫度、最低溫度、平均溫度、濕度、風速、風級、風向角度、氣壓、能見度、日降雨量、平均總云量、SO2、NO2、CO、PM2.5、PM10、AQI、綜合指數),采用 Spearman 相關分析,根據 Spearman 相關系數得出缺血性腦卒中日確診人數分組與各變量的相關程度;而對于無序多分類數據(包括天氣、風向),則根據分類資料的關聯性分析,得到列聯系數,進而得出缺血性腦卒中日確診人數分組與各分類變量的相關情況。雙側檢驗水準 α=0.05。
1.3.2 回歸分析
首先對無序多分類變量進行賦值處理(表1)。由于有序多分類 logistic 回歸分析未通過平行線檢驗,故本研究利用 R 4.1.2 軟件 nnet 包中的 multinom 函數,以缺血性腦卒中日確診人數分組為因變量(以組 0 為參照),以本研究納入的氣象和空氣質量要素為自變量進行無序多分類 logistic 回歸分析,計算比值比(odds ratio, OR)及其 95% 置信區間(confidence interval, CI)。在進行分析時,以模型中變量 P<0.05 作為變量入選的標準,并應用赤池信息量準則(Akaike information criterion)采用逐步回歸法篩選變量,建立缺血性腦卒中日確診人數分組的無序多分類 logistic 回歸模型。雙側檢驗水準 α=0.05。

1.3.3 PCA 降維
利用 MATLAB R2016a 軟件的 PCA 函數對數據進行降維處理,得到與缺血性腦卒中日確診人數分組相關的氣象和空氣質量因素。PCA 主要通過線性變換將原始數據變換為一組各維度間線性無關的表示,用于提取數據的主要特征分量以及高維數據的降維,從而找到與之相關的影響因素。在 PCA 降維時,使用累積比率確定主成分解釋的方差量,保留解釋可接受方差水平的主成分,本研究選擇保留 90% 的方差。依據結果構建 PCA 載荷矩陣,選取其中主成分絕對值超過 0.1 的變量作為可能的影響因素。
1.4 模型擬合與評價
采用數據隨機拆分法,將數據按照 7∶3 的比例隨機分為訓練組(70%)和驗證組(30%),分別用于模型訓練(建模)與驗證(預測);并將上述操作重復 3 次,通過對模型進行多次訓練并預測,用以減少模型的偶然性,檢驗模型的穩定性,最后以 3 次結果的平均水平作為最終結果用于模型預測效果的評價。
1.4.1 模型擬合
利用 R 4.1.2 軟件的 e1071 包(用于 SVM 模型擬合)、kknn 包(用于 KNN 模型擬合)、rpart 包(用于決策樹模型擬合)、nnet 包(用于 logistic 回歸模型擬合)進行建模。其中,通過 R 軟件篩選出各機器學習模型參數,SVM 的核函數為 radial function,gamma 為 0.25,cost 為 4;KNN 臨近參數為 11,距離度量為歐幾里得距離;決策樹的 split criterion 為信息增益分類規則。
1.4.2 模型評價
利用 R 4.1.2 軟件中 pROC 包的 multiclass.roc 函數求出以上 4 種模型的受試者工作特征曲線下面積(area under curve, AUC),綜合評價各模型的整體分類效果,并用準確率以及 F1 分數(陽性預測值和靈敏度的調和平均數)描述模型的分類效果。其中,準確率為所有正確預測的樣本占全部樣本的比例,陽性預測值為在各個預測人數組中預測正確的樣本占該預測人數組總樣本的比例的算術平均數,靈敏度為在各個實際人數組中預測正確的樣本占該實際人數組總樣本的比例的算術平均數。
2 結果
2.1 影響因素分析
2.1.1 相關性分析
Spearman 相關性分析和分類資料關聯性檢驗結果顯示,缺血性腦卒中每日確診人數分組與最低溫度、平均溫度、濕度、風速、風向角度、氣壓、能見度、日降雨量、平均總云量、PM10、天氣和風向有關(P<0.05)。見表2、3。


2.1.2 回歸分析
根據無序多分類 logistic 回歸模型,篩選出 11 個可能的影響因素(包括最低溫度、平均溫度、風速、風向角度、氣壓、能見度、平均總云量、SO2、CO、O3、綜合指數)。見表4。

2.1.3 PCA 降維
PCA 降維結果見表5,可見前 3 個主成分占比超過 90%,故最終選取 3 個主成分。得到載荷矩陣篩選變量見表6。通過 PCA 降維以及載荷矩陣,初步認為最高溫度、風向角度、O3 含量、NO2 含量、PM2.5 含量、PM10 含量、AQI、平均總云量對缺血性腦卒中每日確診人數分組存在影響。


2.2 模型預測效果評價
采用 SVM、KNN、決策樹 3 種機器學習模型對數據進行訓練,輸入的主要解釋變量為最高溫度、風向角度、O3 含量、NO2 含量、PM2.5 含量、PM10 含量、AQI、平均總云量,不同機器學習進行部分調整,并與 logistic 回歸模型作對比,獲得各模型預測效果評價。結果顯示,按準確率從高到低依次為 SVM、logistic 回歸、決策樹、KNN,按 F1 分數從高到低依次為 SVM、KNN、決策樹、logistic 回歸,按 AUC 從高到低依次為 SVM、logistic 回歸、決策樹、KNN。見表7。

3 討論
本研究通過分析氣象和空氣質量狀況與缺血性腦卒中的相關數據,建立氣象和空氣質量因素對缺血性腦卒中影響的 SVM、KNN、決策樹 3 種機器學習模型,得出結論,SVM 機器學習模型預測每日確診人數的各項指標相對更好,可能更適用于缺血性腦卒中每日發病人數的預測。同時,利用機器學習模型,可以在一定程度上根據氣象和空氣質量狀況對缺血性腦卒中發病的風險進行預測,為缺血性腦卒中每日發病人數的科學判斷、治療和干預提供更多依據,具有一定的研究和應用價值。
此前,大量研究發現氣象因素對缺血性腦卒發病存在影響。其中,王旭[3]通過研究 2004 年-2005 年腦卒中發病情況與同期氣象因素的關系,發現沈陽地區腦卒中發病與氣壓呈正相關,與平均氣溫呈負相關;方萬里等[5]通過研究 2007 年-2010 年寧波地區腦卒中發病情況與氣象關系,得出了腦卒中發病人數與當期氣溫和氣壓呈正相關,與前期的溫差、平均相對濕度等呈負相關的結論;2019 年,Huang 等[7]研究表明長期暴露于高濃度的 PM2.5 與腦卒中發病率呈正相關。
本研究收集了成都市 2019 年 1 月-2021 年 3 月成都市第三人民醫院缺血性腦卒中每日確診人數以及氣象和空氣質量因素的數據,利用響應變量和解釋變量間的相關性和多因素 logistic 回歸分析對影響腦卒中發病的氣象因素進行了分析,進行 PCA 數據降維,得到了影響腦卒中發病人數的相關氣象因素,得出了最高溫度、風向角度、O3 含量、NO2 含量、PM2.5 含量、PM10 含量、AQI、平均總云量對腦卒中每日確診人數存在影響的結論,與此前研究影響腦卒中發病氣象因素的結論[11-17]基本一致。
同時,本研究運用機器學習構建了 3 種每日發病人數模型,能更加科學準確地體現天氣因素對缺血性腦卒中發病的影響和預測不同天氣因素下的缺血性腦卒中發病情況。以往研究表明,logistic 回歸模型作為一種高效準確的傳統預測模型,在發病人數預測中有不錯運用[18-21]。故本研究采用 logistic 回歸模型作為基準模型,與各機器學習模型相比較,衡量其預測效果。與 logistic 回歸模型對比,本研究建立的 3 個模型在各項模型評估指標中各有優劣,但總體來看,SVM 模型綜合表現第一,其 F1 分數、AUC、預測準確率等參數均是最優。決策樹模型和 KNN 模型相對較差,其 F1 分數、AUC、預測準確率等參數與 logistic 回歸模型各有優劣。同時本研究在一定程度上借鑒了前人的思想,例如對響應變量數據按照一定的標準進行分類,使得處理數據時更加方便,利于后續的處理,并在一定程度上提高了模型的精確度[22-24]。
綜上,本研究得出 SVM 預測的缺血性腦卒中日發病人數結果要優于傳統 logistic 回歸模型以及其他 2 種機器學習模型。但本研究存在一定局限性,如研究的樣本量偏小,目前研究數據僅來自單中心;在患者中僅納入了缺血性腦卒中患者,而同樣受天氣影響的出血性腦卒中患者目前尚未納入;PCA 降維僅能挑選出影響因素,而不能得到具體的相關關系。后續擬在今后研究中通過采用多中心研究,增加研究樣本量,同時納入出血性腦卒中病種,彌補上述局限。
利益沖突:所有作者聲明不存在利益沖突。
腦卒中是我國成年人致死、致殘的首要病因[1],其具有高發病率、高死亡率以及高復發率的特點,腦卒中患者中近 70% 為缺血性腦卒中[2],是我國目前迫切需要解決的重大醫療問題之一。近年來隨著空氣污染物臭氧(O3)、二氧化氮(NO2)、細顆粒物(particulate matter 2.5, PM2.5)等含量增長,環境污染日趨嚴重,人體健康受到影響。大量研究發現腦卒中發病與氣象和空氣質量因素有關,這些因素包括天氣、溫度、濕度、氣壓以及空氣污染物二氧化硫(SO2)、NO2、PM2.5 含量等[2-8]。隨著大數據時代的到來,在醫療領域,復雜的氣象和空氣質量因素被整合為大數據,為醫療領域機器學習方法的引入創造了條件。王克英等[6]通過對 2006 年-2010 年北京市確診為急性腦血管疾病的急救病例研究,發現各季節最低氣溫、最高氣溫、平均氣溫、平均風速、極大風速、相對濕度、日較差對腦卒中發病率有顯著影響。2018 年,程學偉等[9]采用支持向量機和隨機森林的方法建立了日就診人數預測模型和日就診人數與氣象因素的關系模型并得到了較高的預測率。以往的研究主要致力于探究不同空氣污染、天氣指標及季節因素與腦卒中的相關性以及探索影響腦卒中發病率的主要天氣指標,通過建立機器模型對腦卒中日發病率進行擬合的研究較少。基于此,本研究通過建立不同機器學習模型對缺血性腦卒中日發病人數進行預測并探究不同機器模型的擬合情況,旨在基于機器學習模型評價氣象和空氣質量因素對每日缺血性腦卒中確診人數的預測效果,為預測缺血性腦卒中發病人數的影響提供有效的評價工具。
1 資料與方法
1.1 資料來源
缺血性腦卒中確診患者數據來源于成都市第三人民醫院,缺血性腦卒中診斷依據《中國急性缺血性腦卒中診療指南 2018》[10],數據包含 2019 年 1 月 1 日-2021 年 3 月 28 日成都市第三人民醫院每日缺血性腦卒中確診人數,該時段確診人數合計 2125 人,共包含 794 天數據(2019 年 1 月 1 日-2021 年 3 月 28 日共 818 天,其中 24 天因缺少天氣數據信息刪除)。同期成都市的氣象和空氣質量數據來源于中國天氣網,氣象要素包括天氣、最高溫度(℃)、最低溫度(℃)、平均溫度(℃)、濕度(%)、風速(m/s)、風級、風向角度(°)、風向、氣壓(hPa)、能見度(km)、日降雨量(mm)、平均總云量(%)、SO2(μg/m3)、NO2(μg/m3)、一氧化碳(CO)(μg/m3)、O3(μg/m3)、PM2.5(μg/m3)、可吸入顆粒物(particulate matter 10, PM10)(μg/m3)、空氣質量指數(air quality index, AQI)、綜合指數共 21 個因素。在數據中,天氣數據包括陰、晴、多云、雨、小雨、中雨、大雨、大暴雨、特大暴雨、雷陣雨轉小雨、霧、輕霧、揚沙;風向包括東風、東南風、南風、西南風、西風、西北風、北風、東北風;AQI 是環境 AQI,描述了空氣清潔或者污染的程度,以及對健康的影響,AQI 的重點是評估呼吸幾小時或者幾天污染空氣對健康的影響;綜合指數指的是環境空氣質量綜合指數,是描述城市環境空氣質量綜合狀況的無量綱指數。
1.2 數據預處理
原始數據集包括分類變量和連續變量,首先對原始數據集中的缺失數據進行預處理。對于分類變量,由于缺失數據較少(其缺失數據約為總數據量的 3%,共 24 個),故選擇直接剔除相關變量數據;對于連續變量,利用 SPSS 22.0 軟件采用回歸多重插補法對缺失數據進行插補,使得原有數據集成為一個完整的數據集并且減少由于數據缺失造成的估計量的偏差。
為提高機器學習的效果,將數據根據缺血性腦卒中日確診人數分為 4 組:組 0(日確診人數=0),組 1(0<日確診人數≤4),組 2(4<日確診人數≤8),組 3(日確診人數>8)。
1.3 影響因素分析
在建立模型之前,首先采用相關、回歸及主成分分析(principal component analysis, PCA)方法分別進行缺血性腦卒中日確診人數分組的影響因素分析,初步得到變量間的關系以及與響應變量相關的解釋變量。
1.3.1 相關性分析
采用 R 4.1.2 軟件,對于等級資料和連續變量(包括最高溫度、最低溫度、平均溫度、濕度、風速、風級、風向角度、氣壓、能見度、日降雨量、平均總云量、SO2、NO2、CO、PM2.5、PM10、AQI、綜合指數),采用 Spearman 相關分析,根據 Spearman 相關系數得出缺血性腦卒中日確診人數分組與各變量的相關程度;而對于無序多分類數據(包括天氣、風向),則根據分類資料的關聯性分析,得到列聯系數,進而得出缺血性腦卒中日確診人數分組與各分類變量的相關情況。雙側檢驗水準 α=0.05。
1.3.2 回歸分析
首先對無序多分類變量進行賦值處理(表1)。由于有序多分類 logistic 回歸分析未通過平行線檢驗,故本研究利用 R 4.1.2 軟件 nnet 包中的 multinom 函數,以缺血性腦卒中日確診人數分組為因變量(以組 0 為參照),以本研究納入的氣象和空氣質量要素為自變量進行無序多分類 logistic 回歸分析,計算比值比(odds ratio, OR)及其 95% 置信區間(confidence interval, CI)。在進行分析時,以模型中變量 P<0.05 作為變量入選的標準,并應用赤池信息量準則(Akaike information criterion)采用逐步回歸法篩選變量,建立缺血性腦卒中日確診人數分組的無序多分類 logistic 回歸模型。雙側檢驗水準 α=0.05。

1.3.3 PCA 降維
利用 MATLAB R2016a 軟件的 PCA 函數對數據進行降維處理,得到與缺血性腦卒中日確診人數分組相關的氣象和空氣質量因素。PCA 主要通過線性變換將原始數據變換為一組各維度間線性無關的表示,用于提取數據的主要特征分量以及高維數據的降維,從而找到與之相關的影響因素。在 PCA 降維時,使用累積比率確定主成分解釋的方差量,保留解釋可接受方差水平的主成分,本研究選擇保留 90% 的方差。依據結果構建 PCA 載荷矩陣,選取其中主成分絕對值超過 0.1 的變量作為可能的影響因素。
1.4 模型擬合與評價
采用數據隨機拆分法,將數據按照 7∶3 的比例隨機分為訓練組(70%)和驗證組(30%),分別用于模型訓練(建模)與驗證(預測);并將上述操作重復 3 次,通過對模型進行多次訓練并預測,用以減少模型的偶然性,檢驗模型的穩定性,最后以 3 次結果的平均水平作為最終結果用于模型預測效果的評價。
1.4.1 模型擬合
利用 R 4.1.2 軟件的 e1071 包(用于 SVM 模型擬合)、kknn 包(用于 KNN 模型擬合)、rpart 包(用于決策樹模型擬合)、nnet 包(用于 logistic 回歸模型擬合)進行建模。其中,通過 R 軟件篩選出各機器學習模型參數,SVM 的核函數為 radial function,gamma 為 0.25,cost 為 4;KNN 臨近參數為 11,距離度量為歐幾里得距離;決策樹的 split criterion 為信息增益分類規則。
1.4.2 模型評價
利用 R 4.1.2 軟件中 pROC 包的 multiclass.roc 函數求出以上 4 種模型的受試者工作特征曲線下面積(area under curve, AUC),綜合評價各模型的整體分類效果,并用準確率以及 F1 分數(陽性預測值和靈敏度的調和平均數)描述模型的分類效果。其中,準確率為所有正確預測的樣本占全部樣本的比例,陽性預測值為在各個預測人數組中預測正確的樣本占該預測人數組總樣本的比例的算術平均數,靈敏度為在各個實際人數組中預測正確的樣本占該實際人數組總樣本的比例的算術平均數。
2 結果
2.1 影響因素分析
2.1.1 相關性分析
Spearman 相關性分析和分類資料關聯性檢驗結果顯示,缺血性腦卒中每日確診人數分組與最低溫度、平均溫度、濕度、風速、風向角度、氣壓、能見度、日降雨量、平均總云量、PM10、天氣和風向有關(P<0.05)。見表2、3。


2.1.2 回歸分析
根據無序多分類 logistic 回歸模型,篩選出 11 個可能的影響因素(包括最低溫度、平均溫度、風速、風向角度、氣壓、能見度、平均總云量、SO2、CO、O3、綜合指數)。見表4。

2.1.3 PCA 降維
PCA 降維結果見表5,可見前 3 個主成分占比超過 90%,故最終選取 3 個主成分。得到載荷矩陣篩選變量見表6。通過 PCA 降維以及載荷矩陣,初步認為最高溫度、風向角度、O3 含量、NO2 含量、PM2.5 含量、PM10 含量、AQI、平均總云量對缺血性腦卒中每日確診人數分組存在影響。


2.2 模型預測效果評價
采用 SVM、KNN、決策樹 3 種機器學習模型對數據進行訓練,輸入的主要解釋變量為最高溫度、風向角度、O3 含量、NO2 含量、PM2.5 含量、PM10 含量、AQI、平均總云量,不同機器學習進行部分調整,并與 logistic 回歸模型作對比,獲得各模型預測效果評價。結果顯示,按準確率從高到低依次為 SVM、logistic 回歸、決策樹、KNN,按 F1 分數從高到低依次為 SVM、KNN、決策樹、logistic 回歸,按 AUC 從高到低依次為 SVM、logistic 回歸、決策樹、KNN。見表7。

3 討論
本研究通過分析氣象和空氣質量狀況與缺血性腦卒中的相關數據,建立氣象和空氣質量因素對缺血性腦卒中影響的 SVM、KNN、決策樹 3 種機器學習模型,得出結論,SVM 機器學習模型預測每日確診人數的各項指標相對更好,可能更適用于缺血性腦卒中每日發病人數的預測。同時,利用機器學習模型,可以在一定程度上根據氣象和空氣質量狀況對缺血性腦卒中發病的風險進行預測,為缺血性腦卒中每日發病人數的科學判斷、治療和干預提供更多依據,具有一定的研究和應用價值。
此前,大量研究發現氣象因素對缺血性腦卒發病存在影響。其中,王旭[3]通過研究 2004 年-2005 年腦卒中發病情況與同期氣象因素的關系,發現沈陽地區腦卒中發病與氣壓呈正相關,與平均氣溫呈負相關;方萬里等[5]通過研究 2007 年-2010 年寧波地區腦卒中發病情況與氣象關系,得出了腦卒中發病人數與當期氣溫和氣壓呈正相關,與前期的溫差、平均相對濕度等呈負相關的結論;2019 年,Huang 等[7]研究表明長期暴露于高濃度的 PM2.5 與腦卒中發病率呈正相關。
本研究收集了成都市 2019 年 1 月-2021 年 3 月成都市第三人民醫院缺血性腦卒中每日確診人數以及氣象和空氣質量因素的數據,利用響應變量和解釋變量間的相關性和多因素 logistic 回歸分析對影響腦卒中發病的氣象因素進行了分析,進行 PCA 數據降維,得到了影響腦卒中發病人數的相關氣象因素,得出了最高溫度、風向角度、O3 含量、NO2 含量、PM2.5 含量、PM10 含量、AQI、平均總云量對腦卒中每日確診人數存在影響的結論,與此前研究影響腦卒中發病氣象因素的結論[11-17]基本一致。
同時,本研究運用機器學習構建了 3 種每日發病人數模型,能更加科學準確地體現天氣因素對缺血性腦卒中發病的影響和預測不同天氣因素下的缺血性腦卒中發病情況。以往研究表明,logistic 回歸模型作為一種高效準確的傳統預測模型,在發病人數預測中有不錯運用[18-21]。故本研究采用 logistic 回歸模型作為基準模型,與各機器學習模型相比較,衡量其預測效果。與 logistic 回歸模型對比,本研究建立的 3 個模型在各項模型評估指標中各有優劣,但總體來看,SVM 模型綜合表現第一,其 F1 分數、AUC、預測準確率等參數均是最優。決策樹模型和 KNN 模型相對較差,其 F1 分數、AUC、預測準確率等參數與 logistic 回歸模型各有優劣。同時本研究在一定程度上借鑒了前人的思想,例如對響應變量數據按照一定的標準進行分類,使得處理數據時更加方便,利于后續的處理,并在一定程度上提高了模型的精確度[22-24]。
綜上,本研究得出 SVM 預測的缺血性腦卒中日發病人數結果要優于傳統 logistic 回歸模型以及其他 2 種機器學習模型。但本研究存在一定局限性,如研究的樣本量偏小,目前研究數據僅來自單中心;在患者中僅納入了缺血性腦卒中患者,而同樣受天氣影響的出血性腦卒中患者目前尚未納入;PCA 降維僅能挑選出影響因素,而不能得到具體的相關關系。后續擬在今后研究中通過采用多中心研究,增加研究樣本量,同時納入出血性腦卒中病種,彌補上述局限。
利益沖突:所有作者聲明不存在利益沖突。