引用本文: 王璐菲, 聶伊婧, 楊曉東. SARIMA 模型預測分析兒童四肢骨折住院病例的應用價值. 中國循證醫學雜志, 2020, 20(6): 651-655. doi: 10.7507/1672-2531.201906049 復制
骨折是兒童期的常見疾病[1],嚴重影響兒童的身心健康和生活質量,給其家庭和社會帶來極大的負擔。對處于生長發育期的兒童而言,骨折不僅導致其身心痛苦,還可能引起成角畸形、下肢不等長等各種并發癥的發生,甚至發展為殘疾[2]。因此,預防兒童骨折非常重要,但目前針對預防兒童骨折的相關研究較少。兒童骨折最常見于上肢、下肢骨折[3, 4],因此分析兒童四肢骨折住院病例數的季節變化趨勢有助于了解兒童骨折的發病時間特點,為制定預防措施提供科學依據。
季節性自回歸移動平均(seasonal auto-regressive integrated moving average,SARIMA)模型是一種廣泛應用于疾病及醫院門急診量的預測模型,可用于非平穩資料的描述,也可反映門急診量隨季節變化的變動趨勢[5]。國內目前已有關于將 SARIMA 模型用于醫院門急診量的研究,且其預測效果較好,能夠幫助捕捉患者數量月份變化的低谷和高峰[6]。本研究將 SARIMA 模型運用于兒童四肢骨折病例的短期預測,并將其與實際收治病例比較,以評估 SARIMA 模型能否預測“未來”兒童骨折住院病例量,為進一步防治兒童骨折提供依據。
1 資料與方法
1.1 研究對象
納入標準:① 2013 年 1 月 1 日~2018 年 12 月 19 日收入華西醫院小兒外科的住院患者,臨床資料完整;② 以四肢骨折為主要診斷或多發性損傷包括四肢骨折的患者。排除標準:復診患者。
1.2 研究方法
將 2013 年 1 月至 2018 年 5 月的數據作為訓練集建立 SARIMA(p,d,q)(P,D,Q)s 模型對 2018 年 6 月至 2018 年 11 月的收治量進行短期定量預測(預測集),并將其與實際收治病例比較以驗證 SARIMA 模型預測效果。SARIMA 模型在自回歸移動滑動平均(ARIMA)模型的基礎上,實現對有明顯季節性的時間序列的預測分析。SARIMA(p,d,q)(P,D,Q)s 模型中 d、D 分別是差分的階和季節性差分的階,p、q、P、Q 分別是自回歸的階、移動平均的階、季節性自回歸的階和季節性移動平均的階,s 為周期的長短。
1.3 SARIMA 模型構建和評價
傳統 SARIMA 建模需要經過以下步驟:① 繪制原序列的曲線圖以識別其基本形式,識別季節性并判斷 s;② 序列平穩性檢驗,若為非平穩序列考慮做差分以滿足平穩性檢驗,即判斷 d、D 值,并做單位根檢驗判斷新序列平穩性;③ 識別新序列自相關函數(auto-correlation function,ACF)圖和偏自相關函數(partial auto-correlation function,PACF),判斷 p、q、P、Q 值;④ 擬合 SARIMA(p,d,q)(P,D,Q)s 模型,根據赤池信息準則(Akaike information criterion,AIC)和貝葉斯信息準則(Bayesian information criterion,BIC)評價不同參數模型的相對優勢,AIC、BIC 是用于比較模型的評估器,值越小,模型越好;⑤ 對模型擬合結果進行白噪聲檢驗:如果殘差序列不是白噪聲序列,說明殘差序列中還存在有用信息未被提取出來,則需要對原模型進行進一步調整以得到更好的模型;⑥ 在預測集上進行預測,計算均方根誤差(root mean square error,RMSE)和平均絕對百分比誤差(mean absolute percentage error,MAPE),檢查模型的性能,并用預測集的預測值和實際值來驗證預測準確度。
本研究通過 forecast 包的 auto.arima()函數自動擬合 SARIMA 模型,auto.arima()通過生成不同 AIC 和 BIC 值,以確定參數的最佳組合,即省去了傳統建模步驟中的②~④,實現了建模的簡單高效性。
1.4 統計分析
采用 Excel 2010 對數據進行收集整理,采用 R 3.5.2 軟件包“forecast”、“tseries”對數據進行 SARIMA 模型構建。
2 結果
2.1 納入患者的基本情況
共納入 4 451 例患者,其中男 2 861 例,女 1 590 例,男女比 1.8∶1,平均年齡 5.655 歲。按年齡分為 0~3 歲組 1 436 例(32.3%),4~6 歲組 1 394 例(31.3%),7~12 歲組 1 409 例(31.7%),13~18 歲組 212 例(4.8%)。
各年齡組患者的性別比的差異有統計學意義(χ2=44.363,P<0.001),表明男性患兒發生骨折的可能性更高(表 1)。4 451 例患者中骨折部位例數依次為肱骨(42.2%)、股骨(17.9%)、尺橈骨(9.3%)、脛腓骨(7.0%)、尺骨(6.8%)、脛骨(6.0%)、橈骨(5.4%)、足部諸骨(3.7%),腓骨、髕骨及手部諸骨所占比例均小于 1%。4 000 例患者(89.9%)進行了手術,451 例未進行手術。在進行手術的患者中,有 2 816 例(70.4%)接受了骨折切開復位內固定術,949 例(23.7%)接受了骨折閉合復位內固定術。

2.2 兒童四肢骨折的時間序列分析及預測
2.2.1 原時間序列分析
繪制 2013~2018 年華西醫院小兒外科收入四肢骨折情況時間序列圖(圖 1),從中可以看出,總體呈下降趨勢,且存在明顯季節周期,提示該序列為非平穩時間序列。

為更直觀地觀察原序列特征,本文通過 stl()函數將原時間序列分解為長期趨勢(trend)、季節變動(seasonal fluctuation)、不規則波動(irregular variations),結果見圖 2。兒童四肢骨折的時間序列的季節變動明顯,每年有兩個高峰期,即 4~6 月、9~10 月;時間序列顯示有明顯下降趨勢;不規則變動提示存在除趨勢、季節性外的偶然性波動。

2.2.2 建立 SARIMA 模型
根據以上分析,原序列為非平穩序列且具有明顯季節性特征,本研究采用 SARIMA 模型對未來兒童四肢骨折住院病例情況進行短期定量預測。
將原序列分為訓練集(2013 年 1 月~2018 年 5 月)和預測集(2018 年 6 月~2018 年 11 月)。通過 auto.arima()函數對訓練集自動擬合 SARIMA(p,d,q)(P,D,Q)12 模型,得到 SARIMA(0,1,1)(0,1,1)12,模型參數 AIC=400.24,BIC=406.09。通過 Box.test()函數對擬合模型進行白噪聲檢驗,結果為 P=0.8585>0.05,不能拒絕原假設,即認為殘差的自相關系數為 0,能觀察到的某些相關僅僅因隨機抽樣的誤差產生,即該殘差序列為白噪聲序列。
2.2.3 預測應用和評價
利用 SARIMA(0,1,1)(0,1,1)12 模型對預測集進行短期定量預測,MAPE=9.386,RMSE=8.110,實際值均在預測值的 80% 可信區間內,相對誤差范圍在 1.61%~8.06%(表 2)。預測效果圖也提示模型預測效果較好,結果見圖 3。


3 討論
兒童骨折是一個重要但被容易被忽視的衛生問題,是兒童階段的常見損傷,如不及時處理和診治,會嚴重影響兒童的生長發育并降低其未來的生活質量。目前大多數研究主要通過對骨質疏松防治以及減少娛樂場所或運動場所的暴露機會進行骨折預防[7-9],針對兒童骨折季節性因素的研究較為有限,對小兒骨折高發期的預防措施可能存在不足。有研究發現,小兒骨折的發病率為 2.01%,且有逐年增加趨勢[1],表明目前小兒骨折的防治存在一定缺陷,因此關注其高發期和季節性變化趨勢具有重要意義。國外有報道,在各年齡階段,男孩骨折率均比女孩骨折率更高[10],這與本研究結果相符,男性患兒(64.3%)比例明顯高于女性患兒(35.7%),該結果可能與男童性格調皮好動有關。兒童四肢骨折的患者中 0~13 歲的患者占 99.2%,其中 0~6 歲是兒童四肢骨折的發病高峰,與國內張濤等[11]研究結果基本符合。為預防學齡前兒童骨折,減少兒童的骨折機會,家長和學校應該加強看護并學習相關急救知識,在活動前確認活動的安全性和可能帶來的傷害,實現一級預防。此外,及時采取二級預防措施,在意外發生時有效處理,及時送醫院救治,通過三級預防也能減少骨折對兒童帶來的傷害。
SARIMA(p,d,q)(P,D,Q)s 模型在中短期預測效果較好,可以同時處理有周期性、季節性波動的資料[12]。本研究通過自動擬合季節性自回歸移動平均模型 SARIMA(0,1,1)(0,1,1)12 對華西醫院小兒外科 2013~2018 年每月兒童四肢骨折住院病例數量及變化趨勢進行了分析和建模擬合,白噪聲檢驗的結果認為殘差的自相關系數為 0,該殘差序列為白噪聲序列;預測模型擬合結果顯示 MAPE=9.386,RMSE=8.110,說明模型擬合效果較好,該模型具有良好的應用價值,有助于研究兒童骨折的發病時間特點,為制定預防措施提供依據。
既往研究顯示,兒童骨折容易發生在戶外運動中[13],而夏季是兒童骨折的高發期[1, 14, 15],Masterson 等[16]研究也表明每月的骨折住院病例數會隨日照時間增加而升高,隨每月降雨量增加而輕微減少。本研究顯示兒童四肢骨折住院病例數每年有兩個高峰期,分別為 4~6 月和 9~10 月,這可能與四川的氣候條件有關,這兩個時間段氣溫適宜、陽光充足,兒童的戶外活動時間較長,因此發生骨折的風險也更高;由于 7、8 月四川省降水較多,導致兒童戶外活動受限,所以雖然兒童處于意外傷害比較容易發生的假期,但骨折的風險較高峰期低。因此,在骨折發生的高峰期,應告知家長提高防范兒童骨折意外事件發生的意識,加強引導和監護,并根據兒童成長過程的生理、心理以及行為特點,采取有效的措施,減少兒童暴露于危險因素的機會。
本研究存在一定的局限性:① 雖然 SARIMA 模型對于中、短期預測精度和準確度較高,且運用廣泛[17],但在進行更長期預測時會有較大誤差。本研究僅對四川省華西醫院小兒外科 2013 年 1 月 1 日~2018 年 11 月 30 日兒童四肢骨折月病例數進行了分析,樣本量和時間長度有限,在一定程度上會影響模型的預測效果。為保證預測準確度,發揮遠期預測作用,未來模型需要不斷納入更新的數據。② 建模方法上,本研究采用自動擬合的方式,但在實際運用中可能出現自動擬合結果與傳統建模最優結果存在差異的情況,若自動擬合的模型預測效果不佳,可以改用傳統建模步驟,檢驗模型的相對優勢,分析出現差異的原因,再進行模型優化。③ 本研究分析預測兒童四肢骨折住院數量時只考慮了時間序列本身的特性,未考慮其他影響諸如個體因素、心理行為因素、既往骨折史等影響。為更好發揮模型的實際應用,在今后的研究中需要納入影響患兒骨折的各項因素進行綜合分析。
綜上所述,本研究結果顯示,與實際收治病例比較,SARIMA 模型擬合效果佳,短期預測準確度較高,可為科學預測兒童四肢骨折住院病例數提供可靠的數據支持。
骨折是兒童期的常見疾病[1],嚴重影響兒童的身心健康和生活質量,給其家庭和社會帶來極大的負擔。對處于生長發育期的兒童而言,骨折不僅導致其身心痛苦,還可能引起成角畸形、下肢不等長等各種并發癥的發生,甚至發展為殘疾[2]。因此,預防兒童骨折非常重要,但目前針對預防兒童骨折的相關研究較少。兒童骨折最常見于上肢、下肢骨折[3, 4],因此分析兒童四肢骨折住院病例數的季節變化趨勢有助于了解兒童骨折的發病時間特點,為制定預防措施提供科學依據。
季節性自回歸移動平均(seasonal auto-regressive integrated moving average,SARIMA)模型是一種廣泛應用于疾病及醫院門急診量的預測模型,可用于非平穩資料的描述,也可反映門急診量隨季節變化的變動趨勢[5]。國內目前已有關于將 SARIMA 模型用于醫院門急診量的研究,且其預測效果較好,能夠幫助捕捉患者數量月份變化的低谷和高峰[6]。本研究將 SARIMA 模型運用于兒童四肢骨折病例的短期預測,并將其與實際收治病例比較,以評估 SARIMA 模型能否預測“未來”兒童骨折住院病例量,為進一步防治兒童骨折提供依據。
1 資料與方法
1.1 研究對象
納入標準:① 2013 年 1 月 1 日~2018 年 12 月 19 日收入華西醫院小兒外科的住院患者,臨床資料完整;② 以四肢骨折為主要診斷或多發性損傷包括四肢骨折的患者。排除標準:復診患者。
1.2 研究方法
將 2013 年 1 月至 2018 年 5 月的數據作為訓練集建立 SARIMA(p,d,q)(P,D,Q)s 模型對 2018 年 6 月至 2018 年 11 月的收治量進行短期定量預測(預測集),并將其與實際收治病例比較以驗證 SARIMA 模型預測效果。SARIMA 模型在自回歸移動滑動平均(ARIMA)模型的基礎上,實現對有明顯季節性的時間序列的預測分析。SARIMA(p,d,q)(P,D,Q)s 模型中 d、D 分別是差分的階和季節性差分的階,p、q、P、Q 分別是自回歸的階、移動平均的階、季節性自回歸的階和季節性移動平均的階,s 為周期的長短。
1.3 SARIMA 模型構建和評價
傳統 SARIMA 建模需要經過以下步驟:① 繪制原序列的曲線圖以識別其基本形式,識別季節性并判斷 s;② 序列平穩性檢驗,若為非平穩序列考慮做差分以滿足平穩性檢驗,即判斷 d、D 值,并做單位根檢驗判斷新序列平穩性;③ 識別新序列自相關函數(auto-correlation function,ACF)圖和偏自相關函數(partial auto-correlation function,PACF),判斷 p、q、P、Q 值;④ 擬合 SARIMA(p,d,q)(P,D,Q)s 模型,根據赤池信息準則(Akaike information criterion,AIC)和貝葉斯信息準則(Bayesian information criterion,BIC)評價不同參數模型的相對優勢,AIC、BIC 是用于比較模型的評估器,值越小,模型越好;⑤ 對模型擬合結果進行白噪聲檢驗:如果殘差序列不是白噪聲序列,說明殘差序列中還存在有用信息未被提取出來,則需要對原模型進行進一步調整以得到更好的模型;⑥ 在預測集上進行預測,計算均方根誤差(root mean square error,RMSE)和平均絕對百分比誤差(mean absolute percentage error,MAPE),檢查模型的性能,并用預測集的預測值和實際值來驗證預測準確度。
本研究通過 forecast 包的 auto.arima()函數自動擬合 SARIMA 模型,auto.arima()通過生成不同 AIC 和 BIC 值,以確定參數的最佳組合,即省去了傳統建模步驟中的②~④,實現了建模的簡單高效性。
1.4 統計分析
采用 Excel 2010 對數據進行收集整理,采用 R 3.5.2 軟件包“forecast”、“tseries”對數據進行 SARIMA 模型構建。
2 結果
2.1 納入患者的基本情況
共納入 4 451 例患者,其中男 2 861 例,女 1 590 例,男女比 1.8∶1,平均年齡 5.655 歲。按年齡分為 0~3 歲組 1 436 例(32.3%),4~6 歲組 1 394 例(31.3%),7~12 歲組 1 409 例(31.7%),13~18 歲組 212 例(4.8%)。
各年齡組患者的性別比的差異有統計學意義(χ2=44.363,P<0.001),表明男性患兒發生骨折的可能性更高(表 1)。4 451 例患者中骨折部位例數依次為肱骨(42.2%)、股骨(17.9%)、尺橈骨(9.3%)、脛腓骨(7.0%)、尺骨(6.8%)、脛骨(6.0%)、橈骨(5.4%)、足部諸骨(3.7%),腓骨、髕骨及手部諸骨所占比例均小于 1%。4 000 例患者(89.9%)進行了手術,451 例未進行手術。在進行手術的患者中,有 2 816 例(70.4%)接受了骨折切開復位內固定術,949 例(23.7%)接受了骨折閉合復位內固定術。

2.2 兒童四肢骨折的時間序列分析及預測
2.2.1 原時間序列分析
繪制 2013~2018 年華西醫院小兒外科收入四肢骨折情況時間序列圖(圖 1),從中可以看出,總體呈下降趨勢,且存在明顯季節周期,提示該序列為非平穩時間序列。

為更直觀地觀察原序列特征,本文通過 stl()函數將原時間序列分解為長期趨勢(trend)、季節變動(seasonal fluctuation)、不規則波動(irregular variations),結果見圖 2。兒童四肢骨折的時間序列的季節變動明顯,每年有兩個高峰期,即 4~6 月、9~10 月;時間序列顯示有明顯下降趨勢;不規則變動提示存在除趨勢、季節性外的偶然性波動。

2.2.2 建立 SARIMA 模型
根據以上分析,原序列為非平穩序列且具有明顯季節性特征,本研究采用 SARIMA 模型對未來兒童四肢骨折住院病例情況進行短期定量預測。
將原序列分為訓練集(2013 年 1 月~2018 年 5 月)和預測集(2018 年 6 月~2018 年 11 月)。通過 auto.arima()函數對訓練集自動擬合 SARIMA(p,d,q)(P,D,Q)12 模型,得到 SARIMA(0,1,1)(0,1,1)12,模型參數 AIC=400.24,BIC=406.09。通過 Box.test()函數對擬合模型進行白噪聲檢驗,結果為 P=0.8585>0.05,不能拒絕原假設,即認為殘差的自相關系數為 0,能觀察到的某些相關僅僅因隨機抽樣的誤差產生,即該殘差序列為白噪聲序列。
2.2.3 預測應用和評價
利用 SARIMA(0,1,1)(0,1,1)12 模型對預測集進行短期定量預測,MAPE=9.386,RMSE=8.110,實際值均在預測值的 80% 可信區間內,相對誤差范圍在 1.61%~8.06%(表 2)。預測效果圖也提示模型預測效果較好,結果見圖 3。


3 討論
兒童骨折是一個重要但被容易被忽視的衛生問題,是兒童階段的常見損傷,如不及時處理和診治,會嚴重影響兒童的生長發育并降低其未來的生活質量。目前大多數研究主要通過對骨質疏松防治以及減少娛樂場所或運動場所的暴露機會進行骨折預防[7-9],針對兒童骨折季節性因素的研究較為有限,對小兒骨折高發期的預防措施可能存在不足。有研究發現,小兒骨折的發病率為 2.01%,且有逐年增加趨勢[1],表明目前小兒骨折的防治存在一定缺陷,因此關注其高發期和季節性變化趨勢具有重要意義。國外有報道,在各年齡階段,男孩骨折率均比女孩骨折率更高[10],這與本研究結果相符,男性患兒(64.3%)比例明顯高于女性患兒(35.7%),該結果可能與男童性格調皮好動有關。兒童四肢骨折的患者中 0~13 歲的患者占 99.2%,其中 0~6 歲是兒童四肢骨折的發病高峰,與國內張濤等[11]研究結果基本符合。為預防學齡前兒童骨折,減少兒童的骨折機會,家長和學校應該加強看護并學習相關急救知識,在活動前確認活動的安全性和可能帶來的傷害,實現一級預防。此外,及時采取二級預防措施,在意外發生時有效處理,及時送醫院救治,通過三級預防也能減少骨折對兒童帶來的傷害。
SARIMA(p,d,q)(P,D,Q)s 模型在中短期預測效果較好,可以同時處理有周期性、季節性波動的資料[12]。本研究通過自動擬合季節性自回歸移動平均模型 SARIMA(0,1,1)(0,1,1)12 對華西醫院小兒外科 2013~2018 年每月兒童四肢骨折住院病例數量及變化趨勢進行了分析和建模擬合,白噪聲檢驗的結果認為殘差的自相關系數為 0,該殘差序列為白噪聲序列;預測模型擬合結果顯示 MAPE=9.386,RMSE=8.110,說明模型擬合效果較好,該模型具有良好的應用價值,有助于研究兒童骨折的發病時間特點,為制定預防措施提供依據。
既往研究顯示,兒童骨折容易發生在戶外運動中[13],而夏季是兒童骨折的高發期[1, 14, 15],Masterson 等[16]研究也表明每月的骨折住院病例數會隨日照時間增加而升高,隨每月降雨量增加而輕微減少。本研究顯示兒童四肢骨折住院病例數每年有兩個高峰期,分別為 4~6 月和 9~10 月,這可能與四川的氣候條件有關,這兩個時間段氣溫適宜、陽光充足,兒童的戶外活動時間較長,因此發生骨折的風險也更高;由于 7、8 月四川省降水較多,導致兒童戶外活動受限,所以雖然兒童處于意外傷害比較容易發生的假期,但骨折的風險較高峰期低。因此,在骨折發生的高峰期,應告知家長提高防范兒童骨折意外事件發生的意識,加強引導和監護,并根據兒童成長過程的生理、心理以及行為特點,采取有效的措施,減少兒童暴露于危險因素的機會。
本研究存在一定的局限性:① 雖然 SARIMA 模型對于中、短期預測精度和準確度較高,且運用廣泛[17],但在進行更長期預測時會有較大誤差。本研究僅對四川省華西醫院小兒外科 2013 年 1 月 1 日~2018 年 11 月 30 日兒童四肢骨折月病例數進行了分析,樣本量和時間長度有限,在一定程度上會影響模型的預測效果。為保證預測準確度,發揮遠期預測作用,未來模型需要不斷納入更新的數據。② 建模方法上,本研究采用自動擬合的方式,但在實際運用中可能出現自動擬合結果與傳統建模最優結果存在差異的情況,若自動擬合的模型預測效果不佳,可以改用傳統建模步驟,檢驗模型的相對優勢,分析出現差異的原因,再進行模型優化。③ 本研究分析預測兒童四肢骨折住院數量時只考慮了時間序列本身的特性,未考慮其他影響諸如個體因素、心理行為因素、既往骨折史等影響。為更好發揮模型的實際應用,在今后的研究中需要納入影響患兒骨折的各項因素進行綜合分析。
綜上所述,本研究結果顯示,與實際收治病例比較,SARIMA 模型擬合效果佳,短期預測準確度較高,可為科學預測兒童四肢骨折住院病例數提供可靠的數據支持。