引用本文: 徐瑾業, 周江暉, 劉生偉, 陳良亮, 胡俊熙, 王霄霖, 束余聲. 機器學習模型在胸段食管鱗狀細胞癌術后生存風險分層中的應用研究. 中國胸心血管外科臨床雜志, 2022, 29(12): 1574-1579. doi: 10.7507/1007-4848.202205057 復制
食管癌是我國第6大常見惡性腫瘤,其具有侵襲性強、預后差等特點,也是我國第4大常見癌癥死亡原因[1]。由于食管癌患者在臨床病理分期、治療方案等方面存在不同,其預后差異很大[2]。
機器學習是人工智能的一個子領域,它是從數據中學習訓練并準確預測未來事件的系統過程[3]。在醫學領域,它可以應用于臨床數據集,以開發穩健的風險模型和重新定義患者類別[4]。目前機器學習方法已應用于肺癌、乳腺癌、肝癌、胃腸道癌等多種惡性腫瘤預后模型的構建[5-8],表現出良好的預測效能,體現了重要的臨床價值。
本研究旨在探討機器學習方法在預測胸段食管鱗狀細胞癌(鱗癌)患者預后中的價值,希望為食管癌患者術后治療方案的制定、預后評估提供新的手段。
1 資料與方法
1.1 數據收集
本研究回顧性收集2014年1月—2015年9月在江蘇省蘇北人民醫院胸外科行食管癌根治術的369例胸段食管鱗癌患者的臨床病理特征和隨訪數據。納入標準:(1)術前未接受過放化療、免疫治療、靶向治療等抗腫瘤治療;(2)術前經CT、磁共振、骨掃描、彩色超聲等輔助檢查排除肝、肺、腦等遠處轉移;(3)腫瘤解剖學中心位置位于胸段;(4)接受經胸開放性R0切除術,且術后病理學檢查證實為食管鱗癌;(5)臨床病理資料及隨訪資料完整。排除標準:(1)術后病理學檢查為其它病理學組織類型;(2)非R0切除;(3)術前有其它惡性腫瘤病史;(4)術后生存時間<30 d;(5)失訪。根據5年生存狀態分層抽樣,由計算機隨機將患者按7∶3比例分為訓練集(259例)和測試集(110例)。訓練集用于訓練模型,測試集則用于驗證模型效能。
1.2 模型的訓練和驗證
本研究納入性別、年齡、術后放化療、高血壓、糖尿病、吸煙史、飲酒史、腫瘤長度、腫瘤中心位置、腫瘤浸潤深度、pN分期、組織分化程度、脈管侵犯、神經侵犯、切緣情況共15項臨床病理特征作為候選特征進行分析,各項臨床病理特征均易從臨床工作中獲取。本研究采用邏輯回歸進行窮舉搜索,找出最佳特征子集進行變量篩選。即從所有特征中隨機選取一定數量特征進行組合,繼而進行模型擬合,并通過準確率(accuracy,ACC)評估模型性能,直至對所有可能特征組合進行模型擬合和性能評估,最終得出最佳特征子集,在此基礎上利用訓練集構建邏輯回歸、決策樹、隨機森林、支持向量機、梯度提升機和XGBoost 6種機器學習模型,并在獨立測試集驗證。基于訓練集數據,利用網格搜索方法進行參數搜索,結合5折交叉驗證進行模型的訓練和內部驗證,從而完成模型的優化。基于訓練集構建的各機器學習模型在測試集進行測試,繪制受試者工作特征(receiver operating characteristic,ROC)曲線并計算曲線下面積(area under the curve,AUC)、ACC、對數損失函數(logarithmic loss,Logloss)對模型性能進行評價。繪制校準曲線評價模型的擬合情況。選取最佳模型作為最終模型,利用X-tile軟件為最終模型在訓練集預測的生存概率選取最佳截斷點,并將患者劃分為高危組、中危組和低危組。采用Kaplan-Meier法與log-rank檢驗進行生存分析,并在獨立測試集驗證。
1.3 統計學分析
本研究所有統計學分析均通過R軟件(版本4.1.3)完成。正態分布的計量資料采用均數±標準差(±s)描述,組間比較采用獨立樣本t檢驗。分類資料采用頻數(百分比)描述,有序分類資料的組間比較采用Mann-Whitney U 檢驗,無序分類資料的組間比較采用χ2檢驗。生存風險分層最佳臨界值的確定通過X-tile軟件(版本3.6.1)實現。以P≤0.05為差異有統計學意義。
1.4 倫理審查
本研究已通過蘇北人民醫院醫學倫理委員會倫理審查,審批號:2022ky258。
2 結果
2.1 患者一般資料
本研究共納入胸段食管鱗癌患者369 例,其中男279 例(75.6%)、女90例(24.4%),年齡41~78歲,術后5年生存率為67.5%。訓練集259例,其中男194例、女65例,年齡(62.7±7.2)歲,術后5年生存率為67.6%。測試集110例,其中男85例、女25例,年齡(62.8±6.7)歲,術后5年生存率為67.3%。訓練集和測試集之間各項臨床病理特征差異均無統計學意義(P均>0.05);見表1。


2.2 模型的建立和驗證
基于訓練集數據,本研究最終篩選出高血壓、吸煙史、飲酒史、組織分化程度、pN分期、脈管侵犯、神經侵犯共7個變量進行建模。利用網格搜索方法確定決策樹、隨機森林、支持向量機、梯度提升機、XGBoost模型最優的超參數,邏輯回歸采用默認參數,并使用5折交叉驗證對模型進行訓練和內部驗證,最終得到最佳參數。在訓練集內部,各模型均展現出較高的預測準確性,各模型在訓練集內部5折交叉驗證的平均AUC分別為:決策樹(AUC=0.783)、支持向量機(AUC=0.825)、隨機森林(AUC=0.840)、邏輯回歸(AUC=0.852)、梯度提升機(AUC=0.855)、XGBoost(AUC=0.864)。將基于訓練集構建的各模型在獨立測試集進行驗證,繪制ROC曲線;見圖1。各模型在測試集上的AUC分別為:決策樹(AUC=0.796)、支持向量機(AUC=0.829)、隨機森林(AUC=0.831)、邏輯回歸(AUC=0.838)、梯度提升機(AUC=0.846)、XGBoost(AUC=0.853)。校準曲線提示,隨機森林、XGBoost模型的預測概率與實際觀察值具有較好的一致性,決策樹模型的預測概率與實際觀察值的一致性較差;見圖2。同時計算各模型在獨立測試集的AUC值、ACC值和Logloss值,并評價模型性能;見表2。在綜合比較了幾個性能指標后,我們選擇了XGBoost模型作為最終模型進行生存風險分層繼而進行生存分析。

AUC:曲線下面積;ROC:受試者工作特征


2.3 基于XGBoost模型的術后生存風險分層
將XGBoost模型在訓練集預測的5年生存率作為模型得分,利用X-tile軟件為其選取最佳截斷點,將得分≤0.17的劃分為高危組,得分為0.17~0.67的劃分為中危組,得分≥0.67的劃分為低危組。訓練集中高危組27例,中危組78 例,低危組154 例。XGBoost模型預測為高危患者的5年生存率為3.7%,中危患者的5年生存率為42.3%,低危患者的5年生存率為91.6%,差異有統計學意義(χ2=145.6,P<0.001)。測試集中高危組8 例,中危組45 例,低危組57 例。XGBoost模型預測為高危患者的5年生存率為12.5%,中危患者的5年生存率為46.7%,低危患者的5年生存率為91.2%,差異有統計學意義(χ2=41.2,P<0.001);見圖3。

a:訓練集的XGBoost模型生存風險劃分各組患者的5年生存曲線;b:測試集的XGBoost模型生存風險劃分各組患者的5年生存曲線;紅、橙、綠色虛線分別表示各組生存率的95%置信區間
3 討論
精準預測手術預后對食管癌患者的后續治療決策具有重要意義。目前,對于食管癌術后的預后預測主要是基于Cox回歸建模[9-10],但其無法捕捉特征之間的交互關系[11]。相比之下,機器學習技術可以更好地捕捉到特征之間的復雜關聯[12],從而提高模型的準確性。之前已有學者[2]基于SEER數據庫中食管癌患者資料,利用機器學習方法構建預測食管癌患者預后情況的機器學習模型,但其主要納入歐美人群,其主要病理類型為腺癌,而我國食管癌患者主要病理類型是鱗癌[13]。且其預測模型共納入24項特征,部分特征臨床工作難以獲得,降低了該模型在臨床中的實用性和可靠性。
本研究納入高血壓、吸煙史、飲酒史、組織分化程度、pN分期、脈管侵犯、神經侵犯7項臨床工作中易于獲取的臨床病理特征,構建了預測食管癌5年生存狀態的機器學習模型。在最終建模的7項臨床病理特征中,吸煙和飲酒是男性患食管癌最常見的危險因素[14]。相關研究[15]表明,對癌癥患者而言,癌癥診斷時已存在高血壓患者相比無高血壓患者的全因死亡率更高,尤其是隨訪時間較長的患者。組織分化程度、pN分期、脈管侵犯、神經侵犯則是公認的影響食管癌患者預后的因素[16-19]。為防止機器學習模型的過擬合,即在訓練集中表現出色,但在測試集中表現不佳[20],本研究在隨機劃分獨立測試集后,對訓練集應用交叉驗證進行超參數調優,在充分利用訓練集數據的同時,避免測試集數據的泄露。各模型均表現出較高的預測準確率。綜合各個模型在訓練集和測試集上AUC、ACC及Logloss的表現,XGBoost模型表現最佳,其在訓練集和測試集內的AUC值均≥0.85。因此,我們選擇XGBoost模型作為最終模型,對其預測結果進行風險分層并進行生存分析,結果顯示,不同分組之間生存狀態具有顯著差異。在本研究中,訓練集和測試集分別有59.5%和51.8%的患者被劃分到低危組,訓練集和測試集的低危組患者5年生存率均高于90.0%,因此低危組患者術后可能不需要接受輔助治療。而本研究中劃分為中、高危組的患者,其術后則應接受更加積極的輔助治療。因此,本研究構建的XGBoost模型具有較高實用性和可靠性。
本研究的局限性:首先,本研究為單中心研究,納入患者數量有限,機器學習模型在大數據集上應用可獲得更加穩定的結果[21],因此在后續的研究中,可加入多中心的數據進行訓練和外部驗證,從而得到更加可靠的預測模型。其次,本研究未納入新輔助治療、手術方式、循環腫瘤DNA等可能影響食管癌患者遠期預后的因素,在后續的模型優化中,可加入更多可能影響食管癌遠期預后的因素,以不斷完善預測模型。最后,本研究是利用回顧性數據開發和驗證的,在正式臨床實踐前,還應行前瞻性驗證研究以確認模型的可靠性。
綜上所述,本研究基于臨床工作常見的7個臨床病理特征構建了預測胸段食管鱗癌術后生存風險的機器學習模型,其中XGBoost模型效能最佳。利用XGBoost模型對其進行生存風險分層,可為胸段食管鱗癌的預后評估、術后治療決策提供重要參考,進而推動食管癌的個體化診治。
利益沖突:無。
作者貢獻:徐瑾業負責論文設計,數據整理與分析,論文初稿撰寫等;周江暉、劉生偉負責數據收集和整理;陳良亮、胡俊熙負責論文校對和修改;王霄霖、束余聲負責論文設計、審閱與修改。
食管癌是我國第6大常見惡性腫瘤,其具有侵襲性強、預后差等特點,也是我國第4大常見癌癥死亡原因[1]。由于食管癌患者在臨床病理分期、治療方案等方面存在不同,其預后差異很大[2]。
機器學習是人工智能的一個子領域,它是從數據中學習訓練并準確預測未來事件的系統過程[3]。在醫學領域,它可以應用于臨床數據集,以開發穩健的風險模型和重新定義患者類別[4]。目前機器學習方法已應用于肺癌、乳腺癌、肝癌、胃腸道癌等多種惡性腫瘤預后模型的構建[5-8],表現出良好的預測效能,體現了重要的臨床價值。
本研究旨在探討機器學習方法在預測胸段食管鱗狀細胞癌(鱗癌)患者預后中的價值,希望為食管癌患者術后治療方案的制定、預后評估提供新的手段。
1 資料與方法
1.1 數據收集
本研究回顧性收集2014年1月—2015年9月在江蘇省蘇北人民醫院胸外科行食管癌根治術的369例胸段食管鱗癌患者的臨床病理特征和隨訪數據。納入標準:(1)術前未接受過放化療、免疫治療、靶向治療等抗腫瘤治療;(2)術前經CT、磁共振、骨掃描、彩色超聲等輔助檢查排除肝、肺、腦等遠處轉移;(3)腫瘤解剖學中心位置位于胸段;(4)接受經胸開放性R0切除術,且術后病理學檢查證實為食管鱗癌;(5)臨床病理資料及隨訪資料完整。排除標準:(1)術后病理學檢查為其它病理學組織類型;(2)非R0切除;(3)術前有其它惡性腫瘤病史;(4)術后生存時間<30 d;(5)失訪。根據5年生存狀態分層抽樣,由計算機隨機將患者按7∶3比例分為訓練集(259例)和測試集(110例)。訓練集用于訓練模型,測試集則用于驗證模型效能。
1.2 模型的訓練和驗證
本研究納入性別、年齡、術后放化療、高血壓、糖尿病、吸煙史、飲酒史、腫瘤長度、腫瘤中心位置、腫瘤浸潤深度、pN分期、組織分化程度、脈管侵犯、神經侵犯、切緣情況共15項臨床病理特征作為候選特征進行分析,各項臨床病理特征均易從臨床工作中獲取。本研究采用邏輯回歸進行窮舉搜索,找出最佳特征子集進行變量篩選。即從所有特征中隨機選取一定數量特征進行組合,繼而進行模型擬合,并通過準確率(accuracy,ACC)評估模型性能,直至對所有可能特征組合進行模型擬合和性能評估,最終得出最佳特征子集,在此基礎上利用訓練集構建邏輯回歸、決策樹、隨機森林、支持向量機、梯度提升機和XGBoost 6種機器學習模型,并在獨立測試集驗證。基于訓練集數據,利用網格搜索方法進行參數搜索,結合5折交叉驗證進行模型的訓練和內部驗證,從而完成模型的優化。基于訓練集構建的各機器學習模型在測試集進行測試,繪制受試者工作特征(receiver operating characteristic,ROC)曲線并計算曲線下面積(area under the curve,AUC)、ACC、對數損失函數(logarithmic loss,Logloss)對模型性能進行評價。繪制校準曲線評價模型的擬合情況。選取最佳模型作為最終模型,利用X-tile軟件為最終模型在訓練集預測的生存概率選取最佳截斷點,并將患者劃分為高危組、中危組和低危組。采用Kaplan-Meier法與log-rank檢驗進行生存分析,并在獨立測試集驗證。
1.3 統計學分析
本研究所有統計學分析均通過R軟件(版本4.1.3)完成。正態分布的計量資料采用均數±標準差(±s)描述,組間比較采用獨立樣本t檢驗。分類資料采用頻數(百分比)描述,有序分類資料的組間比較采用Mann-Whitney U 檢驗,無序分類資料的組間比較采用χ2檢驗。生存風險分層最佳臨界值的確定通過X-tile軟件(版本3.6.1)實現。以P≤0.05為差異有統計學意義。
1.4 倫理審查
本研究已通過蘇北人民醫院醫學倫理委員會倫理審查,審批號:2022ky258。
2 結果
2.1 患者一般資料
本研究共納入胸段食管鱗癌患者369 例,其中男279 例(75.6%)、女90例(24.4%),年齡41~78歲,術后5年生存率為67.5%。訓練集259例,其中男194例、女65例,年齡(62.7±7.2)歲,術后5年生存率為67.6%。測試集110例,其中男85例、女25例,年齡(62.8±6.7)歲,術后5年生存率為67.3%。訓練集和測試集之間各項臨床病理特征差異均無統計學意義(P均>0.05);見表1。


2.2 模型的建立和驗證
基于訓練集數據,本研究最終篩選出高血壓、吸煙史、飲酒史、組織分化程度、pN分期、脈管侵犯、神經侵犯共7個變量進行建模。利用網格搜索方法確定決策樹、隨機森林、支持向量機、梯度提升機、XGBoost模型最優的超參數,邏輯回歸采用默認參數,并使用5折交叉驗證對模型進行訓練和內部驗證,最終得到最佳參數。在訓練集內部,各模型均展現出較高的預測準確性,各模型在訓練集內部5折交叉驗證的平均AUC分別為:決策樹(AUC=0.783)、支持向量機(AUC=0.825)、隨機森林(AUC=0.840)、邏輯回歸(AUC=0.852)、梯度提升機(AUC=0.855)、XGBoost(AUC=0.864)。將基于訓練集構建的各模型在獨立測試集進行驗證,繪制ROC曲線;見圖1。各模型在測試集上的AUC分別為:決策樹(AUC=0.796)、支持向量機(AUC=0.829)、隨機森林(AUC=0.831)、邏輯回歸(AUC=0.838)、梯度提升機(AUC=0.846)、XGBoost(AUC=0.853)。校準曲線提示,隨機森林、XGBoost模型的預測概率與實際觀察值具有較好的一致性,決策樹模型的預測概率與實際觀察值的一致性較差;見圖2。同時計算各模型在獨立測試集的AUC值、ACC值和Logloss值,并評價模型性能;見表2。在綜合比較了幾個性能指標后,我們選擇了XGBoost模型作為最終模型進行生存風險分層繼而進行生存分析。

AUC:曲線下面積;ROC:受試者工作特征


2.3 基于XGBoost模型的術后生存風險分層
將XGBoost模型在訓練集預測的5年生存率作為模型得分,利用X-tile軟件為其選取最佳截斷點,將得分≤0.17的劃分為高危組,得分為0.17~0.67的劃分為中危組,得分≥0.67的劃分為低危組。訓練集中高危組27例,中危組78 例,低危組154 例。XGBoost模型預測為高危患者的5年生存率為3.7%,中危患者的5年生存率為42.3%,低危患者的5年生存率為91.6%,差異有統計學意義(χ2=145.6,P<0.001)。測試集中高危組8 例,中危組45 例,低危組57 例。XGBoost模型預測為高危患者的5年生存率為12.5%,中危患者的5年生存率為46.7%,低危患者的5年生存率為91.2%,差異有統計學意義(χ2=41.2,P<0.001);見圖3。

a:訓練集的XGBoost模型生存風險劃分各組患者的5年生存曲線;b:測試集的XGBoost模型生存風險劃分各組患者的5年生存曲線;紅、橙、綠色虛線分別表示各組生存率的95%置信區間
3 討論
精準預測手術預后對食管癌患者的后續治療決策具有重要意義。目前,對于食管癌術后的預后預測主要是基于Cox回歸建模[9-10],但其無法捕捉特征之間的交互關系[11]。相比之下,機器學習技術可以更好地捕捉到特征之間的復雜關聯[12],從而提高模型的準確性。之前已有學者[2]基于SEER數據庫中食管癌患者資料,利用機器學習方法構建預測食管癌患者預后情況的機器學習模型,但其主要納入歐美人群,其主要病理類型為腺癌,而我國食管癌患者主要病理類型是鱗癌[13]。且其預測模型共納入24項特征,部分特征臨床工作難以獲得,降低了該模型在臨床中的實用性和可靠性。
本研究納入高血壓、吸煙史、飲酒史、組織分化程度、pN分期、脈管侵犯、神經侵犯7項臨床工作中易于獲取的臨床病理特征,構建了預測食管癌5年生存狀態的機器學習模型。在最終建模的7項臨床病理特征中,吸煙和飲酒是男性患食管癌最常見的危險因素[14]。相關研究[15]表明,對癌癥患者而言,癌癥診斷時已存在高血壓患者相比無高血壓患者的全因死亡率更高,尤其是隨訪時間較長的患者。組織分化程度、pN分期、脈管侵犯、神經侵犯則是公認的影響食管癌患者預后的因素[16-19]。為防止機器學習模型的過擬合,即在訓練集中表現出色,但在測試集中表現不佳[20],本研究在隨機劃分獨立測試集后,對訓練集應用交叉驗證進行超參數調優,在充分利用訓練集數據的同時,避免測試集數據的泄露。各模型均表現出較高的預測準確率。綜合各個模型在訓練集和測試集上AUC、ACC及Logloss的表現,XGBoost模型表現最佳,其在訓練集和測試集內的AUC值均≥0.85。因此,我們選擇XGBoost模型作為最終模型,對其預測結果進行風險分層并進行生存分析,結果顯示,不同分組之間生存狀態具有顯著差異。在本研究中,訓練集和測試集分別有59.5%和51.8%的患者被劃分到低危組,訓練集和測試集的低危組患者5年生存率均高于90.0%,因此低危組患者術后可能不需要接受輔助治療。而本研究中劃分為中、高危組的患者,其術后則應接受更加積極的輔助治療。因此,本研究構建的XGBoost模型具有較高實用性和可靠性。
本研究的局限性:首先,本研究為單中心研究,納入患者數量有限,機器學習模型在大數據集上應用可獲得更加穩定的結果[21],因此在后續的研究中,可加入多中心的數據進行訓練和外部驗證,從而得到更加可靠的預測模型。其次,本研究未納入新輔助治療、手術方式、循環腫瘤DNA等可能影響食管癌患者遠期預后的因素,在后續的模型優化中,可加入更多可能影響食管癌遠期預后的因素,以不斷完善預測模型。最后,本研究是利用回顧性數據開發和驗證的,在正式臨床實踐前,還應行前瞻性驗證研究以確認模型的可靠性。
綜上所述,本研究基于臨床工作常見的7個臨床病理特征構建了預測胸段食管鱗癌術后生存風險的機器學習模型,其中XGBoost模型效能最佳。利用XGBoost模型對其進行生存風險分層,可為胸段食管鱗癌的預后評估、術后治療決策提供重要參考,進而推動食管癌的個體化診治。
利益沖突:無。
作者貢獻:徐瑾業負責論文設計,數據整理與分析,論文初稿撰寫等;周江暉、劉生偉負責數據收集和整理;陳良亮、胡俊熙負責論文校對和修改;王霄霖、束余聲負責論文設計、審閱與修改。