引用本文: 楊曉, 伏建林, 周會蘭. 基于機器學習方法構建小于胎齡兒預測模型的系統評價. 中國循證醫學雜志, 2023, 23(3): 334-340. doi: 10.7507/1672-2531.202210001 復制
小于胎齡兒(small for gestational age,SGA)指出生體重低于同胎齡兒標準體重一定百分位數或低于某個體重值的新生兒[1]。SGA的全球發病率約為9.7%[2],我國約為7.5%[3]。SGA不但影響新生兒正常的大腦發育,使其出現身體和神經心理發育障礙,還可能與成年后某些疾病如心血管疾病的發生相關[4]。此外SGA的圍產期死亡率與并發癥發病率都明顯高于正常胎齡兒[5]。因此,盡早診斷并在圍產期實行預后改善措施,對SGA的治療有著重大意義[6]。目前,SGA主要依據臨床醫生根據超聲多普勒檢查結合臨床生物檢查來診斷,而醫生經驗水平參差不齊可能導致診斷結果存在偏差。與傳統的經驗診斷相比,機器學習(machine learning,ML)方法構建的預測模型能更高效地處理大量復雜數據,還可以同時納入多個因素進行分析,此類預測模型可以排除主觀因素干擾,提高SGA診斷的準確性,具有較高的推廣價值[7-9]。國內外已有相關研究使用ML方法建立SGA的早期預測模型,但模型的構建方法與預測性能不一,其臨床外推性也有待進一步驗證。本研究對基于ML方法構建的SGA預測模型進行系統評價,以期為SGA預測模型的構建與優化提供參考依據。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 研究對象為年齡≥18歲的孕婦;② 研究內容為基于不同ML方法構建SGA的預測模型;③ 研究類型為隊列研究、病例-對照研究與橫斷面研究;④ 結局指標為SGA。
1.1.2 排除標準
① 綜述、述評、基于系統評價/Meta分析建立模型;② 會議摘要、信件等非正式發表的文獻;③ 無法獲取全文。
1.2 文獻檢索策略
計算機檢索PubMed、EMbase、Web of Science、CBM、WanFang Data、VIP和CNKI數據庫,搜集關于小于胎齡兒預測模型的研究,檢索時限均從建庫至2022年8月10日。中文檢索詞包括:機器學習、人工智能、深度學習、小于胎齡兒、預測、預測模型等;英文檢索詞包括:small for gestational age、prediction model、predict、machine learning、deep learning、artificial intelligence等。以PubMed為例,其具體檢索策略見框1。

1.3 文獻篩選與資料提取
由2位評價員獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷,缺乏的資料盡量與作者聯系予以補充。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。資料提取內容主要包括:第一作者、發表年份、國家、研究類型、建模方法、樣本量、結局的定義與發生率、驗證方法、模型中納入的預測因子、預測結果、模型預測性能等。
1.4 納入研究的偏倚風險和適用性評價
2名研究者使用預測模型研究的偏倚風險評價工具(prediction model risk of bias assessment tool,PROBAST)評價納入研究的偏倚風險和適用性[10]。偏倚風險的評價包括研究對象、預測因子、結果和分析4個領域,一共包括20個問題,每個問題按照“是/可能是”、“否/可能否”和“無信息”來回答,每個領域與整體風險用“高風險”、“低風險”與“不清楚”評價。單一領域評價中,若某領域的所有問題回答為“是/可能是”,則該領域偏倚風險評價結果為“低風險”,若≥1個問題回答為“否/可能否”,則該領域評價為“高風險”,若有問題回答為“無信息”,而其他問題回答為“是/可能是”,則該領域評價為“不清楚”。整體風險評價中,若4個領域的偏倚風險評價結果均為“低風險”,則整體偏倚風險為“低風險”;若有≥1個領域評價結果為“高風險”,則整體為“高風險”;若有領域評價結果為“不清楚”,而其他領域評價結果均為“低風險”,則整體為“不清楚”[10]。適用性評價包括研究對象、預測因子和結果3個領域,每個領域按照“好”、“差”和“不清楚”來進行評價,整體適用性評價與整體偏倚風險評價相似[10]。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻531篇,經逐層篩選后,最終納入14個研究。文獻篩選流程及結果見圖1。

*所檢索的數據庫及檢出文獻數具體如下:PubMed(
2.2 納入研究的基本特征與偏倚風險和適用性評價結果
納入研究的基本特征見表1,偏倚風險和適用性評價結果見表2和表3。



2.3 預測模型的構建
本研究納入14個研究,共構建40個SGA預測模型。其中26個模型進行了內部驗證。納入研究的預測因子數為4~342個。納入的預測因子來自于臨床檢查、信息調查及孕期超聲多普勒檢查的結果。主要包括母親因素、父親因素與新生兒孕期發育情況三個方面。納入研究共使用了19種建模方法,包括邏輯回歸(logistic regression,LR)、隨機森林、支持向量機等常見的ML方法,以及Hybrid-LSTM等多種方法混合方式。6個研究使用了3種以上方法構建模型,其余8個研究僅使用了一種方法。LR方法使用頻次最高,為12次(表4)。

2.4 模型的預測性能
納入研究主要使用曲線下面積(area under the curve,AUC)、準確度、敏感度及特異性4個指標評價模型性能。31個模型報道了模型的AUC,范圍為0.561~0.953,其中21個模型的AUC>0.7,Bai等[15]基于極端梯度提升(extreme gradient boosting,XGBoost)方法構建的模型預測性能最好(AUC=0.953)。16個模型報道了模型的準確度,范圍為0.71~0.933,其中Tao等[18]的研究僅報道了模型的準確度(表4)。
3 討論
本研究系統檢索了國內外基于ML方法構建SGA預測模型的相關文獻,最終納入14個研究,共40個預測模型,其中26個模型進行了內部驗證,但均無模型進行外部驗證,大多數研究重建模而輕驗證。模型的內部驗證能夠防止過度擬合[24],外部驗證則關注模型的外推性[25],若研究僅停留在建模階段,預測模型就失去了臨床實踐意義。建議未來臨床研究者在考慮SGA模型預測性能的同時也更多地關注模型的驗證和更新,以構建性能更好、外推性高的預測模型。
13個研究的偏倚風險評價結果為高風險,可能由以下因素引起:① 評價方法因素。PROBAST是由Cochrane協助組推薦的預測模型研究偏倚風險評價工具,于2019年正式發表并逐步推廣應用,本研究6個研究在此之前發表,這些文獻在開展研究時缺乏方法學指導,導致普遍偏倚風險高。② 預測因子與樣本量因素。對于模型建立研究,每個變量的事件數(events per variable,EPV)應大于20個,以避免模型過度擬合[26];本研究中6個研究的EPV<20個,導致建模過程可能出現過度擬合,從而評估為高風險;③ 其他偏倚因素。2個研究為多中心開展,可能存在預測因子的測量標準不同,從而產生偏倚。在適用性評價中,2個研究的評價結果為差,主要由于其預測因素評估結果為不清楚。建議臨床研究者未來可按照PROBAST工具開展SGA預測模型的構建與驗證,盡可能減少偏倚風險[27]。
國外上個世紀90年代就開始探究使用ML方法構建SGA預測模型,而國內的相關研究起步較晚,尚無可應用于臨床的模型。所有納入研究中,使用傳統LR方法的模型AUC為0.561~0.8798,平均值為0.734。使用除傳統LR方法外的新興ML方法構建的模型AUC為0.569~0.953,平均AUC值為0.764。Bai等[15]的研究基于不同ML方法構建了多個模型,其中LR模型的預測性能最差(AUC=0.561),與劉璐等[6]、Tao等[18]的研究結論相同;XGBoost模型獲得了最好的預測性能(AUC=0.953),這與郭慧敏等[28]的研究結論相同。對比發現,多項研究中XGBoost等新興ML方法構建的預測模型較傳統LR方法有著更好的性能。建議未來臨床研究者在構建模型時考慮使用XGBoost等新興ML方法以獲得更好的預測性能。
梁思遠等[11]的研究還使用stacking方法將基于XGBoost等ML方法構建的模型進一步融合,得到了一個XGBoost+GDAE+LSTM的最終模型,AUC達到了0.8739,較該研究中使用單一方法構建的模型預測性能有顯著提升,郭慧敏等[28]的研究也得到相同結論。建議臨床研究者在構建SGA預測模型時可根據需要考慮使用stacking方法將預測性能較好的模型進行融合,以獲得高性能的SGA預測模型。
本研究納入模型的預測因子涉及母親因素、新生兒孕期發育情況與父親因素三個方面。母親因素是SGA影響因素中類別最多、分布最廣的因素,其信息可以通過臨床檢查與信息調查獲得。13個研究將母親因素作為預測因子,Lesley等[12]的研究發現母親血壓是SGA的重要預測因子,與Petronela等[16]的結論相同。來源于超聲多普勒檢查結果的新生兒孕期發育情況也是SGA的重要影響因素,8個研究將其納入,其中腹圍、頭圍與估計胎兒體重在不同的模型[12-13,21-22]中都獲得較好的預測性能(AUC>0.7),提示以上3個因素是SGA的重要預測因子;其中估計胎兒體重作為與SGA結局直接相關的因素,在Kim等[29]、Souka等[23]、Skovron等[30]的研究中單獨作為預測因子都獲得較好的預測性能,AUC值均>0.8;此外Shier等[14]的研究發現模型的預測因子中加入新生兒頸褶厚度可顯著提升預測性能。父親因素信息的獲取方式與母親因素相同,3個研究將其納入預測模型,Bai等[15]的研究發現父親飲酒與SGA的預測直接相關。除以上因素外,3篇文獻將生物標志物作為預測因子納入模型,但其在預測模型中的作用有待進一步研究。
母親血壓、腹圍、頭圍、胎兒估計體重、父親飲酒及新生兒頸褶厚度都是SGA的直接影響因素,其中胎兒估計體重與SGA結局的相關性最高,預測性能也最好[23, 29-30];母親血壓、腹圍、頭圍作為預測因子在多項研究[12-13,16,21-22]中均獲得較好的預測性能,而父親飲酒與新生兒頸褶厚度的預測性能有待進一步驗證。未來臨床研究者在構建模型時,考慮到母親血壓容易獲得,可作為常用的SGA模型預測因子,而腹圍、頭圍與胎兒估計體重等信息來自于超聲多普勒檢查結果,醫療條件較差地區可能無法獲得有效信息,臨床研究者可根據實際情況適當選擇。
本研究的局限性:一是納入文獻的SGA結局指標共有3種,存在顯著異質性,不同的結局難以整合;二是納入模型的預測性能指標缺失數據較多,有12個研究使用AUC值作為主要指標,1個研究僅給出模型的準確度,10個研究未給出敏感度與特異性結果,性能指標的缺失可能影響本研究結果的可信度。
綜上所述,本研究共納入14個研究,涉及40個預測模型構建。系統評價結果顯示,預測模型的預測性能一般,僅21個模型的AUC>0.7;模型整體偏倚風險較高,主要原因是研究設計未參考PROBAST評價方法和EPV<20導致的過度擬合。XGBoost方法構建的SGA預測模型能獲得較好的性能,stacking方法將不同模型融合可以進一步提升預測性能;母親血壓是最易獲得的預測因子,臨床研究者構建模型時也可以根據實際情況考慮納入胎兒腹圍、頭圍與胎兒估計體重作為預測因子。臨床研究者應該參照PROBAST工具完善預測模型研究設計,并進行模型的內部和外部驗證,才能開發出性能良好、臨床實踐價值高的預測模型,以便醫護人員及時做出干預措施,降低SGA的發生風險,改善新生兒的健康狀況。
小于胎齡兒(small for gestational age,SGA)指出生體重低于同胎齡兒標準體重一定百分位數或低于某個體重值的新生兒[1]。SGA的全球發病率約為9.7%[2],我國約為7.5%[3]。SGA不但影響新生兒正常的大腦發育,使其出現身體和神經心理發育障礙,還可能與成年后某些疾病如心血管疾病的發生相關[4]。此外SGA的圍產期死亡率與并發癥發病率都明顯高于正常胎齡兒[5]。因此,盡早診斷并在圍產期實行預后改善措施,對SGA的治療有著重大意義[6]。目前,SGA主要依據臨床醫生根據超聲多普勒檢查結合臨床生物檢查來診斷,而醫生經驗水平參差不齊可能導致診斷結果存在偏差。與傳統的經驗診斷相比,機器學習(machine learning,ML)方法構建的預測模型能更高效地處理大量復雜數據,還可以同時納入多個因素進行分析,此類預測模型可以排除主觀因素干擾,提高SGA診斷的準確性,具有較高的推廣價值[7-9]。國內外已有相關研究使用ML方法建立SGA的早期預測模型,但模型的構建方法與預測性能不一,其臨床外推性也有待進一步驗證。本研究對基于ML方法構建的SGA預測模型進行系統評價,以期為SGA預測模型的構建與優化提供參考依據。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 研究對象為年齡≥18歲的孕婦;② 研究內容為基于不同ML方法構建SGA的預測模型;③ 研究類型為隊列研究、病例-對照研究與橫斷面研究;④ 結局指標為SGA。
1.1.2 排除標準
① 綜述、述評、基于系統評價/Meta分析建立模型;② 會議摘要、信件等非正式發表的文獻;③ 無法獲取全文。
1.2 文獻檢索策略
計算機檢索PubMed、EMbase、Web of Science、CBM、WanFang Data、VIP和CNKI數據庫,搜集關于小于胎齡兒預測模型的研究,檢索時限均從建庫至2022年8月10日。中文檢索詞包括:機器學習、人工智能、深度學習、小于胎齡兒、預測、預測模型等;英文檢索詞包括:small for gestational age、prediction model、predict、machine learning、deep learning、artificial intelligence等。以PubMed為例,其具體檢索策略見框1。

1.3 文獻篩選與資料提取
由2位評價員獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷,缺乏的資料盡量與作者聯系予以補充。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。資料提取內容主要包括:第一作者、發表年份、國家、研究類型、建模方法、樣本量、結局的定義與發生率、驗證方法、模型中納入的預測因子、預測結果、模型預測性能等。
1.4 納入研究的偏倚風險和適用性評價
2名研究者使用預測模型研究的偏倚風險評價工具(prediction model risk of bias assessment tool,PROBAST)評價納入研究的偏倚風險和適用性[10]。偏倚風險的評價包括研究對象、預測因子、結果和分析4個領域,一共包括20個問題,每個問題按照“是/可能是”、“否/可能否”和“無信息”來回答,每個領域與整體風險用“高風險”、“低風險”與“不清楚”評價。單一領域評價中,若某領域的所有問題回答為“是/可能是”,則該領域偏倚風險評價結果為“低風險”,若≥1個問題回答為“否/可能否”,則該領域評價為“高風險”,若有問題回答為“無信息”,而其他問題回答為“是/可能是”,則該領域評價為“不清楚”。整體風險評價中,若4個領域的偏倚風險評價結果均為“低風險”,則整體偏倚風險為“低風險”;若有≥1個領域評價結果為“高風險”,則整體為“高風險”;若有領域評價結果為“不清楚”,而其他領域評價結果均為“低風險”,則整體為“不清楚”[10]。適用性評價包括研究對象、預測因子和結果3個領域,每個領域按照“好”、“差”和“不清楚”來進行評價,整體適用性評價與整體偏倚風險評價相似[10]。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻531篇,經逐層篩選后,最終納入14個研究。文獻篩選流程及結果見圖1。

*所檢索的數據庫及檢出文獻數具體如下:PubMed(
2.2 納入研究的基本特征與偏倚風險和適用性評價結果
納入研究的基本特征見表1,偏倚風險和適用性評價結果見表2和表3。



2.3 預測模型的構建
本研究納入14個研究,共構建40個SGA預測模型。其中26個模型進行了內部驗證。納入研究的預測因子數為4~342個。納入的預測因子來自于臨床檢查、信息調查及孕期超聲多普勒檢查的結果。主要包括母親因素、父親因素與新生兒孕期發育情況三個方面。納入研究共使用了19種建模方法,包括邏輯回歸(logistic regression,LR)、隨機森林、支持向量機等常見的ML方法,以及Hybrid-LSTM等多種方法混合方式。6個研究使用了3種以上方法構建模型,其余8個研究僅使用了一種方法。LR方法使用頻次最高,為12次(表4)。

2.4 模型的預測性能
納入研究主要使用曲線下面積(area under the curve,AUC)、準確度、敏感度及特異性4個指標評價模型性能。31個模型報道了模型的AUC,范圍為0.561~0.953,其中21個模型的AUC>0.7,Bai等[15]基于極端梯度提升(extreme gradient boosting,XGBoost)方法構建的模型預測性能最好(AUC=0.953)。16個模型報道了模型的準確度,范圍為0.71~0.933,其中Tao等[18]的研究僅報道了模型的準確度(表4)。
3 討論
本研究系統檢索了國內外基于ML方法構建SGA預測模型的相關文獻,最終納入14個研究,共40個預測模型,其中26個模型進行了內部驗證,但均無模型進行外部驗證,大多數研究重建模而輕驗證。模型的內部驗證能夠防止過度擬合[24],外部驗證則關注模型的外推性[25],若研究僅停留在建模階段,預測模型就失去了臨床實踐意義。建議未來臨床研究者在考慮SGA模型預測性能的同時也更多地關注模型的驗證和更新,以構建性能更好、外推性高的預測模型。
13個研究的偏倚風險評價結果為高風險,可能由以下因素引起:① 評價方法因素。PROBAST是由Cochrane協助組推薦的預測模型研究偏倚風險評價工具,于2019年正式發表并逐步推廣應用,本研究6個研究在此之前發表,這些文獻在開展研究時缺乏方法學指導,導致普遍偏倚風險高。② 預測因子與樣本量因素。對于模型建立研究,每個變量的事件數(events per variable,EPV)應大于20個,以避免模型過度擬合[26];本研究中6個研究的EPV<20個,導致建模過程可能出現過度擬合,從而評估為高風險;③ 其他偏倚因素。2個研究為多中心開展,可能存在預測因子的測量標準不同,從而產生偏倚。在適用性評價中,2個研究的評價結果為差,主要由于其預測因素評估結果為不清楚。建議臨床研究者未來可按照PROBAST工具開展SGA預測模型的構建與驗證,盡可能減少偏倚風險[27]。
國外上個世紀90年代就開始探究使用ML方法構建SGA預測模型,而國內的相關研究起步較晚,尚無可應用于臨床的模型。所有納入研究中,使用傳統LR方法的模型AUC為0.561~0.8798,平均值為0.734。使用除傳統LR方法外的新興ML方法構建的模型AUC為0.569~0.953,平均AUC值為0.764。Bai等[15]的研究基于不同ML方法構建了多個模型,其中LR模型的預測性能最差(AUC=0.561),與劉璐等[6]、Tao等[18]的研究結論相同;XGBoost模型獲得了最好的預測性能(AUC=0.953),這與郭慧敏等[28]的研究結論相同。對比發現,多項研究中XGBoost等新興ML方法構建的預測模型較傳統LR方法有著更好的性能。建議未來臨床研究者在構建模型時考慮使用XGBoost等新興ML方法以獲得更好的預測性能。
梁思遠等[11]的研究還使用stacking方法將基于XGBoost等ML方法構建的模型進一步融合,得到了一個XGBoost+GDAE+LSTM的最終模型,AUC達到了0.8739,較該研究中使用單一方法構建的模型預測性能有顯著提升,郭慧敏等[28]的研究也得到相同結論。建議臨床研究者在構建SGA預測模型時可根據需要考慮使用stacking方法將預測性能較好的模型進行融合,以獲得高性能的SGA預測模型。
本研究納入模型的預測因子涉及母親因素、新生兒孕期發育情況與父親因素三個方面。母親因素是SGA影響因素中類別最多、分布最廣的因素,其信息可以通過臨床檢查與信息調查獲得。13個研究將母親因素作為預測因子,Lesley等[12]的研究發現母親血壓是SGA的重要預測因子,與Petronela等[16]的結論相同。來源于超聲多普勒檢查結果的新生兒孕期發育情況也是SGA的重要影響因素,8個研究將其納入,其中腹圍、頭圍與估計胎兒體重在不同的模型[12-13,21-22]中都獲得較好的預測性能(AUC>0.7),提示以上3個因素是SGA的重要預測因子;其中估計胎兒體重作為與SGA結局直接相關的因素,在Kim等[29]、Souka等[23]、Skovron等[30]的研究中單獨作為預測因子都獲得較好的預測性能,AUC值均>0.8;此外Shier等[14]的研究發現模型的預測因子中加入新生兒頸褶厚度可顯著提升預測性能。父親因素信息的獲取方式與母親因素相同,3個研究將其納入預測模型,Bai等[15]的研究發現父親飲酒與SGA的預測直接相關。除以上因素外,3篇文獻將生物標志物作為預測因子納入模型,但其在預測模型中的作用有待進一步研究。
母親血壓、腹圍、頭圍、胎兒估計體重、父親飲酒及新生兒頸褶厚度都是SGA的直接影響因素,其中胎兒估計體重與SGA結局的相關性最高,預測性能也最好[23, 29-30];母親血壓、腹圍、頭圍作為預測因子在多項研究[12-13,16,21-22]中均獲得較好的預測性能,而父親飲酒與新生兒頸褶厚度的預測性能有待進一步驗證。未來臨床研究者在構建模型時,考慮到母親血壓容易獲得,可作為常用的SGA模型預測因子,而腹圍、頭圍與胎兒估計體重等信息來自于超聲多普勒檢查結果,醫療條件較差地區可能無法獲得有效信息,臨床研究者可根據實際情況適當選擇。
本研究的局限性:一是納入文獻的SGA結局指標共有3種,存在顯著異質性,不同的結局難以整合;二是納入模型的預測性能指標缺失數據較多,有12個研究使用AUC值作為主要指標,1個研究僅給出模型的準確度,10個研究未給出敏感度與特異性結果,性能指標的缺失可能影響本研究結果的可信度。
綜上所述,本研究共納入14個研究,涉及40個預測模型構建。系統評價結果顯示,預測模型的預測性能一般,僅21個模型的AUC>0.7;模型整體偏倚風險較高,主要原因是研究設計未參考PROBAST評價方法和EPV<20導致的過度擬合。XGBoost方法構建的SGA預測模型能獲得較好的性能,stacking方法將不同模型融合可以進一步提升預測性能;母親血壓是最易獲得的預測因子,臨床研究者構建模型時也可以根據實際情況考慮納入胎兒腹圍、頭圍與胎兒估計體重作為預測因子。臨床研究者應該參照PROBAST工具完善預測模型研究設計,并進行模型的內部和外部驗證,才能開發出性能良好、臨床實踐價值高的預測模型,以便醫護人員及時做出干預措施,降低SGA的發生風險,改善新生兒的健康狀況。