引用本文: 郭淑杰, 王艷紅, 趙亞楠, 劉冬梅, 畢曉玄, 張可, 姜晶晶, 馮宇軒. 產后出血風險預測模型的系統評價. 中國循證醫學雜志, 2022, 22(11): 1287-1300. doi: 10.7507/1672-2531.202205069 復制
產后出血(postpartum hemorrhage,PPH)是產科的嚴重并發癥,是導致產婦死亡的主要原因之一[1],據2021年全國婦幼健康監測統計數據顯示,PPH在我國孕產婦死亡原因中仍居首位[2]。各國研究表明,PPH發生率呈上升趨勢[3-7]。例如美國PPH發生率從2010年的2.9%上升到2014年的3.2%[8]。我國2016年到2018年嚴重PPH的發生率從0.62%上升到0.93%[9],2016年到2019年陰道分娩PPH發生率從3.8%上升到6.4%[10]。PPH會引起貧血、腎衰竭、席漢綜合征等嚴重并發癥,威脅產婦和新生兒健康[11-12]。因此,早期識別PPH高風險產婦,盡早干預是預防PPH及其嚴重并發癥的重要措施。目前國內外學者已開發了多種PPH風險預測模型,但各模型性能和適用性尚不清楚。本研究旨在系統評價國內外PPH風險預測模型,以期為PPH風險預測模型的構建、應用和臨床預防PPH發生提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 研究對象為年齡≥18歲的產婦;② 研究內容為產后出血預測模型的開發;③ 研究類型為隊列研究或病例-對照研究;④ 發表文種為中文或英文。
1.1.2 排除標準
① 構建了除PPH外包含其他分娩并發癥結局的預測模型;② 模型包含的預測變量≤2個;③ 會議摘要、綜述、系統評價、方法學文獻和信件;④ 數據不完整或原文無法獲取;⑤ 重復發表文獻。
1.2 文獻檢索策略
計算機檢索CNKI、WanFang Data、VIP、CBM、PubMed、EMbase、The Cochrane Library、Web of Science和CINAHL數據庫,搜集與產后出血風險預測模型相關的研究,檢索時限均從建庫至2022年3月20日。此外,追溯納入文獻的參考文獻,以補充獲取相關文獻。檢索采取主題詞和自由詞相結合的方式。英文檢索詞包括:postpartum hemorrhage、PPH、uterine hemorrhage、postpartum bleed、uterine bleed、postpartum blood loss、postnatal hemorrhage、post delivery hemorrhage、risk assessment、risk、predict*、prognos*、risk stratification、model*、tool*、score*等;中文檢索詞包括:產后出血、風險評估、風險篩查、預測、預測模型、預測因素、模型等。以PubMed為例,其具體檢索策略見框1。

1.3 文獻篩選與資料提取
由2位評價員獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷,缺乏的資料盡量與作者聯系予以補充。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。本研究數據提取采用預測模型研究系統評價的關鍵評估和數據提取清單(critical appraisal and data extraction for systematic reviews of prediction modeling studies,CHARMS)[13],資料提取內容主要包括:第一作者、發表時間、研究開展地區、研究設計類型、結局指標、樣本量、預測因子、缺失數據、建模方法、模型性能、驗證方法和模型呈現形式等。
1.4 納入研究的偏倚風險評價和適用性評價
由2名研究人員采用預測模型研究的偏倚風險評價工具(prediction model risk of bias assessment tool,PROBAST)[14-15]對納入研究的偏倚風險和適用性進行獨立評價,并交叉核對結果,若存在意見分歧,征求第三位研究者意見并達成一致。PROBAST對研究對象、預測因子、結果和分析4個領域開展評價,共包含20個問題。每個問題用“是/可能是”、“不是/可能不是”或“沒有信息”回答。適用性評價則根據前3個領域進行評價,采用“低風險”、“高風險”或“不清楚”評價。最后綜合各領域評價結果,對預測模型整體進行偏倚風險和適用性評價,結果為“低”、“高”或“不清楚”。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻9 161篇,經逐層篩選后,最終納入39個研究[16-54]。文獻篩選流程及結果見圖1。

*所檢索的數據庫及檢出文獻數具體如下:CNKI(
2.2 納入研究的基本特征
納入研究的基本特征見表1。

2.3 預測模型的構建情況
納入的39個研究共報告了58個PPH預測模型,11個(28.2%)[16-19,21-23,26-28,54]研究建立普適性的PPH預測模型,28個研究(71.8%)建立特異性PPH預測模型,其中9個[29-37]研究針對前置胎盤孕產婦,4個[38-41]研究針對瘢痕子宮剖宮產產婦,6個[20,24,42-45]研究針對陰道分娩產婦,還有4個研究[46-49]針對剖宮產產婦,此外還有針對二胎[25]、雙胎[50]、特發性血小板減少性紫癜[51]、妊娠期高血壓[52]和胎盤殘留產婦[53]的各一個研究。研究設計類型方面,33個(84.6%)研究[17-23,25,27,29,30,32-35,37-54]采用回顧性隊列研究設計,6個(15.4%)研究[16,24,26,28,31,36]采用病例-對照研究設計。模型建立方法方面,30個(76.9%)研究[16-18,20,23,24,26,29-42,43,45,46,49,50-54]采用了Logistic回歸的方法,1個(2.6%)研究[19]應用了基于影響因子的自適應K最鄰近法,3個(7.7%)研究[21,28,48]采用了Logistic回歸和機器學習算法建立模型,如套索回歸、極梯度Boost、隨機森林、神經網絡和決策樹,其他研究分別應用了集成機器學習,COX比例風險回歸模型、LSTM(long short-term memory)與XGBOOST(extreme gradient boosting)混合方法、LR+LGB(Logistic回歸+Lightgbm)、Hothorn等的非參數遞歸算法。各模型的建立模型樣本量為144~152 279例,驗證模型樣本量為88~27 579例。模型的建立情況見表1和表2。

2.4 納入模型性能和預測因子
納入模型的區分度主要通過受試者工作特征曲線下面積(area under the curve,AUC)評估,采用Hosmer-Lemeshow檢驗(P>0.05)和校準圖進行校準度評估。27個(69.2%)研究[17-20,23-25,27,28,30-32,34,38-46,48,51-54]報告了模型建立時的區分度(AUC為0.590~0.960),除Pressly等[18]和Koopmans等[52]的研究外,其余模型AUC均>0.7,預測性能較好。在模型驗證方面,30個(76.9%)研究[17-22,24,26-32,35,37-44,46,47,49,51-54]進行了內部驗證,主要方法為隨機拆分法和Bootstrap法,8個(20.5%)研究[20,21,32,35,37,49,51,54]進行了外部驗證,經外部驗證大部分顯示模型性能良好(AUC為0.701~0.880),只有一個模型顯示出較差的區分度(AUC=0.692)。7個(17.9%)研究[21,31,38,44,46,51,53]還提供了校準曲線圖,但是有5個(12.8%)研究[16,33,36,47,50]未報告或未評估模型區分度。模型最終呈現形式主要以各因子β系數的風險公式和列線圖展示,4個研究[30,34,51,54]以風險評分的方式展現結果,還有2個研究[37,38]形成了在線風險評估系統。所有模型的性能和預測因子見表2。
2.4.1 普適性PPH預測模型預測因子
適用于產科一般人群的21個模型中,出現頻率最多的預測因子是年齡(n=18)、多胎(n=16)、前置胎盤(n=12)、羊水過多(n=11)、分娩次數(n=10)、妊娠合并高血壓(n=8)、貧血(包含產前血紅蛋白≤100 g/L)(n=8)、胎盤早剝(n=8)、胎盤植入(n=8)、子癇前期(n=8)、腎功能異常(n=8)和種族(n=8),還有2個研究[23,27]將胎盤因素作為預測因子,但未提及具體內容。
2.4.2 特異性PPH預測模型預測因子
適用于前置胎盤產婦PPH的10個模型中,7個模型[30-33,36-37]納入前置胎盤且本次接受剖宮產手術的產婦,其余納入所有符合條件的前置胎盤產婦。10個模型中出現頻率最多的預測因子有前置胎盤類型(n=6)、胎盤附著位置(n=6)、年齡(n=5)和孕周(n=5)。瘢痕子宮剖宮產PPH的9個預測模型中,預測因子出現頻率較多的有胎盤植入(n=6)、前置胎盤(n=6)、孕周(n=5)、年齡(n=4)、妊娠期高血壓或子癇前期(n=4)和子宮內膜損傷(n=4)。適用于陰道分娩產婦PPH的7個模型中,出現頻率較多的預測因子為年齡(n=5)、新生兒體重(n=5)和分娩次數(n=4)。適用于剖宮產產婦PPH的5個模型和其他疾病的6個模型中,未發現出現頻次較高的預測因子。
2.5 偏倚風險與適用性評價
2.5.1 研究對象領域
14個研究[18-21,24,34,38,44,46,47,49,51-53]與研究對象相關的偏倚風險較低,2個研究[26,28]不清楚,其余研究的偏倚風險均較高,經評估,主要原因是研究數據來源于回顧性隊列研究或常規護理登記,而這類數據收集的最初目的不是用于預測模型的開發和驗證等,且與研究納入和排除標準相關的數據測量結果通常不一致,可能會導致較高的偏倚風險[15]。
2.5.2 預測因子領域
15個研究[16,19,21,23,24,26,30,31,34,37,40,46,49,51,53]預測因子領域偏倚風險高,12個研究[17,18,22,25,28,32,33,36,42,46,48,50]偏倚風險不清楚,其余研究偏倚風險低。7個研究[21,31,40,46,49,51,53]使用多中心的數據進行回顧性分析,各中心的數據收集評估方式可能不同,因此會產生偏倚。Chi等[16]和Zheutlin等[22]研究未報告數據來源,因此對偏倚評價問題“對于所有研究對象預測因子的定義和評估是否相同”的回答是“沒有信息”。此外,對預測因子評估時未對研究人員使用盲法,評估預測因子會受到結果影響。7個回顧性隊列研究[16,19,23,30,34,37,49]和2個病例-對照研究[24,26]在結果已知情況下評估預測因子,在偏倚評價問題“是否在不清楚結果數據下評估預測因子”的回答為“否”;另外16個研究[17-18,21-22,25,28,31-33,36,42,45,48,50,51,53]未報告是否在結果未知情況下進行預測因子評估,回答為“無信息”。
2.5.3 結果領域
3個研究[38,49,54]在結果領域偏倚風險高,3個研究[16,26,28]偏倚風險不清楚,其余33個研究[17-25,27,29-37,39-48,50-53]偏倚風險低。Ahmadzia等[38]和Xing等[54]研究中,結果定義為是否輸注紅細胞,而產前血紅蛋白值也會導致輸注紅細胞,可能會對預測產后出血造成偏倚,因此在偏倚評價問題“結果定義是否排除了預測因子”回答為“否”。Wu等[49]研究中,結果確定時間早于影像學評估,時間間隔長,因此在偏倚評價問題“預測因子評估和結果確定時間間隔是否合理”回答為“否”。Chi等[16]研究在偏倚評價問題“結果定義對所有研究對象相同?確定結果時是否不清楚預測因子信息?”均評為“無信息”。朱佳慧[28]和趙相娟等[26]研究中未報告結果分類和定義,因此偏倚評價問題“結果分類方法是否合理?結果定義是否合理?”回答為“無信息”。
2.5.4 分析領域
在預測模型開發研究中,每個自變量的事件數(events per variable,EPV)應≥20件,而模型驗證中樣本量應≥100例,有4個研究[26,29,32,49]樣本量未達到要求。16個研究[17-19,25,28,30,35,37,39,41,43,45,48,50-51,53]將連續性變量轉換為二分類或多分類變量,還有4個研究[16,21,38,42]未報告連續性變量的處理方式。19個研究[16,18-19,23,27,29,35,37,40-42,44-45,48-50,52-54]采用完整病例分析、刪除或采用單一值填補、多重插補法處理缺失數據,其余研究均未報告缺失數據處理方法。僅12個研究[17-19,21-22,27-28,42,44,46,49,53]將其他研究確定的可能預測因子全部納入逐步回歸方程或機器學習模型進行分析,其余研究均通過單因素分析法篩選變量,可能會遺漏有意義的自變量,導致偏倚。8個研究[26-28,37,41,42,45,48]未報告數據的復雜性,4個研究[16,33,36,50]未評估模型區分度,1個研究[47]未報告區分度,16個研究[16-17,19,22-23,25-30,34-36,42,47]未評估校準度。21個研究[18-22,24,26,31-32,35,37,39-42,44,49,51-54] 采用了正確的內部驗證法,其余研究僅包含隨機拆分法或未進行內部驗證。模型偏倚風險的評價情況見表3和表4。


2.5.5 適用性評價
13個研究[16,18-21,24,30-32,34,44,52,54]由于預測因子的評估發生在產后出血之后或手術和分娩過程中,因此預測因子領域評為高適用性風險。2個研究[26,28]因未報告結果的定義,結果領域評為不清楚。其余研究適用性較好。模型適用性評價見表4。
3 討論
3.1 預測模型具有較好預測性能,有一定臨床參考價值
本研究納入的39個研究,經過內部驗證模型AUC為0.580~0.933,在建立模型或驗證模型時36個模型的AUC>0.8,區分度良好,13個模型的AUC在0.7~0.8之間,具有較好的預測性能,能很好辨別出具有PPH高風險的產婦。但大部分研究總體偏倚風險評價結果為高偏倚,只有1個研究[44]總體偏倚風險低,但未進行外部驗證,其臨床適用性有待進一步考證。納入模型中出現頻率較多的預測因子是產婦年齡、多胎妊娠、胎盤因素、羊水過多、妊娠合并高血壓或子癇前期、貧血、產程延長、產次、腎功能異常、孕周和子宮內膜損傷等。醫務人員應結合產婦實際情況,注意對這些因素的評估,在產前改善貧血、高血壓和腎功能損傷等可變因素,分娩中針對病因進行預防處理,如多胎妊娠、產程延長、羊水過多等宮縮乏力的誘發因素和胎盤植入、粘連等胎盤因素[55],規范使用縮宮素、米索前列醇等宮縮劑以改善產婦結局。同時要開展育齡期女性的宣教工作,避免流產和高齡生育等,做好產前保健,加強高危妊娠管理,倡導陰道分娩以減少不必要的剖宮產手術,從而降低產后出血風險。
3.2 研究對象和結局指標的差異會導致預測模型的差異
本研究納入的39個研究,分別構建了普適性和特異性的PPH風險預測模型,研究對象不同,其模型最終納入的預測因子也存在較大差異,因此部分模型臨床適用性受到目標人群限制。在普適性和針對某一特征人群建立的PPH風險預測模型中,對PPH的定義也存在差異,如適用于前置胎盤產婦的PPH預測模型中,結局指標有24 h出血量≥1 500 mL[29,33,35]、24 h失血量≥1 500 mL或輸注紅細胞≥4單位[31]、24 h失血量≥2 000 mL或輸注紅細胞[30,34]等,而不同的結局指標標準可能會導致預測因子的異質性和PPH發生率改變[56],未來應使PPH和SPPH統一化、標準化,以提高預測模型的特異度,建立具有人群普適性的PPH風險預測模型,以應對分娩過程中的變化。
3.3 預測因子的選擇和評估影響模型性能
本研究納入研究大部分采用回顧性隊列研究的方法開發及驗證模型,納入的預測因子可能不全面,還有一些預測因子可能因為數據的缺失而被忽略。部分多中心開展的回顧性研究,預測因子的評估方式不統一,導致其存在偏倚。而開展前瞻性隊列研究,通過文獻回顧建立模型的候選預測因子集,收集相應的臨床數據,統一預測因子的評估,會在一定程度上改善模型質量。還有少數研究最終納入模型的預測因子對預防PPH發生幾乎沒有幫助,因為其中一些指標在分娩時是未知的。如部分模型將APGAR評分[18]、絨毛膜羊膜炎[17-18]、胎盤殘留[19,45]、新生兒體重[20,42]等作為預測因子,這意味著預測模型的預期使用時間是胎兒娩出之后,而這時很有可能PPH的最高風險時間已經過去,對于制定產前醫療護理計劃的價值有限。未來應開發產前、產時、產后的動態風險評估系統,更好地預測PPH的發生,但需要持續記錄數據并訪問計算機系統,在實際操作中可能存在困難。
3.4 機器學習應用于PPH風險預測模型構建有待研究
機器學習和深度學習可對海量輸入數據的特征進行分析,挖掘其中的隱藏關系,建立疾病預后和診斷模型[57],已成為計算機和醫學領域的研究熱點。納入的8個研究采用了機器學習算法開發預測模型,Venkatesh等[21]、朱佳慧等[28]、Akazawa等[42]和陳寧靜等[48]的研究中,采用傳統Logistic和機器學習算法建立模型,前3個研究均提示機器學習算法建立的模型預測性能更佳,但AUC相差不大,不過其計算過程較傳統回歸方法更為復雜,因此改進機器學習算法,改善模型性能是未來研究的重要方向。
3.5 研究的局限性
本研究的局限性:由于納入與排除標準的限制,以及未獲取的原文,本研究可能存在文獻遺漏;其次,納入文章部分未報告特異度、靈敏度等指標,本研究僅通過AUC值評估模型性能;另外,由于納入模型間的異質性,本研究未能開展Meta分析。
總之,本研究研究結果顯示,PPH預測模型性能較好,但整體偏倚風險高,且大部分模型未進行外部驗證,影響模型的外推性,尚未發現已應用于臨床的預測模型。未來模型構建應嚴格遵循PROBAST,完善研究設計,以開發性能良好、臨床適用性高的預測模型,同時應正確使用內部驗證法調整模型,在不同人群和地區開展外部驗證。
產后出血(postpartum hemorrhage,PPH)是產科的嚴重并發癥,是導致產婦死亡的主要原因之一[1],據2021年全國婦幼健康監測統計數據顯示,PPH在我國孕產婦死亡原因中仍居首位[2]。各國研究表明,PPH發生率呈上升趨勢[3-7]。例如美國PPH發生率從2010年的2.9%上升到2014年的3.2%[8]。我國2016年到2018年嚴重PPH的發生率從0.62%上升到0.93%[9],2016年到2019年陰道分娩PPH發生率從3.8%上升到6.4%[10]。PPH會引起貧血、腎衰竭、席漢綜合征等嚴重并發癥,威脅產婦和新生兒健康[11-12]。因此,早期識別PPH高風險產婦,盡早干預是預防PPH及其嚴重并發癥的重要措施。目前國內外學者已開發了多種PPH風險預測模型,但各模型性能和適用性尚不清楚。本研究旨在系統評價國內外PPH風險預測模型,以期為PPH風險預測模型的構建、應用和臨床預防PPH發生提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 研究對象為年齡≥18歲的產婦;② 研究內容為產后出血預測模型的開發;③ 研究類型為隊列研究或病例-對照研究;④ 發表文種為中文或英文。
1.1.2 排除標準
① 構建了除PPH外包含其他分娩并發癥結局的預測模型;② 模型包含的預測變量≤2個;③ 會議摘要、綜述、系統評價、方法學文獻和信件;④ 數據不完整或原文無法獲取;⑤ 重復發表文獻。
1.2 文獻檢索策略
計算機檢索CNKI、WanFang Data、VIP、CBM、PubMed、EMbase、The Cochrane Library、Web of Science和CINAHL數據庫,搜集與產后出血風險預測模型相關的研究,檢索時限均從建庫至2022年3月20日。此外,追溯納入文獻的參考文獻,以補充獲取相關文獻。檢索采取主題詞和自由詞相結合的方式。英文檢索詞包括:postpartum hemorrhage、PPH、uterine hemorrhage、postpartum bleed、uterine bleed、postpartum blood loss、postnatal hemorrhage、post delivery hemorrhage、risk assessment、risk、predict*、prognos*、risk stratification、model*、tool*、score*等;中文檢索詞包括:產后出血、風險評估、風險篩查、預測、預測模型、預測因素、模型等。以PubMed為例,其具體檢索策略見框1。

1.3 文獻篩選與資料提取
由2位評價員獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷,缺乏的資料盡量與作者聯系予以補充。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。本研究數據提取采用預測模型研究系統評價的關鍵評估和數據提取清單(critical appraisal and data extraction for systematic reviews of prediction modeling studies,CHARMS)[13],資料提取內容主要包括:第一作者、發表時間、研究開展地區、研究設計類型、結局指標、樣本量、預測因子、缺失數據、建模方法、模型性能、驗證方法和模型呈現形式等。
1.4 納入研究的偏倚風險評價和適用性評價
由2名研究人員采用預測模型研究的偏倚風險評價工具(prediction model risk of bias assessment tool,PROBAST)[14-15]對納入研究的偏倚風險和適用性進行獨立評價,并交叉核對結果,若存在意見分歧,征求第三位研究者意見并達成一致。PROBAST對研究對象、預測因子、結果和分析4個領域開展評價,共包含20個問題。每個問題用“是/可能是”、“不是/可能不是”或“沒有信息”回答。適用性評價則根據前3個領域進行評價,采用“低風險”、“高風險”或“不清楚”評價。最后綜合各領域評價結果,對預測模型整體進行偏倚風險和適用性評價,結果為“低”、“高”或“不清楚”。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻9 161篇,經逐層篩選后,最終納入39個研究[16-54]。文獻篩選流程及結果見圖1。

*所檢索的數據庫及檢出文獻數具體如下:CNKI(
2.2 納入研究的基本特征
納入研究的基本特征見表1。

2.3 預測模型的構建情況
納入的39個研究共報告了58個PPH預測模型,11個(28.2%)[16-19,21-23,26-28,54]研究建立普適性的PPH預測模型,28個研究(71.8%)建立特異性PPH預測模型,其中9個[29-37]研究針對前置胎盤孕產婦,4個[38-41]研究針對瘢痕子宮剖宮產產婦,6個[20,24,42-45]研究針對陰道分娩產婦,還有4個研究[46-49]針對剖宮產產婦,此外還有針對二胎[25]、雙胎[50]、特發性血小板減少性紫癜[51]、妊娠期高血壓[52]和胎盤殘留產婦[53]的各一個研究。研究設計類型方面,33個(84.6%)研究[17-23,25,27,29,30,32-35,37-54]采用回顧性隊列研究設計,6個(15.4%)研究[16,24,26,28,31,36]采用病例-對照研究設計。模型建立方法方面,30個(76.9%)研究[16-18,20,23,24,26,29-42,43,45,46,49,50-54]采用了Logistic回歸的方法,1個(2.6%)研究[19]應用了基于影響因子的自適應K最鄰近法,3個(7.7%)研究[21,28,48]采用了Logistic回歸和機器學習算法建立模型,如套索回歸、極梯度Boost、隨機森林、神經網絡和決策樹,其他研究分別應用了集成機器學習,COX比例風險回歸模型、LSTM(long short-term memory)與XGBOOST(extreme gradient boosting)混合方法、LR+LGB(Logistic回歸+Lightgbm)、Hothorn等的非參數遞歸算法。各模型的建立模型樣本量為144~152 279例,驗證模型樣本量為88~27 579例。模型的建立情況見表1和表2。

2.4 納入模型性能和預測因子
納入模型的區分度主要通過受試者工作特征曲線下面積(area under the curve,AUC)評估,采用Hosmer-Lemeshow檢驗(P>0.05)和校準圖進行校準度評估。27個(69.2%)研究[17-20,23-25,27,28,30-32,34,38-46,48,51-54]報告了模型建立時的區分度(AUC為0.590~0.960),除Pressly等[18]和Koopmans等[52]的研究外,其余模型AUC均>0.7,預測性能較好。在模型驗證方面,30個(76.9%)研究[17-22,24,26-32,35,37-44,46,47,49,51-54]進行了內部驗證,主要方法為隨機拆分法和Bootstrap法,8個(20.5%)研究[20,21,32,35,37,49,51,54]進行了外部驗證,經外部驗證大部分顯示模型性能良好(AUC為0.701~0.880),只有一個模型顯示出較差的區分度(AUC=0.692)。7個(17.9%)研究[21,31,38,44,46,51,53]還提供了校準曲線圖,但是有5個(12.8%)研究[16,33,36,47,50]未報告或未評估模型區分度。模型最終呈現形式主要以各因子β系數的風險公式和列線圖展示,4個研究[30,34,51,54]以風險評分的方式展現結果,還有2個研究[37,38]形成了在線風險評估系統。所有模型的性能和預測因子見表2。
2.4.1 普適性PPH預測模型預測因子
適用于產科一般人群的21個模型中,出現頻率最多的預測因子是年齡(n=18)、多胎(n=16)、前置胎盤(n=12)、羊水過多(n=11)、分娩次數(n=10)、妊娠合并高血壓(n=8)、貧血(包含產前血紅蛋白≤100 g/L)(n=8)、胎盤早剝(n=8)、胎盤植入(n=8)、子癇前期(n=8)、腎功能異常(n=8)和種族(n=8),還有2個研究[23,27]將胎盤因素作為預測因子,但未提及具體內容。
2.4.2 特異性PPH預測模型預測因子
適用于前置胎盤產婦PPH的10個模型中,7個模型[30-33,36-37]納入前置胎盤且本次接受剖宮產手術的產婦,其余納入所有符合條件的前置胎盤產婦。10個模型中出現頻率最多的預測因子有前置胎盤類型(n=6)、胎盤附著位置(n=6)、年齡(n=5)和孕周(n=5)。瘢痕子宮剖宮產PPH的9個預測模型中,預測因子出現頻率較多的有胎盤植入(n=6)、前置胎盤(n=6)、孕周(n=5)、年齡(n=4)、妊娠期高血壓或子癇前期(n=4)和子宮內膜損傷(n=4)。適用于陰道分娩產婦PPH的7個模型中,出現頻率較多的預測因子為年齡(n=5)、新生兒體重(n=5)和分娩次數(n=4)。適用于剖宮產產婦PPH的5個模型和其他疾病的6個模型中,未發現出現頻次較高的預測因子。
2.5 偏倚風險與適用性評價
2.5.1 研究對象領域
14個研究[18-21,24,34,38,44,46,47,49,51-53]與研究對象相關的偏倚風險較低,2個研究[26,28]不清楚,其余研究的偏倚風險均較高,經評估,主要原因是研究數據來源于回顧性隊列研究或常規護理登記,而這類數據收集的最初目的不是用于預測模型的開發和驗證等,且與研究納入和排除標準相關的數據測量結果通常不一致,可能會導致較高的偏倚風險[15]。
2.5.2 預測因子領域
15個研究[16,19,21,23,24,26,30,31,34,37,40,46,49,51,53]預測因子領域偏倚風險高,12個研究[17,18,22,25,28,32,33,36,42,46,48,50]偏倚風險不清楚,其余研究偏倚風險低。7個研究[21,31,40,46,49,51,53]使用多中心的數據進行回顧性分析,各中心的數據收集評估方式可能不同,因此會產生偏倚。Chi等[16]和Zheutlin等[22]研究未報告數據來源,因此對偏倚評價問題“對于所有研究對象預測因子的定義和評估是否相同”的回答是“沒有信息”。此外,對預測因子評估時未對研究人員使用盲法,評估預測因子會受到結果影響。7個回顧性隊列研究[16,19,23,30,34,37,49]和2個病例-對照研究[24,26]在結果已知情況下評估預測因子,在偏倚評價問題“是否在不清楚結果數據下評估預測因子”的回答為“否”;另外16個研究[17-18,21-22,25,28,31-33,36,42,45,48,50,51,53]未報告是否在結果未知情況下進行預測因子評估,回答為“無信息”。
2.5.3 結果領域
3個研究[38,49,54]在結果領域偏倚風險高,3個研究[16,26,28]偏倚風險不清楚,其余33個研究[17-25,27,29-37,39-48,50-53]偏倚風險低。Ahmadzia等[38]和Xing等[54]研究中,結果定義為是否輸注紅細胞,而產前血紅蛋白值也會導致輸注紅細胞,可能會對預測產后出血造成偏倚,因此在偏倚評價問題“結果定義是否排除了預測因子”回答為“否”。Wu等[49]研究中,結果確定時間早于影像學評估,時間間隔長,因此在偏倚評價問題“預測因子評估和結果確定時間間隔是否合理”回答為“否”。Chi等[16]研究在偏倚評價問題“結果定義對所有研究對象相同?確定結果時是否不清楚預測因子信息?”均評為“無信息”。朱佳慧[28]和趙相娟等[26]研究中未報告結果分類和定義,因此偏倚評價問題“結果分類方法是否合理?結果定義是否合理?”回答為“無信息”。
2.5.4 分析領域
在預測模型開發研究中,每個自變量的事件數(events per variable,EPV)應≥20件,而模型驗證中樣本量應≥100例,有4個研究[26,29,32,49]樣本量未達到要求。16個研究[17-19,25,28,30,35,37,39,41,43,45,48,50-51,53]將連續性變量轉換為二分類或多分類變量,還有4個研究[16,21,38,42]未報告連續性變量的處理方式。19個研究[16,18-19,23,27,29,35,37,40-42,44-45,48-50,52-54]采用完整病例分析、刪除或采用單一值填補、多重插補法處理缺失數據,其余研究均未報告缺失數據處理方法。僅12個研究[17-19,21-22,27-28,42,44,46,49,53]將其他研究確定的可能預測因子全部納入逐步回歸方程或機器學習模型進行分析,其余研究均通過單因素分析法篩選變量,可能會遺漏有意義的自變量,導致偏倚。8個研究[26-28,37,41,42,45,48]未報告數據的復雜性,4個研究[16,33,36,50]未評估模型區分度,1個研究[47]未報告區分度,16個研究[16-17,19,22-23,25-30,34-36,42,47]未評估校準度。21個研究[18-22,24,26,31-32,35,37,39-42,44,49,51-54] 采用了正確的內部驗證法,其余研究僅包含隨機拆分法或未進行內部驗證。模型偏倚風險的評價情況見表3和表4。


2.5.5 適用性評價
13個研究[16,18-21,24,30-32,34,44,52,54]由于預測因子的評估發生在產后出血之后或手術和分娩過程中,因此預測因子領域評為高適用性風險。2個研究[26,28]因未報告結果的定義,結果領域評為不清楚。其余研究適用性較好。模型適用性評價見表4。
3 討論
3.1 預測模型具有較好預測性能,有一定臨床參考價值
本研究納入的39個研究,經過內部驗證模型AUC為0.580~0.933,在建立模型或驗證模型時36個模型的AUC>0.8,區分度良好,13個模型的AUC在0.7~0.8之間,具有較好的預測性能,能很好辨別出具有PPH高風險的產婦。但大部分研究總體偏倚風險評價結果為高偏倚,只有1個研究[44]總體偏倚風險低,但未進行外部驗證,其臨床適用性有待進一步考證。納入模型中出現頻率較多的預測因子是產婦年齡、多胎妊娠、胎盤因素、羊水過多、妊娠合并高血壓或子癇前期、貧血、產程延長、產次、腎功能異常、孕周和子宮內膜損傷等。醫務人員應結合產婦實際情況,注意對這些因素的評估,在產前改善貧血、高血壓和腎功能損傷等可變因素,分娩中針對病因進行預防處理,如多胎妊娠、產程延長、羊水過多等宮縮乏力的誘發因素和胎盤植入、粘連等胎盤因素[55],規范使用縮宮素、米索前列醇等宮縮劑以改善產婦結局。同時要開展育齡期女性的宣教工作,避免流產和高齡生育等,做好產前保健,加強高危妊娠管理,倡導陰道分娩以減少不必要的剖宮產手術,從而降低產后出血風險。
3.2 研究對象和結局指標的差異會導致預測模型的差異
本研究納入的39個研究,分別構建了普適性和特異性的PPH風險預測模型,研究對象不同,其模型最終納入的預測因子也存在較大差異,因此部分模型臨床適用性受到目標人群限制。在普適性和針對某一特征人群建立的PPH風險預測模型中,對PPH的定義也存在差異,如適用于前置胎盤產婦的PPH預測模型中,結局指標有24 h出血量≥1 500 mL[29,33,35]、24 h失血量≥1 500 mL或輸注紅細胞≥4單位[31]、24 h失血量≥2 000 mL或輸注紅細胞[30,34]等,而不同的結局指標標準可能會導致預測因子的異質性和PPH發生率改變[56],未來應使PPH和SPPH統一化、標準化,以提高預測模型的特異度,建立具有人群普適性的PPH風險預測模型,以應對分娩過程中的變化。
3.3 預測因子的選擇和評估影響模型性能
本研究納入研究大部分采用回顧性隊列研究的方法開發及驗證模型,納入的預測因子可能不全面,還有一些預測因子可能因為數據的缺失而被忽略。部分多中心開展的回顧性研究,預測因子的評估方式不統一,導致其存在偏倚。而開展前瞻性隊列研究,通過文獻回顧建立模型的候選預測因子集,收集相應的臨床數據,統一預測因子的評估,會在一定程度上改善模型質量。還有少數研究最終納入模型的預測因子對預防PPH發生幾乎沒有幫助,因為其中一些指標在分娩時是未知的。如部分模型將APGAR評分[18]、絨毛膜羊膜炎[17-18]、胎盤殘留[19,45]、新生兒體重[20,42]等作為預測因子,這意味著預測模型的預期使用時間是胎兒娩出之后,而這時很有可能PPH的最高風險時間已經過去,對于制定產前醫療護理計劃的價值有限。未來應開發產前、產時、產后的動態風險評估系統,更好地預測PPH的發生,但需要持續記錄數據并訪問計算機系統,在實際操作中可能存在困難。
3.4 機器學習應用于PPH風險預測模型構建有待研究
機器學習和深度學習可對海量輸入數據的特征進行分析,挖掘其中的隱藏關系,建立疾病預后和診斷模型[57],已成為計算機和醫學領域的研究熱點。納入的8個研究采用了機器學習算法開發預測模型,Venkatesh等[21]、朱佳慧等[28]、Akazawa等[42]和陳寧靜等[48]的研究中,采用傳統Logistic和機器學習算法建立模型,前3個研究均提示機器學習算法建立的模型預測性能更佳,但AUC相差不大,不過其計算過程較傳統回歸方法更為復雜,因此改進機器學習算法,改善模型性能是未來研究的重要方向。
3.5 研究的局限性
本研究的局限性:由于納入與排除標準的限制,以及未獲取的原文,本研究可能存在文獻遺漏;其次,納入文章部分未報告特異度、靈敏度等指標,本研究僅通過AUC值評估模型性能;另外,由于納入模型間的異質性,本研究未能開展Meta分析。
總之,本研究研究結果顯示,PPH預測模型性能較好,但整體偏倚風險高,且大部分模型未進行外部驗證,影響模型的外推性,尚未發現已應用于臨床的預測模型。未來模型構建應嚴格遵循PROBAST,完善研究設計,以開發性能良好、臨床適用性高的預測模型,同時應正確使用內部驗證法調整模型,在不同人群和地區開展外部驗證。