食管癌是起源于食管上皮組織的一種臨床最常見的消化系統惡性腫瘤之一,其惡性程度高,早期診斷率較低,患者5年生存率僅有20%[1-2]。我國為食管癌高發國家,約占世界總發病率的53.7%,其死亡率高居全球第5位[3]。2019年版食管癌診療指南[4]提出,早期行根治術是食管癌患者最有效的治療方式,但由于食管漿膜層覆蓋少、肌纖維多呈縱向分布、血液呈階段性供應等特殊的解剖及生理特點,術后切口愈合能力較差,患者常合并術后吻合口瘺(anastomostic leakage,AL)。得益于微創化手術及圍術期精細化管理,術后吻合口瘺發生率雖有所下降,但據研究報道[5-6],食管癌根治術后吻合口瘺發生率仍達4.9%~19.6%。吻合口瘺的發生不僅會延長患者住院時間、增加經濟負擔,還會提高食管癌患者圍術期死亡率,并對患者長期生存、生活質量產生不利影響[7]。因此,早期識別并個體化預測食管癌根治術患者吻合口瘺發生風險,對降低術后吻合口瘺發生率,提早預防并對其提供有針對性的防控干預措施具有重要意義。臨床風險預測模型可通過定量評估多因素水平與疾病發生之間的關系,預測某種疾病或將要發生某種結局的概率[8]。近年來國內外學者開發了多種預測食管癌根治術后吻合口瘺發生的風險模型,但各個模型之間結果差異較大,且研究質量不一,模型的性能及其適用性尚需進一步探究。本研究對食管癌根治術后吻合口瘺發生的風險預測模型進行系統評價,旨在為臨床醫護人員選擇或合適的風險評估工具提供借鑒及依據。
1 資料與方法
1.1 文獻納入和排除標準
納入標準:(1)研究對象為接受食管癌根治術患者,年齡≥18歲。(2)研究內容為構建食管癌根治術后吻合口瘺風險預測模型且需詳細說明建模方式;(3)研究設計包括病例對照研究、隊列研究和橫斷面研究;(4)研究語種為中英文。排除標準:(1)數據不全或無效、全文無法獲取;(2)未對模型構建過程或方法進行說明;(3)構建模型的預測因子≤2個;(4)重復發表文獻;(5)未構建預測模型或模型數據缺失的文獻;(6)吻合口瘺為多個結局指標之一;(7)綜述、動物實驗、會議論文等。
1.2 文獻檢索策略
檢索中國知網、萬方、維普、CBM、PubMed、EMbase、Web of Science、The Cochrane Library等數據庫,檢索時間為建庫至2023年4月。檢索采用主題詞與自由詞相結合的方式,并輔以參考文獻回溯。以“食管癌、食道癌、食管腫瘤、食道腫瘤、吻合口瘺、胃食管吻合、頸內吻合、胸內吻合、預測模型、風險預測模型、模型、預測因子、風險評估、風險評分、危險分層”為中文檢索詞;以“esophageal neoplasms、esophageal cancer、carcinoma of esophagus、esophageal carcinoma、esophagus cancer、anastomotic fistula、anastomotic leak、anastomotic leakage、prediction model、prediction tool、risk prediction model、risk assessment、risk score、risk calculation、risk stratification model、stratification model、prognostic model、nomogram”為英文檢索詞。以PubMed為例,具體檢索策略見圖1。

*:PubMed(
1.3 文獻篩選與數據提取
將檢索到的數據導入Endnote X9進行查重。由2名研究者獨立瀏覽題目及摘要,排除主題明顯不符的文獻,再進一步閱讀全文確定合格文獻。如遇分歧難以抉擇時,與第3方討論解決。參考并借鑒預測模型構建研究數據提取和質量評價清單[9](Check list for Critical Appraisal and Data Extraction for Systematic Reviews of Prediction Modeling Studies,CHARMS),自制標準化數據提取清單并借助Excel軟件輔助數據提取。提取內容包括:年份、國家及地區、研究對象、研究類型、設計類型、樣本量、候選變量處理及篩選方法、缺失數據處理及方法、建模及驗模方法、模型呈現形式等。
1.4 文獻質量評價方法
由2名具有循證醫學知識的研究者依據預測模型偏倚風險評估工具(Prediction Model Risk Of Bias Assessment Tool,PROBAST)對納入文獻的偏倚風險及適用性進行評價。PROBAST共涵蓋4個領域,包括20個問題,分別從研究對象、預測因子、結果和分析對文獻進行偏倚評估。每個問題使用“是/可能是”、“不是/可能不是”和“無信息”來回答[10]。在同一領域中,若所有回答均為“是/可能是”,則該領域為低偏倚風險;若任意一項回答為“不是/可能不是”,則該領域為高偏倚風險;若原始文獻缺少相關信息或無法判斷時,則判定該領域為偏倚風險不清楚。若所有領域均判斷為低偏倚風險,代表研究總體偏倚風險低;若任意一個領域判定為高偏倚風險,則代表研究總體偏倚風險高;若任意一個領域判定為偏倚風險不清楚,則總體研究偏倚風險不清楚。適用性評價包含研究對象、預測因子和結果3個領域,采用“低適用性風險”、“高適用性風險”和“不清楚”來評估。若所有領域均判定為低適用性風險,則研究總體適用性好;若任意一個領域判定為高適用性風險,則研究總體適用性差。
1.5 統計學分析
使用RevMan 5.3軟件對納入預測模型中存在共性的預測因子進行Meta分析,異質性檢驗通過Q檢驗及I2檢驗判斷。若異質性檢驗P>0.1且I2<50%,說明各研究之間的不同質性在統計學上沒有差異,Meta分析模型選用固定效應模型;反之則選用隨機效應模型。采用敏感性分析對異質性較高的預測因子進行探查。依照各預測模型中提供的各預測因子的OR值作為效應統計量,置信區間為95%CI。
2 結果
2.1 文獻篩選結果
共檢索到623篇文獻,嚴格依照納入和排除標準篩選后最終納入18篇文獻[11-28],文獻篩選流程圖見圖2。納入文獻中,中文文獻11篇[11-19,22,28],英文文獻7篇[20-21,23-27],有16篇文獻在近5年內發表。13篇文獻[11-22,28]研究設計類型為病例對照研究,4篇文獻[23-26]為回顧性隊列研究,1篇文獻[27]為前瞻性隊列研究。吻合口瘺發生率為3.97%~23.93%。納入文獻基本特征見表1。

2.2 模型的建立情況
納入研究的18篇文獻均為風險預測模型的開發研究,各研究樣本總量為102~4228例,納入預測因子個數為3~22個,結果事件數與協變量個數比(the number of events per variable,EPV)為5~20。在變量處理方面,15項研究[11-14,16-20,22-23,25-28]將連續性變量處理為分類變量,僅1項研究[28]指出了轉換為分類變量的切點值,其余研究均未報告轉換為分類變量的依據。在缺失數據方面,1項研究[21]報告了具體缺失的樣本含量并采用直接刪除法處理;1項研究[18]提及采用算法計算的方式對缺失數據進行補充,6項研究[13,16-17,20-21,27]提及采用直接刪除法處理缺失數據,但未報告缺失的具體樣本量。在預測變量篩選上,4項研究[13,20,22,28]采用逐步回歸的方式,包括逐步選擇法、向前有條件法和向前逐步法;11項研究[11-12,14-19,21,24,26]基于單因素及多因素分析進行變量篩選;1項研究[23]運用最小絕對收縮和選擇算法(least absolute shrinkage and selection operator,LASSO)篩選變量。納入的研究采用了多種建模手段,15項研究[11-21,23-24,26,28]采用Logistic回歸(logistic regression,LR),1項研究[22]采用Logistic回歸和人工神經網絡(artificial neural network,ANN),2項研究[25,27]采用機器學習(machine learning,ML)方式建模,具體包括決策樹(decision tree,DT)、人工神經網絡、隨機森林(random forest,RF)、K近鄰(k-nearest neighbor,k-NN)、支持向量機(support vector machine,SVT)、樸素貝葉斯算法(Na?ve Bayes)、AdaBoost、SuperLearner。模型中納入的預測因子主要分為5類,具體為:(1)患者基本情況:年齡、性別、體重指數(body mass index,BMI)、糖尿病史、高血壓史、吸煙史、腹部手術史、胸部手術史、美國麻醉醫師協會體格狀態分級;(2)檢查及檢驗指標:C反應蛋白水平、白細胞水平、白蛋白水平、第 1 秒用力呼氣容積占預測值百分比(forced expiratory volume in one second/predicated value,FEV1%)、胃網膜血管分支鈣化、主動脈鈣化、腹腔干鈣化;(3)手術相關情況:手術時間、吻合口位置、吻合方式、重建途徑;(4)腫瘤情況:腫瘤位置、腫瘤分期;(5)術后并發癥情況:術后肺部感染、術后低氧血癥、胸腔積液、是否合并呼吸系統、心血管系統、泌尿系統等。各模型中出現次數最多的預測因子依次為低蛋白血癥、糖尿病史、年齡、肺部感染、C反應蛋白水平等。模型建立情況及預測性能見表2。

2.3 模型的預測性能
模型預測性能從區分度和校準度兩方面進行評價。區分度評價指標主要采用受試者工作特征曲線下面積(area under the curve,AUC)或一致性指數(C-index)表示;校準度評價指標通過Hosmer-Lemeshow擬合優度檢驗(H-L檢驗)和繪制校準圖進行全面評價。18項研究均進行了模型的性能評價,8項研究[11,14,19,21,24-27]僅對區分度指標進行了報道,而未報道校準度指標。2項研究[23,27]中模型的區分度分別為0.69、0.68,其余研究建立的模型區分度均>0.7,表示模型具有良好的預測性能。10項研究[12-13,15-18,20,22-23,28]報道了校準度,其中6項研究[12,15,17-18,20,23]通過繪制校準圖進行評價,4項研究[13,16,22,28]報告了H-L擬合優度檢驗結果。3項研究[15,20,23]報道了臨床決策曲線。在模型驗證方面,6項研究[12,15,17,20,23-24]采用Bootstrap自助抽樣法進行模型內部驗證,1項研究[18]對模型進行外部驗證,其余研究未對建立模型驗證方法進行報道;見表2。
2.4 模型呈現方式
16項研究報告了模型的呈現方式,11項研究[11-12,14-15,17-20,23-24,27]采用列線圖呈現,4項研究[16,21-22,26]以各因子β系數構建模型方程呈現,1項研究[28]采用累計評分分組的形式,2項研究[13,25]僅報道了預測因子名稱,而無危險因素賦分或模型方程構建的信息。具體的模型呈現見表3。

2.5 風險偏倚評估
使用PROBAST文獻質量評估工具對本次研究納入的18項研究進行偏倚風險及適用性評價;見表4。在研究對象領域,12項研究[11-13,15-22,28]偏倚風險為高風險,主要原因是研究對象來源于非巢式的病例-對照研究;1項研究[14]偏倚風險為不清楚,其主要原因為未清晰闡述排除標準相關的信息。在預測因子領域,13項研究[12-13,15-17,19,21-22,24-28]風險偏倚不清楚,主要原因為對未報道研究是否是在不清楚結果數據的情況下評估預測因子;2項研究[11,14]為高偏倚風險,原因為模型中納入的部分預測因子無統計學意義。在結局領域,13項研究[12-16,18-20,22-24,26,28]偏倚風險為不清楚,主要原因為研究未報告預測因子評估和結果確定的時間間隔是否合理。在統計分析領域,17項研究[11-26,28]為高風險偏倚,1項研究[27]偏倚風險不清楚,其主要原因有:(1)結果事件數與協變量個數比,即EPV均<20;(2)對連續性變量處理為分類變量依據不明或不恰當處理;(3)部分研究未進行內部驗證;(4)模型呈現不完整或僅報告校準的統計數據或僅使用 H-L檢驗。在適用性評價領域,18項研究[11-28]在各個領域和總體評價均為低風險。

2.6 Meta分析結果
進一步對各模型中的共性預測因子進行Meta分析,結果顯示:年齡、高血壓史、糖尿病史、C反應蛋白、術前化療史、低蛋白血癥、外周血管病、肺部感染、胃網膜血管分支鈣化是食管癌根治術后吻合口瘺發生的有效預測因子(P<0.05)。對異質性較大的預測因子進行敏感性分析,合并后的統計結果未見明顯變化,提示Meta分析結果較為穩定;見表5。

3 討論
3.1 食管癌根治術后吻合口瘺風險預測模型整體性能較好但偏倚風險較高
本次研究通過系統檢索食管癌根治術后吻合口瘺風險預測模型建立的相關研究,經過嚴格篩選后共納入18篇文獻。最早建立的一個模型為2012年,近5年內相關風險預測模型模型逐漸增多,提示近年來食管癌根治術后吻合口瘺的發生已受到臨床醫護人員的重視,未來研究可在改善并完善建模方式的基礎上進一步探究。納入的18個模型受試者工作曲線AUC為0.68~0.954,其中15個模型的AUC>0.7,10個模型的AUC>0.8,提示模型鑒別能力較高,對食管癌根治術后吻合口瘺的發生具有良好的預測性能。但納入的所有研究在總體偏倚風險評價結果為高風險,且僅有1項研究進行了外部驗證,一定程度上會影響模型預測結果的外推性,使得醫護人員在臨床應用時難以抉擇判斷。統計分析領域出現高偏倚風險的情況最多,根據PROBAST評估工具[10],開發預測模型的研究,每個自變量的事件數應≥20,且應參照研究設計類型,系統全面衡量納入研究的樣本量。PROBAST工具推薦設計研究類型為前瞻性隊列研究、隨機對照研究、巢式病例對照或病例隊列研究;對連續性變量進行分類處理前,應先檢驗連續性變量是否與結局變量間存在線性擬合[29];對于預測因子的篩選應盡可能避免使用單因素分析結果,當預測因子較少時,可先全部納入,再采取逐步回歸方式進行多因素logistic回歸分析,以規避因自變量間的共線性問題而造成部分預測因子的丟失;當預測因子較多時,單因素分析應僅用于初篩變量,并適當調整檢驗水準,結合專業實務謹慎納入或排除無統計學意義的變量[30];若存在缺失數據,應選擇恰當的缺失數據處理方法,如多重插補法,并在文中詳細報道,不推薦直接排除缺失數據進行處理[31]。后續研究可針對上述問題并參考PROBAST評價工具[10]或遵循個體預后或診斷多變量預測模型透明報告(TRIPOD)[32]進行開發、驗證和報告相關風險預測模型研究成果。
3.2 食管癌根治術后吻合口瘺的有效預測因子
本次研究對存在共同預測因子進行Meta分析,結果顯示患者自身因素:年齡、高血壓史、糖尿病史、外周血管病、胃網膜血管分支鈣化;術前及術后治療因素:術前化療史、術后肺部感染;其他因素:C反應蛋白、低白蛋白血癥是食管癌根治術后吻合口瘺發生的有效預測因子。年齡越大,機體功能逐漸退化,患者全身血管病變發生率明顯增高[33],術后易影響吻合口瘺周圍血液供應,從而增加吻合口瘺發生風險。但也有研究[34]指出年齡與吻合口瘺發生沒有統計學意義,二者之間的關系仍需進一步探究。糖尿病患者因機體長期處于代謝紊亂狀態,高血糖可借助一系列生化代謝途徑,如內皮功能障礙、氧化應激等加速動脈粥樣硬化,導致組織細胞愈合能力下降,抗感染能力減弱,這在一定程度上會影響術后吻合口的愈合[35-36]。合并高血壓史、外周血管病、胃網膜血管分支鈣化患者吻合口瘺發生幾率較高,其原因可能是血管阻力增加、微循環障礙影響吻合口局部血流灌注[37],術后易導致吻合端愈合不良從而造成瘺口,這與Borggreve等[38]、Li等[39]研究結果一致。術前新輔助治療即術前放化療可有效消滅患者亞臨床轉移灶、降低臨床分期,延長患者生命時間,但術前放化療在抑制癌癥細胞生長的同時,也會損傷機體正常細胞及組織的生長修復能力,大量炎癥因子釋放,易引起吻合口周圍組織水腫及血運障礙[40],從而發生吻合口瘺。此外,患者營養狀況也與吻合口瘺發生密切相關。多數納入模型將白蛋白作為評估患者營養狀況的評價指標,當患者發生低蛋白血癥時,一方面由于機體營養物質供應不充分,吻合口部位肉芽組織生長緩慢,切口不易愈合,在受到唾液或消化液的刺激下,易導致切口炎癥反應,加重愈合困難[41];另一方面,低蛋白血癥易引起血漿膠體滲透壓降低,吻合口組織間隙易充血水腫,不利于切口愈合。C反應蛋白常提示機體出現感染征象,當患者出現肺部感染甚至呼吸衰竭時,肺部氧合功能大大受限,代償能力減弱,易造成機體出現低氧血癥,尤其是手術部位缺血缺氧,影響組織愈合,此外出現肺部感染后機體一系列代償反應如劇烈咳嗽、咳痰等牽拉影響[42],在一定程度上會加大吻合口部位的張力從而導致瘺的發生。基于此,未來的食管癌術后吻合口瘺預測模型構建可重點篩選以上預測因子,以求進一步探討相關預測因子與吻合口瘺發生的內在聯系。
3.3 未來研究的方向或啟示
隨著大數據與人工智能時代的逐步來臨,計算機網絡算法與臨床醫學聯系日益緊密,臨床研究者在構建模型中常面臨一些海量且復雜的研究數據,機器學習因其強大的運算功能及較高的預測精度在臨床逐漸受到青睞。本次研究納入文獻中,隋澤森[22]、Robert[27]、Zhao[25]采用傳統logistic回歸和機器學習算法分別構建預測模型,前2個研究結果均提示采用機器算法建立的模型具有更佳的預測性能,但不同模型間的AUC差距較小,這提示未來研究人員除選擇傳統logistic回歸方法外,也可考慮采用機器學習算法對模型性能進行探究。需要指出的是,各種建模方法本身并無優劣之分,同一種建模方法在不同研究領域和數據集中可能展現出不同的預測性能,因此,進一步優化機器學習算法,在建模過程中可進行多種建模方式的比較,以求尋找最優預測性能模型則可能是未來研究需關注的方向。
本研究存在一定局限性:(1)僅納入中英文文獻,未檢索灰色數據庫,可能存在文獻漏篩風險;(2)大部分模型雖已進行內部驗證,但多為單中心研究且缺乏外部驗證,一定程度上會影響模型預測結果的外推性;(3)雖納入的大部分模型具備良好的預測性能,但由于在模型開發的統計分析過程中存在較高風險,臨床醫護人員在應用前應謹慎、合理選擇,若有必要,可進一步對模型進行穩定性驗證。
綜上所述,本研究結果顯示,食管癌根治術后吻合口瘺風險預測模型性能較好,適用性偏倚較低,有利于醫護人員對術后吻合口瘺患者進行篩選,但整體風險偏倚較高,這提示醫護人員可結合自身專業實際,對模型加以驗證及應用,未來相關風險預測模型應嚴格遵循PROBAST工具病結合臨床實際,完善研究設計,改進方法學質量,并積極展開內部、外部驗證,為臨床實踐提供普適性高、實用性強、科學合理的預測工具,盡可能預防或避免術后吻合口瘺的發生。
利益沖突:無。
作者貢獻:李滔負責論文設計、撰寫及修訂;蔣運蘭負責論文審校與質量控制;康靜、宋爽負責文獻搜集及數據整理;杜秋鳳、易曉冬負責統計學處理及結果解釋。
食管癌是起源于食管上皮組織的一種臨床最常見的消化系統惡性腫瘤之一,其惡性程度高,早期診斷率較低,患者5年生存率僅有20%[1-2]。我國為食管癌高發國家,約占世界總發病率的53.7%,其死亡率高居全球第5位[3]。2019年版食管癌診療指南[4]提出,早期行根治術是食管癌患者最有效的治療方式,但由于食管漿膜層覆蓋少、肌纖維多呈縱向分布、血液呈階段性供應等特殊的解剖及生理特點,術后切口愈合能力較差,患者常合并術后吻合口瘺(anastomostic leakage,AL)。得益于微創化手術及圍術期精細化管理,術后吻合口瘺發生率雖有所下降,但據研究報道[5-6],食管癌根治術后吻合口瘺發生率仍達4.9%~19.6%。吻合口瘺的發生不僅會延長患者住院時間、增加經濟負擔,還會提高食管癌患者圍術期死亡率,并對患者長期生存、生活質量產生不利影響[7]。因此,早期識別并個體化預測食管癌根治術患者吻合口瘺發生風險,對降低術后吻合口瘺發生率,提早預防并對其提供有針對性的防控干預措施具有重要意義。臨床風險預測模型可通過定量評估多因素水平與疾病發生之間的關系,預測某種疾病或將要發生某種結局的概率[8]。近年來國內外學者開發了多種預測食管癌根治術后吻合口瘺發生的風險模型,但各個模型之間結果差異較大,且研究質量不一,模型的性能及其適用性尚需進一步探究。本研究對食管癌根治術后吻合口瘺發生的風險預測模型進行系統評價,旨在為臨床醫護人員選擇或合適的風險評估工具提供借鑒及依據。
1 資料與方法
1.1 文獻納入和排除標準
納入標準:(1)研究對象為接受食管癌根治術患者,年齡≥18歲。(2)研究內容為構建食管癌根治術后吻合口瘺風險預測模型且需詳細說明建模方式;(3)研究設計包括病例對照研究、隊列研究和橫斷面研究;(4)研究語種為中英文。排除標準:(1)數據不全或無效、全文無法獲取;(2)未對模型構建過程或方法進行說明;(3)構建模型的預測因子≤2個;(4)重復發表文獻;(5)未構建預測模型或模型數據缺失的文獻;(6)吻合口瘺為多個結局指標之一;(7)綜述、動物實驗、會議論文等。
1.2 文獻檢索策略
檢索中國知網、萬方、維普、CBM、PubMed、EMbase、Web of Science、The Cochrane Library等數據庫,檢索時間為建庫至2023年4月。檢索采用主題詞與自由詞相結合的方式,并輔以參考文獻回溯。以“食管癌、食道癌、食管腫瘤、食道腫瘤、吻合口瘺、胃食管吻合、頸內吻合、胸內吻合、預測模型、風險預測模型、模型、預測因子、風險評估、風險評分、危險分層”為中文檢索詞;以“esophageal neoplasms、esophageal cancer、carcinoma of esophagus、esophageal carcinoma、esophagus cancer、anastomotic fistula、anastomotic leak、anastomotic leakage、prediction model、prediction tool、risk prediction model、risk assessment、risk score、risk calculation、risk stratification model、stratification model、prognostic model、nomogram”為英文檢索詞。以PubMed為例,具體檢索策略見圖1。

*:PubMed(
1.3 文獻篩選與數據提取
將檢索到的數據導入Endnote X9進行查重。由2名研究者獨立瀏覽題目及摘要,排除主題明顯不符的文獻,再進一步閱讀全文確定合格文獻。如遇分歧難以抉擇時,與第3方討論解決。參考并借鑒預測模型構建研究數據提取和質量評價清單[9](Check list for Critical Appraisal and Data Extraction for Systematic Reviews of Prediction Modeling Studies,CHARMS),自制標準化數據提取清單并借助Excel軟件輔助數據提取。提取內容包括:年份、國家及地區、研究對象、研究類型、設計類型、樣本量、候選變量處理及篩選方法、缺失數據處理及方法、建模及驗模方法、模型呈現形式等。
1.4 文獻質量評價方法
由2名具有循證醫學知識的研究者依據預測模型偏倚風險評估工具(Prediction Model Risk Of Bias Assessment Tool,PROBAST)對納入文獻的偏倚風險及適用性進行評價。PROBAST共涵蓋4個領域,包括20個問題,分別從研究對象、預測因子、結果和分析對文獻進行偏倚評估。每個問題使用“是/可能是”、“不是/可能不是”和“無信息”來回答[10]。在同一領域中,若所有回答均為“是/可能是”,則該領域為低偏倚風險;若任意一項回答為“不是/可能不是”,則該領域為高偏倚風險;若原始文獻缺少相關信息或無法判斷時,則判定該領域為偏倚風險不清楚。若所有領域均判斷為低偏倚風險,代表研究總體偏倚風險低;若任意一個領域判定為高偏倚風險,則代表研究總體偏倚風險高;若任意一個領域判定為偏倚風險不清楚,則總體研究偏倚風險不清楚。適用性評價包含研究對象、預測因子和結果3個領域,采用“低適用性風險”、“高適用性風險”和“不清楚”來評估。若所有領域均判定為低適用性風險,則研究總體適用性好;若任意一個領域判定為高適用性風險,則研究總體適用性差。
1.5 統計學分析
使用RevMan 5.3軟件對納入預測模型中存在共性的預測因子進行Meta分析,異質性檢驗通過Q檢驗及I2檢驗判斷。若異質性檢驗P>0.1且I2<50%,說明各研究之間的不同質性在統計學上沒有差異,Meta分析模型選用固定效應模型;反之則選用隨機效應模型。采用敏感性分析對異質性較高的預測因子進行探查。依照各預測模型中提供的各預測因子的OR值作為效應統計量,置信區間為95%CI。
2 結果
2.1 文獻篩選結果
共檢索到623篇文獻,嚴格依照納入和排除標準篩選后最終納入18篇文獻[11-28],文獻篩選流程圖見圖2。納入文獻中,中文文獻11篇[11-19,22,28],英文文獻7篇[20-21,23-27],有16篇文獻在近5年內發表。13篇文獻[11-22,28]研究設計類型為病例對照研究,4篇文獻[23-26]為回顧性隊列研究,1篇文獻[27]為前瞻性隊列研究。吻合口瘺發生率為3.97%~23.93%。納入文獻基本特征見表1。

2.2 模型的建立情況
納入研究的18篇文獻均為風險預測模型的開發研究,各研究樣本總量為102~4228例,納入預測因子個數為3~22個,結果事件數與協變量個數比(the number of events per variable,EPV)為5~20。在變量處理方面,15項研究[11-14,16-20,22-23,25-28]將連續性變量處理為分類變量,僅1項研究[28]指出了轉換為分類變量的切點值,其余研究均未報告轉換為分類變量的依據。在缺失數據方面,1項研究[21]報告了具體缺失的樣本含量并采用直接刪除法處理;1項研究[18]提及采用算法計算的方式對缺失數據進行補充,6項研究[13,16-17,20-21,27]提及采用直接刪除法處理缺失數據,但未報告缺失的具體樣本量。在預測變量篩選上,4項研究[13,20,22,28]采用逐步回歸的方式,包括逐步選擇法、向前有條件法和向前逐步法;11項研究[11-12,14-19,21,24,26]基于單因素及多因素分析進行變量篩選;1項研究[23]運用最小絕對收縮和選擇算法(least absolute shrinkage and selection operator,LASSO)篩選變量。納入的研究采用了多種建模手段,15項研究[11-21,23-24,26,28]采用Logistic回歸(logistic regression,LR),1項研究[22]采用Logistic回歸和人工神經網絡(artificial neural network,ANN),2項研究[25,27]采用機器學習(machine learning,ML)方式建模,具體包括決策樹(decision tree,DT)、人工神經網絡、隨機森林(random forest,RF)、K近鄰(k-nearest neighbor,k-NN)、支持向量機(support vector machine,SVT)、樸素貝葉斯算法(Na?ve Bayes)、AdaBoost、SuperLearner。模型中納入的預測因子主要分為5類,具體為:(1)患者基本情況:年齡、性別、體重指數(body mass index,BMI)、糖尿病史、高血壓史、吸煙史、腹部手術史、胸部手術史、美國麻醉醫師協會體格狀態分級;(2)檢查及檢驗指標:C反應蛋白水平、白細胞水平、白蛋白水平、第 1 秒用力呼氣容積占預測值百分比(forced expiratory volume in one second/predicated value,FEV1%)、胃網膜血管分支鈣化、主動脈鈣化、腹腔干鈣化;(3)手術相關情況:手術時間、吻合口位置、吻合方式、重建途徑;(4)腫瘤情況:腫瘤位置、腫瘤分期;(5)術后并發癥情況:術后肺部感染、術后低氧血癥、胸腔積液、是否合并呼吸系統、心血管系統、泌尿系統等。各模型中出現次數最多的預測因子依次為低蛋白血癥、糖尿病史、年齡、肺部感染、C反應蛋白水平等。模型建立情況及預測性能見表2。

2.3 模型的預測性能
模型預測性能從區分度和校準度兩方面進行評價。區分度評價指標主要采用受試者工作特征曲線下面積(area under the curve,AUC)或一致性指數(C-index)表示;校準度評價指標通過Hosmer-Lemeshow擬合優度檢驗(H-L檢驗)和繪制校準圖進行全面評價。18項研究均進行了模型的性能評價,8項研究[11,14,19,21,24-27]僅對區分度指標進行了報道,而未報道校準度指標。2項研究[23,27]中模型的區分度分別為0.69、0.68,其余研究建立的模型區分度均>0.7,表示模型具有良好的預測性能。10項研究[12-13,15-18,20,22-23,28]報道了校準度,其中6項研究[12,15,17-18,20,23]通過繪制校準圖進行評價,4項研究[13,16,22,28]報告了H-L擬合優度檢驗結果。3項研究[15,20,23]報道了臨床決策曲線。在模型驗證方面,6項研究[12,15,17,20,23-24]采用Bootstrap自助抽樣法進行模型內部驗證,1項研究[18]對模型進行外部驗證,其余研究未對建立模型驗證方法進行報道;見表2。
2.4 模型呈現方式
16項研究報告了模型的呈現方式,11項研究[11-12,14-15,17-20,23-24,27]采用列線圖呈現,4項研究[16,21-22,26]以各因子β系數構建模型方程呈現,1項研究[28]采用累計評分分組的形式,2項研究[13,25]僅報道了預測因子名稱,而無危險因素賦分或模型方程構建的信息。具體的模型呈現見表3。

2.5 風險偏倚評估
使用PROBAST文獻質量評估工具對本次研究納入的18項研究進行偏倚風險及適用性評價;見表4。在研究對象領域,12項研究[11-13,15-22,28]偏倚風險為高風險,主要原因是研究對象來源于非巢式的病例-對照研究;1項研究[14]偏倚風險為不清楚,其主要原因為未清晰闡述排除標準相關的信息。在預測因子領域,13項研究[12-13,15-17,19,21-22,24-28]風險偏倚不清楚,主要原因為對未報道研究是否是在不清楚結果數據的情況下評估預測因子;2項研究[11,14]為高偏倚風險,原因為模型中納入的部分預測因子無統計學意義。在結局領域,13項研究[12-16,18-20,22-24,26,28]偏倚風險為不清楚,主要原因為研究未報告預測因子評估和結果確定的時間間隔是否合理。在統計分析領域,17項研究[11-26,28]為高風險偏倚,1項研究[27]偏倚風險不清楚,其主要原因有:(1)結果事件數與協變量個數比,即EPV均<20;(2)對連續性變量處理為分類變量依據不明或不恰當處理;(3)部分研究未進行內部驗證;(4)模型呈現不完整或僅報告校準的統計數據或僅使用 H-L檢驗。在適用性評價領域,18項研究[11-28]在各個領域和總體評價均為低風險。

2.6 Meta分析結果
進一步對各模型中的共性預測因子進行Meta分析,結果顯示:年齡、高血壓史、糖尿病史、C反應蛋白、術前化療史、低蛋白血癥、外周血管病、肺部感染、胃網膜血管分支鈣化是食管癌根治術后吻合口瘺發生的有效預測因子(P<0.05)。對異質性較大的預測因子進行敏感性分析,合并后的統計結果未見明顯變化,提示Meta分析結果較為穩定;見表5。

3 討論
3.1 食管癌根治術后吻合口瘺風險預測模型整體性能較好但偏倚風險較高
本次研究通過系統檢索食管癌根治術后吻合口瘺風險預測模型建立的相關研究,經過嚴格篩選后共納入18篇文獻。最早建立的一個模型為2012年,近5年內相關風險預測模型模型逐漸增多,提示近年來食管癌根治術后吻合口瘺的發生已受到臨床醫護人員的重視,未來研究可在改善并完善建模方式的基礎上進一步探究。納入的18個模型受試者工作曲線AUC為0.68~0.954,其中15個模型的AUC>0.7,10個模型的AUC>0.8,提示模型鑒別能力較高,對食管癌根治術后吻合口瘺的發生具有良好的預測性能。但納入的所有研究在總體偏倚風險評價結果為高風險,且僅有1項研究進行了外部驗證,一定程度上會影響模型預測結果的外推性,使得醫護人員在臨床應用時難以抉擇判斷。統計分析領域出現高偏倚風險的情況最多,根據PROBAST評估工具[10],開發預測模型的研究,每個自變量的事件數應≥20,且應參照研究設計類型,系統全面衡量納入研究的樣本量。PROBAST工具推薦設計研究類型為前瞻性隊列研究、隨機對照研究、巢式病例對照或病例隊列研究;對連續性變量進行分類處理前,應先檢驗連續性變量是否與結局變量間存在線性擬合[29];對于預測因子的篩選應盡可能避免使用單因素分析結果,當預測因子較少時,可先全部納入,再采取逐步回歸方式進行多因素logistic回歸分析,以規避因自變量間的共線性問題而造成部分預測因子的丟失;當預測因子較多時,單因素分析應僅用于初篩變量,并適當調整檢驗水準,結合專業實務謹慎納入或排除無統計學意義的變量[30];若存在缺失數據,應選擇恰當的缺失數據處理方法,如多重插補法,并在文中詳細報道,不推薦直接排除缺失數據進行處理[31]。后續研究可針對上述問題并參考PROBAST評價工具[10]或遵循個體預后或診斷多變量預測模型透明報告(TRIPOD)[32]進行開發、驗證和報告相關風險預測模型研究成果。
3.2 食管癌根治術后吻合口瘺的有效預測因子
本次研究對存在共同預測因子進行Meta分析,結果顯示患者自身因素:年齡、高血壓史、糖尿病史、外周血管病、胃網膜血管分支鈣化;術前及術后治療因素:術前化療史、術后肺部感染;其他因素:C反應蛋白、低白蛋白血癥是食管癌根治術后吻合口瘺發生的有效預測因子。年齡越大,機體功能逐漸退化,患者全身血管病變發生率明顯增高[33],術后易影響吻合口瘺周圍血液供應,從而增加吻合口瘺發生風險。但也有研究[34]指出年齡與吻合口瘺發生沒有統計學意義,二者之間的關系仍需進一步探究。糖尿病患者因機體長期處于代謝紊亂狀態,高血糖可借助一系列生化代謝途徑,如內皮功能障礙、氧化應激等加速動脈粥樣硬化,導致組織細胞愈合能力下降,抗感染能力減弱,這在一定程度上會影響術后吻合口的愈合[35-36]。合并高血壓史、外周血管病、胃網膜血管分支鈣化患者吻合口瘺發生幾率較高,其原因可能是血管阻力增加、微循環障礙影響吻合口局部血流灌注[37],術后易導致吻合端愈合不良從而造成瘺口,這與Borggreve等[38]、Li等[39]研究結果一致。術前新輔助治療即術前放化療可有效消滅患者亞臨床轉移灶、降低臨床分期,延長患者生命時間,但術前放化療在抑制癌癥細胞生長的同時,也會損傷機體正常細胞及組織的生長修復能力,大量炎癥因子釋放,易引起吻合口周圍組織水腫及血運障礙[40],從而發生吻合口瘺。此外,患者營養狀況也與吻合口瘺發生密切相關。多數納入模型將白蛋白作為評估患者營養狀況的評價指標,當患者發生低蛋白血癥時,一方面由于機體營養物質供應不充分,吻合口部位肉芽組織生長緩慢,切口不易愈合,在受到唾液或消化液的刺激下,易導致切口炎癥反應,加重愈合困難[41];另一方面,低蛋白血癥易引起血漿膠體滲透壓降低,吻合口組織間隙易充血水腫,不利于切口愈合。C反應蛋白常提示機體出現感染征象,當患者出現肺部感染甚至呼吸衰竭時,肺部氧合功能大大受限,代償能力減弱,易造成機體出現低氧血癥,尤其是手術部位缺血缺氧,影響組織愈合,此外出現肺部感染后機體一系列代償反應如劇烈咳嗽、咳痰等牽拉影響[42],在一定程度上會加大吻合口部位的張力從而導致瘺的發生。基于此,未來的食管癌術后吻合口瘺預測模型構建可重點篩選以上預測因子,以求進一步探討相關預測因子與吻合口瘺發生的內在聯系。
3.3 未來研究的方向或啟示
隨著大數據與人工智能時代的逐步來臨,計算機網絡算法與臨床醫學聯系日益緊密,臨床研究者在構建模型中常面臨一些海量且復雜的研究數據,機器學習因其強大的運算功能及較高的預測精度在臨床逐漸受到青睞。本次研究納入文獻中,隋澤森[22]、Robert[27]、Zhao[25]采用傳統logistic回歸和機器學習算法分別構建預測模型,前2個研究結果均提示采用機器算法建立的模型具有更佳的預測性能,但不同模型間的AUC差距較小,這提示未來研究人員除選擇傳統logistic回歸方法外,也可考慮采用機器學習算法對模型性能進行探究。需要指出的是,各種建模方法本身并無優劣之分,同一種建模方法在不同研究領域和數據集中可能展現出不同的預測性能,因此,進一步優化機器學習算法,在建模過程中可進行多種建模方式的比較,以求尋找最優預測性能模型則可能是未來研究需關注的方向。
本研究存在一定局限性:(1)僅納入中英文文獻,未檢索灰色數據庫,可能存在文獻漏篩風險;(2)大部分模型雖已進行內部驗證,但多為單中心研究且缺乏外部驗證,一定程度上會影響模型預測結果的外推性;(3)雖納入的大部分模型具備良好的預測性能,但由于在模型開發的統計分析過程中存在較高風險,臨床醫護人員在應用前應謹慎、合理選擇,若有必要,可進一步對模型進行穩定性驗證。
綜上所述,本研究結果顯示,食管癌根治術后吻合口瘺風險預測模型性能較好,適用性偏倚較低,有利于醫護人員對術后吻合口瘺患者進行篩選,但整體風險偏倚較高,這提示醫護人員可結合自身專業實際,對模型加以驗證及應用,未來相關風險預測模型應嚴格遵循PROBAST工具病結合臨床實際,完善研究設計,改進方法學質量,并積極展開內部、外部驗證,為臨床實踐提供普適性高、實用性強、科學合理的預測工具,盡可能預防或避免術后吻合口瘺的發生。
利益沖突:無。
作者貢獻:李滔負責論文設計、撰寫及修訂;蔣運蘭負責論文審校與質量控制;康靜、宋爽負責文獻搜集及數據整理;杜秋鳳、易曉冬負責統計學處理及結果解釋。