引用本文: 郭志冉, 黃素芳, 李咪琪. 急性 A 型主動脈夾層死亡風險預測模型的系統評價. 中國循證醫學雜志, 2021, 21(11): 1299-1307. doi: 10.7507/1672-2531.202108164 復制
主動脈夾層(acute aortic dissection,AD)是一種心血管急癥,其起病兇險、進展快、病死率高。據報道,未經手術治療的A型AD患者在發病后兩天內每小時死亡率高達1%~2%[1,2],30天內死亡率高達90%[3]。急性A型AD(acute type A aortic dissection,AAAD)是指發病時間<14天的A型AD。目前國內外已經開發了多種AAAD預測模型,用于預測AAAD近期或遠期死亡,但文獻質量和結果不一。因此,本研究系統評價用于預測AAAD患者的死亡模型性能,以期為臨床選擇合適的風險預測模型預防患者死亡提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
建立AAAD患者死亡風險評估模型的研究。
1.1.2 研究對象
AAAD患者,其種族、國籍、病程不限。
1.1.3 結局指標
以死亡為結局指標,包括院內死亡與出院后死亡。
1.1.4 排除標準
① 非中英文文獻;② 無法獲取全文;③ 細胞和分子水平研究;④ 僅涉及AAQAD危險因素,沒有構建死亡風險評估模型的研究;⑤ 模型在特定人群中建立,如腎功能衰竭、冠心病患者或僅包含男性/女性/老年人;⑥ 模型少于2種變量。
1.2 文獻檢索策略
計算機檢索PubMed、EMbase、Web of Science、VIP、CBM、WanFang Data和CNKI數據庫,搜集關于建立AAAD患者死亡風險模型的研究,檢索時限均為建庫至2021年7月31日。同時追溯納入文獻的參考文獻,以補充獲取相關資料。英文檢索詞包括:type A aortic dissection、aortic dissection type A、Stanford type A acute aortic dissection、risk prediction、model、risk score、risk assessment、death、mortality等;中文檢索詞包括:Stanford A型主動脈夾層、A型夾層、模型、風險預測、風險評分、風險評估、死亡等。以PubMed為例,其具體檢索策略見框1。

1.3 文獻篩選和資料提取
由2名研究者獨立篩選文獻、提取資料并交叉核對。如有分歧,則通過討論或與第三方協商解決。文獻篩選時首先閱讀文題,在排除明顯不相關的文獻后,進一步閱讀摘要和全文以確定是否納入。如有需要,通過郵件、電話聯系原始研究作者獲取未確定但對本研究非常重要的信息。資料提取內容包括:第一作者、發表年份、研究設計類型、研究對象、預測結果、候選變量、樣本量、缺失數據、 建立模型的方法、最終包含的預測因子、模型呈現形式、模型性能和驗證方法等。
1.4 納入研究的偏倚風險和適用性評價
由2名研究者獨立評價納入研究的偏倚風險和適用性,并交叉核對結果。偏倚風險和適用性評價采用預測模型研究系統評價的關鍵評估和數據提取清單(critical appraisal and data extraction for systematic reviews of prediction modelling studies,CHARMS)[4]和預測模型偏倚風險評估工具(prediction model risk of bias assessment tool,PROBAST)[5,6]。
1.5 統計分析
對CHARMS和PROBAST語句的域和納入研究結果進行系統評價。
2 結果
2.1 文獻篩選流程及結果
初檢共獲得相關文獻750篇,經逐層篩選,最終納入文獻19篇[7-25],包括15個模型開發研究[7-21]及4個對于已建立模型的外部驗證研究[22-25]。文獻篩選流程及結果見圖1。

*所檢索的數據庫及檢出文獻數具體如下:PubMed(
2.2 納入研究的基本特征及預測結局
納入研究的基本特征及預測結局見表1。

2.3 模型構建情況
在15個模型開發研究中,僅1個研究(6.7%)的結果事件數與協變量個數比(the number of events per variable,EPV)超過20,其他14個(92.3%)小于10。納入19個研究中有17個(89.5%)統計分析時納入了所有對象。僅1個研究(5.3%)報告沒有缺少的結果數據,13個(68.4%)未報告缺少預測數據,5個(26.3%)報告有一些缺失數據的預測因子,但均未做填充處理。11個研究采用Logistic回歸分析,1個研究應用了多元回歸分析,1個應用了Logistic回歸模型與神經網絡模型(neural networks,NN),1個采用了NN與支持向量機(support vector machines,SVM),1個研究采用了Logistic回歸模型并與彈性網絡正則化、分類決策樹、梯度提升算法4種方法進行了對比(表2和表3)。

2.4 模型性能與結果
納入研究對模型性能評價主要通過受試者工作特征曲線下面積(area under the curve,AUC)及Hosmer-Lemeshow檢驗(P>0.05)進行評估。12個研究(63.2%)報道了模型的區分度(AUC為0.66~0.92),除Mejare等[14]的研究外,其他模型AUC均>0.7,預測性能較好。但通過外部驗證,部分模型表現出較差的區分度(AUC為0.56~0.67),而IRAD得分顯示中度區分度(AUC=0.74),對IRAD評分的加入CRP顯著提高了模型辨別能力(AUC=0.89)。3個研究(15.8%)還提供了校準曲線圖,1個研究(5.3%)報告了臨床決策曲線,但有3個研究(15.8%)并沒有報道關于模型性能的評估[7,9,10]。
模型呈現形式主要以OR值/β值×最終納入變量或分層為主,僅有1個研究采用列線圖方式呈現模型。所有研究都對模型的應用進行了評估和討論,表明所構建的模型均需謹慎使用,且需要在其他地區得到外部驗證(表2)。
2.5 納入研究的偏倚風險與適用性評價
納入的18個預測模型研究對象的偏倚風險較低,16個模型在預測因子部分的偏倚風險較低,所有預測模型的結果部分均為低風險偏倚,而樣本大小和缺失數據領域的偏倚風險通常較高,主要是因為樣本量不足,即用于開發模型的數據集中的EPV不到10,用于外部驗證的結局事件不到100個。將連續型變量轉換為分類變量損失了數據信息可能導致預測模型不夠準確,5個研究對于連續型變量進行了分類,導致其偏倚增高。另一個在很大程度上被忽視的是對缺失數據的處理,13個研究未對缺失值情況進行報道,5個研究報道了缺失值,但并未遵循PROBAST的建議進行缺失值填補。除此之外,12個研究采用了單因素分析的方法篩選變量,這也是分析領域偏倚風險增高的重要原因。6個研究并未對刪失數據進行報告,忽視了數據的復雜性。在適用性而言,所有研究的適用性均較高(表3、4)。但評價結果顯示所有研究均不符合PROBAST標準。


3 討論
AAAD仍然是全球危重心血管疾病之一,近年來,對于其預后模型的構建研究逐漸增多,但研究質量卻有待評估。本研究納入了15個AAAD患者的預后預測模型研究及4個對于已建立預測模型的外部驗證,結果發現這些研究偏倚風險均偏高。在研究對象的選擇時,于鑫溢[18]與Czerny等[19]僅納入了資料完整的患者,導致選擇性偏倚風險增加[6]。此外,4個研究是多中心研究,預測因子的定義和測量方式可能不同,因此預測因子部分被評為高偏倚風險。研究存在的問題主要集中于方法學和統計分析方面,大多數研究中EPV的數量相對較少,且來自單中心研究,并且有相當大比例的研究選擇使用回顧性數據。而對于外部驗證研究來說,其研究對象發生結局事件不足100例,沒有足夠的結局事件會導致研究最終模型結果不準確[26,27]。
大多數研究沒有描述關于缺失數據的信息,也沒有說明是否選擇了處理缺失數據的適當統計方法。缺失數據可能導致影響因素和結果之間關聯存在偏倚,即使沒有偏倚,缺失的數據也會影響精度,導致更寬的置信區間[28]。PROBAST指出,如果存在缺失數據,則不應排除,應進行多重填補[5,6]。在預測模型構建的過程中,僅有兩個模型未采用單因素分析法篩選預測因子[11,19],若只納入單因素分析有統計學意義的變量,很可能會將重要的危險因素漏掉[29],而這也是導致模型出現高偏倚的重要原因之一。
納入研究中有13個模型采用Logistic回歸分析的方法。Macrina等[11]應用Logistic回歸與NN兩種建模方法,并對比了預測能力,發現區分度都較高。另外,NN與SVM相比,SVM識別患者死亡的準確率高達100%,且在驗證時仍保持78%的正確率[12],但這可能是由于SVM模型納入了更多的預測因子。而NN的建模方法更優已在多個研究[30,31]中得到證實。Czerny等[19]對Logistic回歸模型、彈性網絡、分類決策樹、梯度提升算法4種方式進行了對比,顯示Logistic回歸模型的預測能力最強,但文中對其他3種方法未進行詳細描述,判斷僅限于AUC。
預測模型性能最常用的評估方法是AUC和Hosmer-Lemeshow檢驗,大多數研究顯示中度區分度。急性心肌缺血、乳酸、髂動脈受累、肌酐聯合形成的模型對于術前死亡的預測具有較強的區分度,在通過內部驗證與外部驗證后也呈現出較好的預測能力,但研究EPV較低,樣本量較少,該模型的預測性能仍需大樣本的外部驗證。由尿酸、D-二聚體、C反應蛋白、治療方式組成的預測模型具有較高的辨別能力。4個研究對6個已構建出的模型進行外部驗證,發現IRAD評分表現為中度辨別,在IRAD評分中加入C-反應蛋白之后顯著提高了模型的辨別能力。因此,AAAD預后預測模型可考慮生物標志物作為預測指標,以提高辨別力。校準曲線能夠有效地辨別預測值與實際值的之間的一致性,是判斷預測模型預測能力的一種重要方式,但大多數研究沒有同時評估鑒別能力和校準。幾乎所有的研究都報道了預測模型的鑒別能力,但只有3個研究報告了校準度。本研究表明模型在方法學上的重要局限性,結果可能是不準確和不可靠的。
2020年Ren等[32]對急性AD預后模型進行了評估,在偏倚風險方面與我們的結果非常相似,由于方法學和統計分析問題,高比例的患者具有高風險。但其并未納入2020年發表的模型及中文文章,且未評估模型適用性。我們納入的模型適用性較強,因為它們易在臨床上找到研究對象,由于參考了與診斷、治療相關的變量,因此在臨床實踐中極易得到應用。
綜上所述,當前用于AAAD患者死亡風險的預測模型不理想,模型性能差異很大,仍需要依據更全面準確的統計學方法和臨床數據來構建新的預測模型,并進行內部和外部驗證。
主動脈夾層(acute aortic dissection,AD)是一種心血管急癥,其起病兇險、進展快、病死率高。據報道,未經手術治療的A型AD患者在發病后兩天內每小時死亡率高達1%~2%[1,2],30天內死亡率高達90%[3]。急性A型AD(acute type A aortic dissection,AAAD)是指發病時間<14天的A型AD。目前國內外已經開發了多種AAAD預測模型,用于預測AAAD近期或遠期死亡,但文獻質量和結果不一。因此,本研究系統評價用于預測AAAD患者的死亡模型性能,以期為臨床選擇合適的風險預測模型預防患者死亡提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
建立AAAD患者死亡風險評估模型的研究。
1.1.2 研究對象
AAAD患者,其種族、國籍、病程不限。
1.1.3 結局指標
以死亡為結局指標,包括院內死亡與出院后死亡。
1.1.4 排除標準
① 非中英文文獻;② 無法獲取全文;③ 細胞和分子水平研究;④ 僅涉及AAQAD危險因素,沒有構建死亡風險評估模型的研究;⑤ 模型在特定人群中建立,如腎功能衰竭、冠心病患者或僅包含男性/女性/老年人;⑥ 模型少于2種變量。
1.2 文獻檢索策略
計算機檢索PubMed、EMbase、Web of Science、VIP、CBM、WanFang Data和CNKI數據庫,搜集關于建立AAAD患者死亡風險模型的研究,檢索時限均為建庫至2021年7月31日。同時追溯納入文獻的參考文獻,以補充獲取相關資料。英文檢索詞包括:type A aortic dissection、aortic dissection type A、Stanford type A acute aortic dissection、risk prediction、model、risk score、risk assessment、death、mortality等;中文檢索詞包括:Stanford A型主動脈夾層、A型夾層、模型、風險預測、風險評分、風險評估、死亡等。以PubMed為例,其具體檢索策略見框1。

1.3 文獻篩選和資料提取
由2名研究者獨立篩選文獻、提取資料并交叉核對。如有分歧,則通過討論或與第三方協商解決。文獻篩選時首先閱讀文題,在排除明顯不相關的文獻后,進一步閱讀摘要和全文以確定是否納入。如有需要,通過郵件、電話聯系原始研究作者獲取未確定但對本研究非常重要的信息。資料提取內容包括:第一作者、發表年份、研究設計類型、研究對象、預測結果、候選變量、樣本量、缺失數據、 建立模型的方法、最終包含的預測因子、模型呈現形式、模型性能和驗證方法等。
1.4 納入研究的偏倚風險和適用性評價
由2名研究者獨立評價納入研究的偏倚風險和適用性,并交叉核對結果。偏倚風險和適用性評價采用預測模型研究系統評價的關鍵評估和數據提取清單(critical appraisal and data extraction for systematic reviews of prediction modelling studies,CHARMS)[4]和預測模型偏倚風險評估工具(prediction model risk of bias assessment tool,PROBAST)[5,6]。
1.5 統計分析
對CHARMS和PROBAST語句的域和納入研究結果進行系統評價。
2 結果
2.1 文獻篩選流程及結果
初檢共獲得相關文獻750篇,經逐層篩選,最終納入文獻19篇[7-25],包括15個模型開發研究[7-21]及4個對于已建立模型的外部驗證研究[22-25]。文獻篩選流程及結果見圖1。

*所檢索的數據庫及檢出文獻數具體如下:PubMed(
2.2 納入研究的基本特征及預測結局
納入研究的基本特征及預測結局見表1。

2.3 模型構建情況
在15個模型開發研究中,僅1個研究(6.7%)的結果事件數與協變量個數比(the number of events per variable,EPV)超過20,其他14個(92.3%)小于10。納入19個研究中有17個(89.5%)統計分析時納入了所有對象。僅1個研究(5.3%)報告沒有缺少的結果數據,13個(68.4%)未報告缺少預測數據,5個(26.3%)報告有一些缺失數據的預測因子,但均未做填充處理。11個研究采用Logistic回歸分析,1個研究應用了多元回歸分析,1個應用了Logistic回歸模型與神經網絡模型(neural networks,NN),1個采用了NN與支持向量機(support vector machines,SVM),1個研究采用了Logistic回歸模型并與彈性網絡正則化、分類決策樹、梯度提升算法4種方法進行了對比(表2和表3)。

2.4 模型性能與結果
納入研究對模型性能評價主要通過受試者工作特征曲線下面積(area under the curve,AUC)及Hosmer-Lemeshow檢驗(P>0.05)進行評估。12個研究(63.2%)報道了模型的區分度(AUC為0.66~0.92),除Mejare等[14]的研究外,其他模型AUC均>0.7,預測性能較好。但通過外部驗證,部分模型表現出較差的區分度(AUC為0.56~0.67),而IRAD得分顯示中度區分度(AUC=0.74),對IRAD評分的加入CRP顯著提高了模型辨別能力(AUC=0.89)。3個研究(15.8%)還提供了校準曲線圖,1個研究(5.3%)報告了臨床決策曲線,但有3個研究(15.8%)并沒有報道關于模型性能的評估[7,9,10]。
模型呈現形式主要以OR值/β值×最終納入變量或分層為主,僅有1個研究采用列線圖方式呈現模型。所有研究都對模型的應用進行了評估和討論,表明所構建的模型均需謹慎使用,且需要在其他地區得到外部驗證(表2)。
2.5 納入研究的偏倚風險與適用性評價
納入的18個預測模型研究對象的偏倚風險較低,16個模型在預測因子部分的偏倚風險較低,所有預測模型的結果部分均為低風險偏倚,而樣本大小和缺失數據領域的偏倚風險通常較高,主要是因為樣本量不足,即用于開發模型的數據集中的EPV不到10,用于外部驗證的結局事件不到100個。將連續型變量轉換為分類變量損失了數據信息可能導致預測模型不夠準確,5個研究對于連續型變量進行了分類,導致其偏倚增高。另一個在很大程度上被忽視的是對缺失數據的處理,13個研究未對缺失值情況進行報道,5個研究報道了缺失值,但并未遵循PROBAST的建議進行缺失值填補。除此之外,12個研究采用了單因素分析的方法篩選變量,這也是分析領域偏倚風險增高的重要原因。6個研究并未對刪失數據進行報告,忽視了數據的復雜性。在適用性而言,所有研究的適用性均較高(表3、4)。但評價結果顯示所有研究均不符合PROBAST標準。


3 討論
AAAD仍然是全球危重心血管疾病之一,近年來,對于其預后模型的構建研究逐漸增多,但研究質量卻有待評估。本研究納入了15個AAAD患者的預后預測模型研究及4個對于已建立預測模型的外部驗證,結果發現這些研究偏倚風險均偏高。在研究對象的選擇時,于鑫溢[18]與Czerny等[19]僅納入了資料完整的患者,導致選擇性偏倚風險增加[6]。此外,4個研究是多中心研究,預測因子的定義和測量方式可能不同,因此預測因子部分被評為高偏倚風險。研究存在的問題主要集中于方法學和統計分析方面,大多數研究中EPV的數量相對較少,且來自單中心研究,并且有相當大比例的研究選擇使用回顧性數據。而對于外部驗證研究來說,其研究對象發生結局事件不足100例,沒有足夠的結局事件會導致研究最終模型結果不準確[26,27]。
大多數研究沒有描述關于缺失數據的信息,也沒有說明是否選擇了處理缺失數據的適當統計方法。缺失數據可能導致影響因素和結果之間關聯存在偏倚,即使沒有偏倚,缺失的數據也會影響精度,導致更寬的置信區間[28]。PROBAST指出,如果存在缺失數據,則不應排除,應進行多重填補[5,6]。在預測模型構建的過程中,僅有兩個模型未采用單因素分析法篩選預測因子[11,19],若只納入單因素分析有統計學意義的變量,很可能會將重要的危險因素漏掉[29],而這也是導致模型出現高偏倚的重要原因之一。
納入研究中有13個模型采用Logistic回歸分析的方法。Macrina等[11]應用Logistic回歸與NN兩種建模方法,并對比了預測能力,發現區分度都較高。另外,NN與SVM相比,SVM識別患者死亡的準確率高達100%,且在驗證時仍保持78%的正確率[12],但這可能是由于SVM模型納入了更多的預測因子。而NN的建模方法更優已在多個研究[30,31]中得到證實。Czerny等[19]對Logistic回歸模型、彈性網絡、分類決策樹、梯度提升算法4種方式進行了對比,顯示Logistic回歸模型的預測能力最強,但文中對其他3種方法未進行詳細描述,判斷僅限于AUC。
預測模型性能最常用的評估方法是AUC和Hosmer-Lemeshow檢驗,大多數研究顯示中度區分度。急性心肌缺血、乳酸、髂動脈受累、肌酐聯合形成的模型對于術前死亡的預測具有較強的區分度,在通過內部驗證與外部驗證后也呈現出較好的預測能力,但研究EPV較低,樣本量較少,該模型的預測性能仍需大樣本的外部驗證。由尿酸、D-二聚體、C反應蛋白、治療方式組成的預測模型具有較高的辨別能力。4個研究對6個已構建出的模型進行外部驗證,發現IRAD評分表現為中度辨別,在IRAD評分中加入C-反應蛋白之后顯著提高了模型的辨別能力。因此,AAAD預后預測模型可考慮生物標志物作為預測指標,以提高辨別力。校準曲線能夠有效地辨別預測值與實際值的之間的一致性,是判斷預測模型預測能力的一種重要方式,但大多數研究沒有同時評估鑒別能力和校準。幾乎所有的研究都報道了預測模型的鑒別能力,但只有3個研究報告了校準度。本研究表明模型在方法學上的重要局限性,結果可能是不準確和不可靠的。
2020年Ren等[32]對急性AD預后模型進行了評估,在偏倚風險方面與我們的結果非常相似,由于方法學和統計分析問題,高比例的患者具有高風險。但其并未納入2020年發表的模型及中文文章,且未評估模型適用性。我們納入的模型適用性較強,因為它們易在臨床上找到研究對象,由于參考了與診斷、治療相關的變量,因此在臨床實踐中極易得到應用。
綜上所述,當前用于AAAD患者死亡風險的預測模型不理想,模型性能差異很大,仍需要依據更全面準確的統計學方法和臨床數據來構建新的預測模型,并進行內部和外部驗證。