引用本文: 陳俊杉, 余金甜, 張愛琴. ICU 患者譫妄風險預測模型的系統評價. 中國循證醫學雜志, 2019, 19(9): 1093-1100. doi: 10.7507/1672-2531.201901091 復制
譫妄是以意識障礙為主要特征的一組臨床綜合征,屬于急性腦器質性精神障礙,往往伴有注意力缺損、睡眠-覺醒節律紊亂和不同程度的認知、情感障礙[1]。研究發現,ICU 患者譫妄發生率約為 20%~80%[2-4]。譫妄在延長患者機械通氣時間及住院時間的同時,也會使患者在出院后依然遺留較長時間的認知障礙,從而降低患者的日常生活能力,甚至增加患者 6 個月病死率[5, 6]。目前,尚無確切證據證明藥物能夠預防譫妄或改善譫妄患者的臨床結局,主要提倡采取非藥物措施預防譫妄[7]。因此,早期識別譫妄發生的高危人群并積極糾正譫妄發生的可逆誘因顯得尤為重要。譫妄風險預測模型是以譫妄的多病因為基礎,通過建立統計模型,以預測 ICU 患者未來發生譫妄的概率[8]。一方面,它能夠幫助醫務人員有效篩查發生譫妄的高風險人群,提高譫妄風險預警意識,并根據風險大小采取相對應的預防措施,以減少 ICU 譫妄的發生[9]。另一方面,它也可使患者及其家屬清楚地了解患者在 ICU 期間的譫妄發病風險,增進他們對譫妄防治相關工作的認知、配合與理解[8]。迄今為止,國內外已有多位學者采用不同的研究設計類型構建了基于單中心或多國家(多中心)的 ICU 患者譫妄風險預測模型。本研究旨在全面檢索國內外有關 ICU 患者譫妄風險預測模型的研究,從預測模型的基本特征及構建方法、方法學質量、預測效能和模型中的預測因子等角度出發進行系統總結與比較,以期更好地為 ICU 患者譫妄風險預測模型的構建與應用以及譫妄預防提供理論依據。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
隊列研究和病例-對照研究。
1.1.2 研究對象
納入年齡>18 周歲的 ICU 患者,其種族、國籍、病程不限。
1.1.3 研究內容
① 為 ICU 患者譫妄風險預測模型的構建;② 具體地說明了診斷(評估)ICU 譫妄所使用的工具及主要的評估方法、步驟;③ 詳細描述了建模、評價及比較的過程及所需的統計學方法;④ 預測模型建立之后經過了內部和/或外部驗證。
1.1.4 排除標準
① 只分析了 ICU 患者譫妄的危險因素,但未構建風險預測模型的研究;② 研究未排除進入 ICU 時已發生譫妄的患者或未具體說明納入患者進入 ICU 時是否發生譫妄;③ 風險預測模型無法和臨床實踐相聯系,模型中的預測因子在 ICU 內無法廣泛評估或精確測量;④ 研究中使用的診斷工具未經過信效度檢驗;⑤ 研究為模型的本土化適用性探究或預測效能的比較性研究;⑥ 研究為自動化預測模型的效果評價;⑦ 重復發表的文獻;⑧ 數據不完整無法提取的文獻;⑨ 非中、英文文獻。
1.2 文獻檢索策略
計算機檢索 The Cochrane Library、PubMed、Web of Science、Ovid、VIP、WanFang Data 和 CNKI 數據庫,搜集關于 ICU 患者譫妄風險預測模型的研究,檢索時限均為建庫至 2018 年 12 月。此外,追溯納入文獻的參考文獻,以補充獲取相關文獻。英文檢索詞包括:prediction model、prognostic model、risk stratification model、model、risk factor、predictor、ICU、Intensive care unit、critically ill、critical care、delirium、delirium syndrome;中文檢索詞包括:預測模型、模型、危險因素、預測因子、ICU、重癥、危重、重癥監護、譫妄、譫妄綜合征。以 PubMed 為例,其具體檢索策略見框 1。

1.3 文獻篩選與資料提取
由 2 名研究者獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷。缺乏資料盡量與作者聯系予以補充。文獻篩選首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。提取資料主要包括:第一作者及發表年份、國家或地區、研究設計類型、研究對象、建模方法及樣本量、驗模方法及樣本量、ICU 譫妄的診斷(評估)工具、譫妄發生率(建模/驗模/總發生率)、受試者工作特征曲線下面積(area under receiver operating characteristic curve,AUROC)(建模/驗模)、危險因素賦分及風險分層方法、預測因子個數及其名稱等。
1.4 納入研究的偏倚風險評價
由 2 名評價員按照 CHARMS 清單[10]有關臨床預測模型的偏倚風險評價工具,從“數據來源”、“參與者”、“預測結局”、“候選因子”、“樣本量”、“缺失數據”、“模型建立”、“模型性能”、“模型評價”、“結果”及“解釋和討論”11 個方面評價納入研究的偏倚風險。
1.5 統計分析
采用描述性分析方法,整理和總結納入不同預測模型的一般情況、建模方法及模型中的預測因子。
2 結果
2.1 文獻篩選流程及結果
初檢共獲得相關文獻 1 313 篇,經逐層篩選后,最終納入 9 個研究[11-19]。文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:The Cochrane Library(
2.2 納入研究的基本特征與偏倚風險評價結果


2.3 納入模型的一般情況
共納入 9 個 ICU 患者譫妄風險預測模型[11-19],其中 6 個[11-16]為英文研究,3 個[17-19]為中文研究。研究設計類型方面,7 個[11-16, 18]為隊列研究,2 個[17, 19]為病例-對照研究。最早的 ICU 患者譫妄風險預測模型[11]發表于 1996 年,近五年共發表了 6 個研究[14-19]。6 個研究[13-16, 18, 19]將研究對象定義為進入 ICU 時間≥24 h 的患者,具有較高的同質性。8 個研究[12-19]采用 ICU 意識模糊評估量表(confusion assessment method for the ICU,CAM-ICU)評估患者是否出現譫妄,1 個研究[11]采用《精神疾病診斷與統計手冊(第三版)》(DSM-Ⅲ)對譫妄進行診斷,譫妄的總發生率為 17.7%~70.4%。各模型建模樣本量為 100~1 962 例,均采用 Logistic 回歸建立模型;驗模樣本量為 81~1 824 例,其中 6 個研究[11, 12, 15-18]運用了內部驗證法對建立的預測模型進行驗證,1 個研究[14]采用外部驗證法對模型進行重新校準,1 個研究[13]采用內部與外部驗證結合的方式對預測模型的預測效能進行了評價。9 個研究[11-19]均報告了預測模型的 AUROC 值,其中 4 個研究[11, 13, 15, 17]報告了建模的 AUROC 值,為 0.76~0.87;9 個研究[11-19]均報告了驗模的 AUROC 值,為 0.739~0.926。
2.4 納入模型的建模方法
在建模方法方面,分別有 6 個[11-13, 17-19]、2 個[15, 16]研究將單因素分析具有統計學意義的候選因子和全部候選因子作為自變量進行多因素 Logistic 回歸,以遴選出 ICU 譫妄發生的獨立預測因子。在預測因子的賦值方法上,5 個研究[13, 15, 16, 18, 19]根據各因子(初始[15, 16, 18, 19]/矯正后[13])回歸系數得出計算譫妄發生概率的公式;2 個研究[11, 17]則采用因子賦值法,即將各因子回歸系數根據其權重整數化后對因子進行賦值[17]或各因子均賦值 1 分[11],通過計算因子分數之和以預測患者住 ICU 期間的譫妄發生風險,總分越高譫妄發生風險越大。按各因子回歸系數得出譫妄發生概率計算公式的研究[13, 15, 16, 18, 19]平均 AUROC 值為 0.82,采用因子賦值法的研究[11, 17]平均 AUROC 值為 0.79,不同賦值方法之間模型平均 AUROC 值差異不大。9 個研究中,5 個研究[13, 15-18]報告了風險分層的具體方法,其中 4 個研究[13, 15, 16, 18]根據模型預測的概率大小將風險值劃分為 3~4 個等級,1 個研究[17]根據因子分數之和將譫妄發生風險分為 3 層。
2.5 納入模型中的預測因子
納入的 9 個譫妄風險預測模型中,最多納入了 11 個預測因子[16],最少納入了 3 個預測因子[11]。進一步將所有預測模型中納入的預測因子分為易感因素和促發因素兩大類。本系統評價中最為常見的 ICU 譫妄易感因素為認知功能儲備減少[包括老年癡呆(史)、認知障礙史及譫妄史][20],其次為年齡。在促發因素方面,血尿素水平升高是最為多見的預測因子,其次為機械通氣和感染。
3 討論
本系統評價共納入 9 個研究,3 個質量較高[13-15],其余 6 個質量中等[11, 12, 16-19]。7 個研究為前瞻性隊列研究[11-16, 18],2 個為病例-對照研究[17, 19],選擇性偏倚相對較小。僅 3 個研究[13-15]對建模、驗模過程中評價結局的研究者施盲,其余研究均未報告是否對結局評價者及分析預測因子的研究者采取盲法,盲法設置率較低。在建模樣本量方面,1 個研究建模樣本量較小且未采取特殊的統計學方法進行處理[11],一定程度上可能會導致參數估計的準確性受到影響。僅 4 個研究自我報告了預測因子缺失情況[12-15],其中 3 個預測因子缺失比例較高(主要集中在膽紅素、APACHE Ⅱ評分、認知功能儲備減少)[13-15],并分別采用了平均值填充、回歸插補法補齊數據,但平均值填充法一定程度上會使數據的方差和標準差變小、變異程度被低估[21, 22],而回歸插補法則人為加大了變量之間的相關關系[23],增加了模型的不確定性。缺失預測因子采用補齊方法的不同一定程度上也成為研究間異質性的來源[24, 25]。
在譫妄的評估(診斷)工具方面,8 個研究[12-19]采用 CAM-ICU 量表對譫妄進行評估,1 個研究[11]采用 DSM-Ⅲ 對譫妄進行診斷。CAM-ICU 是 Ely 等[26]于 2001 年在《精神疾病的診段和統計手冊(第四版)》(DSM-Ⅳ)的基礎上所研制的一種譫妄評估工具,可用來評估因機械通氣所導致的語言上無法配合者的譫妄發生情況。一個對 ICU 譫妄評估工具進行的系統評價結果表明,CAM-ICU 與譫妄診斷的“金標準”DSM-Ⅳ 相較,其靈敏性、特異性分別為 47%~100%、81%~100%,并且在護士、醫生及研究人員等不同人群中有著中等較高水平的測量者信度[27]。與此同時,CAM-ICU 也具有評估簡便、易于掌握等優點,最困難的患者也僅需 2~4 分鐘即可完成[28],一定程度上提高了 ICU 醫務人員譫妄評估的依從性(Van[13]和 Wassenaar[15]在構建模型的同時,分別對 ICU 醫務人員使用 CAM-ICU 評估譫妄的依從性展開調查,發現依從性達 90.4%、83%)。考慮到譫妄是一種急性、波動性的精神狀態改變,2010 年發布的 CAM-ICU 培訓手冊中建議,ICU 醫務人員應至少每 8~12 h 使用 CAM-ICU 對患者進行一次譫妄篩查。本系統評價納入的 8 個[12-19] 將 CAM-ICU 作為譫妄評估工具的研究中,雖均每日常規評估譫妄≥2 次,但部分研究[16, 17]并未對每 2 次評估間的時間間隔進行嚴格、規律的限定,如 Chen[16]將每日評估節點設定為 9:00、17:00,袁荊[17]將每日評估時間設定為 9:00~11:00、15:00~17:00。不規律的評估時間間隔一定程度上降低了 CAM-ICU 的靈敏度與特異度,也降低了研究結果的真實性與可靠性。
本系統評價中的 9 個模型在建模/驗模人群中的 AUROC 值均>0.7,表明 9 個模型均能有效地預測 ICU 患者未來發生譫妄的情況。袁荊[17]和祝曉迎[18]等研究中,通過 AUROC 檢驗模型區分譫妄和非譫妄患者能力的同時,還采用了 Hosmer-Lemeshow 卡方檢驗對模型預測率與實際譫妄發生率的一致程度進行檢驗,發現兩者之間一致性較好,提高了構建 ICU 譫妄風險預測模型的科學性。Wassenaar 等[15]研究中還通過展開亞組研究,探討了模型對不同時間發生的譫妄(0~1 d、2 d、3~6 d、>6 d)的預測能力,發現構建的模型無論對于早發性譫妄還是晚發性譫妄均有較好的預測價值(對應的 AUROC 值分別為 0.70、0.76、0.77、0.81)。同樣,納入的模型亦存在不足之處,主要表現為部分模型[13, 15, 16]在低危人群中的陰性似然比值處于較為中等的水平(3 個模型在低危人群中的陰性似然比值分別為 0.26、0.40、0.37),一定程度上增加了譫妄發生的中、高危人群被誤判為低危人群的風險。
目前,國內外常用的 ICU 患者譫妄風險預測模型主要包括 Van 等[13]構建的 PRE-DELIRIC 模型、 Wassenaar 等[15]構建的 E-PRE-DELIRIC 模型和 Chen 等[16, 29]構建的 Lanzhou 模型。相較于 PRE-DELIRIC 模型僅能對患者入 ICU 24 h 后的譫妄發生風險進行預測,E-PRE-DELIRIC 模型在患者入 ICU 時即可對其住 ICU 期間的譫妄發生風險進行評定,因此能夠有效識別入 ICU 24 h 內可能發生譫妄的高風險人群(研究[2, 30]報道患者入 ICU 0~1d 內的譫妄發生率約為 25%)。但部分國內外學者[31, 32]將 E-PRE-DELIRIC 模型及 PRE-DELIRIC 模型對于 ICU 譫妄的預測價值進行比較分析時發現,雖然 E-PRE-DELIRIC 模型和 PRE-DELIRIC 模型在預測 ICU 患者的譫妄發生風險方面均具有良好的表現,但 PRE-DELIRIC 模型的預測效能更為優越。鑒于此,Wassenaar 等[31]結合 E-PRE-DELIRIC 模型和 PRE-DELIRIC 模型的優點與不足之處,創新性地采用“兩階梯法”對患者住 ICU 期間的譫妄發生風險進行預測。即患者在入 ICU 時運用 E-PRE-DELIRIC 模型對其譫妄發生風險進行評估后,識別為低譫妄發生風險的人群于 24 h 后重新應用 PRE-DELIRIC 模型進行風險評估。結果證明“兩階梯法”使 PRE-DELIRIC 模型及 E-PRE-DELIRIC 模型對于低譫妄發生風險人群的敏感性分別提升了 10%、14%,一定程度上降低了譫妄發生高風險人群被誤判為低風險人群的可能性,使真正的高風險人群得到更加及時、充分合理的譫妄預防資源配置。而對于 Lanzhou 模型,Green 等[33]在對上述三種模型進行比較時指出,雖然 Lanzhou 模型亦能在患者入 ICU 時即對其住 ICU 期間的譫妄發生風險進行評定且整體預測效能高于 E-PRE-DELIRIC 模型(但低于 PRE-DELIRIC 模型),但模型中的預測因子多為患者的既往病史,數據采集時的難度較大、對采集者和資料精準性的要求較高,一定程度上限制了模型的推廣與應用。
認知功能儲備減少和血尿素水平升高分別是納入的 9 個預測模型中最為常見的譫妄易感因素及促發因素。認知功能儲備減少時,機體對應激的代償能力下降。當機體應對 ICU 中強烈而持續的應激源時更易出現神經遞質失調、腦細胞能量代謝障礙及炎性細胞因子釋放增多,從而引發大腦功能紊亂,導致譫妄的發生[34]。除認知功能儲備減少外,年齡也是較為常見的易感因素。但年齡是否為 ICU 譫妄的獨立預測因子尚存一定的爭議。本系統評價納入的 2 個以老年 ICU 患者作為觀察(研究)對象所構建的預測模型[11, 12]中,年齡并非老年 ICU 患者譫妄發生的獨立預測因子。一方面這可能與研究對象年齡段比較集中、個體間年齡差異較小有關;另一方面,對于老年 ICU 患者,相較于年齡,機體衰老所引起的其他身心改變,如:認知功能障礙、重要臟器功能不全、應激防御功能減退等,可能在老年患者譫妄的發生、發展過程中起到了更加顯著的作用。但也有研究[35]指出,年齡是老年 ICU 患者譫妄發生的獨立預測因子,尤其是高齡患者。未來還有待針對老年 ICU 患者這一特定人群展開大樣本的原始研究,進一步探討年齡在老年 ICU 患者譫妄發生、發展過程中所發揮的作用。
在促發因素方面,除血尿素水平升高外,常見的促發因素還包括機械通氣和感染。血尿素水平升高時,體內蓄積的多余尿素透過血腦屏障后易引起神經系統的病變而誘發譫妄[36];感染增加 ICU 譫妄發生風險可能與全身炎癥反應導致的彌漫性中樞神經系統功能紊亂有關[37];而機械通氣在挽救患者生命的同時,也一定程度上改變了患者正常的呼吸、血流動力學生理,使呼吸道感染及低氧血癥的風險大大增加[38],并且使患者暴露在更多的鎮靜、鎮痛藥物之下,增強并延長了中樞神經的抑制效應,擾亂了神經遞質正常傳遞[39],最終促進譫妄發生。
本研究的不足之處:① 本系統評價僅納入了中、英文文獻,可能存在發表偏倚。② 本系統評價納入研究在模型驗證方面,多僅進行了內部驗證,缺乏大樣本、多中心的外部驗證結果。雖然模型具有較好的預測效能,但模型的廣泛適用性及穩定性還有待驗證。③ 部分模型構建時間較早(如 O'Keeffe 的模型構建于 1996 年、Pisani 的模型構建于 2007 年),并且未得到校準與更新,模型及模型中的預測因子是否適用于當下的臨床實踐應進一步探究。
綜上所述,本研究共納入 9 個譫妄風險預測模型,預測性能良好,有利于 ICU 醫護人員早期篩查 ICU 譫妄發生的高風險人群。下一步,醫務工作者可結合自身實際,慎重選擇已有模型并需對其進行驗證后用于臨床實踐,也可在結合 TRIPOD 聲明的基礎上通過展開大樣本的前瞻性隊列研究,構建一個扎根于本土的 ICU 患者譫妄風險預測模型,并通過擬定和實施分層預防策略,將譫妄預防落到實處的同時,使譫妄預防相關的醫療資源得到更加合理的配置,以達到最佳的風險獲益比。其次,本系統評價所納入的大部分模型在建模時將進入 ICU<24 h 的患者作為研究的排除對象。但在臨床工作中,患者入 ICU 時醫護人員并不能精準判斷患者在 ICU 內的停留時間,均采用統一的模型預測患者發生譫妄的風險。而對于進入 ICU<24 h 的患者與進入 ICU≥24 h 的患者而言,同一模型對兩者的預測性能是否存在差異還有待研究者們進一步探討。未來,可針對進入 ICU<24 h 患者這一特定人群展開研究,或不考慮患者在 ICU 時間長短,設定研究對象為全體 ICU 患者,以提高模型的整體適用性及預測的精準性。值得注意的是,隨著醫藥技術的發展,特別是鎮靜、鎮痛理念的轉變、新型鎮痛及鎮靜藥物的出現,現有模型的預測效能也在不斷承受著沖擊。因此,在運用預測模型的同時,醫務人員也應定期重新校準模型,調整模型因子,使其更加符合當下的醫學時代背景。最后,研究者在注重模型預測效能的基礎上,還應積極關注模型對使用者工作負擔的影響。建議研制界面友好、自動化的 ICU 譫妄風險預測電子平臺或模塊/組件,提高計算精準度的同時減少預測耗時,提升臨床醫務工作者使用風險預測工具時的依從性與滿意度。
譫妄是以意識障礙為主要特征的一組臨床綜合征,屬于急性腦器質性精神障礙,往往伴有注意力缺損、睡眠-覺醒節律紊亂和不同程度的認知、情感障礙[1]。研究發現,ICU 患者譫妄發生率約為 20%~80%[2-4]。譫妄在延長患者機械通氣時間及住院時間的同時,也會使患者在出院后依然遺留較長時間的認知障礙,從而降低患者的日常生活能力,甚至增加患者 6 個月病死率[5, 6]。目前,尚無確切證據證明藥物能夠預防譫妄或改善譫妄患者的臨床結局,主要提倡采取非藥物措施預防譫妄[7]。因此,早期識別譫妄發生的高危人群并積極糾正譫妄發生的可逆誘因顯得尤為重要。譫妄風險預測模型是以譫妄的多病因為基礎,通過建立統計模型,以預測 ICU 患者未來發生譫妄的概率[8]。一方面,它能夠幫助醫務人員有效篩查發生譫妄的高風險人群,提高譫妄風險預警意識,并根據風險大小采取相對應的預防措施,以減少 ICU 譫妄的發生[9]。另一方面,它也可使患者及其家屬清楚地了解患者在 ICU 期間的譫妄發病風險,增進他們對譫妄防治相關工作的認知、配合與理解[8]。迄今為止,國內外已有多位學者采用不同的研究設計類型構建了基于單中心或多國家(多中心)的 ICU 患者譫妄風險預測模型。本研究旨在全面檢索國內外有關 ICU 患者譫妄風險預測模型的研究,從預測模型的基本特征及構建方法、方法學質量、預測效能和模型中的預測因子等角度出發進行系統總結與比較,以期更好地為 ICU 患者譫妄風險預測模型的構建與應用以及譫妄預防提供理論依據。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
隊列研究和病例-對照研究。
1.1.2 研究對象
納入年齡>18 周歲的 ICU 患者,其種族、國籍、病程不限。
1.1.3 研究內容
① 為 ICU 患者譫妄風險預測模型的構建;② 具體地說明了診斷(評估)ICU 譫妄所使用的工具及主要的評估方法、步驟;③ 詳細描述了建模、評價及比較的過程及所需的統計學方法;④ 預測模型建立之后經過了內部和/或外部驗證。
1.1.4 排除標準
① 只分析了 ICU 患者譫妄的危險因素,但未構建風險預測模型的研究;② 研究未排除進入 ICU 時已發生譫妄的患者或未具體說明納入患者進入 ICU 時是否發生譫妄;③ 風險預測模型無法和臨床實踐相聯系,模型中的預測因子在 ICU 內無法廣泛評估或精確測量;④ 研究中使用的診斷工具未經過信效度檢驗;⑤ 研究為模型的本土化適用性探究或預測效能的比較性研究;⑥ 研究為自動化預測模型的效果評價;⑦ 重復發表的文獻;⑧ 數據不完整無法提取的文獻;⑨ 非中、英文文獻。
1.2 文獻檢索策略
計算機檢索 The Cochrane Library、PubMed、Web of Science、Ovid、VIP、WanFang Data 和 CNKI 數據庫,搜集關于 ICU 患者譫妄風險預測模型的研究,檢索時限均為建庫至 2018 年 12 月。此外,追溯納入文獻的參考文獻,以補充獲取相關文獻。英文檢索詞包括:prediction model、prognostic model、risk stratification model、model、risk factor、predictor、ICU、Intensive care unit、critically ill、critical care、delirium、delirium syndrome;中文檢索詞包括:預測模型、模型、危險因素、預測因子、ICU、重癥、危重、重癥監護、譫妄、譫妄綜合征。以 PubMed 為例,其具體檢索策略見框 1。

1.3 文獻篩選與資料提取
由 2 名研究者獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷。缺乏資料盡量與作者聯系予以補充。文獻篩選首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。提取資料主要包括:第一作者及發表年份、國家或地區、研究設計類型、研究對象、建模方法及樣本量、驗模方法及樣本量、ICU 譫妄的診斷(評估)工具、譫妄發生率(建模/驗模/總發生率)、受試者工作特征曲線下面積(area under receiver operating characteristic curve,AUROC)(建模/驗模)、危險因素賦分及風險分層方法、預測因子個數及其名稱等。
1.4 納入研究的偏倚風險評價
由 2 名評價員按照 CHARMS 清單[10]有關臨床預測模型的偏倚風險評價工具,從“數據來源”、“參與者”、“預測結局”、“候選因子”、“樣本量”、“缺失數據”、“模型建立”、“模型性能”、“模型評價”、“結果”及“解釋和討論”11 個方面評價納入研究的偏倚風險。
1.5 統計分析
采用描述性分析方法,整理和總結納入不同預測模型的一般情況、建模方法及模型中的預測因子。
2 結果
2.1 文獻篩選流程及結果
初檢共獲得相關文獻 1 313 篇,經逐層篩選后,最終納入 9 個研究[11-19]。文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:The Cochrane Library(
2.2 納入研究的基本特征與偏倚風險評價結果


2.3 納入模型的一般情況
共納入 9 個 ICU 患者譫妄風險預測模型[11-19],其中 6 個[11-16]為英文研究,3 個[17-19]為中文研究。研究設計類型方面,7 個[11-16, 18]為隊列研究,2 個[17, 19]為病例-對照研究。最早的 ICU 患者譫妄風險預測模型[11]發表于 1996 年,近五年共發表了 6 個研究[14-19]。6 個研究[13-16, 18, 19]將研究對象定義為進入 ICU 時間≥24 h 的患者,具有較高的同質性。8 個研究[12-19]采用 ICU 意識模糊評估量表(confusion assessment method for the ICU,CAM-ICU)評估患者是否出現譫妄,1 個研究[11]采用《精神疾病診斷與統計手冊(第三版)》(DSM-Ⅲ)對譫妄進行診斷,譫妄的總發生率為 17.7%~70.4%。各模型建模樣本量為 100~1 962 例,均采用 Logistic 回歸建立模型;驗模樣本量為 81~1 824 例,其中 6 個研究[11, 12, 15-18]運用了內部驗證法對建立的預測模型進行驗證,1 個研究[14]采用外部驗證法對模型進行重新校準,1 個研究[13]采用內部與外部驗證結合的方式對預測模型的預測效能進行了評價。9 個研究[11-19]均報告了預測模型的 AUROC 值,其中 4 個研究[11, 13, 15, 17]報告了建模的 AUROC 值,為 0.76~0.87;9 個研究[11-19]均報告了驗模的 AUROC 值,為 0.739~0.926。
2.4 納入模型的建模方法
在建模方法方面,分別有 6 個[11-13, 17-19]、2 個[15, 16]研究將單因素分析具有統計學意義的候選因子和全部候選因子作為自變量進行多因素 Logistic 回歸,以遴選出 ICU 譫妄發生的獨立預測因子。在預測因子的賦值方法上,5 個研究[13, 15, 16, 18, 19]根據各因子(初始[15, 16, 18, 19]/矯正后[13])回歸系數得出計算譫妄發生概率的公式;2 個研究[11, 17]則采用因子賦值法,即將各因子回歸系數根據其權重整數化后對因子進行賦值[17]或各因子均賦值 1 分[11],通過計算因子分數之和以預測患者住 ICU 期間的譫妄發生風險,總分越高譫妄發生風險越大。按各因子回歸系數得出譫妄發生概率計算公式的研究[13, 15, 16, 18, 19]平均 AUROC 值為 0.82,采用因子賦值法的研究[11, 17]平均 AUROC 值為 0.79,不同賦值方法之間模型平均 AUROC 值差異不大。9 個研究中,5 個研究[13, 15-18]報告了風險分層的具體方法,其中 4 個研究[13, 15, 16, 18]根據模型預測的概率大小將風險值劃分為 3~4 個等級,1 個研究[17]根據因子分數之和將譫妄發生風險分為 3 層。
2.5 納入模型中的預測因子
納入的 9 個譫妄風險預測模型中,最多納入了 11 個預測因子[16],最少納入了 3 個預測因子[11]。進一步將所有預測模型中納入的預測因子分為易感因素和促發因素兩大類。本系統評價中最為常見的 ICU 譫妄易感因素為認知功能儲備減少[包括老年癡呆(史)、認知障礙史及譫妄史][20],其次為年齡。在促發因素方面,血尿素水平升高是最為多見的預測因子,其次為機械通氣和感染。
3 討論
本系統評價共納入 9 個研究,3 個質量較高[13-15],其余 6 個質量中等[11, 12, 16-19]。7 個研究為前瞻性隊列研究[11-16, 18],2 個為病例-對照研究[17, 19],選擇性偏倚相對較小。僅 3 個研究[13-15]對建模、驗模過程中評價結局的研究者施盲,其余研究均未報告是否對結局評價者及分析預測因子的研究者采取盲法,盲法設置率較低。在建模樣本量方面,1 個研究建模樣本量較小且未采取特殊的統計學方法進行處理[11],一定程度上可能會導致參數估計的準確性受到影響。僅 4 個研究自我報告了預測因子缺失情況[12-15],其中 3 個預測因子缺失比例較高(主要集中在膽紅素、APACHE Ⅱ評分、認知功能儲備減少)[13-15],并分別采用了平均值填充、回歸插補法補齊數據,但平均值填充法一定程度上會使數據的方差和標準差變小、變異程度被低估[21, 22],而回歸插補法則人為加大了變量之間的相關關系[23],增加了模型的不確定性。缺失預測因子采用補齊方法的不同一定程度上也成為研究間異質性的來源[24, 25]。
在譫妄的評估(診斷)工具方面,8 個研究[12-19]采用 CAM-ICU 量表對譫妄進行評估,1 個研究[11]采用 DSM-Ⅲ 對譫妄進行診斷。CAM-ICU 是 Ely 等[26]于 2001 年在《精神疾病的診段和統計手冊(第四版)》(DSM-Ⅳ)的基礎上所研制的一種譫妄評估工具,可用來評估因機械通氣所導致的語言上無法配合者的譫妄發生情況。一個對 ICU 譫妄評估工具進行的系統評價結果表明,CAM-ICU 與譫妄診斷的“金標準”DSM-Ⅳ 相較,其靈敏性、特異性分別為 47%~100%、81%~100%,并且在護士、醫生及研究人員等不同人群中有著中等較高水平的測量者信度[27]。與此同時,CAM-ICU 也具有評估簡便、易于掌握等優點,最困難的患者也僅需 2~4 分鐘即可完成[28],一定程度上提高了 ICU 醫務人員譫妄評估的依從性(Van[13]和 Wassenaar[15]在構建模型的同時,分別對 ICU 醫務人員使用 CAM-ICU 評估譫妄的依從性展開調查,發現依從性達 90.4%、83%)。考慮到譫妄是一種急性、波動性的精神狀態改變,2010 年發布的 CAM-ICU 培訓手冊中建議,ICU 醫務人員應至少每 8~12 h 使用 CAM-ICU 對患者進行一次譫妄篩查。本系統評價納入的 8 個[12-19] 將 CAM-ICU 作為譫妄評估工具的研究中,雖均每日常規評估譫妄≥2 次,但部分研究[16, 17]并未對每 2 次評估間的時間間隔進行嚴格、規律的限定,如 Chen[16]將每日評估節點設定為 9:00、17:00,袁荊[17]將每日評估時間設定為 9:00~11:00、15:00~17:00。不規律的評估時間間隔一定程度上降低了 CAM-ICU 的靈敏度與特異度,也降低了研究結果的真實性與可靠性。
本系統評價中的 9 個模型在建模/驗模人群中的 AUROC 值均>0.7,表明 9 個模型均能有效地預測 ICU 患者未來發生譫妄的情況。袁荊[17]和祝曉迎[18]等研究中,通過 AUROC 檢驗模型區分譫妄和非譫妄患者能力的同時,還采用了 Hosmer-Lemeshow 卡方檢驗對模型預測率與實際譫妄發生率的一致程度進行檢驗,發現兩者之間一致性較好,提高了構建 ICU 譫妄風險預測模型的科學性。Wassenaar 等[15]研究中還通過展開亞組研究,探討了模型對不同時間發生的譫妄(0~1 d、2 d、3~6 d、>6 d)的預測能力,發現構建的模型無論對于早發性譫妄還是晚發性譫妄均有較好的預測價值(對應的 AUROC 值分別為 0.70、0.76、0.77、0.81)。同樣,納入的模型亦存在不足之處,主要表現為部分模型[13, 15, 16]在低危人群中的陰性似然比值處于較為中等的水平(3 個模型在低危人群中的陰性似然比值分別為 0.26、0.40、0.37),一定程度上增加了譫妄發生的中、高危人群被誤判為低危人群的風險。
目前,國內外常用的 ICU 患者譫妄風險預測模型主要包括 Van 等[13]構建的 PRE-DELIRIC 模型、 Wassenaar 等[15]構建的 E-PRE-DELIRIC 模型和 Chen 等[16, 29]構建的 Lanzhou 模型。相較于 PRE-DELIRIC 模型僅能對患者入 ICU 24 h 后的譫妄發生風險進行預測,E-PRE-DELIRIC 模型在患者入 ICU 時即可對其住 ICU 期間的譫妄發生風險進行評定,因此能夠有效識別入 ICU 24 h 內可能發生譫妄的高風險人群(研究[2, 30]報道患者入 ICU 0~1d 內的譫妄發生率約為 25%)。但部分國內外學者[31, 32]將 E-PRE-DELIRIC 模型及 PRE-DELIRIC 模型對于 ICU 譫妄的預測價值進行比較分析時發現,雖然 E-PRE-DELIRIC 模型和 PRE-DELIRIC 模型在預測 ICU 患者的譫妄發生風險方面均具有良好的表現,但 PRE-DELIRIC 模型的預測效能更為優越。鑒于此,Wassenaar 等[31]結合 E-PRE-DELIRIC 模型和 PRE-DELIRIC 模型的優點與不足之處,創新性地采用“兩階梯法”對患者住 ICU 期間的譫妄發生風險進行預測。即患者在入 ICU 時運用 E-PRE-DELIRIC 模型對其譫妄發生風險進行評估后,識別為低譫妄發生風險的人群于 24 h 后重新應用 PRE-DELIRIC 模型進行風險評估。結果證明“兩階梯法”使 PRE-DELIRIC 模型及 E-PRE-DELIRIC 模型對于低譫妄發生風險人群的敏感性分別提升了 10%、14%,一定程度上降低了譫妄發生高風險人群被誤判為低風險人群的可能性,使真正的高風險人群得到更加及時、充分合理的譫妄預防資源配置。而對于 Lanzhou 模型,Green 等[33]在對上述三種模型進行比較時指出,雖然 Lanzhou 模型亦能在患者入 ICU 時即對其住 ICU 期間的譫妄發生風險進行評定且整體預測效能高于 E-PRE-DELIRIC 模型(但低于 PRE-DELIRIC 模型),但模型中的預測因子多為患者的既往病史,數據采集時的難度較大、對采集者和資料精準性的要求較高,一定程度上限制了模型的推廣與應用。
認知功能儲備減少和血尿素水平升高分別是納入的 9 個預測模型中最為常見的譫妄易感因素及促發因素。認知功能儲備減少時,機體對應激的代償能力下降。當機體應對 ICU 中強烈而持續的應激源時更易出現神經遞質失調、腦細胞能量代謝障礙及炎性細胞因子釋放增多,從而引發大腦功能紊亂,導致譫妄的發生[34]。除認知功能儲備減少外,年齡也是較為常見的易感因素。但年齡是否為 ICU 譫妄的獨立預測因子尚存一定的爭議。本系統評價納入的 2 個以老年 ICU 患者作為觀察(研究)對象所構建的預測模型[11, 12]中,年齡并非老年 ICU 患者譫妄發生的獨立預測因子。一方面這可能與研究對象年齡段比較集中、個體間年齡差異較小有關;另一方面,對于老年 ICU 患者,相較于年齡,機體衰老所引起的其他身心改變,如:認知功能障礙、重要臟器功能不全、應激防御功能減退等,可能在老年患者譫妄的發生、發展過程中起到了更加顯著的作用。但也有研究[35]指出,年齡是老年 ICU 患者譫妄發生的獨立預測因子,尤其是高齡患者。未來還有待針對老年 ICU 患者這一特定人群展開大樣本的原始研究,進一步探討年齡在老年 ICU 患者譫妄發生、發展過程中所發揮的作用。
在促發因素方面,除血尿素水平升高外,常見的促發因素還包括機械通氣和感染。血尿素水平升高時,體內蓄積的多余尿素透過血腦屏障后易引起神經系統的病變而誘發譫妄[36];感染增加 ICU 譫妄發生風險可能與全身炎癥反應導致的彌漫性中樞神經系統功能紊亂有關[37];而機械通氣在挽救患者生命的同時,也一定程度上改變了患者正常的呼吸、血流動力學生理,使呼吸道感染及低氧血癥的風險大大增加[38],并且使患者暴露在更多的鎮靜、鎮痛藥物之下,增強并延長了中樞神經的抑制效應,擾亂了神經遞質正常傳遞[39],最終促進譫妄發生。
本研究的不足之處:① 本系統評價僅納入了中、英文文獻,可能存在發表偏倚。② 本系統評價納入研究在模型驗證方面,多僅進行了內部驗證,缺乏大樣本、多中心的外部驗證結果。雖然模型具有較好的預測效能,但模型的廣泛適用性及穩定性還有待驗證。③ 部分模型構建時間較早(如 O'Keeffe 的模型構建于 1996 年、Pisani 的模型構建于 2007 年),并且未得到校準與更新,模型及模型中的預測因子是否適用于當下的臨床實踐應進一步探究。
綜上所述,本研究共納入 9 個譫妄風險預測模型,預測性能良好,有利于 ICU 醫護人員早期篩查 ICU 譫妄發生的高風險人群。下一步,醫務工作者可結合自身實際,慎重選擇已有模型并需對其進行驗證后用于臨床實踐,也可在結合 TRIPOD 聲明的基礎上通過展開大樣本的前瞻性隊列研究,構建一個扎根于本土的 ICU 患者譫妄風險預測模型,并通過擬定和實施分層預防策略,將譫妄預防落到實處的同時,使譫妄預防相關的醫療資源得到更加合理的配置,以達到最佳的風險獲益比。其次,本系統評價所納入的大部分模型在建模時將進入 ICU<24 h 的患者作為研究的排除對象。但在臨床工作中,患者入 ICU 時醫護人員并不能精準判斷患者在 ICU 內的停留時間,均采用統一的模型預測患者發生譫妄的風險。而對于進入 ICU<24 h 的患者與進入 ICU≥24 h 的患者而言,同一模型對兩者的預測性能是否存在差異還有待研究者們進一步探討。未來,可針對進入 ICU<24 h 患者這一特定人群展開研究,或不考慮患者在 ICU 時間長短,設定研究對象為全體 ICU 患者,以提高模型的整體適用性及預測的精準性。值得注意的是,隨著醫藥技術的發展,特別是鎮靜、鎮痛理念的轉變、新型鎮痛及鎮靜藥物的出現,現有模型的預測效能也在不斷承受著沖擊。因此,在運用預測模型的同時,醫務人員也應定期重新校準模型,調整模型因子,使其更加符合當下的醫學時代背景。最后,研究者在注重模型預測效能的基礎上,還應積極關注模型對使用者工作負擔的影響。建議研制界面友好、自動化的 ICU 譫妄風險預測電子平臺或模塊/組件,提高計算精準度的同時減少預測耗時,提升臨床醫務工作者使用風險預測工具時的依從性與滿意度。