引用本文: 邵珠燕, 宗可敬, 范清美, 韓倩, 唐妍, 喬建紅. 產后抑郁癥風險預測模型的系統評價. 中國循證醫學雜志, 2023, 23(7): 807-813. doi: 10.7507/1672-2531.202303021 復制
產后抑郁癥(postpartum depression,PPD)是分娩后最常見的并發癥之一[1],通常于產后4~6周發生,甚至延至產后一年。其發病率因測評工具及測量時間存在差異,但有研究得出PPD的全球合并患病率高達17.7%[2]。多項研究表明產后抑郁癥不僅給母親和家庭帶來不良影響[3],也會對兒童的生長發育造成不良后果(包括體重不足、發育遲緩、兒童情緒障礙等)[4-6]。因此,美國預防服務工作組建議對孕婦和產后婦女進行篩查,以鼓勵早期識別癥狀,適當地轉診和治療[7]。目前,國內外已有大量研究對產后抑郁的預測因子展開探討,建立PPD預測模型,旨在預測PPD風險。但現有模型的偏倚風險和臨床適用性仍不清楚,研究結果能否轉化為臨床實踐的可行性仍有疑問。因此本研究旨在系統地識別和評價孕婦PPD風險預測模型的研究,以期更好地為PPD預測模型的構建及應用提供理論依據。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
隊列研究和病例-對照研究。
1.1.2 研究對象
研究對象為年齡≥18歲的孕產婦,納入標準為產后4周到1年新發產后抑郁、有完整的數據來源。
1.1.3 研究內容
產后抑郁發生風險的預測模型,具有完整的模型建立、驗證和評價過程。
1.1.4 排除標準
① 僅為產后抑郁預測因素、影響因素研究,未構建完整模型或無法用于結局事件發生概率評估;② 重復發表的文獻、無法獲取全文;③ 非中、英文文獻;④ 預測模型包含的預測變量少于2個。
1.2 文獻檢索策略
計算機檢索PubMed、EMbase、Web of Science、VIP、CNKI和WanFang Data數據庫,搜集關于產后抑郁癥風險預測模型的研究,檢索時限均從2013年1月至2023年4月。采用主題詞和自由詞相結合的方式進行檢索,英文檢索詞包括:depression,postpartum、post-natal depression、post-partum depression、postnatal depression、postpartum depression、predict*、risk prediction、risk score、risk assessment、model*、prediction model、prognostic model等;中文檢索詞包括:產后抑郁、產后抑郁癥、風險預測、預測模型、模型、預測因子等。
1.3 文獻篩選與數據提取
2名研究者獨立進行文獻篩選與數據提取。通過閱讀文獻標題與摘要進行初篩,閱讀全文進行復篩,如有分歧,則通過討論或由第三方裁定。確定納入文獻后,基于預測模型研究系統評價的關鍵評估和數據提取清單(critical appraisal and data extraction for systematic reviews of prediction modelling studies,CHARMS)[8],制訂標準化表格用于數據提取。數據提取內容包括第一作者、發表年份、國家、研究設計、測量時間、候選變量、樣本量、缺失數據、建立模型方法、變量選擇、模型性能、模型呈現形式和最終包含的預測因子等。
1.4 納入研究的偏倚風險和適用性評估
2名評價者采用預測模型偏倚風險評價工具(prediction model risk of bias assessment tool,PROBAST)[9]對納入研究的偏倚風險及適用性進行獨立評估,分歧由第三方判定。
1.4.1 偏倚風險
偏倚風險的評估涵蓋了4個領域:研究對象、預測因子、結果、分析。這4個領域一共包括20個問題,每個問題按照“是/可能是”、“否/可能否”和“無信息”來回答。在一個領域中,如果所有問題的回答均為“是/可能是”,則該領域偏倚風險低。其余以此類推。
1.4.2 適用性評估
適用性評估涵蓋3個領域:研究對象、預測因子和結果。各個領域按照:適用性好、適用性差和適用性不清楚來進行評估。如果每個領域適用性好,則該研究總體適用性好;以此類推。
2 結果
2.1 文獻篩選流程及結果
初步檢索共獲得1 170篇文獻,包括PubMed(n=419),Web of Science(n=611),EMbase(n=113)、CNKI(n=12)、WanFang Data(n=10)和VIP(n=5)。最終納入文獻10篇[10-19],其中英文8篇,中文2篇。
2.2 納入研究的基本特征
最終納入10項研究[10-19],歐美國家開展的有5篇,亞洲國家有5篇。7篇[10-12,14-16,19]為回顧性隊列研究,3篇[13,17-18]為前瞻性隊列研究,2篇[12,17]為多中心研究。納入文獻的基本特征及預測結果見表1。

2.3 模型的建立與驗證情況
所有研究均報告了建立模型需要的樣本數量,為371~352 608例,其中2項研究[12-13]未報告結局數量,Munk-Olsen等[19]的研究為迄今為止最大樣本量的隊列研究,該隊列納入了全丹麥初產婦人群,具有一定的代表性。納入的10項研究中,3項[10,12,16]為模型的開發與驗證,其中Amit等[10]的研究采用了多種外部驗證方法,比如地理驗證、時間驗證、隨機拆分驗證(合并3倍交叉驗證),其余7項均為模型的開發研究。在建模的方法選擇上,8項[10-16,18]采取機器學習算法,2項[17,19]采取Logistic回歸分析方法建模,其中Mausto等[12]采取5種不同的機器學習算法,Shin等[14]采取9種不同的機器學習算法來選取最優模型,Shin等[14]得出9種模型的總體分類準確率為0.650(kNN分類算法)到0.791(RF算法),RF方法在受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under the curve,AUC)最高,為0.884。在模型性能方面,9項研究采用AUC報告區分度,范圍為0.71~0.94,均大于0.7,模型性能良好;Munk-Olsen等[19]的研究用C-index來表示模型的預測性能,發現C>0.9表示模型具有高準確度。所有研究均報告了模型驗證時的敏感度、特異度和模型驗證總正確率,6項研究[11-13,15-16,18]報告了陽性預測值、陰性預測值,其中3項研究[10-11,13]還采用Shapley附加解釋均值絕對值作為特征對模型輸出影響的度量,即每個特征對PPD預測的貢獻(表2)。

在預測因子選擇上,3項研究[15,17-18]采用單因素分析篩選有統計學意義的候選預測因子,然后多因素通過Logistic回歸分析或R軟件中的package random forest(Version 4.6)軟件包進行分析。4項研究[10-12,15,19]通過文獻或病例回顧提取變量,1項研究[13]通過自我報告的基線調查數據獲得,還有2項研究[14,16]采取遞歸特征消除、信息增益、順序前進法等方法進行預測變量的選擇。各研究候選預測因子5~156個,最終納入的預測因子4~13個。其中產前抑郁或產前有其他精神障礙史、年齡、種族、社會經濟地位等是最常見的預測因子(表3)。

2.4 偏倚風險和適用性評價結果
2.4.1 與研究對象有關的偏倚
7項研究[11-13,15-17,19]被評為高偏倚風險,原因是回顧性隊列研究有較長的隨訪期,較差的數據質量和無法測量的預測因素[8]均會造成偏倚(表4)。

2.4.2 與預測因子有關的偏倚
10項研究中有2項研究[14,17]在預測因子領域偏倚風險高,因未對預測因子評估者施盲,且預測指標的評估是在了解產后抑郁的情況下進行的。Munk-Olsen等[19]的研究經過驗證和重新校準,使其所有變量具有統計學意義,因此被評為低風險。其余研究也均為低偏倚風險,其中3項研究[13,17-18]為前瞻性研究,即預測因素在結局發生之前,默認采用了盲法,為低風險,2項研究雖是多中心研究,但明確指出按照統一標準評估預測變量(表4)。
2.4.3 與結果有關的偏倚
9項研究[10-13,15-19]被評為低偏倚風險,在“預測因子評估和結果確定的時間間隔是否合理”這一項,因有研究為隊列研究,存在一定的間隔時間,但典型的產后抑郁癥于產后6周內發生,可在3~6個月自行恢復,但嚴重者也可持續1~2年,所以該時間間隔也被考慮為合理[20]。只有Shin等[14]的研究在“結果的分類方法是否合理”這一領域存在偏倚風險(表4)。
2.4.4 與分析有關的偏倚
所有研究均為高偏倚風險或不清楚。對樣本量的處理,3項研究樣本量不足或EPV<20,造成偏倚風險較高[21];對于缺失值的處理,4項研究[12-13,15,17]未報告研究缺失值,3項研究[14,17,19]直接刪除了缺失數據,而此種處理方法可能會導致納入分析的數據偏倚較高,應采用多重插補等方法處理缺失數據;在預測因子篩選的處理上,肖美麗等[18]的研究僅基于單因素分析初步篩選預測因子,并未與其他變量結合進行分析,可能會因自變量的遺漏而產生偏倚[22];在對預測模型性能評估上,有4項研究[10,16-18]未報告或未考慮預測模型過度擬合、欠擬合和最優擬合造成偏倚的風險(表4)。
2.4.5 適用性
在模型適用性方面,6項研究適用性較差,主要體現在預測因子和結局兩個部分,還有4項研究在三個方面適用性均較好,因而總體適用性一般(表4)。
3 討論
3.1 PPD預測模型具有良好的預測性能,但整體偏倚風險較高,適用性有待加強
本研究結果顯示,現有PPD模型具有良好的預測性能,所有模型的AUC均>0.7,且部分模型具有較高的敏感度。但PPD模型整體偏倚風險較高,首先,在研究對象和統計分析領域,7項研究[11-13,15-17,19]采取回顧性隊列研究的調查方法,在一定程度上存在回憶偏倚或結果事件誤分類偏倚,使預測因子和結局的相關性更不確定。另外,測量產后抑郁的測量工具各研究有所差異,Shin等[14]對產后抑郁這一結果的判斷是基于患者健康問卷(patient health questionnaire-2,PHQ-2)所判定的,其余研究則借助專業的愛丁堡產后抑郁問卷篩查量表[4]結合其他臨床手段進行判斷,PHQ-2雖可作為重度抑郁癥篩查標準,但該工具針對孕產婦產后抑郁的測量是否準確尚不清楚[23]。最后,在對缺失數據的處理和是否考慮模型的擬合情況方面,多個研究未采取多重插補法來處理缺失數據,可能會使被排除的對象和最后進行統計分析的納入對象數據差異較大,導致預測結果關聯偏差和模型性能偏差[24]。未來研究可參考PROBAST[9]中的相關條目,通過嚴謹的研究設計實現高質量預測模型的構建,尤其對存在爭議的預測因子應進行更高質量的驗證。本研究結果顯示PPD模型的適用性一般,其原因為產后抑郁癥尚無統一的診斷標準,主要依據愛丁堡產后抑郁量表得分結合臨床抑郁癥藥物處方開具來輔助診斷且測量時間不固定;且納入模型來自不同國家,研究地區及研究對象的差異均會導致預測模型間存在較大差異,從而降低模型適用性[25]。此外,多數模型缺乏外部驗證,其外推性受到限制。因此未來研究應增加樣本量,采取地理驗證、時間驗證等方法擴展模型性能,加強適用性,促使PPD預測模型在臨床預防工作的應用。
3.2 PPD預測模型的高危因素
最終模型包含的預測因子4~13個,主要分為幾類:產前抑郁或產前相關病史、人口經濟學、生物學、相關醫療診斷和產科相關特征等。產前抑郁史或產前相關精神病史為出現頻率最高的預測因子,有產前抑郁或與抑郁相關診斷的孕產婦發生產后抑郁的概率更大,這也與多項研究一致[26-27]。推測原因可能是產后抑郁大多數是產前心理問題和情緒障礙的延續[28],而分娩后產婦體內的雌激素、神經內分泌激素急劇下降,導致其發生抑郁的可能性增加。PPD相關的人口經濟學因素包括年齡、吸煙史、社會經濟地位、剝奪指數、孕前BMI、種族,模型顯示對產后抑郁具有良好的預測能力。但部分因素與PPD的關系仍存在爭議,如土耳其一項研究表明,PPD與母親的教育狀況、結婚年齡、初產年齡等無顯著關系[29],考慮到不同地區、文化背景等方面影響,PPD的預測因子在不同國家和地區可能有所差異。在生物學因素方面,有研究認為妊娠期糖尿病可能與產后抑郁存在關聯,推測其與炎癥反應、下丘腦-垂體-腎上腺(hypothalamo-pituitary-adrenal,HPA)軸和心理-行為等方面的機制有關[30]。此外,也可能與產后女性對抑郁癥和葡萄糖耐量受損的脆弱性增加有關。有研究認為與甲狀腺相關的激素水平是重要的生物學預測因子之一,雖然有研究者認為抗甲狀腺過氧化物酶抗體陽性的狀態是易患抑郁癥的可能標志物,但目前尚未得出結論[31]。但也有研究表明妊娠早期抗甲狀腺過氧化物酶抗體滴度升高的女性首次發生抑郁癥的風險更高[32]。此外,TSH水平變化對PPD的發生具有預測作用也得到了一致結論[33-34]。另外,孕酮[35]水平、妊娠劇吐及產科其他特征也是很重要的預測因子,今后可從以上角度深入研究產后抑郁發生發展的可能機制,也提示可尋找更適用于臨床實踐的生物學因子來作為PPD的預測因子。
本系統評價存在一定的局限性:① 僅納入中、英文文獻,可能存在發表偏倚;且納入的產后抑郁癥風險預測模型偏倚風險較高。② 由于數據源及評價工具等的不同,只進行了定性分析,導致評價結果相對局限,在納入文獻時,可能因未進行內/外部驗證而排除了部分高質量研究,這可能會造成選擇性偏倚。③ 受不同國家文化和人群的差異,研究的適用性存在一定差異,尚不可直接用于臨床。
綜上所述,PPD預測模型仍處于發展階段,模型的預測性能較好,但整體偏倚風險較高,適用性有待加強,其在國內臨床的應用相比于國外受到一定的限制。因此在今后的工作中,應加強對已有模型的外部驗證和更新,對模型性能進行定期校準,利用數據挖掘技術充分挖掘產后抑郁的相關因素,探討生物學因子影響產后抑郁癥的相關機制,或者借助電子病例平臺進行更全面的回顧性研究。另外,提高臨床醫護人員對PPD的識別能力,針對其預測因素盡早實行干預,通過人際心理治療[36]等減輕孕產婦孤獨感和提高其社會支持水平來緩解抑郁情緒,從而有效降低孕婦PPD的發病率,保護婦女健康權益。
產后抑郁癥(postpartum depression,PPD)是分娩后最常見的并發癥之一[1],通常于產后4~6周發生,甚至延至產后一年。其發病率因測評工具及測量時間存在差異,但有研究得出PPD的全球合并患病率高達17.7%[2]。多項研究表明產后抑郁癥不僅給母親和家庭帶來不良影響[3],也會對兒童的生長發育造成不良后果(包括體重不足、發育遲緩、兒童情緒障礙等)[4-6]。因此,美國預防服務工作組建議對孕婦和產后婦女進行篩查,以鼓勵早期識別癥狀,適當地轉診和治療[7]。目前,國內外已有大量研究對產后抑郁的預測因子展開探討,建立PPD預測模型,旨在預測PPD風險。但現有模型的偏倚風險和臨床適用性仍不清楚,研究結果能否轉化為臨床實踐的可行性仍有疑問。因此本研究旨在系統地識別和評價孕婦PPD風險預測模型的研究,以期更好地為PPD預測模型的構建及應用提供理論依據。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
隊列研究和病例-對照研究。
1.1.2 研究對象
研究對象為年齡≥18歲的孕產婦,納入標準為產后4周到1年新發產后抑郁、有完整的數據來源。
1.1.3 研究內容
產后抑郁發生風險的預測模型,具有完整的模型建立、驗證和評價過程。
1.1.4 排除標準
① 僅為產后抑郁預測因素、影響因素研究,未構建完整模型或無法用于結局事件發生概率評估;② 重復發表的文獻、無法獲取全文;③ 非中、英文文獻;④ 預測模型包含的預測變量少于2個。
1.2 文獻檢索策略
計算機檢索PubMed、EMbase、Web of Science、VIP、CNKI和WanFang Data數據庫,搜集關于產后抑郁癥風險預測模型的研究,檢索時限均從2013年1月至2023年4月。采用主題詞和自由詞相結合的方式進行檢索,英文檢索詞包括:depression,postpartum、post-natal depression、post-partum depression、postnatal depression、postpartum depression、predict*、risk prediction、risk score、risk assessment、model*、prediction model、prognostic model等;中文檢索詞包括:產后抑郁、產后抑郁癥、風險預測、預測模型、模型、預測因子等。
1.3 文獻篩選與數據提取
2名研究者獨立進行文獻篩選與數據提取。通過閱讀文獻標題與摘要進行初篩,閱讀全文進行復篩,如有分歧,則通過討論或由第三方裁定。確定納入文獻后,基于預測模型研究系統評價的關鍵評估和數據提取清單(critical appraisal and data extraction for systematic reviews of prediction modelling studies,CHARMS)[8],制訂標準化表格用于數據提取。數據提取內容包括第一作者、發表年份、國家、研究設計、測量時間、候選變量、樣本量、缺失數據、建立模型方法、變量選擇、模型性能、模型呈現形式和最終包含的預測因子等。
1.4 納入研究的偏倚風險和適用性評估
2名評價者采用預測模型偏倚風險評價工具(prediction model risk of bias assessment tool,PROBAST)[9]對納入研究的偏倚風險及適用性進行獨立評估,分歧由第三方判定。
1.4.1 偏倚風險
偏倚風險的評估涵蓋了4個領域:研究對象、預測因子、結果、分析。這4個領域一共包括20個問題,每個問題按照“是/可能是”、“否/可能否”和“無信息”來回答。在一個領域中,如果所有問題的回答均為“是/可能是”,則該領域偏倚風險低。其余以此類推。
1.4.2 適用性評估
適用性評估涵蓋3個領域:研究對象、預測因子和結果。各個領域按照:適用性好、適用性差和適用性不清楚來進行評估。如果每個領域適用性好,則該研究總體適用性好;以此類推。
2 結果
2.1 文獻篩選流程及結果
初步檢索共獲得1 170篇文獻,包括PubMed(n=419),Web of Science(n=611),EMbase(n=113)、CNKI(n=12)、WanFang Data(n=10)和VIP(n=5)。最終納入文獻10篇[10-19],其中英文8篇,中文2篇。
2.2 納入研究的基本特征
最終納入10項研究[10-19],歐美國家開展的有5篇,亞洲國家有5篇。7篇[10-12,14-16,19]為回顧性隊列研究,3篇[13,17-18]為前瞻性隊列研究,2篇[12,17]為多中心研究。納入文獻的基本特征及預測結果見表1。

2.3 模型的建立與驗證情況
所有研究均報告了建立模型需要的樣本數量,為371~352 608例,其中2項研究[12-13]未報告結局數量,Munk-Olsen等[19]的研究為迄今為止最大樣本量的隊列研究,該隊列納入了全丹麥初產婦人群,具有一定的代表性。納入的10項研究中,3項[10,12,16]為模型的開發與驗證,其中Amit等[10]的研究采用了多種外部驗證方法,比如地理驗證、時間驗證、隨機拆分驗證(合并3倍交叉驗證),其余7項均為模型的開發研究。在建模的方法選擇上,8項[10-16,18]采取機器學習算法,2項[17,19]采取Logistic回歸分析方法建模,其中Mausto等[12]采取5種不同的機器學習算法,Shin等[14]采取9種不同的機器學習算法來選取最優模型,Shin等[14]得出9種模型的總體分類準確率為0.650(kNN分類算法)到0.791(RF算法),RF方法在受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under the curve,AUC)最高,為0.884。在模型性能方面,9項研究采用AUC報告區分度,范圍為0.71~0.94,均大于0.7,模型性能良好;Munk-Olsen等[19]的研究用C-index來表示模型的預測性能,發現C>0.9表示模型具有高準確度。所有研究均報告了模型驗證時的敏感度、特異度和模型驗證總正確率,6項研究[11-13,15-16,18]報告了陽性預測值、陰性預測值,其中3項研究[10-11,13]還采用Shapley附加解釋均值絕對值作為特征對模型輸出影響的度量,即每個特征對PPD預測的貢獻(表2)。

在預測因子選擇上,3項研究[15,17-18]采用單因素分析篩選有統計學意義的候選預測因子,然后多因素通過Logistic回歸分析或R軟件中的package random forest(Version 4.6)軟件包進行分析。4項研究[10-12,15,19]通過文獻或病例回顧提取變量,1項研究[13]通過自我報告的基線調查數據獲得,還有2項研究[14,16]采取遞歸特征消除、信息增益、順序前進法等方法進行預測變量的選擇。各研究候選預測因子5~156個,最終納入的預測因子4~13個。其中產前抑郁或產前有其他精神障礙史、年齡、種族、社會經濟地位等是最常見的預測因子(表3)。

2.4 偏倚風險和適用性評價結果
2.4.1 與研究對象有關的偏倚
7項研究[11-13,15-17,19]被評為高偏倚風險,原因是回顧性隊列研究有較長的隨訪期,較差的數據質量和無法測量的預測因素[8]均會造成偏倚(表4)。

2.4.2 與預測因子有關的偏倚
10項研究中有2項研究[14,17]在預測因子領域偏倚風險高,因未對預測因子評估者施盲,且預測指標的評估是在了解產后抑郁的情況下進行的。Munk-Olsen等[19]的研究經過驗證和重新校準,使其所有變量具有統計學意義,因此被評為低風險。其余研究也均為低偏倚風險,其中3項研究[13,17-18]為前瞻性研究,即預測因素在結局發生之前,默認采用了盲法,為低風險,2項研究雖是多中心研究,但明確指出按照統一標準評估預測變量(表4)。
2.4.3 與結果有關的偏倚
9項研究[10-13,15-19]被評為低偏倚風險,在“預測因子評估和結果確定的時間間隔是否合理”這一項,因有研究為隊列研究,存在一定的間隔時間,但典型的產后抑郁癥于產后6周內發生,可在3~6個月自行恢復,但嚴重者也可持續1~2年,所以該時間間隔也被考慮為合理[20]。只有Shin等[14]的研究在“結果的分類方法是否合理”這一領域存在偏倚風險(表4)。
2.4.4 與分析有關的偏倚
所有研究均為高偏倚風險或不清楚。對樣本量的處理,3項研究樣本量不足或EPV<20,造成偏倚風險較高[21];對于缺失值的處理,4項研究[12-13,15,17]未報告研究缺失值,3項研究[14,17,19]直接刪除了缺失數據,而此種處理方法可能會導致納入分析的數據偏倚較高,應采用多重插補等方法處理缺失數據;在預測因子篩選的處理上,肖美麗等[18]的研究僅基于單因素分析初步篩選預測因子,并未與其他變量結合進行分析,可能會因自變量的遺漏而產生偏倚[22];在對預測模型性能評估上,有4項研究[10,16-18]未報告或未考慮預測模型過度擬合、欠擬合和最優擬合造成偏倚的風險(表4)。
2.4.5 適用性
在模型適用性方面,6項研究適用性較差,主要體現在預測因子和結局兩個部分,還有4項研究在三個方面適用性均較好,因而總體適用性一般(表4)。
3 討論
3.1 PPD預測模型具有良好的預測性能,但整體偏倚風險較高,適用性有待加強
本研究結果顯示,現有PPD模型具有良好的預測性能,所有模型的AUC均>0.7,且部分模型具有較高的敏感度。但PPD模型整體偏倚風險較高,首先,在研究對象和統計分析領域,7項研究[11-13,15-17,19]采取回顧性隊列研究的調查方法,在一定程度上存在回憶偏倚或結果事件誤分類偏倚,使預測因子和結局的相關性更不確定。另外,測量產后抑郁的測量工具各研究有所差異,Shin等[14]對產后抑郁這一結果的判斷是基于患者健康問卷(patient health questionnaire-2,PHQ-2)所判定的,其余研究則借助專業的愛丁堡產后抑郁問卷篩查量表[4]結合其他臨床手段進行判斷,PHQ-2雖可作為重度抑郁癥篩查標準,但該工具針對孕產婦產后抑郁的測量是否準確尚不清楚[23]。最后,在對缺失數據的處理和是否考慮模型的擬合情況方面,多個研究未采取多重插補法來處理缺失數據,可能會使被排除的對象和最后進行統計分析的納入對象數據差異較大,導致預測結果關聯偏差和模型性能偏差[24]。未來研究可參考PROBAST[9]中的相關條目,通過嚴謹的研究設計實現高質量預測模型的構建,尤其對存在爭議的預測因子應進行更高質量的驗證。本研究結果顯示PPD模型的適用性一般,其原因為產后抑郁癥尚無統一的診斷標準,主要依據愛丁堡產后抑郁量表得分結合臨床抑郁癥藥物處方開具來輔助診斷且測量時間不固定;且納入模型來自不同國家,研究地區及研究對象的差異均會導致預測模型間存在較大差異,從而降低模型適用性[25]。此外,多數模型缺乏外部驗證,其外推性受到限制。因此未來研究應增加樣本量,采取地理驗證、時間驗證等方法擴展模型性能,加強適用性,促使PPD預測模型在臨床預防工作的應用。
3.2 PPD預測模型的高危因素
最終模型包含的預測因子4~13個,主要分為幾類:產前抑郁或產前相關病史、人口經濟學、生物學、相關醫療診斷和產科相關特征等。產前抑郁史或產前相關精神病史為出現頻率最高的預測因子,有產前抑郁或與抑郁相關診斷的孕產婦發生產后抑郁的概率更大,這也與多項研究一致[26-27]。推測原因可能是產后抑郁大多數是產前心理問題和情緒障礙的延續[28],而分娩后產婦體內的雌激素、神經內分泌激素急劇下降,導致其發生抑郁的可能性增加。PPD相關的人口經濟學因素包括年齡、吸煙史、社會經濟地位、剝奪指數、孕前BMI、種族,模型顯示對產后抑郁具有良好的預測能力。但部分因素與PPD的關系仍存在爭議,如土耳其一項研究表明,PPD與母親的教育狀況、結婚年齡、初產年齡等無顯著關系[29],考慮到不同地區、文化背景等方面影響,PPD的預測因子在不同國家和地區可能有所差異。在生物學因素方面,有研究認為妊娠期糖尿病可能與產后抑郁存在關聯,推測其與炎癥反應、下丘腦-垂體-腎上腺(hypothalamo-pituitary-adrenal,HPA)軸和心理-行為等方面的機制有關[30]。此外,也可能與產后女性對抑郁癥和葡萄糖耐量受損的脆弱性增加有關。有研究認為與甲狀腺相關的激素水平是重要的生物學預測因子之一,雖然有研究者認為抗甲狀腺過氧化物酶抗體陽性的狀態是易患抑郁癥的可能標志物,但目前尚未得出結論[31]。但也有研究表明妊娠早期抗甲狀腺過氧化物酶抗體滴度升高的女性首次發生抑郁癥的風險更高[32]。此外,TSH水平變化對PPD的發生具有預測作用也得到了一致結論[33-34]。另外,孕酮[35]水平、妊娠劇吐及產科其他特征也是很重要的預測因子,今后可從以上角度深入研究產后抑郁發生發展的可能機制,也提示可尋找更適用于臨床實踐的生物學因子來作為PPD的預測因子。
本系統評價存在一定的局限性:① 僅納入中、英文文獻,可能存在發表偏倚;且納入的產后抑郁癥風險預測模型偏倚風險較高。② 由于數據源及評價工具等的不同,只進行了定性分析,導致評價結果相對局限,在納入文獻時,可能因未進行內/外部驗證而排除了部分高質量研究,這可能會造成選擇性偏倚。③ 受不同國家文化和人群的差異,研究的適用性存在一定差異,尚不可直接用于臨床。
綜上所述,PPD預測模型仍處于發展階段,模型的預測性能較好,但整體偏倚風險較高,適用性有待加強,其在國內臨床的應用相比于國外受到一定的限制。因此在今后的工作中,應加強對已有模型的外部驗證和更新,對模型性能進行定期校準,利用數據挖掘技術充分挖掘產后抑郁的相關因素,探討生物學因子影響產后抑郁癥的相關機制,或者借助電子病例平臺進行更全面的回顧性研究。另外,提高臨床醫護人員對PPD的識別能力,針對其預測因素盡早實行干預,通過人際心理治療[36]等減輕孕產婦孤獨感和提高其社會支持水平來緩解抑郁情緒,從而有效降低孕婦PPD的發病率,保護婦女健康權益。