抑郁影響約 25% 的癲癇患者。然而,癲癇中篩查抑郁的最佳工具尚未明確。研究的目的是系統篩查關于抑郁篩查工具在癲癇中有效性的文獻。搜索MEDLINE、EMBASE 和 PsycINFO 數據庫時間截至 2016 年 4 月 4 日,對國家或出版語言沒有限制。摘要、全文篩查和數據提取由兩名研究者進行。 納入了在癲癇中評估抑郁篩查工具有效性,并報道了診斷準確性(例如,敏感性、特異性以及陰性和陽性預測值)的研究。使用診斷準確性研究的質量評估第 2 版評估研究質量。適當時,計算診斷準確性的估計中位數和范圍。共篩選 16 070 篇摘要,其中 38 篇符合納入標準。 16 種篩選工具在 13 種語言的文章中驗證了。 最常用的篩查工具是神經系統疾病伴抑郁量表-供癲癇患者使用(Neurological disorders depression inventory for epilepsy,NDDI-E)(n=26)。簡明國際神經精神訪談(Mini international neuropsychiatric interview,MINI)(n=19)是最常用的參考標準。在最常見的截點>15(n=12)中,NDDI-E 的中位靈敏度為 80.5%(范圍 64.0~100.0),特異性為 86.2%(范圍 81.0~95.6)。由于評估截點的多變性、參考標準的使用以及缺乏置信區間(CI)報告,Meta 分析不可行。許多研究證實了抑郁篩查工具,然而,關于診斷準確性的評估報道不一。在實踐中,量表的有效性可能被高估了,因為截點常常是基于研究樣本事后選擇的。雖然,最佳工具的選擇可能因使用環境和可用資源而異,但執行良好的 NDDI-E 是最常用的有效的篩查工具,它向公眾免費開放,并經多種語言驗證,且易于管理。
引用本文: Stephanie J.Gill, SaraLukmanji, Kirsten M.Fiest, 張樂 譯, 熊維希 慕潔 審. 癲癇患者的抑郁篩查工具:對已驗證工具的系統評價. 癲癇雜志, 2018, 4(5): 426-435. doi: 10.7507/2096-0247.20180071 復制
要點
? 在 38 篇研究中,16 種癲癇抑郁篩選工具在 13 種語言中進行了驗證
? NDDI-E 是最常用的有效篩查工具(n=26),MINI 是最常用的參考標準(n=19)
? NDDI-E>13 的截點似乎比推薦的>15 的截點能更好地平衡靈敏度和特異性
? 缺乏診斷準確性評估的報告阻礙了 Meta 分析的進行,這顯示了遵守診斷準確性研究報告規范(Standards for reporting of diagnostic accuracy,STARD)聲明的重要性
? 未來的研究應該開發和/或驗證兒童、青少年和老年癲癇患者中的抑郁篩查工具
根據 2010 年全球疾病負擔研究報告,癲癇是導致殘疾的第二大神經系統疾病。根據最近的一篇 Meta 分析,抑郁在癲癇中很常見,據報道發病率為 23.1%。抑郁可能會降低治療依從性,增加自殺風險,干擾自我管理,并降低癲癇患者的生活質量。通過及時發現和治療抑郁,可能會改善癲癇患者整體健康狀況。
有多種方法可用于檢測抑郁或抑郁癥狀,如精神或心理評估,結構式或半結構式訪談和自查工具。這些篩查工具的使用可能是有效的,因為它們通常是簡短的、標準化的,并且是一種資源密集程度較低的評估抑郁癥狀升高的手段。 許多抑郁篩查工具已被開發用于普通人群,但唯一的癲癇特異性工具是神經系統疾病伴抑郁量表—供癲癇患者使用(Neurological disorders depression inventory for epilepsy,NDDI-E)。
明確可用于臨床抑郁篩查工具很重要,可能有助于臨床醫生辨別伴抑郁的患者,抑郁是癲癇的一個重要共病。本研究的目的是系統地綜合評估癲癇患者抑郁篩查工具有效性的文獻。
1 方法
本研究根據在 PROSPERO 系統評價國際前瞻性登記庫中注冊的一個先驗發表方案進行(CRD42015027425)。所有研究結果均使用系統綜述與 Meta 分析優先報告條目(Preferred reporting items for systematic reviews and Meta-analyses,PRISMA)標準進行報告。本研究主要目的是建立癲癇患者抑郁篩查工具的標準有效性。我們將標準有效性定義為篩選工具在根據一種已知參考標準校準時正確識別抑郁的能力。標準有效性通過報告措施的診斷準確性實現(定義如下)。
1.1 合格標準
根據以下標準納入研究:① 結果是原始數據(即非綜述文章);② 驗證研究;③ 報道癲癇患者中任何抑郁篩查工具相對于一個其他可比的方式[例如:金標準(或可合理地被視為金標準的工具)、其他篩選工具、臨床診斷訪談等]的診斷準確性。為了全面總結可用的標準驗證數據,沒有對用于驗證的參考標準進行限制,盡管只有使用金標準的研究納入了統計分析。
1.2 檢索策略
MEDLINE,EMBASE 和 PsycINFO 數據庫搜索時間截至 2016 年 4 月 4 日,對國家或出版語言沒有限制。檢索策略包括與以下術語相關的主題詞和關鍵詞:癲癇、抑郁和有效性。以前發表的綜述和本評價中包含的所有研究的參考文獻清單均進行了人工檢索,以確保不會遺漏任何論文。摘要和會議記錄均被排除。
1.3 研究選擇
采用兩步法來篩選納入評價的研究。刪除重復項目后(例如,來源于兩個不同數據庫的相同研究),通過篩選標題和摘要,以確定符合預定合格標準的文章。第二步包括對第一階段確定的所有摘要進行全文篩查。如果驗證不包括專門測量抑郁的參考標準,則在研究會在全文階段被排除。所有步驟均由兩名評論者(SG 和 SL)獨立進行,并通過與第3位評論者討論解決分歧。 非英語文章由講相應語言的人使用相同的過程進行篩選。
1.4 數據提取
一個標準化的表格被用來由兩名研究者獨立地提取數據,包括患者的人口學信息和研究內容。當以下數據可獲得時都被提取:研究領域、來源確定(即醫院或三級保健診所)、年齡、性別、參與人數、被驗證的篩查工具、截點評估、用于驗證的參考標準、基于參考標準研究特定的抑郁患病率和診斷準確性的如下測量指標(當報道時):靈敏度(Sensitivity,Se)、特異性(Specificity,Sp)、陽性預測值(Positive predictive value,PPV)、陰性預測值(Negative predictive value,NPV)、真陽性(True positives,TPs)、假陽性(False positives,FPs)、真陰性(True negatives,TNs)、假陰性(False negatives,FNs)、受試者工作特征(Receiver operating characteristic,ROC)曲線下面積(Area under the curve,AUC)、二項回歸系數、Cronbach's α、Kappa、似然比、任何效應修飾/混雜因素評估以及任何推薦的/最佳的截點。
1.5 偏倚風險/質量評估
使用診斷準確性研究的質量評價工具第 2 版 [Quality assessment of diagnostic accuracy studies,version 2,QUADAS-2(www.quadas.org)]評估偏倚風險和適用性。對偏倚的總體評估基于以下 4 個方面的對應情況:① 患者選擇;② 指標測試;③ 參考標準;④ 流程和時間。其中存在多個信號問題以指導對每個方面的評估。如果 4 個領域中的一個或多個被認為具有較高或不明確的偏倚風險,則整體分類被評定為具有較高的偏倚風險。如果所有方面都被評為低偏倚風險,則整體偏倚風險被視為低風險。還使用前面列出的前 3 個域的單個信號問題來評估適用性水平,以確定感興趣的方面是否與評價的問題一致。
1.6 數據綜合和分析
所有納入研究的結果用中位數、范圍和頻率(%)進行匯總。由于研究的異質性(例如:不同評估截點、所用的參考標準等),未進行 meta 分析。只有參考標準通常認為是“金標準”的研究才被用于中位數評估計算。如果一項研究驗證了針對多個參考標準的篩查工具,則使用“最佳”的參考標準,并且只有這一估計被納入匯總統計中以避免過度強調。“最佳”參考標準的確定,是根據其已知的用于診斷抑郁的臨床實用性,或者文獻和我們團隊的精神科專家認為該工具是更廣為人知的金標準。如果兩個或兩個以上的研究在同一截點評估相同版本的篩查工具(使用適當的參考標準,即不是另一種篩查工具),則使用中位數和范圍總結 Se,Sp,PPV,NPV 和 AUC 值。例如,5個研究在截點>11 驗證了 NDDI-E;因此,這些估計值使用中位數和范圍進行匯總。無論評估的截點是什么,所有估計值參見原文鏈接。此外,當可行時,對于偏倚風險高或不明確的研究的 QUADAS-2 每個方面和偏倚風險低的研究的 QUADAS-2 每個方面,分別估算中位數和范圍。當他們發表的論文缺乏細節時,試圖聯系研究作者,但并非均有所回應。
2 結果
2.1 檢索結果
共確定了 16 070 篇摘要,其中 91 篇以全文形式篩查,38 篇符合所有標準。 全文篩查時排除的原因如圖 1 所示。

2.2 研究描述
納入的 38 篇研究是在 1998 年—2016 年間在 20 個國家發布(參見原文鏈接);34 篇以英文出版,3 篇以葡萄牙文出版,1 篇以德文出版。所有研究包括男性和女性參與者,樣本量 44~575(中位數 143)。27 篇研究檢查了≥18 歲的參與者,7 篇研究>16 歲,只有 1 篇研究針對青少年(10~17 歲)。在 3 篇研究中,從報告的平均和中位年齡推斷,這些參與者都是成年人,所有研究都確定他們的樣本來自門診,如高等院校或大學的診所。最后,基于參考標準評估的抑郁患病率中位數為 21.0%(5.7%~30.6%)。
2.3 篩查工具和參考標準
參照 7 個參考標準,16 個篩選工具進行了有效性評估。所有篩選工具的說明見表 1。許多研究對每種工具進行了多項驗證(即針對不同的參考標準),或驗證了不同版本的篩選工具。最常驗證的篩查工具是 NDDI-E(n=26 進行驗證)、Beck 抑郁量表(Beck depression inventory,BDI;n=12 進行驗證,包括修改的 BDI、BDI-快速篩選、BDI-I、BDI-II 和 BDI 的認知情感分量表)、醫院焦慮和抑郁量表[Hospital anxiety and depression scale,HADS;n=10 進行驗證,包括 HADS 總分,HADS 抑郁(HADS-Depression,HADS-D)評分和 1 篇研究使用 HADS 焦慮(HADS-anxiety,HADS-A)評分來評估抑郁]、情緒溫度計(Emotional thermometers,ETs;n=5 進行驗證,包括 ET7、ET4 以及焦慮和抑郁的個別問題)、患者健康問卷 9( Patient health questionnaire 9,PHQ-9;n=4 進行驗證)、患者健康問卷 2(Patient health auestionnaire 2,PHQ-2;n=2 進行驗證)和漢密爾頓抑郁量表(Hamilton rating scale for depression,HAM-D 或 HRSD;n=4 進行驗證,包括 HRSD 17 問和 21 問版本)。NDDI-E 已在包括阿拉伯文、中文、丹麥文、英文、法文、德文、希臘文、意大利文、日文、韓文、葡萄牙文、西班牙文和塞爾維亞文在內的 13 種語言中進行了驗證。
各種用于驗證篩選工具的金標準和/或參考標準包括簡明國際神經精神訪談(Mini international neuropsychiatric interview,MINI;多種不同語言的版本,n=19 進行驗證,包括 MINI、MINI-Plus、MINI 5.0.0 和 MINI 6.0 .0)、未分化的結構化或半結構化的精神/心理學訪談,包括基于精神病咨詢的專家意見(n=10 進行驗證)、復合性國際診斷交談表(Composite international diagnostic interview,CIDI;n=1 進行驗證)、學齡兒童情緒障礙和精神分裂癥表(Schedule for affective disorders and schizophrenia for school aged children- present,K-SADS-P;n=1 進行驗證)和精神疾病診斷與統計手冊臨床定式訪談的第四版和第四版修訂版(Structured clinical interview for the diagnostic and statistical manual of mental disorders,fourth edition and fourth edition-text revision,SCID DSM-IV 和 IV-TR;n=3 進行驗證)。BDI(n=2 進行驗證)和重度抑郁量表(Major depression inventory,MDI;n=3 進行驗證)也用作參考標準。
2.4 性能特點
有 2 篇研究在同一截點驗證了包括 BDI、BDI-II、HRSD-17、PHQ-9 和 PHQ-2 在內的一些篩查工具(表 1)。根據 Se 和 Sp 最高組合的單一估計值,推薦的 BDI-II 的截點是>16(Se,94.4;Sp,90.6),BDI-II 是>11(Se,96.2;Sp,80.0),HRSD-17 是>6(Se,94.4;Sp,80.4),PHQ-9 是≥10(Se,92.0;Sp,74.0),而 PHQ-2 是≥3(Se,80.0;Sp,100.0)。其他篩查工具,如 HAM-D 和 ET7,已通過多項研究得到驗證; 然而,因為研究未驗證相同的截點或未評估相同版本的篩查工具,故而沒有計算中位數和范圍。根據 Se 和 Sp 最高組合的單一估計值,對于 HAM-D 是>16(Se,95.0;Sp,75.5),而對于 ET7 是≥29(Se,85.4;Sp,79.2)。 許多研究沒有驗證相同截點的事實引起了人們對評估截點事后選擇的擔憂,因為通常這些量表具有預先確定的截點。

所有計算的中位數和診斷準確性的估計值范圍見表 1。HADS-D 在最多的截點上進行了驗證(n=10),范圍 3~13,截點為 8 的驗證最多(n=7)。在截點 8 處,HADS 的 Se 中位數(n=7)為 77.1(42.0~87.5),Sp(n=7)為 85.3(72.4~99.1),PPV(n=5)為 58.1(53.6 ~97.2),NPV(n=5)為 94.4(88.7~95.6),而 AUC 在評估截點為 8 處(n=3)的中位數為 0.869(0.72~0.90)。根據 Se 和 Sp 最高組合的單一估計值,HADS-D 的推薦截點為 7(Se,91.0;Sp,100.0)。
NDDI-E 的評估截點數第二多(n=8),但在單一截點>15 的驗證最多(n=12)。在驗證最多的截點>15, Se 中位數(n=12)為 80.5(64.0~100.0),Sp(n=12)為 86.2(81.0~95.6),PPV(n=11)為 59.3(23.0 ~86.0),而 NPV(n=11)為 96.0(88.1~100.0)。NDDI-E 截點>13 為驗證數第二多的截點(n=10), Se 中位數為 83.7(65.4~92.3),Sp 為 86.3(69.6~95.2),PPV 為 65.8(38.5~95.2),NPV 為 94.8(90.9~98.9)。為了更好地理解 NDDI-E 不同截點的 Se 中位數和 Sp 中位數之間的關系,將中位數與截點作圖(圖 2)。顯示 Se 和 Sp 的最佳平衡在>13 的截點。根據 Se 和 Sp 最高組合的單一估計值,NDDI-E 的推薦截點應該是>15(Se 93.3;Sp 94.4)。僅當 2 篇或更多驗證相同工具的研究計算相同截點的 AUC 或者研究估計所有工具的 AUC 時,才計算中位 AUC 估計值。這些估計值包含在表 1 中。 所有篩查工具的中位 AUC 估計值都計算了,包括 BDI(n=2)(AUC 87.4%,78.4~96.3%)、HADS-D(n=3)(AUC 90.7%,79.2~98.9%)、HRSD-17(n=2)(AUC 83.5%,77.4~89.6%)、NDDI-E(n=8)(AUC 90.8%,85.0~98.5%)和 PHQ-9(n=2)( AUC 91.1%,90.5~91.7%)。驗證 NDDI-E 的研究具有最多總 AUC 估計數,并且可以根據所使用的參考標準計算中位 AUC。計算 NDDI-E 總 AUC 的 8 個研究中,6 個用 MINI 的 1 個版本作為參考標準。

只有 NDDI-E (附錄 S5)可能基于研究質量評估分析數據。總體上,低風險和高風險研究的診斷準確性中位評估值的趨勢不一致。例如,NDDI-E 在截點 >13,低偏倚風險研究的 Se 中位值是 84.0,Sp 是 86.6,而高偏倚風險研究的 Se 中位值是 82.5,Sp 是 73.0。相反,在截點>15m,低偏倚風險研究的 Se 中位值是 76.3,Sp 是 85.8,而高偏倚風險研究的 Se 中位值是 80.5,Sp 是 86.2。
2.5 偏倚風險評估
納入的 38 篇研究中,13 篇研究在 4 篇分類中的至少 1 個偏倚風險不明確,而 6 篇研究在 QUADAS-2 等級系統的分類中的至少 1 篇有高偏倚風險(參見原文鏈接)。總體上,這個不明確的或高風險的偏倚歸類為“指標測試”。特殊情況下,如果篩查工具是在不了解參考標準結果情況下被解釋的,風險是不明確的。19 篇研究在所有類別中都是低偏倚風險。
3 討論
該系統評價總結了關于癲癇患者中抑郁篩查工具有效性的文獻。當治療癲癇患者時,選擇可準確檢測抑郁的篩查工具十分重要,因為這樣患者可以得到合理治療,從而提高療效。為了指導臨床實踐中篩查工具的合理選擇,評估這些工具的診斷準確性以確保結果解釋正確十分有必要。篩選工具很少 100% 準確,然而,癲癇抑郁篩查工具最好能提供足夠的信息,以最大限度地正確識別抑郁,但應最大限度地減少潛在危害,如果工具過于敏感,治療可能導致這些潛在危害。
HADS-D 最有效的截點是 8,是推薦用于檢測一般人群抑郁的截點。雖然在癲癇患者驗證 HADS-D 的研究比較少,并且該測試需要一個付費的管理許可證,理論上,它仍然可能是檢測癲癇患者中抑郁的有益工具,因為它不包括可能與疾病本身或藥物的副作用重疊的抑郁的軀體癥狀。NDDI-E 在每個截點均有最多的驗證數量(即最有效的工具),這并不奇怪,因為它是專門為快速檢測癲癇患者的抑郁癥狀而開發的。NDDI-E 被設計成一種簡短而直接的篩查工具,用于神經科門診,作為解決癲癇患者抑郁管理障礙的一種手段。在這篇綜述中,NDDI-E>15 的截點是最有效的截點。NDDI-E 最初是針對 SCID(檢測抑郁的金標準)開發和驗證的。 研究發現,>15 的截點具有最高的 Se、Sp 和 PPV 來檢測重度抑郁,這表明它是檢測抑郁的最佳截點。
盡管 NDDI-E>15 為推薦截點,但當繪制 NDDI-E 的 Se 和 Sp 中位值時,似乎>13 的截點對于檢測癲癇患者中的抑郁也可能是最佳的,因為 Se 和 Sp 曲線在此處匯合,表明 Se 和 Sp 的最佳平衡。該研究結果顯示,NDDI-E>15 和>13 的截點的 Sp 都比 Se 高 [(>15:Sp,86.2;Se,80.5),(>13:Sp,86.3;Se,83.7)],但 Se 和 Sp 都在>13 的截點處略高。 然而,在>13 分的截點驗證 NDDI-E 的 11 項研究中,并非均使用 SCID 檢測抑郁,因此,使用的多種參考標準可能過少或過多呈現真陽性病例,從而導致 NDDI-E 的不同閾值。然而,這可能不是一個重要的問題,因為使用任何參考標準的 NIDDI-E 驗證研究與金標準的中位 AUC 無差異。無論是在低收入國家,還是在中等收入或高收入國家,許多癲癇護理機構的心理健康資源往往受到限制。因此,具有較高 Sp 的工具或截點對于最小化假陽性是理想的,然而在罕見的臨床環境中,可獲得更多精神衛生資源的情況下,可以使用具有較高 Se 的工具或截點來優化癲癇患者中抑郁的檢測。
此外,大部分 NDDI-E 驗證研究都是為了在英語以外的語言中驗證 NDDI-E。作者指出,將 NDDI-E 直接從英文翻譯成相應的語言,然后進行反向翻譯以確保兩個版本之間的可靠性,也稱為 Brislin 技術。雖然這一步應確保可靠的數據進行比較,但必須注意的是,在確定診斷準確性估計值的中位數和范圍時,將這些不同語言的驗證合并在一起。
最常用的參考標準是 MINI。MINI 先前在癲癇患者中針對 SCID 進行了驗證,并且發現在識別當前重度抑郁發作時其與 SCID 高度一致(κ=0.86)。SCID 被廣泛接受為研究中檢測抑郁的金標準;然而,它可能并不是在臨床環境中使用的最佳工具,因為它很費時,應該由心理衛生專業人員實施。MINI 雖然通常被認為是一種簡短的篩查工具,而不是“真正的金標準”,但可以理解的是,它可由訓練有素的工作人員實施,具有局部有效性,并且與 SCID 高度一致,因此被廣泛作為一個參考標準。 最重要的是,在評估篩查工具的診斷準確性時,使用公認的參考標準或金標準(例如 SCID 或 MINI),而不是另一篩選工具(例如 BDI)很重要,因為這可能導致對抑郁的評估不準確。
缺乏對兒童和青少年癲癇患者的抑郁癥篩查工具進行驗證的研究被認為是文獻中的一個重大缺陷,本次綜述的 38 篇研究中只有 1 篇在青少年癲癇患者中進行。該研究認為 NDDI-E 適用于年齡在 10~17 歲的青少年癲癇患者。 據報道,青少年癲癇患者的抑郁患病率為 10%~30%,美國最近 1 篇研究報告青少年患病率為 23%。考慮到青少年抑郁的患病率與癲癇成人患抑郁癥的患病率相似或可能更高,因此抑郁篩查工具在這些年輕人群中的驗證也勢在必行。未來的研究應該著重于開發新的適用于青少年的篩查工具,或者改進傳統上用于成年人的現有篩查工具,如 NDDI-E 青年。希望這些工具可以廣泛用于臨床,以確保改善青少年癲癇患者中抑郁的檢測。在這次綜述中,我們發現篩查工具的截點各不相同,評估篩查工具的語言和參考標準方面有很大變異性,以及由于缺乏診斷準確性評估的標準化報告,不能進行薈萃分析。此外,研究經常更多地報告 AUC 統計和相應的精確評估;然而,這些評估較少提供臨床實用性,因為它們在臨床實踐中更難以解釋和應用。另一問題是缺乏關于評估變異性的報告。值得注意的是,在 34 篇研究中報道了 Se 和 Sp,其中只有 6 篇報告了相應的置信區間。在 32 篇研究中報告了 PPVs 和 NPVs(另有 1 篇研究僅報告 PPVs),只有 4 篇研究報告了相應的置信區間。此外,在許多研究中,PPV 和 NPV 僅報道具有最佳 Se 和 Sp 的截點,而不是所有評估的截點。 然而,預測值不太一般化,因為它們取決于基準比率,而 Se 和 Sp 是主要測試特征,這可能解釋了缺乏預測值報告。根據這些觀察結果,納入足夠的報告標準(如評估的可變性)是非常重要的,因為它可以讓讀者和研究人員進行深入的評估,從而為該領域提供更大的貢獻。為了提高評估篩查工具診斷準確性的研究的價值,文章應遵守已發布的指南,如診斷準確性研究報告規范(Standards for reporting of diagnostic accuracy,STARD)聲明。STARD 聲明提供了包含在已發表文章中的基本項目的綜合列表。
盡管一些研究報告了整體樣本中包含不同亞型的癲癇患者,但他們沒有根據癲癇亞型分層分析結果(例如,偶發與普遍、顳葉與額葉)。未來的研究應該解決基于癲癇亞型的抑郁篩查工具的有效性。在文獻中發現的另一個限制是基于研究樣本選擇事后截點。通過使用基于樣本的方法來選擇報告的截點,可能會高估工具的有效性,因為選擇性報告圍繞截點進行選擇性報告,其中更好的表現部分歸因于抽樣的可變性。因此,這些篩查工具在實踐中可能不如在研究樣本中那樣有效。為了避免這種選擇性報告問題,我們建議研究報告他們評估的所有截點,而不僅僅是高性能截點。 另一個有趣的發現是,當報告 PPV 和 NPV 時,無論工具內部或工具之間的 Se 和 Sp 如何,NPV 總是顯著高于 PPV。這表明個體研究中抑郁發病率相對較低(低至 5.8%)。因為較高的患病率可能會使預測值膨脹,因此,在癲癇患者抑郁患病率低于或高于預期的研究中,必須謹慎解讀所提供的數據,這一點很重要。然而,大多數癲癇抑郁患病率低于預期的研究未報告預測值,由于報告數據有限,而無法進行任何分析。因此,關于哪些情況或樣本可能更精確或更不準確,無法提供更精確的信息。
該系統評價在 3 個大型數據庫中使用了廣泛的搜索策略,對發表語言或日期沒有限制,并使用了包括 PRISMA 報告標準在內的記錄完備的方法。我們的方法還包括評估篩查工具 QUADAS-2 的診斷準確性的研究特定的質量評估,使我們能夠評估納入研究的偏倚風險和適用性。我們觀察到指標測試領域存在較高的偏倚風險。具體來說,很多研究并不清楚他們對篩查工具和參考標準結果的解釋是否是盲法。在許多情況下,我們認為這是一個不確定的報告問題,而不是方法問題。具體而言,由于自評量表的性質得到了評估,因此作者可能認為沒有必要澄清這一點。無論 QUADAS-2 評估如何,所有文章均納入系統評估。事實上,診斷準確性的中位數似乎并不能揭示低偏倚風險或高偏倚風險研究是否會有更好或最差的表現。因此,我們認為在該分析中包括所有研究不影響本研究的最終結論。
本系統評價的另一局限是無法使用 Meta 分析來綜合數據,因此我們無法就所確定的不同篩查工具的最佳截點提出建議。
最后,盡管我們在對這些診斷準確性研究進行系統評價時采用了記錄完備且嚴格的方法,但這些類型的系統評價仍可能僅限于確定研究中的薄弱環節,而不是提供綜合評估,用以提出強有力的建議。
確定用于篩查癲癇患者抑郁的最佳工具時,必須考慮許多因素。最終,理想的工具將取決于篩查工具的特性以及其使用環境的臨床和保健需求。通常,最佳工具將取決于資源可用性。雖然我們沒有足夠的證據就最佳工具和截點作出明確的建議,但我們認為 NDDI-E 對于各種環境可能是最實用的,因為它在公共領域免費提供,評分相對容易,而且它已在多種語言中驗證。本綜述全面概述了目前關于癲癇患者抑郁篩查工具驗證的文獻,我們建議根據現有資源和診所的目的選擇篩查工具(即著重注意 Se、Sp 或 PPV)。未來的研究應側重于通過堅持 STARD 聲明來驗證抑郁篩查工具與最佳參考標準的對照,并考慮在存在嚴重知識缺陷的兒童、青少年和老年人中開發和/或驗證篩查工具。
要點
? 在 38 篇研究中,16 種癲癇抑郁篩選工具在 13 種語言中進行了驗證
? NDDI-E 是最常用的有效篩查工具(n=26),MINI 是最常用的參考標準(n=19)
? NDDI-E>13 的截點似乎比推薦的>15 的截點能更好地平衡靈敏度和特異性
? 缺乏診斷準確性評估的報告阻礙了 Meta 分析的進行,這顯示了遵守診斷準確性研究報告規范(Standards for reporting of diagnostic accuracy,STARD)聲明的重要性
? 未來的研究應該開發和/或驗證兒童、青少年和老年癲癇患者中的抑郁篩查工具
根據 2010 年全球疾病負擔研究報告,癲癇是導致殘疾的第二大神經系統疾病。根據最近的一篇 Meta 分析,抑郁在癲癇中很常見,據報道發病率為 23.1%。抑郁可能會降低治療依從性,增加自殺風險,干擾自我管理,并降低癲癇患者的生活質量。通過及時發現和治療抑郁,可能會改善癲癇患者整體健康狀況。
有多種方法可用于檢測抑郁或抑郁癥狀,如精神或心理評估,結構式或半結構式訪談和自查工具。這些篩查工具的使用可能是有效的,因為它們通常是簡短的、標準化的,并且是一種資源密集程度較低的評估抑郁癥狀升高的手段。 許多抑郁篩查工具已被開發用于普通人群,但唯一的癲癇特異性工具是神經系統疾病伴抑郁量表—供癲癇患者使用(Neurological disorders depression inventory for epilepsy,NDDI-E)。
明確可用于臨床抑郁篩查工具很重要,可能有助于臨床醫生辨別伴抑郁的患者,抑郁是癲癇的一個重要共病。本研究的目的是系統地綜合評估癲癇患者抑郁篩查工具有效性的文獻。
1 方法
本研究根據在 PROSPERO 系統評價國際前瞻性登記庫中注冊的一個先驗發表方案進行(CRD42015027425)。所有研究結果均使用系統綜述與 Meta 分析優先報告條目(Preferred reporting items for systematic reviews and Meta-analyses,PRISMA)標準進行報告。本研究主要目的是建立癲癇患者抑郁篩查工具的標準有效性。我們將標準有效性定義為篩選工具在根據一種已知參考標準校準時正確識別抑郁的能力。標準有效性通過報告措施的診斷準確性實現(定義如下)。
1.1 合格標準
根據以下標準納入研究:① 結果是原始數據(即非綜述文章);② 驗證研究;③ 報道癲癇患者中任何抑郁篩查工具相對于一個其他可比的方式[例如:金標準(或可合理地被視為金標準的工具)、其他篩選工具、臨床診斷訪談等]的診斷準確性。為了全面總結可用的標準驗證數據,沒有對用于驗證的參考標準進行限制,盡管只有使用金標準的研究納入了統計分析。
1.2 檢索策略
MEDLINE,EMBASE 和 PsycINFO 數據庫搜索時間截至 2016 年 4 月 4 日,對國家或出版語言沒有限制。檢索策略包括與以下術語相關的主題詞和關鍵詞:癲癇、抑郁和有效性。以前發表的綜述和本評價中包含的所有研究的參考文獻清單均進行了人工檢索,以確保不會遺漏任何論文。摘要和會議記錄均被排除。
1.3 研究選擇
采用兩步法來篩選納入評價的研究。刪除重復項目后(例如,來源于兩個不同數據庫的相同研究),通過篩選標題和摘要,以確定符合預定合格標準的文章。第二步包括對第一階段確定的所有摘要進行全文篩查。如果驗證不包括專門測量抑郁的參考標準,則在研究會在全文階段被排除。所有步驟均由兩名評論者(SG 和 SL)獨立進行,并通過與第3位評論者討論解決分歧。 非英語文章由講相應語言的人使用相同的過程進行篩選。
1.4 數據提取
一個標準化的表格被用來由兩名研究者獨立地提取數據,包括患者的人口學信息和研究內容。當以下數據可獲得時都被提取:研究領域、來源確定(即醫院或三級保健診所)、年齡、性別、參與人數、被驗證的篩查工具、截點評估、用于驗證的參考標準、基于參考標準研究特定的抑郁患病率和診斷準確性的如下測量指標(當報道時):靈敏度(Sensitivity,Se)、特異性(Specificity,Sp)、陽性預測值(Positive predictive value,PPV)、陰性預測值(Negative predictive value,NPV)、真陽性(True positives,TPs)、假陽性(False positives,FPs)、真陰性(True negatives,TNs)、假陰性(False negatives,FNs)、受試者工作特征(Receiver operating characteristic,ROC)曲線下面積(Area under the curve,AUC)、二項回歸系數、Cronbach's α、Kappa、似然比、任何效應修飾/混雜因素評估以及任何推薦的/最佳的截點。
1.5 偏倚風險/質量評估
使用診斷準確性研究的質量評價工具第 2 版 [Quality assessment of diagnostic accuracy studies,version 2,QUADAS-2(www.quadas.org)]評估偏倚風險和適用性。對偏倚的總體評估基于以下 4 個方面的對應情況:① 患者選擇;② 指標測試;③ 參考標準;④ 流程和時間。其中存在多個信號問題以指導對每個方面的評估。如果 4 個領域中的一個或多個被認為具有較高或不明確的偏倚風險,則整體分類被評定為具有較高的偏倚風險。如果所有方面都被評為低偏倚風險,則整體偏倚風險被視為低風險。還使用前面列出的前 3 個域的單個信號問題來評估適用性水平,以確定感興趣的方面是否與評價的問題一致。
1.6 數據綜合和分析
所有納入研究的結果用中位數、范圍和頻率(%)進行匯總。由于研究的異質性(例如:不同評估截點、所用的參考標準等),未進行 meta 分析。只有參考標準通常認為是“金標準”的研究才被用于中位數評估計算。如果一項研究驗證了針對多個參考標準的篩查工具,則使用“最佳”的參考標準,并且只有這一估計被納入匯總統計中以避免過度強調。“最佳”參考標準的確定,是根據其已知的用于診斷抑郁的臨床實用性,或者文獻和我們團隊的精神科專家認為該工具是更廣為人知的金標準。如果兩個或兩個以上的研究在同一截點評估相同版本的篩查工具(使用適當的參考標準,即不是另一種篩查工具),則使用中位數和范圍總結 Se,Sp,PPV,NPV 和 AUC 值。例如,5個研究在截點>11 驗證了 NDDI-E;因此,這些估計值使用中位數和范圍進行匯總。無論評估的截點是什么,所有估計值參見原文鏈接。此外,當可行時,對于偏倚風險高或不明確的研究的 QUADAS-2 每個方面和偏倚風險低的研究的 QUADAS-2 每個方面,分別估算中位數和范圍。當他們發表的論文缺乏細節時,試圖聯系研究作者,但并非均有所回應。
2 結果
2.1 檢索結果
共確定了 16 070 篇摘要,其中 91 篇以全文形式篩查,38 篇符合所有標準。 全文篩查時排除的原因如圖 1 所示。

2.2 研究描述
納入的 38 篇研究是在 1998 年—2016 年間在 20 個國家發布(參見原文鏈接);34 篇以英文出版,3 篇以葡萄牙文出版,1 篇以德文出版。所有研究包括男性和女性參與者,樣本量 44~575(中位數 143)。27 篇研究檢查了≥18 歲的參與者,7 篇研究>16 歲,只有 1 篇研究針對青少年(10~17 歲)。在 3 篇研究中,從報告的平均和中位年齡推斷,這些參與者都是成年人,所有研究都確定他們的樣本來自門診,如高等院校或大學的診所。最后,基于參考標準評估的抑郁患病率中位數為 21.0%(5.7%~30.6%)。
2.3 篩查工具和參考標準
參照 7 個參考標準,16 個篩選工具進行了有效性評估。所有篩選工具的說明見表 1。許多研究對每種工具進行了多項驗證(即針對不同的參考標準),或驗證了不同版本的篩選工具。最常驗證的篩查工具是 NDDI-E(n=26 進行驗證)、Beck 抑郁量表(Beck depression inventory,BDI;n=12 進行驗證,包括修改的 BDI、BDI-快速篩選、BDI-I、BDI-II 和 BDI 的認知情感分量表)、醫院焦慮和抑郁量表[Hospital anxiety and depression scale,HADS;n=10 進行驗證,包括 HADS 總分,HADS 抑郁(HADS-Depression,HADS-D)評分和 1 篇研究使用 HADS 焦慮(HADS-anxiety,HADS-A)評分來評估抑郁]、情緒溫度計(Emotional thermometers,ETs;n=5 進行驗證,包括 ET7、ET4 以及焦慮和抑郁的個別問題)、患者健康問卷 9( Patient health questionnaire 9,PHQ-9;n=4 進行驗證)、患者健康問卷 2(Patient health auestionnaire 2,PHQ-2;n=2 進行驗證)和漢密爾頓抑郁量表(Hamilton rating scale for depression,HAM-D 或 HRSD;n=4 進行驗證,包括 HRSD 17 問和 21 問版本)。NDDI-E 已在包括阿拉伯文、中文、丹麥文、英文、法文、德文、希臘文、意大利文、日文、韓文、葡萄牙文、西班牙文和塞爾維亞文在內的 13 種語言中進行了驗證。
各種用于驗證篩選工具的金標準和/或參考標準包括簡明國際神經精神訪談(Mini international neuropsychiatric interview,MINI;多種不同語言的版本,n=19 進行驗證,包括 MINI、MINI-Plus、MINI 5.0.0 和 MINI 6.0 .0)、未分化的結構化或半結構化的精神/心理學訪談,包括基于精神病咨詢的專家意見(n=10 進行驗證)、復合性國際診斷交談表(Composite international diagnostic interview,CIDI;n=1 進行驗證)、學齡兒童情緒障礙和精神分裂癥表(Schedule for affective disorders and schizophrenia for school aged children- present,K-SADS-P;n=1 進行驗證)和精神疾病診斷與統計手冊臨床定式訪談的第四版和第四版修訂版(Structured clinical interview for the diagnostic and statistical manual of mental disorders,fourth edition and fourth edition-text revision,SCID DSM-IV 和 IV-TR;n=3 進行驗證)。BDI(n=2 進行驗證)和重度抑郁量表(Major depression inventory,MDI;n=3 進行驗證)也用作參考標準。
2.4 性能特點
有 2 篇研究在同一截點驗證了包括 BDI、BDI-II、HRSD-17、PHQ-9 和 PHQ-2 在內的一些篩查工具(表 1)。根據 Se 和 Sp 最高組合的單一估計值,推薦的 BDI-II 的截點是>16(Se,94.4;Sp,90.6),BDI-II 是>11(Se,96.2;Sp,80.0),HRSD-17 是>6(Se,94.4;Sp,80.4),PHQ-9 是≥10(Se,92.0;Sp,74.0),而 PHQ-2 是≥3(Se,80.0;Sp,100.0)。其他篩查工具,如 HAM-D 和 ET7,已通過多項研究得到驗證; 然而,因為研究未驗證相同的截點或未評估相同版本的篩查工具,故而沒有計算中位數和范圍。根據 Se 和 Sp 最高組合的單一估計值,對于 HAM-D 是>16(Se,95.0;Sp,75.5),而對于 ET7 是≥29(Se,85.4;Sp,79.2)。 許多研究沒有驗證相同截點的事實引起了人們對評估截點事后選擇的擔憂,因為通常這些量表具有預先確定的截點。

所有計算的中位數和診斷準確性的估計值范圍見表 1。HADS-D 在最多的截點上進行了驗證(n=10),范圍 3~13,截點為 8 的驗證最多(n=7)。在截點 8 處,HADS 的 Se 中位數(n=7)為 77.1(42.0~87.5),Sp(n=7)為 85.3(72.4~99.1),PPV(n=5)為 58.1(53.6 ~97.2),NPV(n=5)為 94.4(88.7~95.6),而 AUC 在評估截點為 8 處(n=3)的中位數為 0.869(0.72~0.90)。根據 Se 和 Sp 最高組合的單一估計值,HADS-D 的推薦截點為 7(Se,91.0;Sp,100.0)。
NDDI-E 的評估截點數第二多(n=8),但在單一截點>15 的驗證最多(n=12)。在驗證最多的截點>15, Se 中位數(n=12)為 80.5(64.0~100.0),Sp(n=12)為 86.2(81.0~95.6),PPV(n=11)為 59.3(23.0 ~86.0),而 NPV(n=11)為 96.0(88.1~100.0)。NDDI-E 截點>13 為驗證數第二多的截點(n=10), Se 中位數為 83.7(65.4~92.3),Sp 為 86.3(69.6~95.2),PPV 為 65.8(38.5~95.2),NPV 為 94.8(90.9~98.9)。為了更好地理解 NDDI-E 不同截點的 Se 中位數和 Sp 中位數之間的關系,將中位數與截點作圖(圖 2)。顯示 Se 和 Sp 的最佳平衡在>13 的截點。根據 Se 和 Sp 最高組合的單一估計值,NDDI-E 的推薦截點應該是>15(Se 93.3;Sp 94.4)。僅當 2 篇或更多驗證相同工具的研究計算相同截點的 AUC 或者研究估計所有工具的 AUC 時,才計算中位 AUC 估計值。這些估計值包含在表 1 中。 所有篩查工具的中位 AUC 估計值都計算了,包括 BDI(n=2)(AUC 87.4%,78.4~96.3%)、HADS-D(n=3)(AUC 90.7%,79.2~98.9%)、HRSD-17(n=2)(AUC 83.5%,77.4~89.6%)、NDDI-E(n=8)(AUC 90.8%,85.0~98.5%)和 PHQ-9(n=2)( AUC 91.1%,90.5~91.7%)。驗證 NDDI-E 的研究具有最多總 AUC 估計數,并且可以根據所使用的參考標準計算中位 AUC。計算 NDDI-E 總 AUC 的 8 個研究中,6 個用 MINI 的 1 個版本作為參考標準。

只有 NDDI-E (附錄 S5)可能基于研究質量評估分析數據。總體上,低風險和高風險研究的診斷準確性中位評估值的趨勢不一致。例如,NDDI-E 在截點 >13,低偏倚風險研究的 Se 中位值是 84.0,Sp 是 86.6,而高偏倚風險研究的 Se 中位值是 82.5,Sp 是 73.0。相反,在截點>15m,低偏倚風險研究的 Se 中位值是 76.3,Sp 是 85.8,而高偏倚風險研究的 Se 中位值是 80.5,Sp 是 86.2。
2.5 偏倚風險評估
納入的 38 篇研究中,13 篇研究在 4 篇分類中的至少 1 個偏倚風險不明確,而 6 篇研究在 QUADAS-2 等級系統的分類中的至少 1 篇有高偏倚風險(參見原文鏈接)。總體上,這個不明確的或高風險的偏倚歸類為“指標測試”。特殊情況下,如果篩查工具是在不了解參考標準結果情況下被解釋的,風險是不明確的。19 篇研究在所有類別中都是低偏倚風險。
3 討論
該系統評價總結了關于癲癇患者中抑郁篩查工具有效性的文獻。當治療癲癇患者時,選擇可準確檢測抑郁的篩查工具十分重要,因為這樣患者可以得到合理治療,從而提高療效。為了指導臨床實踐中篩查工具的合理選擇,評估這些工具的診斷準確性以確保結果解釋正確十分有必要。篩選工具很少 100% 準確,然而,癲癇抑郁篩查工具最好能提供足夠的信息,以最大限度地正確識別抑郁,但應最大限度地減少潛在危害,如果工具過于敏感,治療可能導致這些潛在危害。
HADS-D 最有效的截點是 8,是推薦用于檢測一般人群抑郁的截點。雖然在癲癇患者驗證 HADS-D 的研究比較少,并且該測試需要一個付費的管理許可證,理論上,它仍然可能是檢測癲癇患者中抑郁的有益工具,因為它不包括可能與疾病本身或藥物的副作用重疊的抑郁的軀體癥狀。NDDI-E 在每個截點均有最多的驗證數量(即最有效的工具),這并不奇怪,因為它是專門為快速檢測癲癇患者的抑郁癥狀而開發的。NDDI-E 被設計成一種簡短而直接的篩查工具,用于神經科門診,作為解決癲癇患者抑郁管理障礙的一種手段。在這篇綜述中,NDDI-E>15 的截點是最有效的截點。NDDI-E 最初是針對 SCID(檢測抑郁的金標準)開發和驗證的。 研究發現,>15 的截點具有最高的 Se、Sp 和 PPV 來檢測重度抑郁,這表明它是檢測抑郁的最佳截點。
盡管 NDDI-E>15 為推薦截點,但當繪制 NDDI-E 的 Se 和 Sp 中位值時,似乎>13 的截點對于檢測癲癇患者中的抑郁也可能是最佳的,因為 Se 和 Sp 曲線在此處匯合,表明 Se 和 Sp 的最佳平衡。該研究結果顯示,NDDI-E>15 和>13 的截點的 Sp 都比 Se 高 [(>15:Sp,86.2;Se,80.5),(>13:Sp,86.3;Se,83.7)],但 Se 和 Sp 都在>13 的截點處略高。 然而,在>13 分的截點驗證 NDDI-E 的 11 項研究中,并非均使用 SCID 檢測抑郁,因此,使用的多種參考標準可能過少或過多呈現真陽性病例,從而導致 NDDI-E 的不同閾值。然而,這可能不是一個重要的問題,因為使用任何參考標準的 NIDDI-E 驗證研究與金標準的中位 AUC 無差異。無論是在低收入國家,還是在中等收入或高收入國家,許多癲癇護理機構的心理健康資源往往受到限制。因此,具有較高 Sp 的工具或截點對于最小化假陽性是理想的,然而在罕見的臨床環境中,可獲得更多精神衛生資源的情況下,可以使用具有較高 Se 的工具或截點來優化癲癇患者中抑郁的檢測。
此外,大部分 NDDI-E 驗證研究都是為了在英語以外的語言中驗證 NDDI-E。作者指出,將 NDDI-E 直接從英文翻譯成相應的語言,然后進行反向翻譯以確保兩個版本之間的可靠性,也稱為 Brislin 技術。雖然這一步應確保可靠的數據進行比較,但必須注意的是,在確定診斷準確性估計值的中位數和范圍時,將這些不同語言的驗證合并在一起。
最常用的參考標準是 MINI。MINI 先前在癲癇患者中針對 SCID 進行了驗證,并且發現在識別當前重度抑郁發作時其與 SCID 高度一致(κ=0.86)。SCID 被廣泛接受為研究中檢測抑郁的金標準;然而,它可能并不是在臨床環境中使用的最佳工具,因為它很費時,應該由心理衛生專業人員實施。MINI 雖然通常被認為是一種簡短的篩查工具,而不是“真正的金標準”,但可以理解的是,它可由訓練有素的工作人員實施,具有局部有效性,并且與 SCID 高度一致,因此被廣泛作為一個參考標準。 最重要的是,在評估篩查工具的診斷準確性時,使用公認的參考標準或金標準(例如 SCID 或 MINI),而不是另一篩選工具(例如 BDI)很重要,因為這可能導致對抑郁的評估不準確。
缺乏對兒童和青少年癲癇患者的抑郁癥篩查工具進行驗證的研究被認為是文獻中的一個重大缺陷,本次綜述的 38 篇研究中只有 1 篇在青少年癲癇患者中進行。該研究認為 NDDI-E 適用于年齡在 10~17 歲的青少年癲癇患者。 據報道,青少年癲癇患者的抑郁患病率為 10%~30%,美國最近 1 篇研究報告青少年患病率為 23%。考慮到青少年抑郁的患病率與癲癇成人患抑郁癥的患病率相似或可能更高,因此抑郁篩查工具在這些年輕人群中的驗證也勢在必行。未來的研究應該著重于開發新的適用于青少年的篩查工具,或者改進傳統上用于成年人的現有篩查工具,如 NDDI-E 青年。希望這些工具可以廣泛用于臨床,以確保改善青少年癲癇患者中抑郁的檢測。在這次綜述中,我們發現篩查工具的截點各不相同,評估篩查工具的語言和參考標準方面有很大變異性,以及由于缺乏診斷準確性評估的標準化報告,不能進行薈萃分析。此外,研究經常更多地報告 AUC 統計和相應的精確評估;然而,這些評估較少提供臨床實用性,因為它們在臨床實踐中更難以解釋和應用。另一問題是缺乏關于評估變異性的報告。值得注意的是,在 34 篇研究中報道了 Se 和 Sp,其中只有 6 篇報告了相應的置信區間。在 32 篇研究中報告了 PPVs 和 NPVs(另有 1 篇研究僅報告 PPVs),只有 4 篇研究報告了相應的置信區間。此外,在許多研究中,PPV 和 NPV 僅報道具有最佳 Se 和 Sp 的截點,而不是所有評估的截點。 然而,預測值不太一般化,因為它們取決于基準比率,而 Se 和 Sp 是主要測試特征,這可能解釋了缺乏預測值報告。根據這些觀察結果,納入足夠的報告標準(如評估的可變性)是非常重要的,因為它可以讓讀者和研究人員進行深入的評估,從而為該領域提供更大的貢獻。為了提高評估篩查工具診斷準確性的研究的價值,文章應遵守已發布的指南,如診斷準確性研究報告規范(Standards for reporting of diagnostic accuracy,STARD)聲明。STARD 聲明提供了包含在已發表文章中的基本項目的綜合列表。
盡管一些研究報告了整體樣本中包含不同亞型的癲癇患者,但他們沒有根據癲癇亞型分層分析結果(例如,偶發與普遍、顳葉與額葉)。未來的研究應該解決基于癲癇亞型的抑郁篩查工具的有效性。在文獻中發現的另一個限制是基于研究樣本選擇事后截點。通過使用基于樣本的方法來選擇報告的截點,可能會高估工具的有效性,因為選擇性報告圍繞截點進行選擇性報告,其中更好的表現部分歸因于抽樣的可變性。因此,這些篩查工具在實踐中可能不如在研究樣本中那樣有效。為了避免這種選擇性報告問題,我們建議研究報告他們評估的所有截點,而不僅僅是高性能截點。 另一個有趣的發現是,當報告 PPV 和 NPV 時,無論工具內部或工具之間的 Se 和 Sp 如何,NPV 總是顯著高于 PPV。這表明個體研究中抑郁發病率相對較低(低至 5.8%)。因為較高的患病率可能會使預測值膨脹,因此,在癲癇患者抑郁患病率低于或高于預期的研究中,必須謹慎解讀所提供的數據,這一點很重要。然而,大多數癲癇抑郁患病率低于預期的研究未報告預測值,由于報告數據有限,而無法進行任何分析。因此,關于哪些情況或樣本可能更精確或更不準確,無法提供更精確的信息。
該系統評價在 3 個大型數據庫中使用了廣泛的搜索策略,對發表語言或日期沒有限制,并使用了包括 PRISMA 報告標準在內的記錄完備的方法。我們的方法還包括評估篩查工具 QUADAS-2 的診斷準確性的研究特定的質量評估,使我們能夠評估納入研究的偏倚風險和適用性。我們觀察到指標測試領域存在較高的偏倚風險。具體來說,很多研究并不清楚他們對篩查工具和參考標準結果的解釋是否是盲法。在許多情況下,我們認為這是一個不確定的報告問題,而不是方法問題。具體而言,由于自評量表的性質得到了評估,因此作者可能認為沒有必要澄清這一點。無論 QUADAS-2 評估如何,所有文章均納入系統評估。事實上,診斷準確性的中位數似乎并不能揭示低偏倚風險或高偏倚風險研究是否會有更好或最差的表現。因此,我們認為在該分析中包括所有研究不影響本研究的最終結論。
本系統評價的另一局限是無法使用 Meta 分析來綜合數據,因此我們無法就所確定的不同篩查工具的最佳截點提出建議。
最后,盡管我們在對這些診斷準確性研究進行系統評價時采用了記錄完備且嚴格的方法,但這些類型的系統評價仍可能僅限于確定研究中的薄弱環節,而不是提供綜合評估,用以提出強有力的建議。
確定用于篩查癲癇患者抑郁的最佳工具時,必須考慮許多因素。最終,理想的工具將取決于篩查工具的特性以及其使用環境的臨床和保健需求。通常,最佳工具將取決于資源可用性。雖然我們沒有足夠的證據就最佳工具和截點作出明確的建議,但我們認為 NDDI-E 對于各種環境可能是最實用的,因為它在公共領域免費提供,評分相對容易,而且它已在多種語言中驗證。本綜述全面概述了目前關于癲癇患者抑郁篩查工具驗證的文獻,我們建議根據現有資源和診所的目的選擇篩查工具(即著重注意 Se、Sp 或 PPV)。未來的研究應側重于通過堅持 STARD 聲明來驗證抑郁篩查工具與最佳參考標準的對照,并考慮在存在嚴重知識缺陷的兒童、青少年和老年人中開發和/或驗證篩查工具。