近十年,在藥品不良反應監測領域,基于醫療保健數據庫的安全信號檢測方法受到越來越多的關注,已成為彌補自發報告固有局限性的重要手段。目前數據挖掘方法主要基于比值失衡分析法(disproportionality analysis)、傳統藥物流行病學設計(如自身對照設計)、序列對稱分析(sequence symmetry analysis,SSA)、序貫統計檢驗(sequential statistical testing)、時序關聯規則(temporal association rules)、監督機器學習(supervised machine learning,SML)、樹狀掃描統計量方法(tree-based scan statistic)等。本文從應用場景和實用性角度對醫療保健數據庫中安全信號檢測方法及其性能進行介紹。
引用本文: 王巍巍, 張格, 楊智榮, 馬曉潔, 孫鳳, 詹思延, 譯. 醫療保健數據庫的安全信號檢測方法概述. 中國循證醫學雜志, 2021, 21(4): 475-481. doi: 10.7507/1672-2531.202011104 復制
隨著我國經濟快速增長以及醫療體制改革,醫藥行業市場規模不斷擴大,藥品銷量顯著增長。與此同時,藥品的安全性也受到越來越多的關注,在治療疾病的同時預防潛在的藥物不良反應發生,從而實現有效、合理、安全的用藥。藥品不良反應監測工作彌補了藥品上市前研究的局限性,是發現藥品上市后安全性問題的重要手段,為藥品監管工作提供了有力支撐。自發呈報(spontaneous reporting,SR)是藥品不良反應監測中使用最廣泛的安全信號檢測方法[1-3],適用于發現罕見、嚴重的藥品不良反應(adverse drug reaction,ADR),如大皰疹、粒細胞缺乏和肝毒性[4]。過去幾十年間,大多數藥品撤市都源于 SR[5, 6]。但是,SR 也有其局限性,可能存在瞞報、漏報或選擇性報告[7-10],導致安全信號發現延遲。由于藥物與不良反應的因果關聯的時間順序難以確定,識別藥品不良反應的效率低下,例如質子泵抑制劑相關的肺部感染[11, 12]和羅非昔布引起的心肌梗死[13-15],均在上市后 1 年甚至更長的時間才被發現。
雖然基于 SR 的信號檢測方法在不斷進步[16-19],但大型醫療保健數據庫可以追蹤數百萬人群隊列數據,優勢日益突出,可作為 SR 的補充方法協同發揮藥品安全信號檢測的作用[20, 21]。近年來,歐洲發起的“歐盟藥物流行病學治療結局研究”[22]項目(the Pharmaco-epidemiological Research on Outcomes of Therapeutics by a European Consortium,PROTECT)、美國的哨點監測系統[23, 24]、觀察性健康醫療數據科學與信息學聯盟(Observational Health Data Science and Informatics,OHDSI)[25, 26]和亞洲藥物流行病學協作網(the Asian Pharmaco- epidemiology Network,AsPEN)[27, 28],倡導通過對臨床記錄和生物醫學知識進行整合挖掘,探索發現和了解藥品不良反應[29]。
利用醫療保健數據庫中的海量信息建立新的上市后監測系統的愿景,不僅為藥品不良反應信號的探索提供了新思路和路徑,同時也催生了很多新方法,本文的目的是對目前利用醫療保健數據庫進行安全信號檢測的方法以及優缺點進行概述。
1 醫療保健數據庫安全信號檢測方法
目前,醫療保健數據庫安全信號檢測方法主要分為以下幾類:比值失衡分析法(disproportionality analysis)、傳統藥物流行病學設計(如自身對照設計)、序列對稱分析(sequence symmetry analysis,SSA)、序貫統計檢驗(sequential statistical testing)、時序關聯規則(temporal association rules)、監督機器學習(supervised machine learning,SML)和樹狀掃描統計量方法(tree-based scan statistic)。現有數據挖掘方法的優缺點見表 1。

1.1 比值失衡分析法
比值失衡分析法是 ADR 監測工作中廣泛應用的一種方法。該方法基于 SR 數據庫開發,自發報告數據均以列聯表形式呈現,列聯表的維度對應報告的藥物-事件對。基于 2×2 列聯表(四格表)計算藥品-事件對的觀察值與期望值的比值,若超過預先規定閾值,則稱之為失衡(表 2)。目前主要使用 4 種方法,報告優勢比(reporting odds ratio,ROR)、比例報告比(proportional reporting ratio,PRR)、貝葉斯可信區間遞進神經網絡法(bayesian confidence propagation neural network,BCPNN)和伽馬泊松縮減法(the Gamma Poisson Shrinker,GPS)[30],這些方法的不同之處在于測量比值失衡的方法不同,以及在分析中如何考慮低計數問題[30-33]。

1.1.1 模擬自發呈報方法
比例失衡分析法應用到醫療保健數據庫面臨的主要問題是如何將縱向數據生成類似自發呈報數據庫的格式。已有學者開展了相關研究,例如 Curtis 認為,對于每個患者,以月為觀察時間單位內發現的安全性報告很可能是虛假報告,包括藥物暴露的一個月內發生的所有事件,一種情況是只有藥物暴露而沒有任何相關事件報告,另一種情況是沒有任何藥物暴露卻報告了事件[34]。在 Choi[35, 36]的研究中,觀察時間始于藥物處方,結束于 12 周末,只有發生在觀察期間的事件視為“報告”。Zorych 則建議將藥物暴露持續時間視為觀察時間,并且采用 3 種方法來構建四格表,用于比值失衡分析。第一種方法是,列聯表中的每個患者只計數一次,四個格子數之和等于患者總數,并按照藥物暴露期間患者是否發生事件進行分類。另外兩種方法分別是觀察時間內發生的所有事件均納入研究和只將觀察時間內首次發射的事件納入研究,具體方法請參考 Curtis[34]、Choi[35, 36]和 Kim[37]的研究。
1.1.2 縱向伽馬泊松縮減(Longitudinal Gamma Poisson Shrinker,LGPS)
GPS 的核心思想是估計數據庫觀察到的 ADR 與預期發生的 ADR 的比值,通過貝葉斯分析的一般準則,修訂效應估計值,計算經驗貝葉斯幾何平均數,若其置信區間下限大于 2,則提示產生一個陽性信號。推斷目標藥品與目標 ADR 的關聯。在 GPS 的基礎上,Schuemie 進行了改進,將患者暴露與未暴露的時間納入分析,以更好的利用縱向數據信息,稱為 LGPS[38]。由于 LGPS 借鑒了自身對照設計,可以有效控制年齡、性別等非時間依賴性的混雜因素。為更好地識別和控制適應癥偏倚,作者建議將 LGPS 和藥品相關不良事件縱向觀察評估(longitudinal evaluation of observational profiles of adverse events related to drugs,LEOPARD)方法相結合,比較事件發生前后的某一固定時間窗內的處方比例,如果事件發生后的處方比例高于事件發生前,LEOPARD 則認為這種關聯是由適應癥偏倚(indication bias)導致的[38]。LGPS 通過貝葉斯判別方法綜合先驗信息和樣本信息,有效改進統計決策,自動化程度高,適用于醫療保健數據庫進行信號挖掘。
1.2 傳統藥物流行病學方法
在既往研究中,OMOP 和 EU-ADR 主要采用基于傳統藥物流行病學研究設計的方法[39-42]。此類研究設計主要分為 2 個步驟:① 根據暴露(隊列研究)或事件(病例-對照研究)前瞻或回顧地識別兩組患者;② 比較兩組藥品相關事件的發生率。通常需要采用統計工具來控制預先假設的混雜因素(例如合并用藥)。
1.2.1 首次用藥隊列設計
首次用藥隊列設計的原理是:① 從患者首次用藥開始建立前瞻性隊列進行隨訪:一個隊列納入首次暴露于目標藥物的患者,而另一個隊列納入首次暴露于其他藥物的患者(通常是有共同適應癥的藥物);② 比較兩個隊列中的目標藥物不良事件發生率。
首次用藥隊列設計應用廣泛,控制混雜因素的方法較為成熟[41, 43],包括 Mantel-Haenszel 校正[41]、傾向評分或高維傾向評分和匹配。此外,還可考慮采用懲罰 Logistic 回歸模型(例如 Lasso 回歸[44],通過選擇混雜效應較強的協變量納入到經典 Logistic 回歸模型[43]中,達到處理多個協變量的目的。但應注意的是,首次用藥隊列設計不適用于罕見不良反應事件。
1.2.2 匹配病例-對照設計
匹配病例-對照設計的原理是:① 從給定的日期開始,回顧性地分析匹配的兩組患者(例如年齡、性別等混雜因素)既往藥物暴露情況。病例組是發生了目標事件的患者,對照組是未發生目標事件的患者;② 比較兩組目標藥物暴露的優勢比。
大型醫療保健數據庫使得巢式病例-對照研究設計得以廣泛應用,大大提高了組間可比性。雖然傾向評分或疾病風險評分控制混雜因素在理論上是可行的,但尚未在采用匹配病例-對照設計的信號檢測方法中得到驗證[41, 45],因此,建議謹慎使用。
1.2.3 自身對照設計
自身對照設計,是對每個患者在風險期和對照期的事件發生率進行比較,估計暴露和特定事件的相對危險度。自身對照設計很好地控制了非時依混雜(如慢性合并癥)和個體水平的混雜因素(如遺傳風險因素)。
在安全信號檢測研究中廣泛應用的有 3 種自身對照設計[46, 47]。自身對照病例系列(self-controlled case series,SCCS)設計,僅關注既暴露于藥物又至少經歷過一次目標事件的患者。當對患者進行前瞻性隨訪觀察時,可以看作隊列研究的衍生設計進行分析。通過懲罰回歸模型,在 SCCS 設計中利用高維多變量調整,控制時依混雜因素(如急性疾病)[46]。SCCS 常用于罕見事件的研究,通常假設罕見事件發生服從 Poisson 分布。
病例交叉(case-crossover,CC)設計,采用病例-對照研究設計,回顧性比較同一個體在危險期和對照期內的藥物暴露,目前尚無特定統計工具來控制時依混雜。CC 通常適用于估計急性不良事件發生的危險性。
自身對照隊列(self-control cohort,SCC)設計不同于 SCCS 和 CC:關注所有暴露于目標藥物的患者是否發生過目標事件,事件發生的風險比值是在藥物暴露后事件發生率與暴露前事件發生率的比值。與 CC 類似,除分層分析外,SCC 無法控制時依混雜[47]。
1.3 SSA
1988 年 Petri 首次提出 SSA[48],Hallas 于 1996 年明確闡述 SSA 概念[49]。SSA 的目的是比較給定時間窗內 2 種藥物暴露 A 和 B 的起始使用次序,其中藥物 A 是目標暴露藥物(指示藥),藥物 B 是潛在不良反應的標簽藥。如果藥物 A 引起不良反應,其對癥治療是藥物 B,首先暴露于藥物 A 并隨后暴露于藥物 B 的患者數量預計會遠遠多于首先暴露于 B 藥(暴露于 A 藥之前)的患者。計算指標為粗序列比(crude sequence ratio,CSR),由處方 A 藥并隨后處方 B 藥的患者數量除以先處方 B 藥后處方 A 藥的患者數量所得。
通常認為,粗序列比不受非時依混雜影響,但對處方趨勢變化較為敏感。例如,如果在研究期間藥物 A 報銷比例增加而藥物 B 保持不變,導致藥物 A 的處方超過藥物 B,可能對潛在信號檢測產生干擾。Hallas 提出通過將粗序列比除以空效應序列比(the null-effect sequence ratio,NESR)來校正時間趨勢,空效應序列比是假定藥物 A 和藥物 B 沒有任何因果關聯的情況下的序列比[49],可以反映研究周期內處方頻率的變化趨勢。Tsiropoulos 對空效應序列比進行了略微調整,適用于短觀察時間窗的情況,并且驗證了使用住院診斷來代替標簽藥品報銷來篩選不良事件的策略[50]。
1.4 序貫統計檢驗法
序貫統計檢驗法,是在前瞻性隊列中,持續地(例如每月)檢驗藥物與不良事件關聯的假設:暴露組患者的事件發生率比未暴露組高,適用于常規藥品安全信號檢測活動。每一次新的分析都納入自上次分析以來暴露或未暴露于目標藥物的新患者人數,以及已經在上次分析納入患者新增的暴露時間。若檢驗統計量超過預先設定的臨界值,可以判定信號增強。為減少假陽性,要求多重比較的總體Ⅰ類錯誤水平控制在 0.05。
1.4.1 最大化序列概率比檢驗(the maximized sequential probability ratio test,maxSPRT)
Brown 等將 maxSPRT 應用于疫苗安全性監測活動,該方法原理是序貫地采用對數似然比(log likelihood ratio,LLR)檢驗基于大型歷史對照隊列數據得出的統計量。Kulldorf 則建議同時收集暴露和未暴露患者發生的目標事件,以適用于歷史對照人群難以獲得的情況,例如新藥上市后的安全信號檢測。該方法采用固定比例(1∶M)對暴露組和對照組進行匹配,以便控制混雜因素。隨后,Cook 提出了廣義的 LLR 檢驗統計量,考慮納入所有的患者而不僅僅是發生目標事件的患者,這樣在目標事件發生率增加時,參數估計可以提供更可靠的結果[51]。
1.4.2 條件序貫抽樣法(the conditional sequential sampling procedure,CSSP)
考慮到 maxSPRT 無法處理長期藥物暴露[51],Li[52]提出 CSSP。該方法的原理是,首先按是否暴露將人群分為兩組,根據每個混雜因素的分類再次進行分層分析,計算在各層累積的藥物暴露時長和事件數。在分析時,將觀察到的不良事件總數與通過條件序貫抽樣法計算所得預期臨界值(對應于每層患者預期發生的事件數)進行比較得到對應的檢驗統計量。
1.5 時間關聯規則(the temporal association rules,TAR)方法
在不良反應信號檢測中,TAR 算法需要滿足 2 個條件:① 事件發生在藥物暴露之后;② 事件發生在一個預先設定的時間窗內(例如風險期)。對于給定的藥物,按順序對所有潛在的事件進行挖掘,使用興趣度計算相關程度。
1.5.1 MUTARA/HUNT
Jin[53]提出了在給定先驗的情況下挖掘非預期 TAR(mining the unexpected TARs given the antecedent,MUTARA)算法,此算法要求滿足第 3 個條件,即非預期事件。對暴露于目標藥物的患者而言,需要在藥物暴露開始前設定參考期。如果在參考期觀察到目標事件,通常認為該事件基本不可能是 ADR,可以考慮排除,然后在過濾的數據中計算相關得分。
考慮到可能存在適應癥偏倚[39],興趣度的測量方法可能檢測出虛假信號。一種新的測量方法應運而生,該方法計算了基于整個數據中得出的相關分數與過濾數據得出的相關分數的比值。該方法被命名為“highlighting unexpected TARs negating TARs,HUNT”[54]。
1.5.2 時序模式識別(temporal pattern discovery,TPD)
Norén 提出 TPD 法,該方法通過分析藥品開始暴露前的多個對照期,來調整隨時間變化的事件發生率[55]。對照期的設置,需考慮同一患者和其他患者使用與目標藥物有共同適應癥的藥物的情形。TPD 興趣度的測量方法,是計算風險期與對照期的期望數與觀察數的比值比,計算每個對照時期的比值比,然后選出最小值。在目標事件發生數量較少時,為了保證結果更加穩健,不受隨機變異的影響,可以對比率進行轉換:① 在分子和分母上同時添加一個常數,使比值比趨近于 1(即沒有關聯);② 將比率轉換為以 2 為底的對數[55],使分布更加穩定。
1.5.3 模糊邏輯規則(fuzzy logistic rule-based)
Ji[56-58]提出一種將 TAR 算法和模糊邏輯規則相結合的方法,來增加 TAR 定義中藥物事件對的因果關聯強度。使用模糊規則計算藥物事件對的每個病例的因果關聯得分。得分要素包括:時序、存在其他可能的解釋、去激發和激發試驗。例如,模糊規則中的時序性即關聯的時間順序有三種情況:很可能、可能或不可能,判斷則取決于暴露開始和事件發生之間的持續時間。總得分取決于模糊規則的每個值(“很可能”賦值為 1)。所有的個體得分組合在一起,為每個藥物事件對的因果關聯強度提供一個總體分數,然后納入興趣度的計算。
1.6 監督機器學習(SML)法
SML 的基礎算法可以分為兩步(見原文圖 1)。第一步,通過參考集來訓練分類器(例如隨機森林模型),其中包括先驗的相關或不相關的藥物-事件對。對于每個藥物-時間對,從訓練數據樣本中提取出與關聯對應的預定參數向量。所有向量構成分類器的輸入數據,通過重復抽樣和雜質標準訓練,從而確定最佳參數,以識別真正的因果關聯。第二步,對提取的藥物事件對選定參數進行測試,采用訓練好的分類器預測新的 ADR。
Reps 最早提出 SML,其中隨機森林模型分類器所需的參數來自 6 個隊列研究得出的 6 個相對危險度[59]。雖然這些隊列研究使用相同的風險人群和固定的風險期,但同時考慮了不同的對照人群和對照時期。分析過程中未采用統計方法校正混雜因素。若對照的設置發生變化,采用 3 個附加參數指示關聯強度的偏差。
隨后,Reps 提出 SML 更新版本,涵蓋了來源于 Bradford-Hill 因果關聯準則的參數,減少虛假 ADRs 信號。對于每一個經過篩選的藥物-事件對,根據年齡、性別、藥物劑量和合并用藥數量計算得到 27 個參數:其中 17 個參數參考 Bradford-Hill 的 5 項準則,包括關聯強度、時序、實驗證據、劑量反應關系、特異性,其他 10 個參數基于根據 ICD-10 確定的事件定義變化產生的偏差。
1.7 樹狀掃描統計量(tree-based scan statistic)
Kulldorff 提出樹狀掃描統計量方法,基本原理是將研究對象按照事件編碼的分類層級從屬關系[60]映射到樹狀結構中:根對應于給定事件的最寬泛定義,節點對應于不同的亞水平定義,葉子對應于最精細的定義,分支將三個元素連接在一起(見原文圖 2a)。對于每個葉子節點,計算調整年齡和性別的預期目標事件數和觀察到的目標事件數。然后,使用對數似然比統計量對給定根、節、葉事件路徑的所有可能樣本(見原文圖 2b)進行檢驗。該方法的假設檢驗基于蒙特卡洛假設檢驗(Monte-Carlo hypothesis test)的 P 值,并在多重比較過程中調整 P 值,為了避免總體Ⅰ類錯誤膨脹,要求總體Ⅰ類錯誤控制在 0.05 水平[61]。
2 不同方法比較
OMOP 和 EU-ADR 合作項目在評估基于比值失衡分析法和傳統藥物流行病學設計的方法后,認為自身對照的設計性能最佳,而比值失衡分析法效率較低[39, 41, 42]。TPD 的性能雖然好[39, 42],但是 Reps 的研究表明 TAR 算法和比值失衡法的性能接近,受試者工作特征曲線下面積(area under receiver operating characteristic,AUC)略高于 0.5,應用效果不理想[62]。各研究用于計算的參考數據集本身可能存在一些局限性,例如樣本量較小[41]、藥物種類異質性太大而無法合并(例如抗生素)[52]或者不良事件的定義不明確[39, 42],因此對于研究結果的解讀和應用需慎重。研究表明,SSA 的靈敏度和特異度與自身對照設計性能相當,甚至更優[63],其他研究也佐證了基于 SSA 在醫療保健數據庫中推廣應用的可信度[64-67]。一項模擬研究發現,在安全信號檢測中,如果目標藥品的使用率和使用趨勢發生改變[65],SSA 可以提供可靠的效應估計[64, 66]。最新的一項研究采用 SSA 發現了新的安全信號(例如組胺拮抗劑和心力衰竭),不僅存在生物學機制合理性,而且在病例報告中得到了印證[67]。Reps 在 THIN 數據庫中評估了 2 個版本 SML 的性能,AUC 均大于 0.8,結果提示均優于自身對照設計[59, 68],但應注意該研究使用 Bradford-Hill 準則的版本中,陽性標準信號只占 10%,與陰性信號的巨大差異可能會夸大預測能力[69]。另一版本的 SML[59]中,陽性標準信號納入了藥品常見的不良反應(例如惡心),陰性信號納入了與藥品不太可能有關的不良事件(例如被狗咬傷),這也可能高估該方法的預測能力。樹狀掃描統計量方法則無需通過標準參考集測試,采取半定量的方法即可檢測醫療保健數據庫中新的安全信號,并進一步開展調查研究。
從性能評估來看,自身對照設計、SSA 和 SML 法可能是醫療數據庫中安全信號檢測的最優候選方法。與 SML 法相比,自身對照設計、SSA 的安全信號檢測性能略低,但是可實現更密集的評估,并且已經在不同的健康數據庫中通過了實證,也在模擬研究中得到了驗證[38-43, 45-50, 63-67]。相比之下,SML 法的研究信息較少,目前僅在一個醫療保健數據庫[59, 68]中得以應用,有待深入研究和評價。總體而言,自身對照設計和 SSA 的檢測性能更優。
3 討論
對于常規信號檢測而言,具體應該選擇使用哪種方法,不僅應考慮統計特征,實用性也很關鍵,建議從以下三個方面進行考慮:是否達到了信號檢測的預期目標,方法和原理是否容易理解,該方法是否提供了參考指標指導篩選不良信號,以幫助決策者處理特定情況下檢測出的大量信號。
從定義上來看,信號檢測需要篩選數據庫中記錄的所有藥物-事件對,尤其關注非預期的 ADR(性質或頻率),無需對潛在關聯進行先驗假設,同時避免事先否定某個藥物-事件對。與 SSA 和 SML 法相比,自身對照設計和其他通用的藥物流行病學設計是檢驗和估計特定藥物事件關聯,基于對于關聯的認知設置風險期等。因此,對所有可能的藥物事件關聯進行大規模篩查幾乎是不可能的,特別是應用自身對照設計時需要某些假設作為前提,例如事件會復發,而且其每次發作是獨立的[70]。
為了獲得高靈敏度,避免遺漏藥物安全問題,所有檢測方法通常將陽性信號檢測的閾值設置得較低。因此,一旦檢測出某個信號,其與不良反應的因果關聯評估至關重要,通常由具有藥物警戒和藥物流行病學知識背景,或是臨床醫生、具有醫學背景的決策者進行,鮮少有統計學家參與。為充分決策哪個信號需要進一步分析,前提條件是研究者應該理解檢測方法的基本原理。從這個角度考慮,基于復雜統計概念的 SML 法可能被視為“黑匣子”,與常見的自身對照設計和簡單易懂的 SSA 相比,SML 提供的結果可理解性和可接受性偏低。在醫療健康數據庫中進行常規信號檢測,可能產生成千上萬的陽性信號,進一步的信號增強和決策過程會出現擁堵和速度下降。為了高效處理大量信號,應該指導研究者篩選哪些信號值得進一步研究。因此,為每個藥物事件對提供風險估計的方法比提供關聯概率的方法優勢更明顯,只有前者可以量化關聯的潛在強度,與決策息息相關。基于這一標準,SML 法不適用于醫療保健數據庫中常規安全信號檢測。
綜上所述,SSA 可能是醫療保健數據庫中最適合的信號檢測方法,不僅可應用于縱向數據挖掘,也可大規模和標準化進行推廣應用。其原理簡單易懂,非專業統計人員能夠快速掌握,并且理解其提供的結果。自身對照設計在一定程度上可以減少假陽性的信號。但 SSA 也有一些局限性,可能產生適應癥偏倚相關的虛假陽性信號,但目前已經開發了一些過濾虛假信號的方法。例如 Avillach 開發了一種從 Medline 數據庫中檢索已存在的藥物事件關聯的方法[71]。將這些關聯與檢測到的信號進行比較,能夠排除適應癥偏倚相關的虛假信號。當疾病在進展過程中,很多藥物往往以特定的順序使用,SSA 可能會產生虛假關聯,但隨著時間的推移,對處方趨勢的序列對稱估計調整可以解決該問題。
4 展望
為實現充分利用醫療保健數據庫進行安全信號檢測,一系列數據挖掘方法應運而生,選擇性能最優的方法成為藥物安全性的常規監測手段,高效檢測安全信號,可以為藥物警戒領域帶來新的機遇。而未來的挑戰在于如何對通過醫療保健數據庫自動產生的安全信號進行管理和優先排序,如何基于決策需求開發處理信號優先級的補充方法,對于常規的安全信號檢測活動至關重要。
聲明:本研究不存在任何利益沖突。
參考文獻
見原文。
隨著我國經濟快速增長以及醫療體制改革,醫藥行業市場規模不斷擴大,藥品銷量顯著增長。與此同時,藥品的安全性也受到越來越多的關注,在治療疾病的同時預防潛在的藥物不良反應發生,從而實現有效、合理、安全的用藥。藥品不良反應監測工作彌補了藥品上市前研究的局限性,是發現藥品上市后安全性問題的重要手段,為藥品監管工作提供了有力支撐。自發呈報(spontaneous reporting,SR)是藥品不良反應監測中使用最廣泛的安全信號檢測方法[1-3],適用于發現罕見、嚴重的藥品不良反應(adverse drug reaction,ADR),如大皰疹、粒細胞缺乏和肝毒性[4]。過去幾十年間,大多數藥品撤市都源于 SR[5, 6]。但是,SR 也有其局限性,可能存在瞞報、漏報或選擇性報告[7-10],導致安全信號發現延遲。由于藥物與不良反應的因果關聯的時間順序難以確定,識別藥品不良反應的效率低下,例如質子泵抑制劑相關的肺部感染[11, 12]和羅非昔布引起的心肌梗死[13-15],均在上市后 1 年甚至更長的時間才被發現。
雖然基于 SR 的信號檢測方法在不斷進步[16-19],但大型醫療保健數據庫可以追蹤數百萬人群隊列數據,優勢日益突出,可作為 SR 的補充方法協同發揮藥品安全信號檢測的作用[20, 21]。近年來,歐洲發起的“歐盟藥物流行病學治療結局研究”[22]項目(the Pharmaco-epidemiological Research on Outcomes of Therapeutics by a European Consortium,PROTECT)、美國的哨點監測系統[23, 24]、觀察性健康醫療數據科學與信息學聯盟(Observational Health Data Science and Informatics,OHDSI)[25, 26]和亞洲藥物流行病學協作網(the Asian Pharmaco- epidemiology Network,AsPEN)[27, 28],倡導通過對臨床記錄和生物醫學知識進行整合挖掘,探索發現和了解藥品不良反應[29]。
利用醫療保健數據庫中的海量信息建立新的上市后監測系統的愿景,不僅為藥品不良反應信號的探索提供了新思路和路徑,同時也催生了很多新方法,本文的目的是對目前利用醫療保健數據庫進行安全信號檢測的方法以及優缺點進行概述。
1 醫療保健數據庫安全信號檢測方法
目前,醫療保健數據庫安全信號檢測方法主要分為以下幾類:比值失衡分析法(disproportionality analysis)、傳統藥物流行病學設計(如自身對照設計)、序列對稱分析(sequence symmetry analysis,SSA)、序貫統計檢驗(sequential statistical testing)、時序關聯規則(temporal association rules)、監督機器學習(supervised machine learning,SML)和樹狀掃描統計量方法(tree-based scan statistic)。現有數據挖掘方法的優缺點見表 1。

1.1 比值失衡分析法
比值失衡分析法是 ADR 監測工作中廣泛應用的一種方法。該方法基于 SR 數據庫開發,自發報告數據均以列聯表形式呈現,列聯表的維度對應報告的藥物-事件對。基于 2×2 列聯表(四格表)計算藥品-事件對的觀察值與期望值的比值,若超過預先規定閾值,則稱之為失衡(表 2)。目前主要使用 4 種方法,報告優勢比(reporting odds ratio,ROR)、比例報告比(proportional reporting ratio,PRR)、貝葉斯可信區間遞進神經網絡法(bayesian confidence propagation neural network,BCPNN)和伽馬泊松縮減法(the Gamma Poisson Shrinker,GPS)[30],這些方法的不同之處在于測量比值失衡的方法不同,以及在分析中如何考慮低計數問題[30-33]。

1.1.1 模擬自發呈報方法
比例失衡分析法應用到醫療保健數據庫面臨的主要問題是如何將縱向數據生成類似自發呈報數據庫的格式。已有學者開展了相關研究,例如 Curtis 認為,對于每個患者,以月為觀察時間單位內發現的安全性報告很可能是虛假報告,包括藥物暴露的一個月內發生的所有事件,一種情況是只有藥物暴露而沒有任何相關事件報告,另一種情況是沒有任何藥物暴露卻報告了事件[34]。在 Choi[35, 36]的研究中,觀察時間始于藥物處方,結束于 12 周末,只有發生在觀察期間的事件視為“報告”。Zorych 則建議將藥物暴露持續時間視為觀察時間,并且采用 3 種方法來構建四格表,用于比值失衡分析。第一種方法是,列聯表中的每個患者只計數一次,四個格子數之和等于患者總數,并按照藥物暴露期間患者是否發生事件進行分類。另外兩種方法分別是觀察時間內發生的所有事件均納入研究和只將觀察時間內首次發射的事件納入研究,具體方法請參考 Curtis[34]、Choi[35, 36]和 Kim[37]的研究。
1.1.2 縱向伽馬泊松縮減(Longitudinal Gamma Poisson Shrinker,LGPS)
GPS 的核心思想是估計數據庫觀察到的 ADR 與預期發生的 ADR 的比值,通過貝葉斯分析的一般準則,修訂效應估計值,計算經驗貝葉斯幾何平均數,若其置信區間下限大于 2,則提示產生一個陽性信號。推斷目標藥品與目標 ADR 的關聯。在 GPS 的基礎上,Schuemie 進行了改進,將患者暴露與未暴露的時間納入分析,以更好的利用縱向數據信息,稱為 LGPS[38]。由于 LGPS 借鑒了自身對照設計,可以有效控制年齡、性別等非時間依賴性的混雜因素。為更好地識別和控制適應癥偏倚,作者建議將 LGPS 和藥品相關不良事件縱向觀察評估(longitudinal evaluation of observational profiles of adverse events related to drugs,LEOPARD)方法相結合,比較事件發生前后的某一固定時間窗內的處方比例,如果事件發生后的處方比例高于事件發生前,LEOPARD 則認為這種關聯是由適應癥偏倚(indication bias)導致的[38]。LGPS 通過貝葉斯判別方法綜合先驗信息和樣本信息,有效改進統計決策,自動化程度高,適用于醫療保健數據庫進行信號挖掘。
1.2 傳統藥物流行病學方法
在既往研究中,OMOP 和 EU-ADR 主要采用基于傳統藥物流行病學研究設計的方法[39-42]。此類研究設計主要分為 2 個步驟:① 根據暴露(隊列研究)或事件(病例-對照研究)前瞻或回顧地識別兩組患者;② 比較兩組藥品相關事件的發生率。通常需要采用統計工具來控制預先假設的混雜因素(例如合并用藥)。
1.2.1 首次用藥隊列設計
首次用藥隊列設計的原理是:① 從患者首次用藥開始建立前瞻性隊列進行隨訪:一個隊列納入首次暴露于目標藥物的患者,而另一個隊列納入首次暴露于其他藥物的患者(通常是有共同適應癥的藥物);② 比較兩個隊列中的目標藥物不良事件發生率。
首次用藥隊列設計應用廣泛,控制混雜因素的方法較為成熟[41, 43],包括 Mantel-Haenszel 校正[41]、傾向評分或高維傾向評分和匹配。此外,還可考慮采用懲罰 Logistic 回歸模型(例如 Lasso 回歸[44],通過選擇混雜效應較強的協變量納入到經典 Logistic 回歸模型[43]中,達到處理多個協變量的目的。但應注意的是,首次用藥隊列設計不適用于罕見不良反應事件。
1.2.2 匹配病例-對照設計
匹配病例-對照設計的原理是:① 從給定的日期開始,回顧性地分析匹配的兩組患者(例如年齡、性別等混雜因素)既往藥物暴露情況。病例組是發生了目標事件的患者,對照組是未發生目標事件的患者;② 比較兩組目標藥物暴露的優勢比。
大型醫療保健數據庫使得巢式病例-對照研究設計得以廣泛應用,大大提高了組間可比性。雖然傾向評分或疾病風險評分控制混雜因素在理論上是可行的,但尚未在采用匹配病例-對照設計的信號檢測方法中得到驗證[41, 45],因此,建議謹慎使用。
1.2.3 自身對照設計
自身對照設計,是對每個患者在風險期和對照期的事件發生率進行比較,估計暴露和特定事件的相對危險度。自身對照設計很好地控制了非時依混雜(如慢性合并癥)和個體水平的混雜因素(如遺傳風險因素)。
在安全信號檢測研究中廣泛應用的有 3 種自身對照設計[46, 47]。自身對照病例系列(self-controlled case series,SCCS)設計,僅關注既暴露于藥物又至少經歷過一次目標事件的患者。當對患者進行前瞻性隨訪觀察時,可以看作隊列研究的衍生設計進行分析。通過懲罰回歸模型,在 SCCS 設計中利用高維多變量調整,控制時依混雜因素(如急性疾病)[46]。SCCS 常用于罕見事件的研究,通常假設罕見事件發生服從 Poisson 分布。
病例交叉(case-crossover,CC)設計,采用病例-對照研究設計,回顧性比較同一個體在危險期和對照期內的藥物暴露,目前尚無特定統計工具來控制時依混雜。CC 通常適用于估計急性不良事件發生的危險性。
自身對照隊列(self-control cohort,SCC)設計不同于 SCCS 和 CC:關注所有暴露于目標藥物的患者是否發生過目標事件,事件發生的風險比值是在藥物暴露后事件發生率與暴露前事件發生率的比值。與 CC 類似,除分層分析外,SCC 無法控制時依混雜[47]。
1.3 SSA
1988 年 Petri 首次提出 SSA[48],Hallas 于 1996 年明確闡述 SSA 概念[49]。SSA 的目的是比較給定時間窗內 2 種藥物暴露 A 和 B 的起始使用次序,其中藥物 A 是目標暴露藥物(指示藥),藥物 B 是潛在不良反應的標簽藥。如果藥物 A 引起不良反應,其對癥治療是藥物 B,首先暴露于藥物 A 并隨后暴露于藥物 B 的患者數量預計會遠遠多于首先暴露于 B 藥(暴露于 A 藥之前)的患者。計算指標為粗序列比(crude sequence ratio,CSR),由處方 A 藥并隨后處方 B 藥的患者數量除以先處方 B 藥后處方 A 藥的患者數量所得。
通常認為,粗序列比不受非時依混雜影響,但對處方趨勢變化較為敏感。例如,如果在研究期間藥物 A 報銷比例增加而藥物 B 保持不變,導致藥物 A 的處方超過藥物 B,可能對潛在信號檢測產生干擾。Hallas 提出通過將粗序列比除以空效應序列比(the null-effect sequence ratio,NESR)來校正時間趨勢,空效應序列比是假定藥物 A 和藥物 B 沒有任何因果關聯的情況下的序列比[49],可以反映研究周期內處方頻率的變化趨勢。Tsiropoulos 對空效應序列比進行了略微調整,適用于短觀察時間窗的情況,并且驗證了使用住院診斷來代替標簽藥品報銷來篩選不良事件的策略[50]。
1.4 序貫統計檢驗法
序貫統計檢驗法,是在前瞻性隊列中,持續地(例如每月)檢驗藥物與不良事件關聯的假設:暴露組患者的事件發生率比未暴露組高,適用于常規藥品安全信號檢測活動。每一次新的分析都納入自上次分析以來暴露或未暴露于目標藥物的新患者人數,以及已經在上次分析納入患者新增的暴露時間。若檢驗統計量超過預先設定的臨界值,可以判定信號增強。為減少假陽性,要求多重比較的總體Ⅰ類錯誤水平控制在 0.05。
1.4.1 最大化序列概率比檢驗(the maximized sequential probability ratio test,maxSPRT)
Brown 等將 maxSPRT 應用于疫苗安全性監測活動,該方法原理是序貫地采用對數似然比(log likelihood ratio,LLR)檢驗基于大型歷史對照隊列數據得出的統計量。Kulldorf 則建議同時收集暴露和未暴露患者發生的目標事件,以適用于歷史對照人群難以獲得的情況,例如新藥上市后的安全信號檢測。該方法采用固定比例(1∶M)對暴露組和對照組進行匹配,以便控制混雜因素。隨后,Cook 提出了廣義的 LLR 檢驗統計量,考慮納入所有的患者而不僅僅是發生目標事件的患者,這樣在目標事件發生率增加時,參數估計可以提供更可靠的結果[51]。
1.4.2 條件序貫抽樣法(the conditional sequential sampling procedure,CSSP)
考慮到 maxSPRT 無法處理長期藥物暴露[51],Li[52]提出 CSSP。該方法的原理是,首先按是否暴露將人群分為兩組,根據每個混雜因素的分類再次進行分層分析,計算在各層累積的藥物暴露時長和事件數。在分析時,將觀察到的不良事件總數與通過條件序貫抽樣法計算所得預期臨界值(對應于每層患者預期發生的事件數)進行比較得到對應的檢驗統計量。
1.5 時間關聯規則(the temporal association rules,TAR)方法
在不良反應信號檢測中,TAR 算法需要滿足 2 個條件:① 事件發生在藥物暴露之后;② 事件發生在一個預先設定的時間窗內(例如風險期)。對于給定的藥物,按順序對所有潛在的事件進行挖掘,使用興趣度計算相關程度。
1.5.1 MUTARA/HUNT
Jin[53]提出了在給定先驗的情況下挖掘非預期 TAR(mining the unexpected TARs given the antecedent,MUTARA)算法,此算法要求滿足第 3 個條件,即非預期事件。對暴露于目標藥物的患者而言,需要在藥物暴露開始前設定參考期。如果在參考期觀察到目標事件,通常認為該事件基本不可能是 ADR,可以考慮排除,然后在過濾的數據中計算相關得分。
考慮到可能存在適應癥偏倚[39],興趣度的測量方法可能檢測出虛假信號。一種新的測量方法應運而生,該方法計算了基于整個數據中得出的相關分數與過濾數據得出的相關分數的比值。該方法被命名為“highlighting unexpected TARs negating TARs,HUNT”[54]。
1.5.2 時序模式識別(temporal pattern discovery,TPD)
Norén 提出 TPD 法,該方法通過分析藥品開始暴露前的多個對照期,來調整隨時間變化的事件發生率[55]。對照期的設置,需考慮同一患者和其他患者使用與目標藥物有共同適應癥的藥物的情形。TPD 興趣度的測量方法,是計算風險期與對照期的期望數與觀察數的比值比,計算每個對照時期的比值比,然后選出最小值。在目標事件發生數量較少時,為了保證結果更加穩健,不受隨機變異的影響,可以對比率進行轉換:① 在分子和分母上同時添加一個常數,使比值比趨近于 1(即沒有關聯);② 將比率轉換為以 2 為底的對數[55],使分布更加穩定。
1.5.3 模糊邏輯規則(fuzzy logistic rule-based)
Ji[56-58]提出一種將 TAR 算法和模糊邏輯規則相結合的方法,來增加 TAR 定義中藥物事件對的因果關聯強度。使用模糊規則計算藥物事件對的每個病例的因果關聯得分。得分要素包括:時序、存在其他可能的解釋、去激發和激發試驗。例如,模糊規則中的時序性即關聯的時間順序有三種情況:很可能、可能或不可能,判斷則取決于暴露開始和事件發生之間的持續時間。總得分取決于模糊規則的每個值(“很可能”賦值為 1)。所有的個體得分組合在一起,為每個藥物事件對的因果關聯強度提供一個總體分數,然后納入興趣度的計算。
1.6 監督機器學習(SML)法
SML 的基礎算法可以分為兩步(見原文圖 1)。第一步,通過參考集來訓練分類器(例如隨機森林模型),其中包括先驗的相關或不相關的藥物-事件對。對于每個藥物-時間對,從訓練數據樣本中提取出與關聯對應的預定參數向量。所有向量構成分類器的輸入數據,通過重復抽樣和雜質標準訓練,從而確定最佳參數,以識別真正的因果關聯。第二步,對提取的藥物事件對選定參數進行測試,采用訓練好的分類器預測新的 ADR。
Reps 最早提出 SML,其中隨機森林模型分類器所需的參數來自 6 個隊列研究得出的 6 個相對危險度[59]。雖然這些隊列研究使用相同的風險人群和固定的風險期,但同時考慮了不同的對照人群和對照時期。分析過程中未采用統計方法校正混雜因素。若對照的設置發生變化,采用 3 個附加參數指示關聯強度的偏差。
隨后,Reps 提出 SML 更新版本,涵蓋了來源于 Bradford-Hill 因果關聯準則的參數,減少虛假 ADRs 信號。對于每一個經過篩選的藥物-事件對,根據年齡、性別、藥物劑量和合并用藥數量計算得到 27 個參數:其中 17 個參數參考 Bradford-Hill 的 5 項準則,包括關聯強度、時序、實驗證據、劑量反應關系、特異性,其他 10 個參數基于根據 ICD-10 確定的事件定義變化產生的偏差。
1.7 樹狀掃描統計量(tree-based scan statistic)
Kulldorff 提出樹狀掃描統計量方法,基本原理是將研究對象按照事件編碼的分類層級從屬關系[60]映射到樹狀結構中:根對應于給定事件的最寬泛定義,節點對應于不同的亞水平定義,葉子對應于最精細的定義,分支將三個元素連接在一起(見原文圖 2a)。對于每個葉子節點,計算調整年齡和性別的預期目標事件數和觀察到的目標事件數。然后,使用對數似然比統計量對給定根、節、葉事件路徑的所有可能樣本(見原文圖 2b)進行檢驗。該方法的假設檢驗基于蒙特卡洛假設檢驗(Monte-Carlo hypothesis test)的 P 值,并在多重比較過程中調整 P 值,為了避免總體Ⅰ類錯誤膨脹,要求總體Ⅰ類錯誤控制在 0.05 水平[61]。
2 不同方法比較
OMOP 和 EU-ADR 合作項目在評估基于比值失衡分析法和傳統藥物流行病學設計的方法后,認為自身對照的設計性能最佳,而比值失衡分析法效率較低[39, 41, 42]。TPD 的性能雖然好[39, 42],但是 Reps 的研究表明 TAR 算法和比值失衡法的性能接近,受試者工作特征曲線下面積(area under receiver operating characteristic,AUC)略高于 0.5,應用效果不理想[62]。各研究用于計算的參考數據集本身可能存在一些局限性,例如樣本量較小[41]、藥物種類異質性太大而無法合并(例如抗生素)[52]或者不良事件的定義不明確[39, 42],因此對于研究結果的解讀和應用需慎重。研究表明,SSA 的靈敏度和特異度與自身對照設計性能相當,甚至更優[63],其他研究也佐證了基于 SSA 在醫療保健數據庫中推廣應用的可信度[64-67]。一項模擬研究發現,在安全信號檢測中,如果目標藥品的使用率和使用趨勢發生改變[65],SSA 可以提供可靠的效應估計[64, 66]。最新的一項研究采用 SSA 發現了新的安全信號(例如組胺拮抗劑和心力衰竭),不僅存在生物學機制合理性,而且在病例報告中得到了印證[67]。Reps 在 THIN 數據庫中評估了 2 個版本 SML 的性能,AUC 均大于 0.8,結果提示均優于自身對照設計[59, 68],但應注意該研究使用 Bradford-Hill 準則的版本中,陽性標準信號只占 10%,與陰性信號的巨大差異可能會夸大預測能力[69]。另一版本的 SML[59]中,陽性標準信號納入了藥品常見的不良反應(例如惡心),陰性信號納入了與藥品不太可能有關的不良事件(例如被狗咬傷),這也可能高估該方法的預測能力。樹狀掃描統計量方法則無需通過標準參考集測試,采取半定量的方法即可檢測醫療保健數據庫中新的安全信號,并進一步開展調查研究。
從性能評估來看,自身對照設計、SSA 和 SML 法可能是醫療數據庫中安全信號檢測的最優候選方法。與 SML 法相比,自身對照設計、SSA 的安全信號檢測性能略低,但是可實現更密集的評估,并且已經在不同的健康數據庫中通過了實證,也在模擬研究中得到了驗證[38-43, 45-50, 63-67]。相比之下,SML 法的研究信息較少,目前僅在一個醫療保健數據庫[59, 68]中得以應用,有待深入研究和評價。總體而言,自身對照設計和 SSA 的檢測性能更優。
3 討論
對于常規信號檢測而言,具體應該選擇使用哪種方法,不僅應考慮統計特征,實用性也很關鍵,建議從以下三個方面進行考慮:是否達到了信號檢測的預期目標,方法和原理是否容易理解,該方法是否提供了參考指標指導篩選不良信號,以幫助決策者處理特定情況下檢測出的大量信號。
從定義上來看,信號檢測需要篩選數據庫中記錄的所有藥物-事件對,尤其關注非預期的 ADR(性質或頻率),無需對潛在關聯進行先驗假設,同時避免事先否定某個藥物-事件對。與 SSA 和 SML 法相比,自身對照設計和其他通用的藥物流行病學設計是檢驗和估計特定藥物事件關聯,基于對于關聯的認知設置風險期等。因此,對所有可能的藥物事件關聯進行大規模篩查幾乎是不可能的,特別是應用自身對照設計時需要某些假設作為前提,例如事件會復發,而且其每次發作是獨立的[70]。
為了獲得高靈敏度,避免遺漏藥物安全問題,所有檢測方法通常將陽性信號檢測的閾值設置得較低。因此,一旦檢測出某個信號,其與不良反應的因果關聯評估至關重要,通常由具有藥物警戒和藥物流行病學知識背景,或是臨床醫生、具有醫學背景的決策者進行,鮮少有統計學家參與。為充分決策哪個信號需要進一步分析,前提條件是研究者應該理解檢測方法的基本原理。從這個角度考慮,基于復雜統計概念的 SML 法可能被視為“黑匣子”,與常見的自身對照設計和簡單易懂的 SSA 相比,SML 提供的結果可理解性和可接受性偏低。在醫療健康數據庫中進行常規信號檢測,可能產生成千上萬的陽性信號,進一步的信號增強和決策過程會出現擁堵和速度下降。為了高效處理大量信號,應該指導研究者篩選哪些信號值得進一步研究。因此,為每個藥物事件對提供風險估計的方法比提供關聯概率的方法優勢更明顯,只有前者可以量化關聯的潛在強度,與決策息息相關。基于這一標準,SML 法不適用于醫療保健數據庫中常規安全信號檢測。
綜上所述,SSA 可能是醫療保健數據庫中最適合的信號檢測方法,不僅可應用于縱向數據挖掘,也可大規模和標準化進行推廣應用。其原理簡單易懂,非專業統計人員能夠快速掌握,并且理解其提供的結果。自身對照設計在一定程度上可以減少假陽性的信號。但 SSA 也有一些局限性,可能產生適應癥偏倚相關的虛假陽性信號,但目前已經開發了一些過濾虛假信號的方法。例如 Avillach 開發了一種從 Medline 數據庫中檢索已存在的藥物事件關聯的方法[71]。將這些關聯與檢測到的信號進行比較,能夠排除適應癥偏倚相關的虛假信號。當疾病在進展過程中,很多藥物往往以特定的順序使用,SSA 可能會產生虛假關聯,但隨著時間的推移,對處方趨勢的序列對稱估計調整可以解決該問題。
4 展望
為實現充分利用醫療保健數據庫進行安全信號檢測,一系列數據挖掘方法應運而生,選擇性能最優的方法成為藥物安全性的常規監測手段,高效檢測安全信號,可以為藥物警戒領域帶來新的機遇。而未來的挑戰在于如何對通過醫療保健數據庫自動產生的安全信號進行管理和優先排序,如何基于決策需求開發處理信號優先級的補充方法,對于常規的安全信號檢測活動至關重要。
聲明:本研究不存在任何利益沖突。
參考文獻
見原文。