引用本文: 王晶, 李明曦, 劉春容, 熊益權, 齊亞娜, 譚婧, 孫鑫. 孕期藥物暴露與出生缺陷相關性研究的橫斷面調查. 中國循證醫學雜志, 2022, 22(6): 692-705. doi: 10.7507/1672-2531.202203015 復制
孕婦孕期用藥的安全性一直是臨床用藥的重點和難點。1960年代的沙利度胺事件,導致約八千名胎兒海豹肢畸形,四到五千名胎兒因畸形死于腹中[1],是妊娠期藥物史上的重大悲劇。此后專家們都希望有全面的妊娠期用藥風險管理依據,將妊娠期藥品進行分級,依據每種妊娠期藥品的安全性評價結果,為妊娠期處方用藥提供參考[2]。但由于孕婦人群的特殊性,開展隨機對照試驗存在多種倫理和法律的限制,所以真實世界研究[3-4],包括隊列研究和病例-對照研究為主要設計類型的觀察性研究,成為孕期用藥安全性評價的重要證據來源。監管機構越來越多地建議利用數據庫(如國家注冊登記、電子病歷記錄和保險索賠數據庫)來進一步補充孕期用藥安全性研究的數據[5]。然而,由于孕期暴露與結局事件的多樣性和相對稀缺性,為該類研究的因果推斷帶來多種難題,包括適應癥偏倚、罕見事件測量和多維混雜因素控制等。另外,該類研究仍缺乏有針對性的實施規范,即使是研究同一種藥物暴露的文獻,也可能會得出截然相反的結論。如2018年一個來自JAMA的研究證明孕早期使用止吐藥昂丹司瓊并不會增加胎兒患出生缺陷的風險[6],而2020年的一個研究顯示,昂丹司瓊在孕早期使用卻可能會增加胎兒患室間隔缺損的風險[7]。因此,本文擬針對孕期暴露藥物與出生缺陷相關性研究的研究設計情況開展調查,為提高該類研究的質量,增加其結果的真實性和可靠性提供重要思路;同時在我國生育政策重大調整的背景下,為建立和完善我國孕產婦人群孕期用藥風險管理規范、維護孕產婦及其子代健康提供論基礎。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
隊列研究和病例-對照研究。
1.1.2 研究對象
孕期暴露于藥物(含營養補充劑)的孕婦。
1.1.3 暴露因素
孕期暴露于某種藥物(含營養補充劑),對照組為孕期未使用該種藥物。
1.1.4 結局指標
研究結局為任意一種或總出生缺陷。
1.1.5 排除標準
① 論文類型為信件、評論、社論或綜述類的研究;② 研究設計為病例報告或病例系列的研究。
1.2 文獻檢索策略
計算機檢索PubMed數據庫,搜集孕期用藥與出生缺陷相關性的觀察性研究,檢索時限從2020年1月1日至2020年12月31日。采用主題詞與自由詞相結合的方法進行文獻檢索,檢索詞包括:birth defects、congenital abnormalities、cardiac defect、oral cleft、cohort、case-control等。PubMed數據庫的具體檢索策略見框1。

1.3 文獻篩選
由2名經過培訓的研究者對初檢文獻進行背靠背的篩選。首先根據文獻標題和摘要,按照納入與排除標準進行初篩,而后對全文進一步篩選,確認最后納入研究的文獻。如果有兩者意見不同的情況,請第三位研究者協助判斷,討論決定是否納入。
1.4 資料提取
本研究將使用調查表來對研究的基本流行病學特征和研究設計相關方法學問題進行評價。參考已發表的觀察性研究規范(如《使用常規觀察性數據開展觀察性研究(RECORD)[8]》、《加強流行病學中觀察性研究的報告(STROBE)[9]》和《使用常規收集醫療衛生數據開展觀察性研究—藥物流行病學版(RECORD-PE)[10]》)初步制定原始的調查表,而后經過小組頭腦風暴,以及包括流行病學專家、統計學專家、衛生經濟學專家和婦產科領域專家在內的專家咨詢后,進一步完善調查表條目和內容。此外,在系統檢索文獻已完成的情況下,預提取5篇文獻的數據,根據結果再次經過小組討論,修改并確定最終的調查問卷。問卷中研究的基本特征包括:作者、發表期刊、第一作者國籍、藥物名稱、藥物類型、是否有事先發表的研究計劃、資助來源、是否為多中心研究、是否有流行病學或者統計學家參與;研究設計的方法學問題包括:流行病學研究設計(隊列研究或病例-對照研究、是否為前瞻性研究)、納入排除標準(是否明確)、數據來源(納入人群的地理范圍、覆蓋的人群數量、數據庫鏈接的方法、數據庫類型、樣本量)、研究暴露(單種或多種藥物、是否有明確的暴露定義、藥物暴露開始時間、藥物暴露時間段、暴露劑量)、研究對照(對照組類型、暴露和對照是否來自同一人群、暴露和對照的時間窗是否一致)、研究結局(結局的定義、結局的數量、結局的類型、結局的測量時間)、混雜因素控制情況(混雜的類型、在設計階段和統計階段調整的混雜因素、活產偏倚情況)。
1.5 統計分析
采用R 3.6.1軟件進行統計分析。對于調查的特征,采用描述性方法報告結果:分類數據使用頻數(n)和百分比(%)報告;連續性數據使用均數±標準差(±SD)報告。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻10 209篇,經逐層篩選后,最終納入40篇文獻[7,11-49]。文獻篩選流程及結果見圖1。

2.2 納入研究的基本特征
納入研究的基本特征見表1。在納入研究中,15個(37.5%)研究發表的期刊被MEDLINE數據庫收錄,其中發表數量較多的期刊包括:BMJ(4,26.7%)[24,35,42],Journal of Allergy and Clinical Immunology(3,20.0%)[22,33-34],JAMA Psychiatry(2,13.3%)[26,36]和JAMA Dermatology(2,13.3%)[39,49]。在地區分布上,有15個(37.5%)研究來自美國[7,16,21-22,24-26,29-30,34,36,38,41-42,48],其次是丹麥(6,15.0%)[20,32-33,39,47,49]和中國(4,10.0%)[13-15,37]。研究藥品的種類中,除營養補充劑有6個(15.0%)研究[11-16]之外,6個(15.0%)研究[17-22]暴露因素是抗風濕藥,分別有4個(10.0%)研究的暴露因素是抗抑郁藥[23-26]、抗癲癇藥[27-30]和抗過敏藥[31-34](圖2)。


2.3 納入研究的數據來源情況
納入研究的數據來源情況見表2。11個(27.5%)研究為地區性的研究,28個(70.0%)研究覆蓋全國范圍,1個(2.5%)研究為跨國研究。25個研究(62.5%)使用單個數據庫數據,10個研究(25.0%)納入3個及3個以上的數據庫進行研究。對于納入2個及2個以上數據庫的研究(15,37.5%),9/15個(60.0%)研究明確了數據鏈接的依據,如個人識別碼,其余6個(40%)研究未報告鏈接的方式。使用最廣泛的數據庫是監管數據庫(21,52.5%),其次為注冊登記(12,30.0%)、電子病歷數據(8,20.0%)、主動匯報的監測數據庫(3,7.5%)、傳統的流行病學研究數據(1,2.5%)、被動的監測數據庫(1,2.5%)和生物標志物數據庫(1,2.5%)。所有的數據來源中,美國的MAX數據庫使用頻率最高,有5個(12.5%)研究使用了該數據庫。

2.4 研究的設計情況
納入研究的設計和藥物暴露情況見表3。30個(75.0%)研究為隊列研究,10個(25.0%)為病例-對照研究。15個(37.5%)為前瞻性研究,其余為回顧性研究。所有研究都報告了納入標準。有37個研究(92.5%)報告了排除標準,另有3個(7.5%)研究未提及排除標準。23個(57.5%)研究將單一藥物作為暴露,其余17個(42.5%)研究暴露為多種藥物,如所有的抗抑郁類藥物(選擇性5-羥色胺受體再攝取抑制藥)等。有30個(75.0%)研究的暴露因素是處方藥。有16個(40.0%)研究沒有在方法中說明對暴露的定義。在其余對暴露明確定義的24個研究中,有15個研究(37.5%)將至少處方一次目標藥品作為暴露定義,至少處方2次的有1個(2.5%)研究,2個研究(5.0%)僅提及孕婦在孕期開具了處方藥,未說明具體次數,另有研究將暴露定義為測量孕婦血漿中某種藥物成分的含量。藥物開始使用的時間在懷孕之前、孕早期和未具體說明使用時間的研究分別有21個(52.5%)、12個(25.0%)和7個(17.5%)。不同研究的藥物暴露時間長度不同,分別包括整個孕期(12,35.0%)、孕早期(20,50.0%)、孕晚期(1,2.5%)、孕前及孕早期(4,10.0%)、孕早期及孕中期(1,2.5%)。11個(27.5%)研究報告了藥物和出生缺陷之間的劑量反應關系。

納入研究的對照、結局和混雜情況見表4。在30個隊列研究中,8個(20.0%)研究對照組為陽性對照,即使用適應癥與暴露藥物相似的藥品作為對照組;18個(45.0%)研究是空白對照,另有4個(10.0%)研究同時采用了陽性對照和空白對照。在10個(25.0%)病例-對照研究中,對照組的定義皆為健康未患有出生缺陷的新生兒或兒童,且對照組與病例組都來自于同一研究人群;而在隊列研究中,并非所有研究的對照組和暴露組來自于同一人群,仍有2/30(6.7%)個研究的對照組和暴露組人群來源不同。此外,對照組和暴露組藥物暴露的時間段定義相同的(如同為孕早期或孕中期等)研究有32個(80.0%),不一致的有6個(15.0%),未報告的有2個(5.0%)。

在納入的40個研究中,15%的研究未定義結局。在34個(85.0%)研究對結局有清晰定義的研究中,70.6%是根據國際疾病分類第九版(International Classification of Diseases,ICD)或第10版或歐洲先天畸形監測(European Surveillance of Congenital Anomalies,EUROCAT)來確定出生缺陷,有20.6%的研究依據臨床醫生的診斷,有5.9%的研究診斷依據是門診或住院病歷中的記錄。本研究調查顯示,部分(18,45.0%)研究未報告出生缺陷種類的數量,報告了10種以下出生缺陷的研究數量為10個(25.0%),10~20種以下出生缺陷的研究數量為8個(20.0%),20種以上出生缺陷的研究數量為4個(10.0%)。涉及最多的出生缺陷種類為循環系統(22,55.0%),其次為泌尿系統(16,40.0%)和神經系統(15,37.5%)。60.0%(n=24)的研究在排除標準中明確提出排除患有染色體畸形的胎兒,有12.5%(n=5)的研究將患有染色體畸形的胎兒納入到研究當中,其余研究(11,27.5%)未單獨說明該類胎兒情況(圖3)。

在研究設計階段,82.5%的研究未進行混雜控制,僅有3個(7.5%)研究使用匹配法挑選對照組,4個(10.0%)研究限制了對照組的人群類型。相較于設計階段,在統計分析階段控制混雜的研究較多,各有15個(37.5%)研究使用了傾向性評分和多因素回歸的方法,另外有3個(7.5%)研究應用了分層分析。不同研究納入的混雜因素都不盡相同,我們發現主要分成6大類,根據報告的數量從高到低分別為:38個(95.0%)研究報告了孕婦的基本情況(如孕婦的年齡、民族、體重指數、吸煙、酗酒等),31個(77.5%)研究報告了孕婦是否同時使用其他處方藥物或者疑似致畸物(如精神類藥物、抗糖尿病和降壓藥物等);26個(65.0%)研究報告了孕婦的基本孕產特點(如是否為經產婦、孕次、產次等);22個(55.0%)研究將孕婦的基礎疾病狀態(如妊娠期高血壓、妊娠期糖尿病、癲癇、腎臟疾病等)識別為混雜因素;12個(30.0%)研究將孕婦暴露藥物對應的疾病特點(如嚴重程度)識別為混雜因素;11個(27.5%)研究則報告了醫療保健服務利用情況(不同診斷的個數、門診隨訪的次數以及是否住院和急診次數等)。對于確定混雜因素的方法,僅6個研究進行了說明,包括參考已經發表的文獻(83.3%)和臨床經驗(16.7%)。
活產偏倚指的是僅僅將活產胎兒作為研究人群,但有些出生缺陷可能會導致胎兒流產或死產,如果只納入活產胎兒進行研究,則會低估暴露與出生缺陷的關系,產生活產偏倚。本調查顯示,19個(47.5%)研究在納入人群時已考慮活產偏倚,納入了包括死產和流產結局的胎兒,但仍有15個(37.5%)研究在納入人群時僅僅只考慮了活產胎兒,或只包括了活產及死產的胎兒(5,12.5%),或只包括了活產和自發性流產的胎兒(1,2.5%),仍然會存在活產偏倚。
3 討論
本研究納入的研究對象為孕期暴露于藥物(包括營養補充劑)的孕婦。研究治療風濕的藥物研究數量最多,其次為抗抑郁藥和抗癲癇藥。Wang等[50]的研究結果顯示2017年以前,研究抗癲癇藥的研究遠多于抗抑郁藥,而從2017年以來,抗抑郁藥的研究數量超過了抗癲癇藥的研究數量,成為主要的孕期藥物研究類型,并逐年升高。歐美國家為主要的研究實施地,一方面因為歐美的監管數據庫比較成熟,數據庫覆蓋范圍廣,樣本量大,適用于科學研究;另一方面是歐美的數據庫可及性較強,如美國的MAX(Medicaid Analytic eXtract,MAX)數據庫,可采用申請及付費的方式向Medicare和Medicaid服務中心(Centers for Medicare and Medicaid Services,CMS)索要數據來進行研究[51]。孕期用藥是各國藥監局重點關注的事件,由于孕婦的特殊情況,對藥物的臨床試驗一般不包括孕婦人群,因此真實世界情景下孕婦用藥的情況成為了主要的證據來源,真實世界數據也成為了各國藥監局關注的主要孕期藥物安全性證據來源。在這種情況下,納入研究大部分的基金資助是政府支持,且大部分的研究納入了流行病學或者統計學家。3個研究依照已有的觀察性研究質量報告(如STROBE,RECORD)執行研究,其余的研究皆未依照相應的研究質量報告規范,這進一步提示制作相關研究規范,提升研究質量的必要性。
隊列研究是研究孕期藥物暴露和子代出生缺陷關系的理想研究設計,且多為前瞻性研究,因其檢驗病因假設的強度較強。本文中大部分研究都是隊列研究,但僅小部分研究實施了前瞻性研究設計,而回顧性研究會有導致回憶偏倚的可能性。此外,處方藥也成為了主要的研究藥物,由于其特殊性,購買時需要醫生的處方箋,使得它在藥品數據庫中可溯源,這增加了藥品數據來源的可靠性,進一步提高了研究結果的可信度。但同時,這也并不能保證患者沒有私下購買并服用其他藥物,提示研究仍然存在潛在混雜偏倚的可能性。
在檢索到的所有文獻中,擁有大樣本量的國家監管數據庫和注冊登記數據庫是觀察性研究的主要證據來源,這些數據庫有較好的人群代表性,而且能夠增加統計效能和研究準確度,減少誤差。而且和傳統的流行病學研究相比,監管數據庫和注冊登記數據庫在資料收集方面能夠節約時間、費用和人力,是研究者的首要選擇。但是該類數據庫也有一些局限,比如在識別暴露和非暴露組時,容易出現錯分偏倚,相同疾病可能出現不同的診斷名稱,影響研究結果的準確性等。當研究涉及到2個及以上的數據庫時,選擇穩健的數據庫鏈接方法也是研究者需要考慮的問題(RECORD和STROBE中都有列出針對鏈接方法的條目)。精確鏈接(deterministic record linkage)是用唯一識別碼將兩部分數據鏈接,如廈門孕產大數據[52]中的妊娠編碼以及MAX數據庫中的個人識別碼;概率鏈接(probabilistic record linkage)是根據多個且和非唯一的變量(比如名字和出生日期,末次月經和孕周等[53])來進行鏈接。我們納入的研究中75%用的都是精確鏈接,主要的鏈接變量是唯一的個人識別碼。也有研究提出結合精確鏈接和概率鏈接的方法,即同時考慮個人識別碼和姓名、出生日期等來確定孕婦和嬰兒的鏈接,同時該研究也指出,使用唯一個人識別碼的方法對于研究來說已經足夠,沒有必要再用兩者結合的方法進一步提高陽性預測值[54]。
在我們納入的研究中有5個研究使用了MAX數據庫,且樣本量也是所有數據庫中最大的,達到了百萬人以上。MAX[55]是從醫療補助統計信息系統(Medicaid Statistical Information System,MSIS)中提取的,用于支持研究和政策分析的子數據集,其大約覆蓋了美國一半的出生人口,囊括了2000年到2013年美國46個州和華盛頓特區180萬懷孕的孕婦,納入該數據庫的孕婦特點是年齡小,種族差異大且收入低。MAX恰好彌補了某些以志愿者登記為基礎的數據庫以及私人健康保險數據庫人群代表性不足的問題[51],且該數據庫鏈接了醫療記錄,收集了大量協變量數據,能更精準地控制混雜,減少隨機誤差,提高結論外推性。該數據庫廣泛應用于孕婦用藥安全性研究(如止吐藥昂丹司瓊、精神病藥苯丙胺、麻醉性鎮痛劑和抗癲癇藥托吡酯等),為孕婦用藥提供了詳實的指導[56-59]。
在隊列研究中,需要從時間、開具形式(處方或非處方)和劑量3個方面去定義暴露因素。在納入的研究中,將藥物至少處方一次作為定義的概念成為了大多數研究的選擇,但也有研究[5]提出,“處方”并不等同于“服用”,“至少處方2次”才能夠確保孕婦服用了該藥物。此外,對于有樣本庫的研究,將生物樣本中的某種藥物成分濃度作為暴露的定義也是比較可靠的一種選擇。孕早期成為了大多數研究選擇的藥物暴露時間窗—根據生物學證據,孕早期是胎兒器官形成的關鍵時期,也是胎兒畸形發生的窗口期[60],因此嚴格意義上,藥物暴露時間窗應覆蓋孕早期。
在出生缺陷的定義上,我們推薦采用ICD或者EUROCAT作為研究結局(出生缺陷)的主要判斷標準。ICD編碼是世界衛生組織制定的全球統一的疾病編碼,依據疾病特征,按照特定的規則對疾病進行分類及編碼系統,全部包括26 000多條疾病條目。EUROCAT是歐洲先天畸形監測,主要包含了歐洲國家的先天性畸形情況[61]。不同的研究之間因為研究編碼和識別的標準不同,準確性也不同。Huybrechts等[50,62]在正式開始研究之前,提前驗證了其識別結局所用的算法(綜合門診住院和手術記錄做出診斷),且證實該算法具有較高的陽性預測值,可得出較為準確的診斷識別結果后才進行正式的研究。而其余研究均未驗證其結局識別方式的靈敏/特異度,這提示了之后的研究在使用監管數據庫/注冊登記數據庫時也應提前確定暴露/結局的識別方式,從而減少錯分偏倚。大部分研究并未研究總體出生缺陷發生率,而是集中在某些畸形亞組中,如循環系統,這與調查顯示的發生率最高的畸形是先天性心臟畸形的結論一致[63],這也提示研究者應關注重要的出生缺陷類別。
混雜因素的控制是該類研究的重要內容,需要在研究設計或統計分析階段進行控制。混雜因素是研究中與研究因素和研究結局均有關,可能夸大或減少研究因素與疾病之間真實聯系的因素,但并不是研究因素和研究結局因果鏈上的中介變量。觀察性研究在研究設計階段有限制、匹配法來控制混雜。在統計階段可用分層分析、多因素回歸、傾向性評分來識別和控制混雜因素。未測量的混雜可用工具變量表示時,協變量可用結構方程模型測量[64]。
本研究的局限性:① 本文僅納入了2020年文獻,且僅納入PubMed一個數據庫收錄的文獻,可能會對結果代表性造成影響;② 僅檢索了英文文獻,未檢索其他語言文獻,會造成一定的文種偏倚。
綜上所述,妊娠期暴露于藥物和出生缺陷的相關性研究的研究設計方面還需要進一步提高,如涉及多個數據庫,應使用唯一的識別碼鏈接多個數據庫的信息,提高研究的完整度;定義暴露時,要包括類別、時間、劑量和類型,防止錯分偏倚;定義結局時應確定依據標準;研究人群應納入包括流產和死產的胎兒,避免活產偏倚。未來希望能夠制定相關的技術規范來指導該領域開展相關研究,為決策者和研究者提供更高質量的研究證據,維護孕產婦和圍產兒健康。
孕婦孕期用藥的安全性一直是臨床用藥的重點和難點。1960年代的沙利度胺事件,導致約八千名胎兒海豹肢畸形,四到五千名胎兒因畸形死于腹中[1],是妊娠期藥物史上的重大悲劇。此后專家們都希望有全面的妊娠期用藥風險管理依據,將妊娠期藥品進行分級,依據每種妊娠期藥品的安全性評價結果,為妊娠期處方用藥提供參考[2]。但由于孕婦人群的特殊性,開展隨機對照試驗存在多種倫理和法律的限制,所以真實世界研究[3-4],包括隊列研究和病例-對照研究為主要設計類型的觀察性研究,成為孕期用藥安全性評價的重要證據來源。監管機構越來越多地建議利用數據庫(如國家注冊登記、電子病歷記錄和保險索賠數據庫)來進一步補充孕期用藥安全性研究的數據[5]。然而,由于孕期暴露與結局事件的多樣性和相對稀缺性,為該類研究的因果推斷帶來多種難題,包括適應癥偏倚、罕見事件測量和多維混雜因素控制等。另外,該類研究仍缺乏有針對性的實施規范,即使是研究同一種藥物暴露的文獻,也可能會得出截然相反的結論。如2018年一個來自JAMA的研究證明孕早期使用止吐藥昂丹司瓊并不會增加胎兒患出生缺陷的風險[6],而2020年的一個研究顯示,昂丹司瓊在孕早期使用卻可能會增加胎兒患室間隔缺損的風險[7]。因此,本文擬針對孕期暴露藥物與出生缺陷相關性研究的研究設計情況開展調查,為提高該類研究的質量,增加其結果的真實性和可靠性提供重要思路;同時在我國生育政策重大調整的背景下,為建立和完善我國孕產婦人群孕期用藥風險管理規范、維護孕產婦及其子代健康提供論基礎。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
隊列研究和病例-對照研究。
1.1.2 研究對象
孕期暴露于藥物(含營養補充劑)的孕婦。
1.1.3 暴露因素
孕期暴露于某種藥物(含營養補充劑),對照組為孕期未使用該種藥物。
1.1.4 結局指標
研究結局為任意一種或總出生缺陷。
1.1.5 排除標準
① 論文類型為信件、評論、社論或綜述類的研究;② 研究設計為病例報告或病例系列的研究。
1.2 文獻檢索策略
計算機檢索PubMed數據庫,搜集孕期用藥與出生缺陷相關性的觀察性研究,檢索時限從2020年1月1日至2020年12月31日。采用主題詞與自由詞相結合的方法進行文獻檢索,檢索詞包括:birth defects、congenital abnormalities、cardiac defect、oral cleft、cohort、case-control等。PubMed數據庫的具體檢索策略見框1。

1.3 文獻篩選
由2名經過培訓的研究者對初檢文獻進行背靠背的篩選。首先根據文獻標題和摘要,按照納入與排除標準進行初篩,而后對全文進一步篩選,確認最后納入研究的文獻。如果有兩者意見不同的情況,請第三位研究者協助判斷,討論決定是否納入。
1.4 資料提取
本研究將使用調查表來對研究的基本流行病學特征和研究設計相關方法學問題進行評價。參考已發表的觀察性研究規范(如《使用常規觀察性數據開展觀察性研究(RECORD)[8]》、《加強流行病學中觀察性研究的報告(STROBE)[9]》和《使用常規收集醫療衛生數據開展觀察性研究—藥物流行病學版(RECORD-PE)[10]》)初步制定原始的調查表,而后經過小組頭腦風暴,以及包括流行病學專家、統計學專家、衛生經濟學專家和婦產科領域專家在內的專家咨詢后,進一步完善調查表條目和內容。此外,在系統檢索文獻已完成的情況下,預提取5篇文獻的數據,根據結果再次經過小組討論,修改并確定最終的調查問卷。問卷中研究的基本特征包括:作者、發表期刊、第一作者國籍、藥物名稱、藥物類型、是否有事先發表的研究計劃、資助來源、是否為多中心研究、是否有流行病學或者統計學家參與;研究設計的方法學問題包括:流行病學研究設計(隊列研究或病例-對照研究、是否為前瞻性研究)、納入排除標準(是否明確)、數據來源(納入人群的地理范圍、覆蓋的人群數量、數據庫鏈接的方法、數據庫類型、樣本量)、研究暴露(單種或多種藥物、是否有明確的暴露定義、藥物暴露開始時間、藥物暴露時間段、暴露劑量)、研究對照(對照組類型、暴露和對照是否來自同一人群、暴露和對照的時間窗是否一致)、研究結局(結局的定義、結局的數量、結局的類型、結局的測量時間)、混雜因素控制情況(混雜的類型、在設計階段和統計階段調整的混雜因素、活產偏倚情況)。
1.5 統計分析
采用R 3.6.1軟件進行統計分析。對于調查的特征,采用描述性方法報告結果:分類數據使用頻數(n)和百分比(%)報告;連續性數據使用均數±標準差(±SD)報告。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻10 209篇,經逐層篩選后,最終納入40篇文獻[7,11-49]。文獻篩選流程及結果見圖1。

2.2 納入研究的基本特征
納入研究的基本特征見表1。在納入研究中,15個(37.5%)研究發表的期刊被MEDLINE數據庫收錄,其中發表數量較多的期刊包括:BMJ(4,26.7%)[24,35,42],Journal of Allergy and Clinical Immunology(3,20.0%)[22,33-34],JAMA Psychiatry(2,13.3%)[26,36]和JAMA Dermatology(2,13.3%)[39,49]。在地區分布上,有15個(37.5%)研究來自美國[7,16,21-22,24-26,29-30,34,36,38,41-42,48],其次是丹麥(6,15.0%)[20,32-33,39,47,49]和中國(4,10.0%)[13-15,37]。研究藥品的種類中,除營養補充劑有6個(15.0%)研究[11-16]之外,6個(15.0%)研究[17-22]暴露因素是抗風濕藥,分別有4個(10.0%)研究的暴露因素是抗抑郁藥[23-26]、抗癲癇藥[27-30]和抗過敏藥[31-34](圖2)。


2.3 納入研究的數據來源情況
納入研究的數據來源情況見表2。11個(27.5%)研究為地區性的研究,28個(70.0%)研究覆蓋全國范圍,1個(2.5%)研究為跨國研究。25個研究(62.5%)使用單個數據庫數據,10個研究(25.0%)納入3個及3個以上的數據庫進行研究。對于納入2個及2個以上數據庫的研究(15,37.5%),9/15個(60.0%)研究明確了數據鏈接的依據,如個人識別碼,其余6個(40%)研究未報告鏈接的方式。使用最廣泛的數據庫是監管數據庫(21,52.5%),其次為注冊登記(12,30.0%)、電子病歷數據(8,20.0%)、主動匯報的監測數據庫(3,7.5%)、傳統的流行病學研究數據(1,2.5%)、被動的監測數據庫(1,2.5%)和生物標志物數據庫(1,2.5%)。所有的數據來源中,美國的MAX數據庫使用頻率最高,有5個(12.5%)研究使用了該數據庫。

2.4 研究的設計情況
納入研究的設計和藥物暴露情況見表3。30個(75.0%)研究為隊列研究,10個(25.0%)為病例-對照研究。15個(37.5%)為前瞻性研究,其余為回顧性研究。所有研究都報告了納入標準。有37個研究(92.5%)報告了排除標準,另有3個(7.5%)研究未提及排除標準。23個(57.5%)研究將單一藥物作為暴露,其余17個(42.5%)研究暴露為多種藥物,如所有的抗抑郁類藥物(選擇性5-羥色胺受體再攝取抑制藥)等。有30個(75.0%)研究的暴露因素是處方藥。有16個(40.0%)研究沒有在方法中說明對暴露的定義。在其余對暴露明確定義的24個研究中,有15個研究(37.5%)將至少處方一次目標藥品作為暴露定義,至少處方2次的有1個(2.5%)研究,2個研究(5.0%)僅提及孕婦在孕期開具了處方藥,未說明具體次數,另有研究將暴露定義為測量孕婦血漿中某種藥物成分的含量。藥物開始使用的時間在懷孕之前、孕早期和未具體說明使用時間的研究分別有21個(52.5%)、12個(25.0%)和7個(17.5%)。不同研究的藥物暴露時間長度不同,分別包括整個孕期(12,35.0%)、孕早期(20,50.0%)、孕晚期(1,2.5%)、孕前及孕早期(4,10.0%)、孕早期及孕中期(1,2.5%)。11個(27.5%)研究報告了藥物和出生缺陷之間的劑量反應關系。

納入研究的對照、結局和混雜情況見表4。在30個隊列研究中,8個(20.0%)研究對照組為陽性對照,即使用適應癥與暴露藥物相似的藥品作為對照組;18個(45.0%)研究是空白對照,另有4個(10.0%)研究同時采用了陽性對照和空白對照。在10個(25.0%)病例-對照研究中,對照組的定義皆為健康未患有出生缺陷的新生兒或兒童,且對照組與病例組都來自于同一研究人群;而在隊列研究中,并非所有研究的對照組和暴露組來自于同一人群,仍有2/30(6.7%)個研究的對照組和暴露組人群來源不同。此外,對照組和暴露組藥物暴露的時間段定義相同的(如同為孕早期或孕中期等)研究有32個(80.0%),不一致的有6個(15.0%),未報告的有2個(5.0%)。

在納入的40個研究中,15%的研究未定義結局。在34個(85.0%)研究對結局有清晰定義的研究中,70.6%是根據國際疾病分類第九版(International Classification of Diseases,ICD)或第10版或歐洲先天畸形監測(European Surveillance of Congenital Anomalies,EUROCAT)來確定出生缺陷,有20.6%的研究依據臨床醫生的診斷,有5.9%的研究診斷依據是門診或住院病歷中的記錄。本研究調查顯示,部分(18,45.0%)研究未報告出生缺陷種類的數量,報告了10種以下出生缺陷的研究數量為10個(25.0%),10~20種以下出生缺陷的研究數量為8個(20.0%),20種以上出生缺陷的研究數量為4個(10.0%)。涉及最多的出生缺陷種類為循環系統(22,55.0%),其次為泌尿系統(16,40.0%)和神經系統(15,37.5%)。60.0%(n=24)的研究在排除標準中明確提出排除患有染色體畸形的胎兒,有12.5%(n=5)的研究將患有染色體畸形的胎兒納入到研究當中,其余研究(11,27.5%)未單獨說明該類胎兒情況(圖3)。

在研究設計階段,82.5%的研究未進行混雜控制,僅有3個(7.5%)研究使用匹配法挑選對照組,4個(10.0%)研究限制了對照組的人群類型。相較于設計階段,在統計分析階段控制混雜的研究較多,各有15個(37.5%)研究使用了傾向性評分和多因素回歸的方法,另外有3個(7.5%)研究應用了分層分析。不同研究納入的混雜因素都不盡相同,我們發現主要分成6大類,根據報告的數量從高到低分別為:38個(95.0%)研究報告了孕婦的基本情況(如孕婦的年齡、民族、體重指數、吸煙、酗酒等),31個(77.5%)研究報告了孕婦是否同時使用其他處方藥物或者疑似致畸物(如精神類藥物、抗糖尿病和降壓藥物等);26個(65.0%)研究報告了孕婦的基本孕產特點(如是否為經產婦、孕次、產次等);22個(55.0%)研究將孕婦的基礎疾病狀態(如妊娠期高血壓、妊娠期糖尿病、癲癇、腎臟疾病等)識別為混雜因素;12個(30.0%)研究將孕婦暴露藥物對應的疾病特點(如嚴重程度)識別為混雜因素;11個(27.5%)研究則報告了醫療保健服務利用情況(不同診斷的個數、門診隨訪的次數以及是否住院和急診次數等)。對于確定混雜因素的方法,僅6個研究進行了說明,包括參考已經發表的文獻(83.3%)和臨床經驗(16.7%)。
活產偏倚指的是僅僅將活產胎兒作為研究人群,但有些出生缺陷可能會導致胎兒流產或死產,如果只納入活產胎兒進行研究,則會低估暴露與出生缺陷的關系,產生活產偏倚。本調查顯示,19個(47.5%)研究在納入人群時已考慮活產偏倚,納入了包括死產和流產結局的胎兒,但仍有15個(37.5%)研究在納入人群時僅僅只考慮了活產胎兒,或只包括了活產及死產的胎兒(5,12.5%),或只包括了活產和自發性流產的胎兒(1,2.5%),仍然會存在活產偏倚。
3 討論
本研究納入的研究對象為孕期暴露于藥物(包括營養補充劑)的孕婦。研究治療風濕的藥物研究數量最多,其次為抗抑郁藥和抗癲癇藥。Wang等[50]的研究結果顯示2017年以前,研究抗癲癇藥的研究遠多于抗抑郁藥,而從2017年以來,抗抑郁藥的研究數量超過了抗癲癇藥的研究數量,成為主要的孕期藥物研究類型,并逐年升高。歐美國家為主要的研究實施地,一方面因為歐美的監管數據庫比較成熟,數據庫覆蓋范圍廣,樣本量大,適用于科學研究;另一方面是歐美的數據庫可及性較強,如美國的MAX(Medicaid Analytic eXtract,MAX)數據庫,可采用申請及付費的方式向Medicare和Medicaid服務中心(Centers for Medicare and Medicaid Services,CMS)索要數據來進行研究[51]。孕期用藥是各國藥監局重點關注的事件,由于孕婦的特殊情況,對藥物的臨床試驗一般不包括孕婦人群,因此真實世界情景下孕婦用藥的情況成為了主要的證據來源,真實世界數據也成為了各國藥監局關注的主要孕期藥物安全性證據來源。在這種情況下,納入研究大部分的基金資助是政府支持,且大部分的研究納入了流行病學或者統計學家。3個研究依照已有的觀察性研究質量報告(如STROBE,RECORD)執行研究,其余的研究皆未依照相應的研究質量報告規范,這進一步提示制作相關研究規范,提升研究質量的必要性。
隊列研究是研究孕期藥物暴露和子代出生缺陷關系的理想研究設計,且多為前瞻性研究,因其檢驗病因假設的強度較強。本文中大部分研究都是隊列研究,但僅小部分研究實施了前瞻性研究設計,而回顧性研究會有導致回憶偏倚的可能性。此外,處方藥也成為了主要的研究藥物,由于其特殊性,購買時需要醫生的處方箋,使得它在藥品數據庫中可溯源,這增加了藥品數據來源的可靠性,進一步提高了研究結果的可信度。但同時,這也并不能保證患者沒有私下購買并服用其他藥物,提示研究仍然存在潛在混雜偏倚的可能性。
在檢索到的所有文獻中,擁有大樣本量的國家監管數據庫和注冊登記數據庫是觀察性研究的主要證據來源,這些數據庫有較好的人群代表性,而且能夠增加統計效能和研究準確度,減少誤差。而且和傳統的流行病學研究相比,監管數據庫和注冊登記數據庫在資料收集方面能夠節約時間、費用和人力,是研究者的首要選擇。但是該類數據庫也有一些局限,比如在識別暴露和非暴露組時,容易出現錯分偏倚,相同疾病可能出現不同的診斷名稱,影響研究結果的準確性等。當研究涉及到2個及以上的數據庫時,選擇穩健的數據庫鏈接方法也是研究者需要考慮的問題(RECORD和STROBE中都有列出針對鏈接方法的條目)。精確鏈接(deterministic record linkage)是用唯一識別碼將兩部分數據鏈接,如廈門孕產大數據[52]中的妊娠編碼以及MAX數據庫中的個人識別碼;概率鏈接(probabilistic record linkage)是根據多個且和非唯一的變量(比如名字和出生日期,末次月經和孕周等[53])來進行鏈接。我們納入的研究中75%用的都是精確鏈接,主要的鏈接變量是唯一的個人識別碼。也有研究提出結合精確鏈接和概率鏈接的方法,即同時考慮個人識別碼和姓名、出生日期等來確定孕婦和嬰兒的鏈接,同時該研究也指出,使用唯一個人識別碼的方法對于研究來說已經足夠,沒有必要再用兩者結合的方法進一步提高陽性預測值[54]。
在我們納入的研究中有5個研究使用了MAX數據庫,且樣本量也是所有數據庫中最大的,達到了百萬人以上。MAX[55]是從醫療補助統計信息系統(Medicaid Statistical Information System,MSIS)中提取的,用于支持研究和政策分析的子數據集,其大約覆蓋了美國一半的出生人口,囊括了2000年到2013年美國46個州和華盛頓特區180萬懷孕的孕婦,納入該數據庫的孕婦特點是年齡小,種族差異大且收入低。MAX恰好彌補了某些以志愿者登記為基礎的數據庫以及私人健康保險數據庫人群代表性不足的問題[51],且該數據庫鏈接了醫療記錄,收集了大量協變量數據,能更精準地控制混雜,減少隨機誤差,提高結論外推性。該數據庫廣泛應用于孕婦用藥安全性研究(如止吐藥昂丹司瓊、精神病藥苯丙胺、麻醉性鎮痛劑和抗癲癇藥托吡酯等),為孕婦用藥提供了詳實的指導[56-59]。
在隊列研究中,需要從時間、開具形式(處方或非處方)和劑量3個方面去定義暴露因素。在納入的研究中,將藥物至少處方一次作為定義的概念成為了大多數研究的選擇,但也有研究[5]提出,“處方”并不等同于“服用”,“至少處方2次”才能夠確保孕婦服用了該藥物。此外,對于有樣本庫的研究,將生物樣本中的某種藥物成分濃度作為暴露的定義也是比較可靠的一種選擇。孕早期成為了大多數研究選擇的藥物暴露時間窗—根據生物學證據,孕早期是胎兒器官形成的關鍵時期,也是胎兒畸形發生的窗口期[60],因此嚴格意義上,藥物暴露時間窗應覆蓋孕早期。
在出生缺陷的定義上,我們推薦采用ICD或者EUROCAT作為研究結局(出生缺陷)的主要判斷標準。ICD編碼是世界衛生組織制定的全球統一的疾病編碼,依據疾病特征,按照特定的規則對疾病進行分類及編碼系統,全部包括26 000多條疾病條目。EUROCAT是歐洲先天畸形監測,主要包含了歐洲國家的先天性畸形情況[61]。不同的研究之間因為研究編碼和識別的標準不同,準確性也不同。Huybrechts等[50,62]在正式開始研究之前,提前驗證了其識別結局所用的算法(綜合門診住院和手術記錄做出診斷),且證實該算法具有較高的陽性預測值,可得出較為準確的診斷識別結果后才進行正式的研究。而其余研究均未驗證其結局識別方式的靈敏/特異度,這提示了之后的研究在使用監管數據庫/注冊登記數據庫時也應提前確定暴露/結局的識別方式,從而減少錯分偏倚。大部分研究并未研究總體出生缺陷發生率,而是集中在某些畸形亞組中,如循環系統,這與調查顯示的發生率最高的畸形是先天性心臟畸形的結論一致[63],這也提示研究者應關注重要的出生缺陷類別。
混雜因素的控制是該類研究的重要內容,需要在研究設計或統計分析階段進行控制。混雜因素是研究中與研究因素和研究結局均有關,可能夸大或減少研究因素與疾病之間真實聯系的因素,但并不是研究因素和研究結局因果鏈上的中介變量。觀察性研究在研究設計階段有限制、匹配法來控制混雜。在統計階段可用分層分析、多因素回歸、傾向性評分來識別和控制混雜因素。未測量的混雜可用工具變量表示時,協變量可用結構方程模型測量[64]。
本研究的局限性:① 本文僅納入了2020年文獻,且僅納入PubMed一個數據庫收錄的文獻,可能會對結果代表性造成影響;② 僅檢索了英文文獻,未檢索其他語言文獻,會造成一定的文種偏倚。
綜上所述,妊娠期暴露于藥物和出生缺陷的相關性研究的研究設計方面還需要進一步提高,如涉及多個數據庫,應使用唯一的識別碼鏈接多個數據庫的信息,提高研究的完整度;定義暴露時,要包括類別、時間、劑量和類型,防止錯分偏倚;定義結局時應確定依據標準;研究人群應納入包括流產和死產的胎兒,避免活產偏倚。未來希望能夠制定相關的技術規范來指導該領域開展相關研究,為決策者和研究者提供更高質量的研究證據,維護孕產婦和圍產兒健康。