引用本文: 牛軍強, 王亞楠, 朱芊各, 陳匡陽, 張劉生, 王亞平, 蘇旭, 楊佳卉, 秦倩, 趙雅琴, 鄭建勛, 黃成本, 魏國強, 陳朝虎, 鄭德秀, 馬彬. 動物實驗方法學和報告質量評估工具的橫斷面研究. 中國循證醫學雜志, 2015, 15(2): 223-229. doi: 10.7507/1672-2531.20150038 復制
動物實驗指在實驗室內,為了獲得有關生物學、醫學等方面的新知識或解決具體問題而使用動物進行的科學研究 [1],是臨床前研究的重要組成部分,亦是連接基礎研究和臨床試驗的重要橋梁,其結果直接影響著許多領域研究課題成果的確立和水平的高低。
臨床前動物實驗的基本目的是初步驗證干預措施的安全性和有效性,并為新干預措施是否可以進入臨床研究階段提供科學證據。但在方法學方面普遍存在的一些問題大大降低了臨床前動物實驗的真實性和可靠性 [2],如原始實驗設計不需要專門委員會批準,非隨機的研究、對照設立欠佳,動物質量未標準化,觀察指標單一,結果報告不完整、可重復性差等。此外,作為英國最大的動物實驗資助機構,國際實驗動物3Rs中心(The National Centre for the Replacement,Refinement and Reduction of Animals in Research,NC3Rs)對其所資助的動物實驗的報告質量進行回顧性分析后發現 [3]:許多被資助的研究都缺乏對實驗設計、實施和分析等一些重要信息的報告,僅59%的論文說明了該實驗的假設和目的、動物的實驗數量和所用實驗動物的基本特征。30%的實驗未描述其統計學方法以及未采用正確的統計指標描述統計結果。分別有87%和86%的實驗未實施“隨機分配”和“盲法”,更加嚴重的是在33個實施了“隨機化”原則的動物實驗中,僅9%(3/33)的實驗在其研究報告論文中闡述了具體的隨機化方法,最終導致許多3Rs中心資助動物實驗的研究成果的利用率和轉化率低下,使得3Rs中心科研基金的投入產出比不成正比。因此,準確科學評估動物實驗的方法學和報告質量非常必要。
國外第一個動物實驗方法學質量評估工具發表于1996年 [4],此后不同國家/地區的研究機構陸續發表了多個評估動物實驗質量的條目/清單,有些是專門針對毒理的,有些同時適用于內在和外在真實性的評估,尚無統一標準。此后動物實驗研究報告指南(Animal Research:Reporting:In Vivo Experiment Guidelines,ARRIVE指南) [5]和動物實驗金標準報告清單(Gold Standard Publication Checklist,GSPC) [6]也陸續得以發表,用以規范動物實驗的科學報告。但目前國內尚無研究對動物實驗方法學質量和報告質量工具進行系統分析,比較其適用范圍和優缺點。
因此,本研究全面收集國內外用于評估動物實驗方法學和報告質量的工具/指南,比較不同工具/指南的研發基礎、適用范圍和目的,為不同工具/指南的科學選擇提供參考依據。
1 資料與方法
1.1 納入與排除標準
納入用于評估原始動物實驗研究方法學和報告質量的工具/指南,不限制原始動物實驗研究的具體方法和動物的種屬,排除基于某一種/多種疾病相關的原始動物實驗評估其方法學質量和/或報告質量的研究,排除此類工具/指南在某一種/多種疾病或領域中應用方面的研究。語種限制為英文和中文。
1.2 檢索策略
計算機檢索PubMed、EMbase、CNKI、VIP和WanFang Data,檢索時限截至2014年7月。中文檢索詞包括動物實驗、方法學質量、報告學質量、標準等,英文檢索詞包括animal experimentation、methodological quality、reporting quality、guideline等。以PubMed 為例,其具體檢索策略見框1。
框 1 PubMed檢索策略
#1 “Animal Experimentation”[Mesh] OR “Disease Models,Animal”[Mesh] OR “Drug Evaluation,Preclinical”[Mesh] OR “Animals,Laboratory”[Mesh] OR “Disease Models,Animal”[Mesh] OR Ecotoxicology[Mesh] #2 animal experimentation OR animal research OR animal study OR Laboratory Animal OR animal disease models OR environmental toxicology #3 #1 OR #2 #4 guideline OR guidelines OR guidance OR guide OR recommendations OR statement OR manual OR guiding principles OR Handbook OR document OR report OR rapid advice OR booklet OR toolkit OR management OR framework OR care OR criteria OR classification OR initiative OR module OR interventions OR medical reasons OR textbooks OR policy OR response OR role OR technical paper OR technical consultation OR technical note OR tool #5 “Guideline” [Publication Type] OR “Guidelines as Topic”[Mesh] #6 methodological quality OR reporting quality OR research reporting OR “risk of bias” OR “weight of evidence” OR study quality
1.3 文獻篩選與資料提取
對各數據庫檢索結果,PubMed以MEDLINE格式,EMbase以RIS格式,CNKI、VIP、WanFang Data以EndNote格式導出至EndNote X3。去除重復文獻后,由2位研究者(王亞楠、朱芊各)獨立按納入與排除標準,通過閱讀文題和摘要,排除無明顯相關性的文獻,然后,閱讀全文納入符合要求的文獻,并交叉核對篩選結果。如遇分歧,討論后解決或交由第三方(馬彬)裁定。采用Microsoft Excel 2007建立完善的資料提取表格。提取條目包括工具的研發基礎、條目數,是否基于評分,是否基于具體的疾病模型,條目是否被經驗檢驗,適用范圍和評估重點等方面。由兩位研究者(王亞楠、朱芊各)獨立進行資料提取并交叉核對,分歧之處通過討論解決或由第三方(馬彬)裁定。
1.4 統計分析
采用定性方法對資料進行分析。
2 結果
2.1 文獻檢索結果
初檢獲得5 464篇文獻,經逐層篩選后,最終納入32篇文獻,其中,報告質量評價工具6個,方法學質量評價工具26個。文獻篩選流程及結果見圖 1。

2.2 納入研究的基本特征
結果見表 1。共納入32個用于評估動物實驗方法學和報告質量的工具,其中以評估報告質量為主的工具6個 [5-9, 11],以評價方法學質量為主的工具26個 [12-14, 18, 19, 21-28, 30-34, 36-43]。就工具的研發基礎而言,納入的31個評估工具中,26個研究均闡明了其條目形成的基礎,其中15個工具 [6, 7, 19, 21-23, 25-28, 32, 33, 40-41, 43]通過修改或更新以前的動物實驗研究評估的工具而形成,3個工具 [34, 38, 39]基于臨床偏倚風險評估工具修訂形成,5個工具 [5, 8, 9, 24, 30]基于臨床研究證據或共識而形成,3個工具 [11, 12, 14]是基于共識和以前的指南形成的,其余6個工具 [13, 18, 31, 36, 37, 42]未報告其具體的研發基礎。納入的32個評估工具所包含的條目數為2~54不等。

就是否采用評分制而言,納入的32個評估工具中,7個工具 [12, 22, 27, 28, 30, 40, 43]提及采用評分制對其方法學質量進行評估。其中Horn等 [28]和Lucas等 [40]的研究認為需要針對每個評估條目給一個質量分,但Horn等 [28]的研究認為質量分<4是低方法學質量研究,質量分≥ 4是高方法學質量研究;而Lucas等 [40]的研究認為質量分<5是低方法學質量研究,質量分為5或6是中等方法學質量研究,質量分為7或8是高方法學質量研究。而Hobbs等 [43]的研究認為應對方法學標準給出一個總體得分:低方法學質量的研究(≤ 50%),中等方法學質量的研究(51%~79%),高方法學質量的研究(≥ 80)。Minnerup等 [22]的研究中方法學質量的評分基于以前的研究。Macleod等 [27]的研究僅指出在文獻中提到的每一個標準,都應該給出一個質量分。Conrad等 [12]的研究認為應該設置一個評分系統來對方法學質量進行評分,但并未推薦其具體的評分系統。7個工具[21, 26, 27, 32, 36, 39, 40]的發展經經驗檢驗,即這些工具中的條目是有研究支持的。
此外,就其適用范圍而言,19個工具僅適用于臨床前藥物研究領域 [8, 9, 22-28, 30-32, 34, 36-40],4個工具僅適用于評估環境毒理學方面的動物實驗研究 [11, 41-43] ,其余9個工具并未對其具體的適用范圍和領域進行限定 [5-7, 12-14, 18, 19, 21]。就臨床前藥物研究領域來說,報告學質量工具有2個 [8, 9],1個 [8]沒有針對具體的疾病模型,1個 [9]是針對敗血癥的;方法學質量工具有16個 [22-28, 30-34, 36-40],其中10個 [22-28, 30-32]僅針對中風模型,1個 [33]針對多發性硬化癥,1個 [34]針對動物疼痛模型,1個 [36]針對骨關節炎,1個 [38]針對休克/敗血癥等特殊疾病模型,另外3個(3/16) [37, 39, 40]未針對特定的疾病模型。就環境毒理學研究領域來說,報告質量工具有1個 [11],方法學質量工具有3個 [41-43],均未針對具體的疾病模型。
3 討論
我們的研究共納入了32個評估動物實驗報告質量和方法學質量的工具。在6個以評估報告質量為主的工具中,3個均僅適用于臨床前藥物研究 [8, 9]和環境毒理學研究 [11],適用范圍較窄,限制了其適用范圍,其余3個報告工具 [5-7]未對其適用范圍進行限定,適用范圍較廣泛。其中ARRIVE指南充分借鑒了CONSORT聲明,GSPC清單不僅基于文獻分析和已有科學證據的結果,還重點包括動物實驗應客觀、完整地報告研究設計方法,飼養動物環境(包括溫度、濕度、通風、采光和噪音)、營養(營養類型、營養成分、飼養方式)和水等對研究結果產生重要影響的信息,評價內容均是動物實驗所應該報告的信息。雖然兩者目前均非官方強制性的研究報告標準,但大多數學者均公認其為撰寫和發表動物實驗的有效參考清單和寫作指南,可確保動物實驗所提供的信息被充分地評估和利用,以促進基礎研究評審過程的完整性和透明化 [5]。
26個以評估方法學質量為主的工具中,17個(17/26)工具僅適用于臨床前藥物研究領域,其中10個(10/16) [22-28, 30-32]僅針對中風模型,4個(4/17)針對多發性硬化癥 [33]、動物疼痛模型 [34]、骨關節炎 [36],休克/敗血癥等 [38]特殊疾病模型,另外3個(3/17) [37, 39, 40]未針對特定的疾病模型,其適用范圍較局限。此外,3個(3/26) [41-43]僅適用于環境毒理學研究,也限制了這些評估工具的使用范圍和領域。在6個(6/26) [12-14, 18, 19, 21]未對其適用范圍及領域進行限定的評估工具中,僅SYRCLE動物實驗偏倚風險評估工具 [21]是目前唯一一個專門適用于動物實驗內在真實性評估的工具,避免了動物干預性實驗系統評價在進行風險評估時產生的差異。其各評估條目的研發基礎是在Cochrane偏倚風險評估工具的基礎上建立的,共包含10個條目,其中5個條目與Cochrane偏倚風險評估工具對應的條目完全一致,2個條目在原Cochrane偏倚風險評估工具的基礎上進行了一定的修改,另外新增3個條目。
此外,本研究存在一定的局限性。首先,僅檢索了外文PubMed數據庫可能會遺漏一些該數據庫未收錄的文獻;其次,限制語種為中文或英文,可能會遺漏一些其他語種的文獻。
綜上所述,我們系統地收集了用于評估動物實驗方法學質量和報告質量的工具,重點比較了其條目數、研發基礎、針對的疾病模型,適用范圍及評估重點。推薦使用SYRCLE動物實驗風險評估工具(方法學質量)、ARRIVE指南和GSPC清單(報告質量),以有效地提高動物實驗設計、實施、報告以及對動物實驗的評估水平,促進動物實驗的發展,促進科學成果充分利用和轉化。
動物實驗指在實驗室內,為了獲得有關生物學、醫學等方面的新知識或解決具體問題而使用動物進行的科學研究 [1],是臨床前研究的重要組成部分,亦是連接基礎研究和臨床試驗的重要橋梁,其結果直接影響著許多領域研究課題成果的確立和水平的高低。
臨床前動物實驗的基本目的是初步驗證干預措施的安全性和有效性,并為新干預措施是否可以進入臨床研究階段提供科學證據。但在方法學方面普遍存在的一些問題大大降低了臨床前動物實驗的真實性和可靠性 [2],如原始實驗設計不需要專門委員會批準,非隨機的研究、對照設立欠佳,動物質量未標準化,觀察指標單一,結果報告不完整、可重復性差等。此外,作為英國最大的動物實驗資助機構,國際實驗動物3Rs中心(The National Centre for the Replacement,Refinement and Reduction of Animals in Research,NC3Rs)對其所資助的動物實驗的報告質量進行回顧性分析后發現 [3]:許多被資助的研究都缺乏對實驗設計、實施和分析等一些重要信息的報告,僅59%的論文說明了該實驗的假設和目的、動物的實驗數量和所用實驗動物的基本特征。30%的實驗未描述其統計學方法以及未采用正確的統計指標描述統計結果。分別有87%和86%的實驗未實施“隨機分配”和“盲法”,更加嚴重的是在33個實施了“隨機化”原則的動物實驗中,僅9%(3/33)的實驗在其研究報告論文中闡述了具體的隨機化方法,最終導致許多3Rs中心資助動物實驗的研究成果的利用率和轉化率低下,使得3Rs中心科研基金的投入產出比不成正比。因此,準確科學評估動物實驗的方法學和報告質量非常必要。
國外第一個動物實驗方法學質量評估工具發表于1996年 [4],此后不同國家/地區的研究機構陸續發表了多個評估動物實驗質量的條目/清單,有些是專門針對毒理的,有些同時適用于內在和外在真實性的評估,尚無統一標準。此后動物實驗研究報告指南(Animal Research:Reporting:In Vivo Experiment Guidelines,ARRIVE指南) [5]和動物實驗金標準報告清單(Gold Standard Publication Checklist,GSPC) [6]也陸續得以發表,用以規范動物實驗的科學報告。但目前國內尚無研究對動物實驗方法學質量和報告質量工具進行系統分析,比較其適用范圍和優缺點。
因此,本研究全面收集國內外用于評估動物實驗方法學和報告質量的工具/指南,比較不同工具/指南的研發基礎、適用范圍和目的,為不同工具/指南的科學選擇提供參考依據。
1 資料與方法
1.1 納入與排除標準
納入用于評估原始動物實驗研究方法學和報告質量的工具/指南,不限制原始動物實驗研究的具體方法和動物的種屬,排除基于某一種/多種疾病相關的原始動物實驗評估其方法學質量和/或報告質量的研究,排除此類工具/指南在某一種/多種疾病或領域中應用方面的研究。語種限制為英文和中文。
1.2 檢索策略
計算機檢索PubMed、EMbase、CNKI、VIP和WanFang Data,檢索時限截至2014年7月。中文檢索詞包括動物實驗、方法學質量、報告學質量、標準等,英文檢索詞包括animal experimentation、methodological quality、reporting quality、guideline等。以PubMed 為例,其具體檢索策略見框1。
框 1 PubMed檢索策略
#1 “Animal Experimentation”[Mesh] OR “Disease Models,Animal”[Mesh] OR “Drug Evaluation,Preclinical”[Mesh] OR “Animals,Laboratory”[Mesh] OR “Disease Models,Animal”[Mesh] OR Ecotoxicology[Mesh] #2 animal experimentation OR animal research OR animal study OR Laboratory Animal OR animal disease models OR environmental toxicology #3 #1 OR #2 #4 guideline OR guidelines OR guidance OR guide OR recommendations OR statement OR manual OR guiding principles OR Handbook OR document OR report OR rapid advice OR booklet OR toolkit OR management OR framework OR care OR criteria OR classification OR initiative OR module OR interventions OR medical reasons OR textbooks OR policy OR response OR role OR technical paper OR technical consultation OR technical note OR tool #5 “Guideline” [Publication Type] OR “Guidelines as Topic”[Mesh] #6 methodological quality OR reporting quality OR research reporting OR “risk of bias” OR “weight of evidence” OR study quality
1.3 文獻篩選與資料提取
對各數據庫檢索結果,PubMed以MEDLINE格式,EMbase以RIS格式,CNKI、VIP、WanFang Data以EndNote格式導出至EndNote X3。去除重復文獻后,由2位研究者(王亞楠、朱芊各)獨立按納入與排除標準,通過閱讀文題和摘要,排除無明顯相關性的文獻,然后,閱讀全文納入符合要求的文獻,并交叉核對篩選結果。如遇分歧,討論后解決或交由第三方(馬彬)裁定。采用Microsoft Excel 2007建立完善的資料提取表格。提取條目包括工具的研發基礎、條目數,是否基于評分,是否基于具體的疾病模型,條目是否被經驗檢驗,適用范圍和評估重點等方面。由兩位研究者(王亞楠、朱芊各)獨立進行資料提取并交叉核對,分歧之處通過討論解決或由第三方(馬彬)裁定。
1.4 統計分析
采用定性方法對資料進行分析。
2 結果
2.1 文獻檢索結果
初檢獲得5 464篇文獻,經逐層篩選后,最終納入32篇文獻,其中,報告質量評價工具6個,方法學質量評價工具26個。文獻篩選流程及結果見圖 1。

2.2 納入研究的基本特征
結果見表 1。共納入32個用于評估動物實驗方法學和報告質量的工具,其中以評估報告質量為主的工具6個 [5-9, 11],以評價方法學質量為主的工具26個 [12-14, 18, 19, 21-28, 30-34, 36-43]。就工具的研發基礎而言,納入的31個評估工具中,26個研究均闡明了其條目形成的基礎,其中15個工具 [6, 7, 19, 21-23, 25-28, 32, 33, 40-41, 43]通過修改或更新以前的動物實驗研究評估的工具而形成,3個工具 [34, 38, 39]基于臨床偏倚風險評估工具修訂形成,5個工具 [5, 8, 9, 24, 30]基于臨床研究證據或共識而形成,3個工具 [11, 12, 14]是基于共識和以前的指南形成的,其余6個工具 [13, 18, 31, 36, 37, 42]未報告其具體的研發基礎。納入的32個評估工具所包含的條目數為2~54不等。

就是否采用評分制而言,納入的32個評估工具中,7個工具 [12, 22, 27, 28, 30, 40, 43]提及采用評分制對其方法學質量進行評估。其中Horn等 [28]和Lucas等 [40]的研究認為需要針對每個評估條目給一個質量分,但Horn等 [28]的研究認為質量分<4是低方法學質量研究,質量分≥ 4是高方法學質量研究;而Lucas等 [40]的研究認為質量分<5是低方法學質量研究,質量分為5或6是中等方法學質量研究,質量分為7或8是高方法學質量研究。而Hobbs等 [43]的研究認為應對方法學標準給出一個總體得分:低方法學質量的研究(≤ 50%),中等方法學質量的研究(51%~79%),高方法學質量的研究(≥ 80)。Minnerup等 [22]的研究中方法學質量的評分基于以前的研究。Macleod等 [27]的研究僅指出在文獻中提到的每一個標準,都應該給出一個質量分。Conrad等 [12]的研究認為應該設置一個評分系統來對方法學質量進行評分,但并未推薦其具體的評分系統。7個工具[21, 26, 27, 32, 36, 39, 40]的發展經經驗檢驗,即這些工具中的條目是有研究支持的。
此外,就其適用范圍而言,19個工具僅適用于臨床前藥物研究領域 [8, 9, 22-28, 30-32, 34, 36-40],4個工具僅適用于評估環境毒理學方面的動物實驗研究 [11, 41-43] ,其余9個工具并未對其具體的適用范圍和領域進行限定 [5-7, 12-14, 18, 19, 21]。就臨床前藥物研究領域來說,報告學質量工具有2個 [8, 9],1個 [8]沒有針對具體的疾病模型,1個 [9]是針對敗血癥的;方法學質量工具有16個 [22-28, 30-34, 36-40],其中10個 [22-28, 30-32]僅針對中風模型,1個 [33]針對多發性硬化癥,1個 [34]針對動物疼痛模型,1個 [36]針對骨關節炎,1個 [38]針對休克/敗血癥等特殊疾病模型,另外3個(3/16) [37, 39, 40]未針對特定的疾病模型。就環境毒理學研究領域來說,報告質量工具有1個 [11],方法學質量工具有3個 [41-43],均未針對具體的疾病模型。
3 討論
我們的研究共納入了32個評估動物實驗報告質量和方法學質量的工具。在6個以評估報告質量為主的工具中,3個均僅適用于臨床前藥物研究 [8, 9]和環境毒理學研究 [11],適用范圍較窄,限制了其適用范圍,其余3個報告工具 [5-7]未對其適用范圍進行限定,適用范圍較廣泛。其中ARRIVE指南充分借鑒了CONSORT聲明,GSPC清單不僅基于文獻分析和已有科學證據的結果,還重點包括動物實驗應客觀、完整地報告研究設計方法,飼養動物環境(包括溫度、濕度、通風、采光和噪音)、營養(營養類型、營養成分、飼養方式)和水等對研究結果產生重要影響的信息,評價內容均是動物實驗所應該報告的信息。雖然兩者目前均非官方強制性的研究報告標準,但大多數學者均公認其為撰寫和發表動物實驗的有效參考清單和寫作指南,可確保動物實驗所提供的信息被充分地評估和利用,以促進基礎研究評審過程的完整性和透明化 [5]。
26個以評估方法學質量為主的工具中,17個(17/26)工具僅適用于臨床前藥物研究領域,其中10個(10/16) [22-28, 30-32]僅針對中風模型,4個(4/17)針對多發性硬化癥 [33]、動物疼痛模型 [34]、骨關節炎 [36],休克/敗血癥等 [38]特殊疾病模型,另外3個(3/17) [37, 39, 40]未針對特定的疾病模型,其適用范圍較局限。此外,3個(3/26) [41-43]僅適用于環境毒理學研究,也限制了這些評估工具的使用范圍和領域。在6個(6/26) [12-14, 18, 19, 21]未對其適用范圍及領域進行限定的評估工具中,僅SYRCLE動物實驗偏倚風險評估工具 [21]是目前唯一一個專門適用于動物實驗內在真實性評估的工具,避免了動物干預性實驗系統評價在進行風險評估時產生的差異。其各評估條目的研發基礎是在Cochrane偏倚風險評估工具的基礎上建立的,共包含10個條目,其中5個條目與Cochrane偏倚風險評估工具對應的條目完全一致,2個條目在原Cochrane偏倚風險評估工具的基礎上進行了一定的修改,另外新增3個條目。
此外,本研究存在一定的局限性。首先,僅檢索了外文PubMed數據庫可能會遺漏一些該數據庫未收錄的文獻;其次,限制語種為中文或英文,可能會遺漏一些其他語種的文獻。
綜上所述,我們系統地收集了用于評估動物實驗方法學質量和報告質量的工具,重點比較了其條目數、研發基礎、針對的疾病模型,適用范圍及評估重點。推薦使用SYRCLE動物實驗風險評估工具(方法學質量)、ARRIVE指南和GSPC清單(報告質量),以有效地提高動物實驗設計、實施、報告以及對動物實驗的評估水平,促進動物實驗的發展,促進科學成果充分利用和轉化。