動物實驗系統評價證據體的分級評價,有助于提高動物實驗結果向臨床試驗和臨床實踐轉化的可行性,高質量的動物實驗證據更有可能作為可靠證據來支持進行下一步的臨床研究(即更強的轉化信心)和突發公共事件的衛生決策。本研究將詳細介紹 GRADE 在動物實驗系統評價中應用的原理、方法和面臨的挑戰。
引用本文: 張婷, 王歡, 邢丹, 陳耀龍, 鄺心穎, 陳昊, 姜彥彪, 胡凱燕, 馬彬. GRADE 在動物實驗系統評價中的應用與挑戰. 中國循證醫學雜志, 2019, 19(2): 248-252. doi: 10.7507/1672-2531.201809068 復制
1 在動物實驗系統評價中應用 GRADE 的必要性
近年來,系統評價方法逐漸被應用于動物實驗在內的基礎醫學領域[1]。1993 年第一篇動物實驗系統評價[2]發表后,相關研究的發表呈逐年遞增趨勢。動物實驗系統評價可讓公眾更好地了解動物生物學的合理性[3-6],不僅可促進其結果向臨床研究或臨床應用的轉化,降低轉化風險[7, 8],且有利于基礎研究領域的資源整合。特別是當研究問題涉及潛在危害及無期望的益處(如毒理學),動物實驗也許是唯一可提供相關數據的證據來源。同時,對于一些突發衛生事件,當缺乏來自人體研究的證據時,基于動物實驗的系統評價可為衛生決策者提供決策依據[9]。
目前,對于如何制定動物實驗系統評價計劃書、如何制定廣泛而全面的檢索策略、如何評價納入研究的偏倚風險及如何進行 meta 分析均有了標準的方法學和報告規范[10-15]。但需要注意的是,在進行決策時,證據體的總體質量起著至關重要的作用[16],因此也有必要對動物實驗系統評價的證據體質量進行分級評價。
2004 年,GRADE 工作組提出了用于分級、評價臨床證據體質量的工具[17]—GRADE 系統。之后 GRADE 系統在不同領域不斷拓展,GRADE 工作組的動物實驗小組正在研發基于 GRADE 系統的動物實驗證據體分級、評價的標準/指南。盡管最終指南尚未發布,但該小組及一些學者均已提出并發表相關理論[18, 19],加之已有部分動物實驗研究開始采用 GRADE 對其系統評價整體質量進行分析評價[20-22]。因此,本研究將詳細介紹 GRADE 在動物實驗系統評價中應用的原理、方法及面臨的挑戰。
2 GRADE 系統在動物實驗系統評價中的應用與實施
2.1 適用范圍
GRADE 系統主要適用對干預性、定量研究系統評價的分級和評價。臨床前干預性動物實驗中研究者可以主動控制干預措施[23],通常被用來驗證醫療干預的有效性和安全性,如在臨床前階段開發新藥、了解疾病干預機制,與臨床干預性試驗在設計、實施等方面具有相似性。因此,本文將主要探討如何將 GRADE 系統用于評估臨床前干預性動物實驗證據的可信度。但值得注意的是該框架不一定適用于毒理學和環境健康領域的動物研究證據分級。
2.2 基本原理和注意事項
臨床前干預性動物實驗在實驗設計和實施等方面與臨床干預性試驗具有一定的相似性。因此,在此領域依然將隨機對照試驗作為高質量證據。而對于其他設計類型的研究分級,如非實驗性(即觀察性)動物研究、在健康環境下評估暴露的生態影響等,需進一步討論。
GRADE 系統在臨床前動物實驗證據中的應用原則依然遵循 GRADE 系統的基本原則[24]。總體而言,對于動物隨機對照試驗而言,主要考慮其降級因素包括:偏倚風險、不一致性、不精確性、發表偏倚和間接性。但需要特別考慮以下問題:① 如何將動物實驗結果向臨床轉化(GRADE 中稱為間接性);② 動物物種內和物種間的一致性;③ 升級因素(何時升級或如何確定升級因素)。
2.3 GRADE 在動物實驗系統評價中的評級步驟
2.3.1 降級因素
2.3.1.1 偏倚風險
若實驗在設計或實施等方面存在缺陷,則會產生錯誤結果的風險。GRADE 在動物實驗系統評價中的第一步就是對每一個結局的偏倚風險進行評估。雖然已有很多工具可用于評估動物實驗的偏倚風險[25],但 SYRCLE 偏倚風險評估工具(Systematic Review Centre for Laboratory Animal Experimentation)是目前唯一一個專門針對動物實驗內在真實性進行評估的工具[13]。臨床隨機對照試驗和干預性動物實驗偏倚風險工具的主要差異詳見表 1。

2.3.1.2 不一致性
不一致性通常通過考慮可信區間的重疊程度、各個納入研究效應量的大小和方向、異質性檢驗的 P 值和 I2 值(描述在效應評估中是異質性引起的百分率變化而非抽樣誤差)。在探索了所有可能解釋異質性的假說之后,若各納入研究結果間的異質性仍不可解釋,GRADE 分級方法則建議證據降級。如異質性可從納入動物種屬、干預措施、比較措施或納入研究偏倚風險等不同方面解釋,則 meta 分析應該提供或實施恰當的亞組分析。如果納入研究間偏倚風險差異可解釋不一致性,則建議僅納入低偏倚風險的研究。
目前,對不一致性的評估仍存在一些挑戰。首先,由于動物實驗屬于探索性實驗,異質性是可被預期的。部分異質性可能被實驗人員刻意引入,在這種情況下,鑒于這部分異質性可解釋,在評估一致性時可以不考慮。因此,不一致性的核心在于:① 如何歸納和解釋異質性;② 如何解釋 I2 值。其次,異質性可能源于種屬,應注意來自物種內和物種間兩方面的不一致。如當分析中所有種屬動物都顯示出相同的效應方向時,那么不同物種間(包括人)的干預效應更加有力。在這種情況下,即使結果總體上有異質性,也不會降低一致性。
2.3.1.3 不精確性
與基于臨床試驗系統評價證據體精確性評價的標準相似,動物實驗系統評價中對證據體的精確性評估也主要從以下兩個方面考慮:① 樣本是否達到最優信息樣本量(optimal information size,OIS);② 可信區間的寬窄程度。如果結果所基于的動物數量少或事件發生率低,則會導致其可信區間變寬。
在動物實驗中最重要的問題是如何計算 OIS 并設定臨床相關有意義的閾值。在干預性動物研究中,實驗單位通常為籠而非個體動物[23]。雖然這類似于基于人群的隨機試驗,但如何將不同實驗單位考慮到 OIS 的計算中仍需要進一步探索。在解釋臨床前動物實驗研究結果時,通常認為效應量的方向比其大小更為重要。因此,對于精確性的判斷主要基于可信區間是否包含了無效值。對于效應量的大小可考慮進行分級,如 SMD<0.2 為小,0.2~0.5 為中,和>0.8 為大。目前還沒有嚴格、清晰的判斷標準,建議如果可信區間包含了兩個或多個級別,則可考慮降級,同時需要給出合理的解釋。此外,也可基于藥物療效的效應量設定閾值以判斷精確性。目前 GRADE 系統中就如何確定臨床決策閾值仍然存在挑戰[26],因此,對于動物證據臨床閾值的相關性和轉化性將是一個巨大的挑戰。此外,類似于臨床試驗,對未實施 meta 分析的動物實驗系統評價如何描述/評價其精確性也是目前必須要面臨的重要挑戰之一。
2.3.1.4 發表偏倚
Sena 等[27]基于發表在 CAMARARDS 上的急性缺血性卒中動物實驗系統評價發現:約 1/7 的原始動物實驗未被發表,這些未發表的原始動物實驗導致的數據缺失使得系統評價結果比實際值高估了 30%。Korevaar 等[28, 29]的研究顯示:近 30% 已發表的動物實驗系統評價未對發表偏倚進行評估。因此,科學評估發表偏倚對解讀動物實驗系統評價結果的可信度具有重要意義。但對于動物實驗而言,目前尚缺乏類似臨床試驗的注冊制度,同時大多數動物實驗納入樣本數量較少,因此,如何對其發表偏倚進行評估尚未形成共識,仍存在巨大挑戰[30]。在保證動物實驗系統評價檢索策略廣泛而全面的前提下,考慮到動物實驗系統評價的特殊性,除了可以借鑒運用漏斗圖、Egger’s 檢驗、Begg’s 檢驗等多種統計方法對發表偏倚進行評估外,如出現以下問題,則需要高度懷疑發表偏倚的可能性:① 當納入的研究多數為小樣本研究,且結果均為陽性;② 納入的研究結果均為陽性,且均接受了藥廠的資助卻沒有準確恰當的利益沖突聲明;③ 動物實驗相關證據以會議摘要、計劃書、或已詳細報告了其方法學部分等形式出現,但其全文結果無法獲得(例如在正式期刊發表等);④ 同一動物實驗研究的不同發表形式(如期刊論文、書籍相關章節、畢業論文等)撰寫的內容和重點方面存在明顯區別;⑤ 動物實驗的結果是以系統評價團隊無法翻譯的語言撰寫;⑥ 現有研究顯示動物實驗的資助方、期刊編輯或其他資助方在其結果的呈現形式、類型等方面起到明顯的主導作用。
2.3.1.5 間接性
GRADE 系統中對動物實驗系統評價提出了兩個層面的間接性:第一層面是從臨床前動物實驗向臨床前 PICO 的間接性,從以下 4 個方面考慮:① 研究對象或疾病模型的間接性:a. 臨床前條件與臨床場景的匹配性,b. 評估疾病表型的多種表現,c. 物種:多種物種被檢測;不同物種間結果的可比性,d. 動物模型與患者在臨床場景下疾病、干預措施、性別、年齡與共病等情況的匹配度,e. 動物屬性特點的基線;② 干預措施的間接性:a. 復雜干預參數的優選,b. 治療時機與臨床實踐場景的匹配度,c. 治療方法/療程與與臨床實踐場景的匹配度,d. 對治療措施的定義,e. 實驗操作/干預與臨床情景的理論關系,f. 治療反應的機理機制途徑,g. 基于驗證試驗評估分子通路,h. 與臨床相關共病的治療相互作用;③ 對照措施的間接性:a. 恰當的對照組,b. 間接的比較,c. 對照組特征與以往研究結果的可比性;④ 結局指標的間接性:a. 所選擇結果測量的特征和有效性,b. 評估晚期/臨床相關時間點的結果。第二層間接性是從動物模型(臨床前動物實驗)到人類(臨床 PICO)的間接性,這也稱為可轉化性。在動物實驗中,通常會將組織學損傷和細菌移位作為衡量功能喪失和感染并發癥的指標。然而,這些都是重要結局指標的替代結局,組織學損傷并不一定意味著功能喪失。此外,對于動物模型而言,其選擇是一個很大的挑戰。如一個表達與人相同的轉移蛋白的“低級”動物模型(轉基因小鼠)比一個表達特定物種轉移蛋白(豬)的“高級”動物模型能更好地反映臨床病理生理學嗎?不同的動物模型疾病間接代表著疾病的不同方面,但很少有一個模型能反映臨床疾病的各個方面,且目前尚無指南說明哪種動物模型能更好的反映疾病和臨床情況。
2.3.2 升級因素
在 GRADE 系統中,觀察性研究的起始證據級別為低質量,然而在某些情況下,證據質量從低升級為中(甚至可能高)是合理的。雖然臨床前動物研究存在升級可能性,但其升級的概念與臨床觀察性研究卻有所不同,如在不同物種間得到的效應的方向和大小一致,則可以升級。此外,在環境健康領域,如動物種屬和模型的結果一致時,也可作為是升級因素之一[31]。但問題是不同動物物種間的一致性是作為升級因素,還是作為不一致性或間接性/可轉化性的一部分還值得今后進一步研究探討。
3 小結
GRADE 的基本框架適用于對臨床前干預性動物實驗系統評價證據分級,但一些條目細則需要進一步改進,部分條目的內涵有所變化。當前仍存在較大挑戰和需要進一步探討的領域包括,如何計算 OIS 和定義臨床相關閾值(不精確性);如何定義種屬內和種屬間的一致性(不一致性);如何規范和定義可轉化性/間接性以及如何升級標準等。因此,今后有必要建立臨床前干預性動物研究 GRADE 分級框架,以更好地解釋動物研究系統評價的結果和評估證據質量,從而降低動物實驗結果向臨床轉化時的風險。
1 在動物實驗系統評價中應用 GRADE 的必要性
近年來,系統評價方法逐漸被應用于動物實驗在內的基礎醫學領域[1]。1993 年第一篇動物實驗系統評價[2]發表后,相關研究的發表呈逐年遞增趨勢。動物實驗系統評價可讓公眾更好地了解動物生物學的合理性[3-6],不僅可促進其結果向臨床研究或臨床應用的轉化,降低轉化風險[7, 8],且有利于基礎研究領域的資源整合。特別是當研究問題涉及潛在危害及無期望的益處(如毒理學),動物實驗也許是唯一可提供相關數據的證據來源。同時,對于一些突發衛生事件,當缺乏來自人體研究的證據時,基于動物實驗的系統評價可為衛生決策者提供決策依據[9]。
目前,對于如何制定動物實驗系統評價計劃書、如何制定廣泛而全面的檢索策略、如何評價納入研究的偏倚風險及如何進行 meta 分析均有了標準的方法學和報告規范[10-15]。但需要注意的是,在進行決策時,證據體的總體質量起著至關重要的作用[16],因此也有必要對動物實驗系統評價的證據體質量進行分級評價。
2004 年,GRADE 工作組提出了用于分級、評價臨床證據體質量的工具[17]—GRADE 系統。之后 GRADE 系統在不同領域不斷拓展,GRADE 工作組的動物實驗小組正在研發基于 GRADE 系統的動物實驗證據體分級、評價的標準/指南。盡管最終指南尚未發布,但該小組及一些學者均已提出并發表相關理論[18, 19],加之已有部分動物實驗研究開始采用 GRADE 對其系統評價整體質量進行分析評價[20-22]。因此,本研究將詳細介紹 GRADE 在動物實驗系統評價中應用的原理、方法及面臨的挑戰。
2 GRADE 系統在動物實驗系統評價中的應用與實施
2.1 適用范圍
GRADE 系統主要適用對干預性、定量研究系統評價的分級和評價。臨床前干預性動物實驗中研究者可以主動控制干預措施[23],通常被用來驗證醫療干預的有效性和安全性,如在臨床前階段開發新藥、了解疾病干預機制,與臨床干預性試驗在設計、實施等方面具有相似性。因此,本文將主要探討如何將 GRADE 系統用于評估臨床前干預性動物實驗證據的可信度。但值得注意的是該框架不一定適用于毒理學和環境健康領域的動物研究證據分級。
2.2 基本原理和注意事項
臨床前干預性動物實驗在實驗設計和實施等方面與臨床干預性試驗具有一定的相似性。因此,在此領域依然將隨機對照試驗作為高質量證據。而對于其他設計類型的研究分級,如非實驗性(即觀察性)動物研究、在健康環境下評估暴露的生態影響等,需進一步討論。
GRADE 系統在臨床前動物實驗證據中的應用原則依然遵循 GRADE 系統的基本原則[24]。總體而言,對于動物隨機對照試驗而言,主要考慮其降級因素包括:偏倚風險、不一致性、不精確性、發表偏倚和間接性。但需要特別考慮以下問題:① 如何將動物實驗結果向臨床轉化(GRADE 中稱為間接性);② 動物物種內和物種間的一致性;③ 升級因素(何時升級或如何確定升級因素)。
2.3 GRADE 在動物實驗系統評價中的評級步驟
2.3.1 降級因素
2.3.1.1 偏倚風險
若實驗在設計或實施等方面存在缺陷,則會產生錯誤結果的風險。GRADE 在動物實驗系統評價中的第一步就是對每一個結局的偏倚風險進行評估。雖然已有很多工具可用于評估動物實驗的偏倚風險[25],但 SYRCLE 偏倚風險評估工具(Systematic Review Centre for Laboratory Animal Experimentation)是目前唯一一個專門針對動物實驗內在真實性進行評估的工具[13]。臨床隨機對照試驗和干預性動物實驗偏倚風險工具的主要差異詳見表 1。

2.3.1.2 不一致性
不一致性通常通過考慮可信區間的重疊程度、各個納入研究效應量的大小和方向、異質性檢驗的 P 值和 I2 值(描述在效應評估中是異質性引起的百分率變化而非抽樣誤差)。在探索了所有可能解釋異質性的假說之后,若各納入研究結果間的異質性仍不可解釋,GRADE 分級方法則建議證據降級。如異質性可從納入動物種屬、干預措施、比較措施或納入研究偏倚風險等不同方面解釋,則 meta 分析應該提供或實施恰當的亞組分析。如果納入研究間偏倚風險差異可解釋不一致性,則建議僅納入低偏倚風險的研究。
目前,對不一致性的評估仍存在一些挑戰。首先,由于動物實驗屬于探索性實驗,異質性是可被預期的。部分異質性可能被實驗人員刻意引入,在這種情況下,鑒于這部分異質性可解釋,在評估一致性時可以不考慮。因此,不一致性的核心在于:① 如何歸納和解釋異質性;② 如何解釋 I2 值。其次,異質性可能源于種屬,應注意來自物種內和物種間兩方面的不一致。如當分析中所有種屬動物都顯示出相同的效應方向時,那么不同物種間(包括人)的干預效應更加有力。在這種情況下,即使結果總體上有異質性,也不會降低一致性。
2.3.1.3 不精確性
與基于臨床試驗系統評價證據體精確性評價的標準相似,動物實驗系統評價中對證據體的精確性評估也主要從以下兩個方面考慮:① 樣本是否達到最優信息樣本量(optimal information size,OIS);② 可信區間的寬窄程度。如果結果所基于的動物數量少或事件發生率低,則會導致其可信區間變寬。
在動物實驗中最重要的問題是如何計算 OIS 并設定臨床相關有意義的閾值。在干預性動物研究中,實驗單位通常為籠而非個體動物[23]。雖然這類似于基于人群的隨機試驗,但如何將不同實驗單位考慮到 OIS 的計算中仍需要進一步探索。在解釋臨床前動物實驗研究結果時,通常認為效應量的方向比其大小更為重要。因此,對于精確性的判斷主要基于可信區間是否包含了無效值。對于效應量的大小可考慮進行分級,如 SMD<0.2 為小,0.2~0.5 為中,和>0.8 為大。目前還沒有嚴格、清晰的判斷標準,建議如果可信區間包含了兩個或多個級別,則可考慮降級,同時需要給出合理的解釋。此外,也可基于藥物療效的效應量設定閾值以判斷精確性。目前 GRADE 系統中就如何確定臨床決策閾值仍然存在挑戰[26],因此,對于動物證據臨床閾值的相關性和轉化性將是一個巨大的挑戰。此外,類似于臨床試驗,對未實施 meta 分析的動物實驗系統評價如何描述/評價其精確性也是目前必須要面臨的重要挑戰之一。
2.3.1.4 發表偏倚
Sena 等[27]基于發表在 CAMARARDS 上的急性缺血性卒中動物實驗系統評價發現:約 1/7 的原始動物實驗未被發表,這些未發表的原始動物實驗導致的數據缺失使得系統評價結果比實際值高估了 30%。Korevaar 等[28, 29]的研究顯示:近 30% 已發表的動物實驗系統評價未對發表偏倚進行評估。因此,科學評估發表偏倚對解讀動物實驗系統評價結果的可信度具有重要意義。但對于動物實驗而言,目前尚缺乏類似臨床試驗的注冊制度,同時大多數動物實驗納入樣本數量較少,因此,如何對其發表偏倚進行評估尚未形成共識,仍存在巨大挑戰[30]。在保證動物實驗系統評價檢索策略廣泛而全面的前提下,考慮到動物實驗系統評價的特殊性,除了可以借鑒運用漏斗圖、Egger’s 檢驗、Begg’s 檢驗等多種統計方法對發表偏倚進行評估外,如出現以下問題,則需要高度懷疑發表偏倚的可能性:① 當納入的研究多數為小樣本研究,且結果均為陽性;② 納入的研究結果均為陽性,且均接受了藥廠的資助卻沒有準確恰當的利益沖突聲明;③ 動物實驗相關證據以會議摘要、計劃書、或已詳細報告了其方法學部分等形式出現,但其全文結果無法獲得(例如在正式期刊發表等);④ 同一動物實驗研究的不同發表形式(如期刊論文、書籍相關章節、畢業論文等)撰寫的內容和重點方面存在明顯區別;⑤ 動物實驗的結果是以系統評價團隊無法翻譯的語言撰寫;⑥ 現有研究顯示動物實驗的資助方、期刊編輯或其他資助方在其結果的呈現形式、類型等方面起到明顯的主導作用。
2.3.1.5 間接性
GRADE 系統中對動物實驗系統評價提出了兩個層面的間接性:第一層面是從臨床前動物實驗向臨床前 PICO 的間接性,從以下 4 個方面考慮:① 研究對象或疾病模型的間接性:a. 臨床前條件與臨床場景的匹配性,b. 評估疾病表型的多種表現,c. 物種:多種物種被檢測;不同物種間結果的可比性,d. 動物模型與患者在臨床場景下疾病、干預措施、性別、年齡與共病等情況的匹配度,e. 動物屬性特點的基線;② 干預措施的間接性:a. 復雜干預參數的優選,b. 治療時機與臨床實踐場景的匹配度,c. 治療方法/療程與與臨床實踐場景的匹配度,d. 對治療措施的定義,e. 實驗操作/干預與臨床情景的理論關系,f. 治療反應的機理機制途徑,g. 基于驗證試驗評估分子通路,h. 與臨床相關共病的治療相互作用;③ 對照措施的間接性:a. 恰當的對照組,b. 間接的比較,c. 對照組特征與以往研究結果的可比性;④ 結局指標的間接性:a. 所選擇結果測量的特征和有效性,b. 評估晚期/臨床相關時間點的結果。第二層間接性是從動物模型(臨床前動物實驗)到人類(臨床 PICO)的間接性,這也稱為可轉化性。在動物實驗中,通常會將組織學損傷和細菌移位作為衡量功能喪失和感染并發癥的指標。然而,這些都是重要結局指標的替代結局,組織學損傷并不一定意味著功能喪失。此外,對于動物模型而言,其選擇是一個很大的挑戰。如一個表達與人相同的轉移蛋白的“低級”動物模型(轉基因小鼠)比一個表達特定物種轉移蛋白(豬)的“高級”動物模型能更好地反映臨床病理生理學嗎?不同的動物模型疾病間接代表著疾病的不同方面,但很少有一個模型能反映臨床疾病的各個方面,且目前尚無指南說明哪種動物模型能更好的反映疾病和臨床情況。
2.3.2 升級因素
在 GRADE 系統中,觀察性研究的起始證據級別為低質量,然而在某些情況下,證據質量從低升級為中(甚至可能高)是合理的。雖然臨床前動物研究存在升級可能性,但其升級的概念與臨床觀察性研究卻有所不同,如在不同物種間得到的效應的方向和大小一致,則可以升級。此外,在環境健康領域,如動物種屬和模型的結果一致時,也可作為是升級因素之一[31]。但問題是不同動物物種間的一致性是作為升級因素,還是作為不一致性或間接性/可轉化性的一部分還值得今后進一步研究探討。
3 小結
GRADE 的基本框架適用于對臨床前干預性動物實驗系統評價證據分級,但一些條目細則需要進一步改進,部分條目的內涵有所變化。當前仍存在較大挑戰和需要進一步探討的領域包括,如何計算 OIS 和定義臨床相關閾值(不精確性);如何定義種屬內和種屬間的一致性(不一致性);如何規范和定義可轉化性/間接性以及如何升級標準等。因此,今后有必要建立臨床前干預性動物研究 GRADE 分級框架,以更好地解釋動物研究系統評價的結果和評估證據質量,從而降低動物實驗結果向臨床轉化時的風險。