遺傳關聯性 Meta 分析將多個研究的數據整合,通過增大樣本量以提高統計效能,成為探求真實遺傳關聯性的有效途徑。Meta 分析為遺傳關聯性證據的產生帶來機遇,但同時也給此類證據的利用帶來挑戰。因此,合理評價證據的可信度確有必要。本文主要介紹如何使用 Venice 標準從分子流行病學角度評價遺傳關聯性 Meta 分析證據的可信度。評估指標包括證據量、重復性及偏倚控制三方面,最后綜合三方面的分級結果,得出“強”、“中等”、“弱”三個等級結果。通過對遺傳關聯性 Meta 分析證據可信度的評估,為進一步的研究及證據的臨床轉化提供明確信息。
引用本文: 趙向, 仇成鳳, 史志華, 鄧紫薇, 翁鴻, 楊宜華, 譚力銘, 曾憲濤. 遺傳關聯性 Meta 分析證據可信度評價. 中國循證醫學雜志, 2018, 18(8): 883-887. doi: 10.7507/1672-2531.201804142 復制
近年,隨著高通量基因檢測技術的發展,每年有大量研究報道了基因多態與人類疾病的關聯性。由于遺傳關聯性研究的效應量指標通常較小,因此常需要較大樣本量以獲得真實的遺傳關聯性。系統評價/Meta 分析能整合多個研究數據,通過增大樣本量來提高統計效能,成為探求真實遺傳關聯性的有效途徑。遺傳關聯性 Meta 分析為生產和傳播遺傳關聯性證據帶來機遇,但同時也給此類證據的利用帶來挑戰。因此,合理評價遺傳關聯性 Meta 分析證據的可信度非常重要。本文介紹如何應用 Venice 標準[1]評價遺傳關聯性 Meta 分析證據的可信度。
1 Venice 標準簡介
Venice 標準由 HuGENet(Human Genome Epidemiology Network)工作組于 2007 年提出,并隨著研究的發展不斷更新[2, 3]。該標準主要從證據量、重復性及偏倚控制三方面來評估遺傳關聯性 Meta 分析證據的可信度。三個評價指標的評價標準與解釋說明見表 1。

2 證據量
證據的有效性主要取決于是否能夠發現真實的遺傳關聯性,主要影響因素包括樣本量、基因分析模型、基因突變頻率及效應量的大小。足夠的樣本量可提高統計效能、增加統計學意義的顯著性及減少結果報告的假陽性率[4, 5]。在遺傳關聯性研究中,由于存在基因分析模型不同及不同人群的基因突變頻率不同等因素,因此所有比較組中基因突變頻率較低組的基因型樣本量(nminor)是影響效能的關鍵因素。Venice 標準使用 nminor 作為評估證據量的直接指標。
那么,如何設定證據量的分級閾值?由表 2 可知,假定病例組與對照組樣本量相等,nminor=1 000,最小基因突變率(fminor)變化范圍在 0.01~0.50。當 α=0.05,OR 值在 1.3~5 時可得到較高的統計效能(81~100%);當 OR 值為 1.2 時,統計效能隨著樣本量的減少而下降(51~82%);當 OR 值為 1.1 時,基本失去統計效能(18~32%)。當 nminor=500、OR 值為 1.1~1.3 時統計效能大幅度下降,當 nminor=1 500 時,統計效能卻并沒有明顯增加(表 2 中未顯示)[1]。基于統計效能的穩定性,Venice 標準設定 nminor=1 000 作為 A 級與 B 級的分級閾值。但是需要注意的是,當 α=10-7(多推薦用于發現性研究,如 GAWS 等)時,nminor=1 000 僅在 OR≥2 時方能保證穩定的統計效能(96%~100%),因此當 Meta 分析中納入 GAWS 研究,仍需增加樣本量以保證統計效能。

3 重復性
獨立原始研究結果的可重復性是影響 Meta 分析結果可信度的重要因素。在遺傳關聯性研究中,不同研究階段對具有統計學顯著性意義的 α 值設定不同。在識別發現階段如 GAWS 研究中,通過同時分析成千上萬個基因的突變情況來發現與篩選基因多態性與疾病的關聯性,為了保證結果的真實性與可信度,建議將 α 值設定為 10–7;而在后續的重復驗證階段,主要探討一個或多個候選基因多態性與疾病的關聯性,這時將 α 值設定為 0.05 較為合適[6, 7]。
對于真實存在的遺傳關聯性,如果獨立原始研究間缺少重復性和同質性,需要慎重分析其潛在影響因素。首先考慮是否存在錯誤或偏倚,主要包括表型定義非標準化、基因分型錯誤、人群分層不適宜及選擇性報告等[8-10]。在后續重復驗證階段,基因的連鎖不平衡在不同人群的不一致可能是導致獨立研究存在異質性的原因之一[11]。因此,獨立研究間缺少重復性也不能完全否定之前所發現的基因-疾病關聯性,在排除潛在的錯誤與偏倚外,獨立研究間的異質性可能也是基因效應的真實反映[11]。此外,尚需評估原始研究間的獨立性。原始研究的獨立性方能確保真實的“重復性”[12]。由不同的研究團隊在不同的人群中探討同一基因多態性-疾病的關聯性是保證原始研究獨立性的最佳措施。如果由同一個研究團隊在不同人群中去進行某個遺傳關聯性的重復驗證,或將未進行合并分析人群的分層分析視為獨立研究均會因缺乏獨立性導致潛在偏倚增加[13]。
總之,對于重復驗證的某個遺傳關聯性,原始研究之間的獨立性和重復性是提高累積證據可信度的重要因素。在進行系統評價或 Meta 分析時,通常計算異質性(I2)對結果的重復性進行估算與分級(表 1)。
4 控制偏倚風險
偏倚不僅會影響真實遺傳關聯效應值的大小,甚至會決定是否存在統計學意義的差異(結果的方向)。由于遺傳關聯性的效應指標通常較小,因此,采取恰當的措施盡可能控制偏倚風險對于發現真實的遺傳關聯分析十分重要。偏倚風險存在于實施原始研究階段和證據整合階段。許多因素都可導致偏倚的發生,包括研究設計、DNA 提取、基因分型、原始數據管理和分析、結果報告及結果合并方法(Meta 分析方法)等[14-17]。
遺傳關聯性研究主要偏倚包括表型定義非標準化、基因分型錯誤、人群分層不適宜及選擇性報告等(表 3)[8-10]。各研究對同一表型的非標準化定義常導致偏倚。即使在當今高通量分型技術高速發展的階段,基因分型錯誤仍然非常普遍。由于病例組與對照組的受試對象是分別招募的,因此基因分型錯誤對病例組與對照組會產生不同的效應,影響對真實遺傳關聯性的發現。那么,如何評價基因分型質量?首先,使用盲法重復驗證部分樣本的基因分型情況;第二,采用不同的基因分型方法對同一人群進行重復驗證;第三,對病例組與對照組分別進行 Hardy-Weinberg 平衡檢測[9]。對于部分樣本基因分型數據缺失情況,需要額外分析缺失狀態下病例-對照表型情況來驗證缺失數據對結果的影響。此外,人群的不適當分層會導致偏倚,尤其對于效應指標較小的遺傳關聯分析,不恰當的人群分層會產生嚴重偏倚,從而影響結果的真實性。在研究實施過程中,通常采用基因組控制(genomic control)和主成分分析等統計學方法來矯正人群結構對于遺傳關聯性研究結果的影響[18]。選擇性報告結果(陽性結果發表)是導致系統評價和 Meta 分析結果出現偏倚的重要因素。為降低選擇性偏倚,不同研究團隊應該有明確的方法確保能夠分析所有受試人員數據,同時鼓勵發表高質量的陰性結果[19, 20]。對于回顧性研究的 Meta 分析,除了需要排除前面提及的 4 種主要偏倚外,應使用敏感性分析評估首個研究、占最大效應量比例研究和占最小效應量比例的研究、Hardy-Weinberg 不平衡的研究對合并效應值的影響[15]。
研究透明度和結果報告所遵循的指南是判斷偏倚的重要準則。表 3 詳細列出 4 種常見偏倚在控制或不控制的情況下對單個研究或 Meta 分析效應值的影響,根據偏倚是否影響實際效應值的統計學顯著性意義進行分級。在證據產生過程中,導致偏倚的因素非常多,即使采取嚴格的措施控制偏倚,仍無法完全控制或消除偏倚對實際效應值的影響,因此即使偏倚控制分級為“A”,仍建議使用“可能不存在偏倚”來定義。
當偏倚對效應值的統計學顯著性意義影響為“低/無”,則定義為“A”;如果為“不清楚”,定義為“B”;如果為“可能/高”,則定義為“C”。對于選擇性偏倚,如果為“可能”,則不需要從“A”降至“C”。在 Meta 分析中,可采用敏感性分析判斷微效應值和大效應值研究對于合并結果的影響。此外,如果發現研究的其它方面如研究設計、實施過程及數據分析等存在明顯偏倚,則定義為“C”。

5 可信度判定標準組合
對于某個遺傳關聯性的系統評價或 Meta 分析,分別從證據量、重復性和偏倚控制三方面進行分級(A、B 或 C),然后將分級結果進行組合用以評判累積證據的總體可信度。其評判標準見圖 1:
可信度強:證據量、重復性和偏倚控制都為“A”,如“AAA”;
可信度中等:證據量、重復性和偏倚控制級別為“A”或者“B”,如“ABA”、“ABB”等;
可信度弱:證據量、重復性和偏倚控制評級結果中有一個或兩個或全部為“C”,如“ABC”、“ACC”、“CCC”等。

6 小結
遺傳關聯性研究證據在不斷發展,Meta 分析證據可信度會隨著新證據不斷產生而發生變化。Venice 標準主要從分子流行病學角度來評估證據的可信度,我們需綜合考慮遺傳關聯性研究發展階段、基因生物學功能及臨床相關性等多方面因素來判斷證據的可信度與價值,以期為進一步研究及臨床轉化提供明確信息。
近年,隨著高通量基因檢測技術的發展,每年有大量研究報道了基因多態與人類疾病的關聯性。由于遺傳關聯性研究的效應量指標通常較小,因此常需要較大樣本量以獲得真實的遺傳關聯性。系統評價/Meta 分析能整合多個研究數據,通過增大樣本量來提高統計效能,成為探求真實遺傳關聯性的有效途徑。遺傳關聯性 Meta 分析為生產和傳播遺傳關聯性證據帶來機遇,但同時也給此類證據的利用帶來挑戰。因此,合理評價遺傳關聯性 Meta 分析證據的可信度非常重要。本文介紹如何應用 Venice 標準[1]評價遺傳關聯性 Meta 分析證據的可信度。
1 Venice 標準簡介
Venice 標準由 HuGENet(Human Genome Epidemiology Network)工作組于 2007 年提出,并隨著研究的發展不斷更新[2, 3]。該標準主要從證據量、重復性及偏倚控制三方面來評估遺傳關聯性 Meta 分析證據的可信度。三個評價指標的評價標準與解釋說明見表 1。

2 證據量
證據的有效性主要取決于是否能夠發現真實的遺傳關聯性,主要影響因素包括樣本量、基因分析模型、基因突變頻率及效應量的大小。足夠的樣本量可提高統計效能、增加統計學意義的顯著性及減少結果報告的假陽性率[4, 5]。在遺傳關聯性研究中,由于存在基因分析模型不同及不同人群的基因突變頻率不同等因素,因此所有比較組中基因突變頻率較低組的基因型樣本量(nminor)是影響效能的關鍵因素。Venice 標準使用 nminor 作為評估證據量的直接指標。
那么,如何設定證據量的分級閾值?由表 2 可知,假定病例組與對照組樣本量相等,nminor=1 000,最小基因突變率(fminor)變化范圍在 0.01~0.50。當 α=0.05,OR 值在 1.3~5 時可得到較高的統計效能(81~100%);當 OR 值為 1.2 時,統計效能隨著樣本量的減少而下降(51~82%);當 OR 值為 1.1 時,基本失去統計效能(18~32%)。當 nminor=500、OR 值為 1.1~1.3 時統計效能大幅度下降,當 nminor=1 500 時,統計效能卻并沒有明顯增加(表 2 中未顯示)[1]。基于統計效能的穩定性,Venice 標準設定 nminor=1 000 作為 A 級與 B 級的分級閾值。但是需要注意的是,當 α=10-7(多推薦用于發現性研究,如 GAWS 等)時,nminor=1 000 僅在 OR≥2 時方能保證穩定的統計效能(96%~100%),因此當 Meta 分析中納入 GAWS 研究,仍需增加樣本量以保證統計效能。

3 重復性
獨立原始研究結果的可重復性是影響 Meta 分析結果可信度的重要因素。在遺傳關聯性研究中,不同研究階段對具有統計學顯著性意義的 α 值設定不同。在識別發現階段如 GAWS 研究中,通過同時分析成千上萬個基因的突變情況來發現與篩選基因多態性與疾病的關聯性,為了保證結果的真實性與可信度,建議將 α 值設定為 10–7;而在后續的重復驗證階段,主要探討一個或多個候選基因多態性與疾病的關聯性,這時將 α 值設定為 0.05 較為合適[6, 7]。
對于真實存在的遺傳關聯性,如果獨立原始研究間缺少重復性和同質性,需要慎重分析其潛在影響因素。首先考慮是否存在錯誤或偏倚,主要包括表型定義非標準化、基因分型錯誤、人群分層不適宜及選擇性報告等[8-10]。在后續重復驗證階段,基因的連鎖不平衡在不同人群的不一致可能是導致獨立研究存在異質性的原因之一[11]。因此,獨立研究間缺少重復性也不能完全否定之前所發現的基因-疾病關聯性,在排除潛在的錯誤與偏倚外,獨立研究間的異質性可能也是基因效應的真實反映[11]。此外,尚需評估原始研究間的獨立性。原始研究的獨立性方能確保真實的“重復性”[12]。由不同的研究團隊在不同的人群中探討同一基因多態性-疾病的關聯性是保證原始研究獨立性的最佳措施。如果由同一個研究團隊在不同人群中去進行某個遺傳關聯性的重復驗證,或將未進行合并分析人群的分層分析視為獨立研究均會因缺乏獨立性導致潛在偏倚增加[13]。
總之,對于重復驗證的某個遺傳關聯性,原始研究之間的獨立性和重復性是提高累積證據可信度的重要因素。在進行系統評價或 Meta 分析時,通常計算異質性(I2)對結果的重復性進行估算與分級(表 1)。
4 控制偏倚風險
偏倚不僅會影響真實遺傳關聯效應值的大小,甚至會決定是否存在統計學意義的差異(結果的方向)。由于遺傳關聯性的效應指標通常較小,因此,采取恰當的措施盡可能控制偏倚風險對于發現真實的遺傳關聯分析十分重要。偏倚風險存在于實施原始研究階段和證據整合階段。許多因素都可導致偏倚的發生,包括研究設計、DNA 提取、基因分型、原始數據管理和分析、結果報告及結果合并方法(Meta 分析方法)等[14-17]。
遺傳關聯性研究主要偏倚包括表型定義非標準化、基因分型錯誤、人群分層不適宜及選擇性報告等(表 3)[8-10]。各研究對同一表型的非標準化定義常導致偏倚。即使在當今高通量分型技術高速發展的階段,基因分型錯誤仍然非常普遍。由于病例組與對照組的受試對象是分別招募的,因此基因分型錯誤對病例組與對照組會產生不同的效應,影響對真實遺傳關聯性的發現。那么,如何評價基因分型質量?首先,使用盲法重復驗證部分樣本的基因分型情況;第二,采用不同的基因分型方法對同一人群進行重復驗證;第三,對病例組與對照組分別進行 Hardy-Weinberg 平衡檢測[9]。對于部分樣本基因分型數據缺失情況,需要額外分析缺失狀態下病例-對照表型情況來驗證缺失數據對結果的影響。此外,人群的不適當分層會導致偏倚,尤其對于效應指標較小的遺傳關聯分析,不恰當的人群分層會產生嚴重偏倚,從而影響結果的真實性。在研究實施過程中,通常采用基因組控制(genomic control)和主成分分析等統計學方法來矯正人群結構對于遺傳關聯性研究結果的影響[18]。選擇性報告結果(陽性結果發表)是導致系統評價和 Meta 分析結果出現偏倚的重要因素。為降低選擇性偏倚,不同研究團隊應該有明確的方法確保能夠分析所有受試人員數據,同時鼓勵發表高質量的陰性結果[19, 20]。對于回顧性研究的 Meta 分析,除了需要排除前面提及的 4 種主要偏倚外,應使用敏感性分析評估首個研究、占最大效應量比例研究和占最小效應量比例的研究、Hardy-Weinberg 不平衡的研究對合并效應值的影響[15]。
研究透明度和結果報告所遵循的指南是判斷偏倚的重要準則。表 3 詳細列出 4 種常見偏倚在控制或不控制的情況下對單個研究或 Meta 分析效應值的影響,根據偏倚是否影響實際效應值的統計學顯著性意義進行分級。在證據產生過程中,導致偏倚的因素非常多,即使采取嚴格的措施控制偏倚,仍無法完全控制或消除偏倚對實際效應值的影響,因此即使偏倚控制分級為“A”,仍建議使用“可能不存在偏倚”來定義。
當偏倚對效應值的統計學顯著性意義影響為“低/無”,則定義為“A”;如果為“不清楚”,定義為“B”;如果為“可能/高”,則定義為“C”。對于選擇性偏倚,如果為“可能”,則不需要從“A”降至“C”。在 Meta 分析中,可采用敏感性分析判斷微效應值和大效應值研究對于合并結果的影響。此外,如果發現研究的其它方面如研究設計、實施過程及數據分析等存在明顯偏倚,則定義為“C”。

5 可信度判定標準組合
對于某個遺傳關聯性的系統評價或 Meta 分析,分別從證據量、重復性和偏倚控制三方面進行分級(A、B 或 C),然后將分級結果進行組合用以評判累積證據的總體可信度。其評判標準見圖 1:
可信度強:證據量、重復性和偏倚控制都為“A”,如“AAA”;
可信度中等:證據量、重復性和偏倚控制級別為“A”或者“B”,如“ABA”、“ABB”等;
可信度弱:證據量、重復性和偏倚控制評級結果中有一個或兩個或全部為“C”,如“ABC”、“ACC”、“CCC”等。

6 小結
遺傳關聯性研究證據在不斷發展,Meta 分析證據可信度會隨著新證據不斷產生而發生變化。Venice 標準主要從分子流行病學角度來評估證據的可信度,我們需綜合考慮遺傳關聯性研究發展階段、基因生物學功能及臨床相關性等多方面因素來判斷證據的可信度與價值,以期為進一步研究及臨床轉化提供明確信息。