引用本文: 黎銀潮, 林婉蓉, 趙怡然, 陳樹達, 周列民. 顳葉內側癲癇基因表達的生物信息學分析. 癲癇雜志, 2020, 6(3): 181-187. doi: 10.7507/2096-0247.20200032 復制
癲癇是一種由多種病因引起的慢性腦部疾病,以腦神經元過度放電導致反復性、發作性和短暫性的中樞神經系統功能失常為特征。任何年齡均會發病,全世界約 7 000 萬患者,其反復發作不僅影響患者的身體健康,還對患者及其家人的生活、心理及經濟等方面造成負擔[1, 2]。其中顳葉內側癲癇(Mesio-temporal lobe epilepsy,MTLE)是最常見的頑固性癲癇,常與海馬硬化和耐藥性癲癇有關,但其發病機制仍不清楚。為了更加精準地指導此類疾病的預防與治療,需要從基因分子水平揭示其發病機制。隨著二代測序、蛋白芯片等高通量檢測衍生的海量生物數據的出現,其可用于分析不同組織之間的差異表達基因(Differentially expressed genes,DEGs),能夠很好篩選新的有效的分子靶點。本研究所使用的數據來自基因芯片公共數據庫(Gene expression omnibus,GEO)的一組 MTLE 模型小鼠的芯片數據,對 MTLE 基因表達的差異進行生物信息學分析。
1 材料與方法
1.1 芯片數據來源
本研究所使用的數據是來自 GEO 數據庫的表達芯片數據,系列號為 GSE88992,其采用的是商業化的離子通道芯片平臺 GPL1261[3]。數據集包含 17 個樣本,8 個通過注射海藻氨酸(Kainic acid,KA;1 nmol/50 nL)誘導的 MTLE 模型小鼠海馬標本和 9 個通過注射生理鹽水平行對照小鼠的海馬標本。其中 6、12 及 24 h 提取的癲癇模型小鼠/對照組海馬標本數(個)分別為 3/3、3/3 及 2/3。
1.2 差異表達基因篩選
MTLE 海馬組織之間的 DEGs 用網絡交互工具 GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)進行篩選。利用默認的 Benjamini 和 Hochberg 錯誤發現率方法,調整 P 值來降低假陽性率。采用調整后 P 值<0.05,|logFC|>1 作為截斷值的標準,數據集的差異基因用火山圖表示。logFC>1 和 logFC<-1 分別對應上調和下調的 DEGs。
1.3 差異表達基因的富集分析
基因本體論分析(Gene ontology,GO)廣泛應用在分子生物學領域,有效地用于鑒定高通量遺傳數據特征的生物學屬性,GO 分析包括分子功能(Molecular function,MF)、生物學過程(Biological processes,BP)和細胞組分(Cellular components,CC)。京都基因和基因組百科全書(Kyoto encyclopedia of genes and genomes,KEGG)是一個處理基因組、細胞、疾病和信號通路等的高通量生物數據庫的集合,通常用于注釋參與其中的基因列表和信號通路網絡。FunRich 是一個獨立的軟件工具,主要用于基因和蛋白質的功能富集和相互作用網絡分析[4]。使用 FunRich 軟件及 DAVID 對 DEGs 進行 GO 功能和 KEGG/生物途徑富集分析,將共表達的 DEGs 的功能分析(生物學過程、分子功能和細胞組分以及信號通路)可視化,以 P 值<0.05 為差異具有統計學意義。
1.4 蛋白質-蛋白質相互作用網絡的構建和可視化以及核心基因的確定
檢索相互作用基因/蛋白質的搜索工具(The search tool for the retrieval of interacting genes,STRING)是用于搜索蛋白質之間的直接(物理)和間接(功能)關聯的在線數據庫,可以評估蛋白質之間的相互作用[5]。將界值標準設定為置信度得分≥0.4 且最大相互作用數=0,分析 DEGs 的潛在蛋白質-蛋白質相互作用(Protein-protein interaction,PPI)。隨后,用 Cytoscape 的插件 Cytohubba 分析 PPI 網絡[6],從 PPI 網絡中挑選出與周圍基因具有高度連通性(度值,degree)的前 15 個基因,作為核心基因。
1.5 差異表達基因功能模塊分析
使用 Cytoscape 中的分子復合物檢測(Molecular complex detection,MCODE)插件,其根據拓撲關系對給定網絡進行聚類,找到密集連接的區域,本研究分析基于 DEGs 的 PPI 網絡以篩選出基因功能模塊,degree cutoff = 2,node score cutoff = 0.2,k-core= 2,and max depth = 100。另外篩選出的功能模塊映射到 STRING,進行 GO 和 KEGG 分析以注釋功能模塊組分的基因和信號傳導途徑。
2 結 果
2.1 差異表達基因
在 GEO 數據集 GSE88992,從 6、12 和 24 h 的結果中分別篩選出 688、1 294、1 916 個 DEGs,分別包括 549、797、870 個上調基因和 139、497、1 046 個下調基因 DEGs。總共 331 個 DEGs,分別包括 46 下調基因和 285 個上調基因。如圖 1 所示為 GSE28674 數據集 6、12 和 24 h 的火山圖,橫坐標表示 Log2(fold-change)(對照組海馬組織樣本),縱坐標表示-Log10(adj.P.value),紅色表示上調的 DEGs,綠色表示下調的 DEGs。為了得到共同表達的 DEGs,分別對 6、12 和 24 h 上調和下調的基因分別做 Venny 圖取交集,結果得到 285 個上調的共表達 DEGs 和 46 個下調的共表達 DEGs,共 331 個基因(圖 2)。


2.2 差異表達基因的功能分析
為了進一步了解 331 個 DEGs 的生物學功能,進行了 GO 和 KEGG/生物途徑富集分析。
2.2.1 基因本體論分析
GO 分析結果顯示,331 個 DEGs 的細胞組分在細胞質膜與細胞間隙中富集;生物過程主要富集在細胞通訊、信號轉導;分子功能富集分析沒有統計學差異(圖 3)。

2.2.2 京都基因和基因組百科全書/生物途徑分析
KEGG/生物途徑分析顯示,DEGs 主要參與整合素相關激酶信號轉導、細胞分裂周期蛋白 42(Cyclin 42,CDC42)信號通路和激活蛋白 1(Activator protein 1,AP-1)轉錄因子網絡通路(圖 4)。

2.3 核心基因的功能模塊及表達水平分析
2.3.1 蛋白質-蛋白質相互作用網絡的構建及 10 個核心基因的篩選
為了鑒定潛在調控基因,構建 PPI 網絡(圖 5),再用 Cytoscape 插件 Cytohubb 計算 PPI 網絡,然后按 Degree 方法選擇靠前的 10 個基因,包括Il6、Fos、Stat3、Ptgs2、Ccl2、Timp1、Cd44、Icam1、Atf3、Cxcl1,將這 10 個基因命名為核心基因(圖 6)。


2.3.2 功能模塊分析
通過 Cytoscape 軟件中的 MCODE 插件及 DVAID 在線網站分析 DEGs 的功能模塊,其基于基因計數對其進行降序排序,FDR 及P值均<0.05(表 1)。顯示核心功能模塊的 27 個 DEGs(圖 7)主要富集在細胞質膜與細胞間隙中,其涉及的生物學過程集中在中性粒細胞趨化、炎癥反應、正向調控 ERK1 和 ERK2 級聯反應,生物分子功能分析顯示集中在趨化因子活性、細胞因子活性和趨化因子受體結合等,KEGG 信號通路分析 DEGs 主要參與趨化因子信號通路、細胞因子互作信號通路等信號通路。與平行對照的海馬組織相比,這些基因的表達改變,顯示了探究差異表達基因的相關生物學功能及信號通路對 MTLE 的發病機制具有重要價值。


3 討論
顳葉癲癇(Temporal lobe epilepsy,TLE )是指癲癇病灶位于顳葉、發作從顳葉起源的一種癲癇類型,是臨床上最常見的藥物難治性癲癇,由于近年來連鎖分析、關聯分析對癲癇相關疾病的研究,大量與癲癇疾病相關的新生突變基因、人群易感性基因被鑒定。在各種遺傳家系中,不同臨床表現的家系可有相同的基因變化,而一種基因突變并不會在同一個家系的所有成員中發現,說明了遺傳的異質性。目前普遍認為 TLE 受遺傳因素和環境因素的共同影響。既往文獻報道與癲癇有關的遺傳基因主要包括以下幾種:① 神經元離子通道類基因:KCNQ2、KCNQ3、KCNT1、KCNA1、SCN1A、CACNA1A 和 SCN2A 等[7];② 神級元遞質受體類基因:GABRA1、GABRG2、CHRNA4 和 CHRNB2 等[8, 9];③ 能量代謝類基因:mt-tRNA Lys 和 mtCSTB 等[10]。
本研究通過功能分析顯示核心功能模塊 DEGs 生物學過程富集在在中性粒細胞趨化、炎癥反應、正向調控 ERK1 和 ERK2 級聯反應,有研究發現炎癥反應能夠誘發癲癇的發作以及增加發作的頻率[11]。值得注意的是,神經炎癥作為 MTLE 發病相關的常見的病理生理過程,有研究報道在海馬區看到局部的活動性或慢性炎癥,特別是在成人自身免疫性腦炎導致的癲癇病例中更具顯著性[12]。有研究表明,致癇性腦炎與 Hu、Ma2 和谷氨酸脫羧酶等抗原密切相關,這主要是由于 T 淋巴細胞通過靶向海馬神經元介導細胞毒性作用。這種 T 淋巴細胞介導的神經毒性效應與患者腦結構的進行性萎縮具有一致性[13]。此外,還有一種引起神經元過度興奮的機制是通過 IgG 抗體交聯后使 NMDA 受體內化[14]。盡管抗 NMDA 受體和抗 AMPA 受體的抗體通常與原發性腫瘤或畸胎瘤密切相關,但谷氨酸脫羧酶靶向抗體卻并非如此。研究發現,與其他跟細胞內靶表位的抗體(如谷氨酸脫羧酶靶向抗體)相關的各種疾病相比較,免疫療法對與表面結構抗體相關的癲癇有更確切的療效[15]。此外,通過生物分子功能分析顯示,DEGs 集中在趨化因子活性、細胞因子活性和趨化因子受體結合等,KEGG 信號通路分析 DEGs 主要參與趨化因子信號通路、細胞因子互作信號通路等信號通路。
近年來隨著二代測序、蛋白芯片等高通量檢測等技術的成熟和廣泛運用,大量與癲癇發作相關基因數據被報道,因此有必要在海量信息中辨別和分析。在本研究中,通過對一組 MTLE 模型小鼠的基因芯片數據進行生物信息學分析發現了多個重要的基因,如 Il6、Fos、Stat3、Ptgs2、Ccl2、Timp1、Cd44、Icam1、Atf3、Cxcl1,但仍需進一步的基礎實驗與臨床研究驗證本研究分析的結果。目前尚無一種機制能夠完美解釋 MTLE 的發病機制,各種發病機制也并非單獨存在,某些機制在疾病的發生發展中相互影響,MTLE 海馬硬化在許多方面是異質性的,包括其病因、遺傳學、表觀遺傳學、所涉及的神經網絡、神經元丟失的模式以及對藥物和外科治療的反應等方面。癲癇基因和易感基因逐漸被發現,有關基因的研究技術的發展以及對癲癇疾病的遺傳基礎深入了解,使遺傳咨詢能夠提供更多的信息用以癲癇患者的個體化診斷治療、復發風險預測和患者家庭成員的患病風險預測。由于不同癲癇患者的發病機制異質性很大,給癲癇突變基因的發現也帶來了很大的困難,能否發現癲癇發病共同的作用通路或機制,仍需要進一步研究。
癲癇是一種由多種病因引起的慢性腦部疾病,以腦神經元過度放電導致反復性、發作性和短暫性的中樞神經系統功能失常為特征。任何年齡均會發病,全世界約 7 000 萬患者,其反復發作不僅影響患者的身體健康,還對患者及其家人的生活、心理及經濟等方面造成負擔[1, 2]。其中顳葉內側癲癇(Mesio-temporal lobe epilepsy,MTLE)是最常見的頑固性癲癇,常與海馬硬化和耐藥性癲癇有關,但其發病機制仍不清楚。為了更加精準地指導此類疾病的預防與治療,需要從基因分子水平揭示其發病機制。隨著二代測序、蛋白芯片等高通量檢測衍生的海量生物數據的出現,其可用于分析不同組織之間的差異表達基因(Differentially expressed genes,DEGs),能夠很好篩選新的有效的分子靶點。本研究所使用的數據來自基因芯片公共數據庫(Gene expression omnibus,GEO)的一組 MTLE 模型小鼠的芯片數據,對 MTLE 基因表達的差異進行生物信息學分析。
1 材料與方法
1.1 芯片數據來源
本研究所使用的數據是來自 GEO 數據庫的表達芯片數據,系列號為 GSE88992,其采用的是商業化的離子通道芯片平臺 GPL1261[3]。數據集包含 17 個樣本,8 個通過注射海藻氨酸(Kainic acid,KA;1 nmol/50 nL)誘導的 MTLE 模型小鼠海馬標本和 9 個通過注射生理鹽水平行對照小鼠的海馬標本。其中 6、12 及 24 h 提取的癲癇模型小鼠/對照組海馬標本數(個)分別為 3/3、3/3 及 2/3。
1.2 差異表達基因篩選
MTLE 海馬組織之間的 DEGs 用網絡交互工具 GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)進行篩選。利用默認的 Benjamini 和 Hochberg 錯誤發現率方法,調整 P 值來降低假陽性率。采用調整后 P 值<0.05,|logFC|>1 作為截斷值的標準,數據集的差異基因用火山圖表示。logFC>1 和 logFC<-1 分別對應上調和下調的 DEGs。
1.3 差異表達基因的富集分析
基因本體論分析(Gene ontology,GO)廣泛應用在分子生物學領域,有效地用于鑒定高通量遺傳數據特征的生物學屬性,GO 分析包括分子功能(Molecular function,MF)、生物學過程(Biological processes,BP)和細胞組分(Cellular components,CC)。京都基因和基因組百科全書(Kyoto encyclopedia of genes and genomes,KEGG)是一個處理基因組、細胞、疾病和信號通路等的高通量生物數據庫的集合,通常用于注釋參與其中的基因列表和信號通路網絡。FunRich 是一個獨立的軟件工具,主要用于基因和蛋白質的功能富集和相互作用網絡分析[4]。使用 FunRich 軟件及 DAVID 對 DEGs 進行 GO 功能和 KEGG/生物途徑富集分析,將共表達的 DEGs 的功能分析(生物學過程、分子功能和細胞組分以及信號通路)可視化,以 P 值<0.05 為差異具有統計學意義。
1.4 蛋白質-蛋白質相互作用網絡的構建和可視化以及核心基因的確定
檢索相互作用基因/蛋白質的搜索工具(The search tool for the retrieval of interacting genes,STRING)是用于搜索蛋白質之間的直接(物理)和間接(功能)關聯的在線數據庫,可以評估蛋白質之間的相互作用[5]。將界值標準設定為置信度得分≥0.4 且最大相互作用數=0,分析 DEGs 的潛在蛋白質-蛋白質相互作用(Protein-protein interaction,PPI)。隨后,用 Cytoscape 的插件 Cytohubba 分析 PPI 網絡[6],從 PPI 網絡中挑選出與周圍基因具有高度連通性(度值,degree)的前 15 個基因,作為核心基因。
1.5 差異表達基因功能模塊分析
使用 Cytoscape 中的分子復合物檢測(Molecular complex detection,MCODE)插件,其根據拓撲關系對給定網絡進行聚類,找到密集連接的區域,本研究分析基于 DEGs 的 PPI 網絡以篩選出基因功能模塊,degree cutoff = 2,node score cutoff = 0.2,k-core= 2,and max depth = 100。另外篩選出的功能模塊映射到 STRING,進行 GO 和 KEGG 分析以注釋功能模塊組分的基因和信號傳導途徑。
2 結 果
2.1 差異表達基因
在 GEO 數據集 GSE88992,從 6、12 和 24 h 的結果中分別篩選出 688、1 294、1 916 個 DEGs,分別包括 549、797、870 個上調基因和 139、497、1 046 個下調基因 DEGs。總共 331 個 DEGs,分別包括 46 下調基因和 285 個上調基因。如圖 1 所示為 GSE28674 數據集 6、12 和 24 h 的火山圖,橫坐標表示 Log2(fold-change)(對照組海馬組織樣本),縱坐標表示-Log10(adj.P.value),紅色表示上調的 DEGs,綠色表示下調的 DEGs。為了得到共同表達的 DEGs,分別對 6、12 和 24 h 上調和下調的基因分別做 Venny 圖取交集,結果得到 285 個上調的共表達 DEGs 和 46 個下調的共表達 DEGs,共 331 個基因(圖 2)。


2.2 差異表達基因的功能分析
為了進一步了解 331 個 DEGs 的生物學功能,進行了 GO 和 KEGG/生物途徑富集分析。
2.2.1 基因本體論分析
GO 分析結果顯示,331 個 DEGs 的細胞組分在細胞質膜與細胞間隙中富集;生物過程主要富集在細胞通訊、信號轉導;分子功能富集分析沒有統計學差異(圖 3)。

2.2.2 京都基因和基因組百科全書/生物途徑分析
KEGG/生物途徑分析顯示,DEGs 主要參與整合素相關激酶信號轉導、細胞分裂周期蛋白 42(Cyclin 42,CDC42)信號通路和激活蛋白 1(Activator protein 1,AP-1)轉錄因子網絡通路(圖 4)。

2.3 核心基因的功能模塊及表達水平分析
2.3.1 蛋白質-蛋白質相互作用網絡的構建及 10 個核心基因的篩選
為了鑒定潛在調控基因,構建 PPI 網絡(圖 5),再用 Cytoscape 插件 Cytohubb 計算 PPI 網絡,然后按 Degree 方法選擇靠前的 10 個基因,包括Il6、Fos、Stat3、Ptgs2、Ccl2、Timp1、Cd44、Icam1、Atf3、Cxcl1,將這 10 個基因命名為核心基因(圖 6)。


2.3.2 功能模塊分析
通過 Cytoscape 軟件中的 MCODE 插件及 DVAID 在線網站分析 DEGs 的功能模塊,其基于基因計數對其進行降序排序,FDR 及P值均<0.05(表 1)。顯示核心功能模塊的 27 個 DEGs(圖 7)主要富集在細胞質膜與細胞間隙中,其涉及的生物學過程集中在中性粒細胞趨化、炎癥反應、正向調控 ERK1 和 ERK2 級聯反應,生物分子功能分析顯示集中在趨化因子活性、細胞因子活性和趨化因子受體結合等,KEGG 信號通路分析 DEGs 主要參與趨化因子信號通路、細胞因子互作信號通路等信號通路。與平行對照的海馬組織相比,這些基因的表達改變,顯示了探究差異表達基因的相關生物學功能及信號通路對 MTLE 的發病機制具有重要價值。


3 討論
顳葉癲癇(Temporal lobe epilepsy,TLE )是指癲癇病灶位于顳葉、發作從顳葉起源的一種癲癇類型,是臨床上最常見的藥物難治性癲癇,由于近年來連鎖分析、關聯分析對癲癇相關疾病的研究,大量與癲癇疾病相關的新生突變基因、人群易感性基因被鑒定。在各種遺傳家系中,不同臨床表現的家系可有相同的基因變化,而一種基因突變并不會在同一個家系的所有成員中發現,說明了遺傳的異質性。目前普遍認為 TLE 受遺傳因素和環境因素的共同影響。既往文獻報道與癲癇有關的遺傳基因主要包括以下幾種:① 神經元離子通道類基因:KCNQ2、KCNQ3、KCNT1、KCNA1、SCN1A、CACNA1A 和 SCN2A 等[7];② 神級元遞質受體類基因:GABRA1、GABRG2、CHRNA4 和 CHRNB2 等[8, 9];③ 能量代謝類基因:mt-tRNA Lys 和 mtCSTB 等[10]。
本研究通過功能分析顯示核心功能模塊 DEGs 生物學過程富集在在中性粒細胞趨化、炎癥反應、正向調控 ERK1 和 ERK2 級聯反應,有研究發現炎癥反應能夠誘發癲癇的發作以及增加發作的頻率[11]。值得注意的是,神經炎癥作為 MTLE 發病相關的常見的病理生理過程,有研究報道在海馬區看到局部的活動性或慢性炎癥,特別是在成人自身免疫性腦炎導致的癲癇病例中更具顯著性[12]。有研究表明,致癇性腦炎與 Hu、Ma2 和谷氨酸脫羧酶等抗原密切相關,這主要是由于 T 淋巴細胞通過靶向海馬神經元介導細胞毒性作用。這種 T 淋巴細胞介導的神經毒性效應與患者腦結構的進行性萎縮具有一致性[13]。此外,還有一種引起神經元過度興奮的機制是通過 IgG 抗體交聯后使 NMDA 受體內化[14]。盡管抗 NMDA 受體和抗 AMPA 受體的抗體通常與原發性腫瘤或畸胎瘤密切相關,但谷氨酸脫羧酶靶向抗體卻并非如此。研究發現,與其他跟細胞內靶表位的抗體(如谷氨酸脫羧酶靶向抗體)相關的各種疾病相比較,免疫療法對與表面結構抗體相關的癲癇有更確切的療效[15]。此外,通過生物分子功能分析顯示,DEGs 集中在趨化因子活性、細胞因子活性和趨化因子受體結合等,KEGG 信號通路分析 DEGs 主要參與趨化因子信號通路、細胞因子互作信號通路等信號通路。
近年來隨著二代測序、蛋白芯片等高通量檢測等技術的成熟和廣泛運用,大量與癲癇發作相關基因數據被報道,因此有必要在海量信息中辨別和分析。在本研究中,通過對一組 MTLE 模型小鼠的基因芯片數據進行生物信息學分析發現了多個重要的基因,如 Il6、Fos、Stat3、Ptgs2、Ccl2、Timp1、Cd44、Icam1、Atf3、Cxcl1,但仍需進一步的基礎實驗與臨床研究驗證本研究分析的結果。目前尚無一種機制能夠完美解釋 MTLE 的發病機制,各種發病機制也并非單獨存在,某些機制在疾病的發生發展中相互影響,MTLE 海馬硬化在許多方面是異質性的,包括其病因、遺傳學、表觀遺傳學、所涉及的神經網絡、神經元丟失的模式以及對藥物和外科治療的反應等方面。癲癇基因和易感基因逐漸被發現,有關基因的研究技術的發展以及對癲癇疾病的遺傳基礎深入了解,使遺傳咨詢能夠提供更多的信息用以癲癇患者的個體化診斷治療、復發風險預測和患者家庭成員的患病風險預測。由于不同癲癇患者的發病機制異質性很大,給癲癇突變基因的發現也帶來了很大的困難,能否發現癲癇發病共同的作用通路或機制,仍需要進一步研究。