引用本文: 黎銀潮, 林婉蓉, 陳樹達, 趙怡然, 陳傲寒, 周列民. 人超極化激活環核苷酸門控通道 1 基因啟動子區及蛋白的生物信息學分析. 癲癇雜志, 2020, 6(4): 296-306. doi: 10.7507/2096-0247.20200048 復制
超極化激活環核苷酸門控通道(Hyperpolarization activated cyclic nucleotide gated channel,HCN)屬于電壓門控型離子通道,迄今為止發現有四個亞型:HCN1-HCN4[1]。HCN1 和 HCN2 的表達存在時空特異性,并受嚴格的調控。中樞神經系統主要表達 HCN1 和 HCN2,心肌細胞主要表達 HCN4[2]。HCN 通道既參與所在組織的正常生理功能,也與所在組織的病理狀態密切相關。神經損傷引起的神經源性疼痛常可檢測到 HCN1 表達增加,肥厚性心肌病和終末期心力衰竭等常檢測到心室肌細胞 HCN4 及 HCN2 mRNA 表達增加[1]。研究發現,在伴海馬硬化性內側顳葉癲癇(Mesial temporal lobe epilepsy with hippocampus sclrosis,MTLE-HS)大鼠模型中,大腦皮質和海馬 HCN1 和 HCN2 表達明顯下調,且這種下調可持續較長時間[3]。本課題組前期通過體外實驗發現,MTLE-HS 大鼠模型 HCN1 和 HCN2 在不同時期表達均呈下降;MTLE-HS 大鼠模型、人外周血和人海馬手術標本中 HCN1 和 HCN2 啟動子甲基化水平升高及基因的蛋白水平表達下降,提示表觀遺傳學在調控 HCN 表達中的重要作用,可能是導致 MTLE-HS 患者 HCN 下調的機制之一。近年來,癲癇致病基因的轉錄調控得到了越來越多的重視,轉錄因子通過對基因的轉錄調控作用參與癲癇的發病機制,HCN1 和 HCN2 基因啟動子及其轉錄調控元件的異常調控很可能是導致病理情況下 HCN 表達異常的原因。然而,目前對于 HCN 基因自身的轉錄調控及其分子機制仍不明確,在 NCBI 的數據庫中也尚未記錄人 HCN1 基因啟動子序列,對 HCN1 啟動子進行生物信息學分析亦未見報道。因此,為了系統地分析 HCN1 基因及其編碼蛋白的性質及功能,本研究通過生物信息學方法進行預測分析,為深入研究基因的功能及其在癲癇等相關疾病的發病機制提供理論支持。
1 資料與方法
1.1 資料來源
人(Homo sapiens,O60741),黑猩猩(Pan paniscus,A0A2R9C401),馬(Equus caballus,F7BZH9),豬(Sus scrofa,I3LEM3),牛(Bos taurus,E1BM97),狗(Canis lupus familiaris,F1PLK3),褐家鼠(Rattus norvegicus,Q9JKB0),小鼠(Mus musculus,O88704),雞(Gallus gallus,F1N9K1),熱帶爪蟾(Xenopus tropicalis,F6YMQ2)蛋白質序列均由 Uniprot 獲得;人 HCN1 基因及其上游的 2 000 bp 序列由 NBCI 及 UCSC 數據庫獲得。
1.2 方法
① 從 Genbank 及 Uniprot 數據庫下載人及其他物種的 HCN1 的基因和蛋白序列;② 利用 DNAMAN 8.0 軟件對物種的蛋白序列進行同源性比對,并用 MEGA 5.10 進行系統進化分析;③ 應用在線軟件 ProtParam、ProtScale 和 TMHMM 程序分析 HCN1 蛋白的相對分子質量、氨基酸組成、等電點、原子組成、穩定性、半衰期、疏水性和跨膜區,采用 SignalP 5.0 軟件預測 HCN1 蛋白是否含有信號肽。利用 NetPhos 3.1 軟件對 HCN1 蛋白進行磷酸化位點分析,及 cNLS-mapper 預測核定位序列;④ 采用 SMART、SWISSMODEL、Swiss-PdbViewer 和 Pymol 工具分析蛋白質的功能域、二級結構和三級結構;⑤ 應用 Compartments 在線軟件、The Human Protein Atlas 數據庫、QuickGO 2 數據庫和 Cytoscape 進行基因本體論、信號通路及蛋白互作分析;⑥ 采用 Neural Network Promoter Prediction、Promoter 2.0 和 TSSG 在線軟件預測人 HCN1 基因 5'調控區中潛在的啟動子區,并進行比較分析,參數設置采用默認值;⑦ 利用在線軟件 AliBaba2.1 和 PROMO 對人 HCN1 基因 5'調控區轉錄因子結合位點進行預測,并進行統計分析,篩選出共同的轉錄因子;⑧ 采用 EMBOSS 和 MethPrimer 在線軟件預測人 HCN1 基因啟動子區 CpG 島。
2 結果
2.1 HCN1 蛋白的生物信息學分析
2.1.1 人 HCN1 蛋白的同源性分析
人 HCN1 基因位于 5 號染色體的短臂上(5p12),編碼 890 個氨基酸,具體位置為 chr5:45254948-45696380,包含 8 個外顯子。利用 DNAMAN 8.0 軟件對 10 個物種的蛋白序列進行同源性比對發現,人 HCN1 蛋白與黑猩猩、馬、豬、牛、狗、褐家鼠、小鼠、雞和熱帶爪蟾中同源蛋白的相似度分別為 96.74%、96.74%、96.07%、95.84%、92.62%、91.87%、91.87%、85.96% 和 75.62%。用 MEGA7 軟件[4]中基于序列同源性的鄰接法(Neighbor-joining,NJ)構建 HCN1 蛋白遺傳進化關系樹(圖 1),從進化樹中可觀察到,在進化過程中,人與黑猩猩的親緣關系最近。小鼠與褐家鼠的親緣關系較近,聚為一類。其他物種的親緣關系都較遠。不同物種 HCN1 蛋白進化距離分析結果顯示,人與黑猩猩的遺傳距離最小,為 0.019;與熱帶爪蟾的進化關系最遠,遺傳距離為 0.182(表 1)。人 HCN1 蛋白在哺乳動物的同源蛋白相似度比較中均>90%,可見該蛋白序列保守性較高。


2.1.2 人 HCN1 蛋白的理化性質分析
采用在線軟件 ProtParam[5]分析 HCN1 蛋白的理化性質,結果顯示該蛋白由 890 個氨基酸組成,相對分子質量 98 796.00,等電點(pI):8.63,分子式:C4398H6889N1203O1298S44,總原子數:13832;帶負電荷的氨基酸殘基(谷氨酸+天冬氨酸):78 個,帶正電荷的氨基酸殘基(賴氨酸+精氨酸):85 個。HCN1 蛋白在哺乳動物的半衰期為 30 h,不穩定系數(II):50.88,根據不穩定系數的判斷標準[6]:<40 被認為是穩定,>40 為不穩定,推定 HCN1 蛋白屬于不穩定蛋白。
2.1.3 人 HCN1 蛋白的親水性/疏水性分析
利用 ProtScale[5]程序對人 HCN1 蛋白的親疏水性進行在線分析,基于 K-D 法的蛋白質疏水性,分值>0 為疏水性氨基酸,<0 為親水性氨基酸,結果見圖 2;其中最大值是第 151 位的異亮胺酸(Score 2.900),是疏水性最強的位點,最小值是第 408 位的谷氨酰胺(Score: -3.322),是親水性最強的位點,人 HCN1 蛋白中 882 個氨基酸(5~886),有 61.11%(539 個)氨基酸分布在<0 的區域,38.89%(343 個)氨基酸分布在>0 的區域,表明人 HCN1 蛋白存在明顯的親水域,屬親水性蛋白質。這一結果與 Prot Param 程序分析得出的結構一致:HCN1 蛋白脂肪族氨基酸指數 68.06,總的親水性平均系數(GRAVY)為?0.273,顯示該蛋白為親水蛋白質。

2.1.4 人 HCN1 蛋白的信號肽及核定位序列預測
利用信號肽預測服務器 SignalP5.0[7]預測人 HCN1 蛋白的信號肽,預測的結構見圖 3,通過程序計算得出 C、Y、S 的值均為 0,通過這些數據可以得出人 HCN1 蛋白無信號肽(likelihood:0.003)。通過核定位序列預測系統 cNLS-mapper[8]對其進行預測分析 HCN1 蛋白沒有核定位序列,據文獻報道,當 cNLS-mapper 中 cut-off 值為 8~10 時,表明蛋白質專一定位于細胞核;當 cut-off 值為 7 或 8 時,部分定位于細胞核;當 cut-off 值為 3~5 時,定位于核內和胞漿內;當 cut-off 值為 1~2 時,表明定位于胞漿內[9]。

2.1.5 HCN1 蛋白的跨膜區預測與分析
使用 TMHMM[10]程序進行預測,通過計算得到圖 4,結果顯示 890 個氨基酸殘基存在 2 個跨膜區,該蛋白 168~372 位氨基酸位于細胞內,145~167 和 373~395 位氨基酸形成 2 個典型的跨膜螺旋區,1~144 和 396~890 位氨基酸位于細胞外。

2.1.6 HCN1 蛋白的磷酸化位點分析
磷酸化及去磷酸化在真核生物的細胞分裂、信號轉導等過程中有重要的作用。利用 NetPhos3.1[11]分析 HCN1 蛋白的磷酸化位點,結果見圖 5。通過分析發現該蛋白可能含有 100 個磷酸化位點,絲氨酸磷酸化位點 60 個;蘇氨酸磷酸化位點 31 個,酪氨酸磷酸化位點 9 個。

2.1.7 人 HCN1 蛋白二級結構分析
利用 SMART[12]在線軟件對人 HCN1 蛋白的結構域進行分析,結果顯示,該蛋白在 98~141、142~405 和 475~591 位氨基酸處分別分布有 Pfam:Ion_trans_N,Pfam:Ion_trans 和 cNMP(Cyclic nucleotide-monophosphate binding domain)結構域(圖 6)。通過網站 Prabi GOR IV[13]對人 HCN1 蛋白的二級結構進行預測,結果顯示該蛋白二級結構的主要類型為 α-螺旋(alpha helix),共 260 個(29.21%),無規則卷曲(random coil)456 個(51.24%),延伸鏈(extended strand)174 個(19.55%)。二級結構分布情況見圖 7。

粉色(192~216 位氨基酸)為 low complexity 區域
Figure6. Protein domain prediction of human HCN1Pink(192~216)is low complexity region

藍色為 α-螺旋,紅色為延伸鏈,玫紅色為無規則卷曲
Figure7. Secondary structure prediction of human HCN1Blue is α-helix, red is extended chain, rose red is irregular curl
2.1.8 人 HCN1 蛋白三級結構分析
本研究基于 Swiss-Mode 網站采用同源模建法分析人類 HCN1 蛋白的三級結構,SwissModel[14]采用同源建模法可預測蛋白的三級結構及相關參數。因此在 SwissModel 中提交人 HCN1 氨基酸序列,得到 1 個預測結果,結果見圖 8(GMQE:0.66;QMEAN:-0.97;Template:6uqf.1.A;Seq Identity:99.37%;Coverage:94~635)。

紅色為 α-螺旋,綠色為無規則卷曲,黃色為 β-轉角
Figure8. Tertiary structure prediction of human HCN1Red is α-helix, green is irregular curl, yellow is β-turn
2.1.9 人 HCN1 蛋白亞細胞定位、組織表達特異性與 GO 分析
通過 Compartments 在線軟件進行亞細胞定位分析,結果顯示,HCN1 主要分布于質膜中(Evidence:31/32)。在 The Human Protein Atlas 數據庫中的結果表明,HCN1 mRNA 在人體大多數組織均有表達,腦組織的表達量最高。利用 QuickGO 2 對人 HCN1 蛋白進行基因本體注釋(Gene ontology,GO)發現,該蛋白位于質膜中(GO:0005886),與亞細胞定位結果一致;分子功能表現為與 cAMP 結合(GO:0030552)、電壓門控離子通道活性(GO:0005244),參與細胞對 cAMP 的反應過程(GO:0071320)和鉀離子的跨膜運輸(GO:0071805)。
2.1.10 蛋白相互作用
使用 String 11.0[15]對人 HCN1 進行蛋白質相互作用預測,置信度設置為 0.400,數量限制為 10 個以內,構建人 HCN1 蛋白相互作用網絡。結果顯示,與人 HCN1 蛋白可能存在相互作用的有 10 個蛋白(圖 9),其名稱及得分見表 2,包括 HCN2、HCN4、PEX5L、MARCH7、KCTD3、GNAT3、SHKBP1、KCNQ2、FLNA、NEDD4L。人 HCN1 蛋白及其相互作用蛋白的 GO 分析及信號轉導通路見表 3。



2.2 HCN1 啟動子的生物信息學分析
啟動子區預測和分析參數設置:Neural Network Promoter Prediction[16]啟動子閾值設為 0.8,Promoter 2.0[17]和 TSSG[18]采用默認值。在 UCSC 數據庫中獲得人 HCN1 基因 5'上游?1~?2 000 bp 的序列,用 3 種不同的在線軟件對2 000 bp 序列進行潛在的啟動子區預測分析,TSSG 未發現啟動子區,余結果見表 4。將人 HCN1 基因 5'上游 2 000 bp 序列與 Genecopoeia 網站查詢到的人 HCN1 基因啟動子序列 HPRM49983(產品編號)用 BLAST 工具作全序列對比,發現兩者的一致性為 51%。HPRM49983 全 1289 bp,轉錄起始位點(TSS)位于 1 285 bp 的 C 堿基處。HCN1 基因 5'上游 2 000 bp 序列的 979~2 000 bp 與 HPRM49983 序列完全一致。由此推測 HCN1 基因啟動子位于 5'上游 1 100 bp 序列內。

2.3 TATA 盒、GC 盒和 CAAT 盒的模序識別
CAAT 盒、TATA 盒和 GC 盒的模序識別可通過在 HCN1 基因 5'調控區序列上是否發現相應特征序列來實現。TATA 盒序列格式為 TATAWAW(W 代表 A 或 T);GC 盒序列格式為 GGGCGG; CAAT 盒序列格式為 CCAAT。通過查 TATA 盒、GC 盒和 CAAT 盒的相應特征序列發現,人 HCN1 基因 5'調控區有 1 個 CAAT 盒及 1 個 TATA 盒,分別位于 1 849~1 853 和 36~41,未查找到 GC 盒。
2.4 啟動子區轉錄因子結合位點預測和分析
為提高轉錄因子結合位點預測的準確性,用 AliBaba2.1[19]和 PROMO2[20]種軟件預測人 HCN1 基因啟動子區轉錄因子結合位點。參數設置:Min mat.Conservation 設為 75%,其它參數為默認值;PROMO 參數設置:Considering factors選擇 Only human factors,Considering sites 選擇 Only human sites,其它參數為默認值;在 5'上游 1~2 000 bp 內 2 種軟件分別預測到 183 和 931 個轉錄因子結合位點,分別涉及到 67 和 77 種轉錄因子。被 2 種軟件共同預測到且結合位點位置相同的轉錄因子有 19 種,包括 NF-κB、NF-1、AP-1、TBP、IRF-1、c-Ets-1、Elf-1、HNF-3、HNF-1、YY1、GATA-1、RXR-α、GR、AP-2αA、ENKTF-1、C/EBPβ、C/EBPα、c-Fos 和 c-Jun。
2.5 人 HCN1 基因啟動子區甲基化 CpG 島預測
EMBOSS[21]預測人 HCN1 基因啟動子區 CpG 島。參數設置:CpG 檢測含量/期望含量(Obs/Exp)>0.60,C+G 含量百分比> 50%,CpG 島長度>200 bp。MethPrimer[22]采用默認值。利用在線軟件 EMBOSS 和 MethPrimer 預測人 HCN1 基因 5'上游 2 000 bp 序列中甲基化 CpG 島。EMBOSS 軟件預測結果顯示,未發現 CpG 島。MethPrimer 軟件預測結果顯示,1 個 CpG 島分為位于?213~?56 bp 處,長度為 158 bp(圖 10)。

附:
Protparam tool http://web.expasy.org/protparam
Protscale tool http://web.expasy.org/protscale
TMHMM http://www.cbs.dtu.dk/services/TMHMM
SignalP 5.0:http://www.cbs.dtu.dk/services/SignalP
NetPhos 3.1:http://www.cbs.dtu.dk/services/NetPhos
PRABI:https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_gor4.html
SMART:http://smart.embl-heidelberg.de/
SWISSMODEL:http://swissmodel.expasy.org/
STRING:https://string-db.org/
DAVID 數據庫:http://david.ncifcrf.gov
QuickGo:https://www.ebi.ac.uk/QuickGO/term/
The Human Protein Atlas:https://www.proteinatlas.org/
Compartments:https://compartments.jensenlab.org/
UCSC:https://genome.ucsc.edu/
Neural Network Promoter Prediction:http://www.fruitfly.org/seq_tools/promoter.Html
Promoter 2.0:http://www.cbs.dtu.dk/services/Promoter/
TSSG:http://linux1.softberry.com/berry.phtml?topic=tssg&group=programs&subgroup=promoter
Proscan:https://www-bimas.cit.nih.gov/molbio/proscan/
AliBaba2.1:http://gene-regulation.com/pub/programs/alibaba2/index.html
PROMO:http://alggen.lsi.upc.es/
JASPAR:http://jaspar.genereg.net/
CONREAL:http://conreal.niob.knaw.nl/
EMBOSS:http://www.ebi.ac.uk/Tools/seqstats/emboss_cpgplot/
MethPrimer:http://www.Urogene.org/cgi-bin/methprimer/methprimer.cgi
SNP 軟件:http://compbio.cs.queensu.ca/F-SNP/)
SNP Function Prediction:http://snpinfo.niehs.nih.gov/snpinfo/snpfunc.htm
Genecopoeia:http://www.genecopoeia.com/
Blast:https://blast.ncbi.nlm.nih.gov/Blast.cgi
3 討論
HCN 通道是一類獨特的電壓門控離子通道,由四個同源或者異源的亞基組成,主要是轉運鉀離子,在一定程度也能夠轉運鈉離子,其在電位超級化時被激活,在負電位狀態下能夠持續保持開放,當與 cAMP 結合時,其開放狀態增強。HCN 通道能夠在心臟及大腦中傳導一種內向的去極化電流,分別稱為 If('funny' current)和 Ih('hyperpolarization-activated' current)[23]。HCN 通道在神經系統中廣泛表達,其與神經元興奮性和神經網絡活動密切相關,HCN 通道的功能障礙會引起一系列的相關疾病,如心律失常、癲癇和神經性疼痛等。因此對 HCN 通道的進一步研究對于疾病的治療具有重要意義[24]。
利用 NCBI 公共數據庫獲取不同物種 HCN1 蛋白的氨基酸序列,同源度比對分析發現人 HCN1 與其他哺乳動物的一致性差異性較小,說明人 HCN1 基因與哺乳動物其他物種的同源基因在進化過程中保守性高。HCN1 蛋白是位于質膜上不穩定的親水性蛋白,存在典型的跨膜,通過 String 數據庫對 HCN1 相互作用的蛋白進行預測分析,得到了 HCN1 蛋白質相互作用的前 10 個蛋白質(HCN2、HCN4、PEX5L、MARCH7、KCTD3、GNAT3、SHKBP1、KCNQ2、FLNA、NEDD4L),其中 HCN2 和 HCN4 是 HCN 通道的兩個亞型,在中樞神經系統中,HCN 通道分布并不一致,HCN1 和 HCN2 表達最豐富,而 HCN4 通道在中樞神經系統中表達較少。HCN1 主要在新皮層、海馬、小腦皮層和腦干中表達最多。HCN2 幾乎在整個大腦中均有表達,表達最多為丘腦、外側膝狀體和腦干核團。HCN4 與 HCN1 表達有關,主要表達在丘腦各個核團、基底節和僵核[25]。HCN 通道在新皮層和海馬椎體神經元中,主要分布在遠端軸突[26],調控軸突的興奮和突觸的網絡聯系,海馬、小腦和中腦中間神經元,胞體和軸突均有分布,用于維持膜的穩定性和神經遞質的傳遞,這種不同的表達和分布有助于完成 HCN 的生理功能[27]。細絲蛋白(Filamin A,FLNA)是一種能夠與肌動蛋白交聯結合,進而穩定細胞骨架的蛋白質。現有研究表明其在大腦發育的早期階段廣泛表達,在大腦組織結構和神經元遷移中扮演著重要的角色[28]。有研究表明 FLNA 在調控神經元 HCN1 的表達起到重要作用,并在神經元的生理功能發揮重要作用,其通過動力依賴機制選擇性地內化 HCN1 型通道,進而導致 Ih 密度降低。KCTD3 是 KCTD 蛋白質家族的一員,使 HCN3 相互作用蛋白,其在腦和一些非神經元組織中廣泛表達,在大腦特定區域如下丘腦與 HCN3 共表達,KCTD3 與 HCN3 特異性結合,導致 HCN3 通道在細胞表面的表達及電流密度發生明顯的上調[29]。PEX5L 是 HCN 通道的結合蛋白,能夠調節其細胞表面表達和環核苷酸依賴性。這些蛋白參與的信號通路主要是參與 cAMP 信號通路及離子轉運過程,在電壓門控離子通道超家族中,HCN 通道主要是通過 cAMP 直接結合其環核苷酸結合域(CNBD)來調控的,通過 CNBD 構象的改變,cAMP 與環核苷酸結合,增加了超極化通道的開放概率[30]。已經構建出 cAMP 對 HCN 抑制的動物模型,未連接 cAMP 的 CSD 區可抑制 S6 活動,并且限制內源性電壓活動。當 cAMP 結合 CNBD 釋放 CSD 時,促進 HCN 通道開放。使 HCN1 和 HCN3 CSD 活性增高。同樣,cGMP 和 cCMP 也能通過類似的方式調節 HCN 通道的相關亞型[31]。啟動子是 RNA 聚合酶識別、結合和開始轉錄的一段 DNA 序列,目前認為啟動子一般位于轉錄起始點附近,通過啟動子分析軟件對人 HCN1 基因 5'上游 2 000 bp 序列進行分析,預測存在 3 個潛在的啟動子區。在基因表達調控網絡中,轉錄因子是通過結合特異性 DNA 序列控制遺傳信息從 DNA 到信使 RNA 的轉錄速率的蛋白,轉錄因子可通過修飾(甲基化、去甲基化、乙酰化、去乙酰化等修飾)與啟動子進行互作結合調控,產生促進或是抑制的效果。利用 AliBaba2.1 和 PROMO 在 HCN1 基因啟動子區預測到成百個轉錄因子結合位點,被 2 種軟件同時預測到且結合位置一致的轉錄因子有 19 種,這些轉錄因子存在的概率比較高,對于后續對相關轉錄因子的驗證中具有重要意義。這些預測不僅為 HCN1 的已知功能提供了參考,同時也提示多種轉錄因子調節 HCN1 的表達。本研究通過 MethPrimer 在線軟件預測 HCN1 基因啟動子區存在一個 CpG 島。啟動子的轉錄過程會受到 CpG 島甲基化的影響,通過阻礙轉錄因子對結合位點的識別,進而使基因的表達下降[32]。DNA 甲基化是一種 DNA 的天然修飾方式。在真核生物中,甲基化只發生在胞嘧啶第 5 位的碳原子上,由 DNA 甲基轉移酶(DNA methylation transferase,DNMT)所催化,以 S-腺苷甲硫氨酸(S-adenosylmethionine,SAM)作為甲基供體,將甲基轉移到胞嘧啶上,生成 5-甲基胞嘧啶的一種反應。在哺乳動物中,DNA 甲基化主要發生在 CpG 雙核苷酸序列的胞嘧啶上,由于啟動子區 CpG 序列較常見,一般以啟動子甲基化最為重要。DNA 甲基化雖然未改變核苷酸順序及其組成,但可在轉錄水平,尤其是轉錄起始階段調控基因的表達。在真核細胞中,某些轉錄因子特異性的結合位點中有 CpG,當這些位點出現高甲基化時,引起啟動子和轉錄因子結合降低,從而降低基因轉錄和表達。真核生物啟動子是一段位于結構基因 5′端上游區的 DNA 序列,能活化 RNA 聚合酶使之與模板 DNA 準確地結合并具有轉錄起始的特異性[33]。
目前研究主要是有關 HCN1 在疾病發生過程中的表達變化,本研究通過系統分析 HCN1 的表達、蛋白質相關信息和參與的生理功能等對深入研究其對機體發育及其在癲癇等疾病的發生發展中的作用具有重要意義。
超極化激活環核苷酸門控通道(Hyperpolarization activated cyclic nucleotide gated channel,HCN)屬于電壓門控型離子通道,迄今為止發現有四個亞型:HCN1-HCN4[1]。HCN1 和 HCN2 的表達存在時空特異性,并受嚴格的調控。中樞神經系統主要表達 HCN1 和 HCN2,心肌細胞主要表達 HCN4[2]。HCN 通道既參與所在組織的正常生理功能,也與所在組織的病理狀態密切相關。神經損傷引起的神經源性疼痛常可檢測到 HCN1 表達增加,肥厚性心肌病和終末期心力衰竭等常檢測到心室肌細胞 HCN4 及 HCN2 mRNA 表達增加[1]。研究發現,在伴海馬硬化性內側顳葉癲癇(Mesial temporal lobe epilepsy with hippocampus sclrosis,MTLE-HS)大鼠模型中,大腦皮質和海馬 HCN1 和 HCN2 表達明顯下調,且這種下調可持續較長時間[3]。本課題組前期通過體外實驗發現,MTLE-HS 大鼠模型 HCN1 和 HCN2 在不同時期表達均呈下降;MTLE-HS 大鼠模型、人外周血和人海馬手術標本中 HCN1 和 HCN2 啟動子甲基化水平升高及基因的蛋白水平表達下降,提示表觀遺傳學在調控 HCN 表達中的重要作用,可能是導致 MTLE-HS 患者 HCN 下調的機制之一。近年來,癲癇致病基因的轉錄調控得到了越來越多的重視,轉錄因子通過對基因的轉錄調控作用參與癲癇的發病機制,HCN1 和 HCN2 基因啟動子及其轉錄調控元件的異常調控很可能是導致病理情況下 HCN 表達異常的原因。然而,目前對于 HCN 基因自身的轉錄調控及其分子機制仍不明確,在 NCBI 的數據庫中也尚未記錄人 HCN1 基因啟動子序列,對 HCN1 啟動子進行生物信息學分析亦未見報道。因此,為了系統地分析 HCN1 基因及其編碼蛋白的性質及功能,本研究通過生物信息學方法進行預測分析,為深入研究基因的功能及其在癲癇等相關疾病的發病機制提供理論支持。
1 資料與方法
1.1 資料來源
人(Homo sapiens,O60741),黑猩猩(Pan paniscus,A0A2R9C401),馬(Equus caballus,F7BZH9),豬(Sus scrofa,I3LEM3),牛(Bos taurus,E1BM97),狗(Canis lupus familiaris,F1PLK3),褐家鼠(Rattus norvegicus,Q9JKB0),小鼠(Mus musculus,O88704),雞(Gallus gallus,F1N9K1),熱帶爪蟾(Xenopus tropicalis,F6YMQ2)蛋白質序列均由 Uniprot 獲得;人 HCN1 基因及其上游的 2 000 bp 序列由 NBCI 及 UCSC 數據庫獲得。
1.2 方法
① 從 Genbank 及 Uniprot 數據庫下載人及其他物種的 HCN1 的基因和蛋白序列;② 利用 DNAMAN 8.0 軟件對物種的蛋白序列進行同源性比對,并用 MEGA 5.10 進行系統進化分析;③ 應用在線軟件 ProtParam、ProtScale 和 TMHMM 程序分析 HCN1 蛋白的相對分子質量、氨基酸組成、等電點、原子組成、穩定性、半衰期、疏水性和跨膜區,采用 SignalP 5.0 軟件預測 HCN1 蛋白是否含有信號肽。利用 NetPhos 3.1 軟件對 HCN1 蛋白進行磷酸化位點分析,及 cNLS-mapper 預測核定位序列;④ 采用 SMART、SWISSMODEL、Swiss-PdbViewer 和 Pymol 工具分析蛋白質的功能域、二級結構和三級結構;⑤ 應用 Compartments 在線軟件、The Human Protein Atlas 數據庫、QuickGO 2 數據庫和 Cytoscape 進行基因本體論、信號通路及蛋白互作分析;⑥ 采用 Neural Network Promoter Prediction、Promoter 2.0 和 TSSG 在線軟件預測人 HCN1 基因 5'調控區中潛在的啟動子區,并進行比較分析,參數設置采用默認值;⑦ 利用在線軟件 AliBaba2.1 和 PROMO 對人 HCN1 基因 5'調控區轉錄因子結合位點進行預測,并進行統計分析,篩選出共同的轉錄因子;⑧ 采用 EMBOSS 和 MethPrimer 在線軟件預測人 HCN1 基因啟動子區 CpG 島。
2 結果
2.1 HCN1 蛋白的生物信息學分析
2.1.1 人 HCN1 蛋白的同源性分析
人 HCN1 基因位于 5 號染色體的短臂上(5p12),編碼 890 個氨基酸,具體位置為 chr5:45254948-45696380,包含 8 個外顯子。利用 DNAMAN 8.0 軟件對 10 個物種的蛋白序列進行同源性比對發現,人 HCN1 蛋白與黑猩猩、馬、豬、牛、狗、褐家鼠、小鼠、雞和熱帶爪蟾中同源蛋白的相似度分別為 96.74%、96.74%、96.07%、95.84%、92.62%、91.87%、91.87%、85.96% 和 75.62%。用 MEGA7 軟件[4]中基于序列同源性的鄰接法(Neighbor-joining,NJ)構建 HCN1 蛋白遺傳進化關系樹(圖 1),從進化樹中可觀察到,在進化過程中,人與黑猩猩的親緣關系最近。小鼠與褐家鼠的親緣關系較近,聚為一類。其他物種的親緣關系都較遠。不同物種 HCN1 蛋白進化距離分析結果顯示,人與黑猩猩的遺傳距離最小,為 0.019;與熱帶爪蟾的進化關系最遠,遺傳距離為 0.182(表 1)。人 HCN1 蛋白在哺乳動物的同源蛋白相似度比較中均>90%,可見該蛋白序列保守性較高。


2.1.2 人 HCN1 蛋白的理化性質分析
采用在線軟件 ProtParam[5]分析 HCN1 蛋白的理化性質,結果顯示該蛋白由 890 個氨基酸組成,相對分子質量 98 796.00,等電點(pI):8.63,分子式:C4398H6889N1203O1298S44,總原子數:13832;帶負電荷的氨基酸殘基(谷氨酸+天冬氨酸):78 個,帶正電荷的氨基酸殘基(賴氨酸+精氨酸):85 個。HCN1 蛋白在哺乳動物的半衰期為 30 h,不穩定系數(II):50.88,根據不穩定系數的判斷標準[6]:<40 被認為是穩定,>40 為不穩定,推定 HCN1 蛋白屬于不穩定蛋白。
2.1.3 人 HCN1 蛋白的親水性/疏水性分析
利用 ProtScale[5]程序對人 HCN1 蛋白的親疏水性進行在線分析,基于 K-D 法的蛋白質疏水性,分值>0 為疏水性氨基酸,<0 為親水性氨基酸,結果見圖 2;其中最大值是第 151 位的異亮胺酸(Score 2.900),是疏水性最強的位點,最小值是第 408 位的谷氨酰胺(Score: -3.322),是親水性最強的位點,人 HCN1 蛋白中 882 個氨基酸(5~886),有 61.11%(539 個)氨基酸分布在<0 的區域,38.89%(343 個)氨基酸分布在>0 的區域,表明人 HCN1 蛋白存在明顯的親水域,屬親水性蛋白質。這一結果與 Prot Param 程序分析得出的結構一致:HCN1 蛋白脂肪族氨基酸指數 68.06,總的親水性平均系數(GRAVY)為?0.273,顯示該蛋白為親水蛋白質。

2.1.4 人 HCN1 蛋白的信號肽及核定位序列預測
利用信號肽預測服務器 SignalP5.0[7]預測人 HCN1 蛋白的信號肽,預測的結構見圖 3,通過程序計算得出 C、Y、S 的值均為 0,通過這些數據可以得出人 HCN1 蛋白無信號肽(likelihood:0.003)。通過核定位序列預測系統 cNLS-mapper[8]對其進行預測分析 HCN1 蛋白沒有核定位序列,據文獻報道,當 cNLS-mapper 中 cut-off 值為 8~10 時,表明蛋白質專一定位于細胞核;當 cut-off 值為 7 或 8 時,部分定位于細胞核;當 cut-off 值為 3~5 時,定位于核內和胞漿內;當 cut-off 值為 1~2 時,表明定位于胞漿內[9]。

2.1.5 HCN1 蛋白的跨膜區預測與分析
使用 TMHMM[10]程序進行預測,通過計算得到圖 4,結果顯示 890 個氨基酸殘基存在 2 個跨膜區,該蛋白 168~372 位氨基酸位于細胞內,145~167 和 373~395 位氨基酸形成 2 個典型的跨膜螺旋區,1~144 和 396~890 位氨基酸位于細胞外。

2.1.6 HCN1 蛋白的磷酸化位點分析
磷酸化及去磷酸化在真核生物的細胞分裂、信號轉導等過程中有重要的作用。利用 NetPhos3.1[11]分析 HCN1 蛋白的磷酸化位點,結果見圖 5。通過分析發現該蛋白可能含有 100 個磷酸化位點,絲氨酸磷酸化位點 60 個;蘇氨酸磷酸化位點 31 個,酪氨酸磷酸化位點 9 個。

2.1.7 人 HCN1 蛋白二級結構分析
利用 SMART[12]在線軟件對人 HCN1 蛋白的結構域進行分析,結果顯示,該蛋白在 98~141、142~405 和 475~591 位氨基酸處分別分布有 Pfam:Ion_trans_N,Pfam:Ion_trans 和 cNMP(Cyclic nucleotide-monophosphate binding domain)結構域(圖 6)。通過網站 Prabi GOR IV[13]對人 HCN1 蛋白的二級結構進行預測,結果顯示該蛋白二級結構的主要類型為 α-螺旋(alpha helix),共 260 個(29.21%),無規則卷曲(random coil)456 個(51.24%),延伸鏈(extended strand)174 個(19.55%)。二級結構分布情況見圖 7。

粉色(192~216 位氨基酸)為 low complexity 區域
Figure6. Protein domain prediction of human HCN1Pink(192~216)is low complexity region

藍色為 α-螺旋,紅色為延伸鏈,玫紅色為無規則卷曲
Figure7. Secondary structure prediction of human HCN1Blue is α-helix, red is extended chain, rose red is irregular curl
2.1.8 人 HCN1 蛋白三級結構分析
本研究基于 Swiss-Mode 網站采用同源模建法分析人類 HCN1 蛋白的三級結構,SwissModel[14]采用同源建模法可預測蛋白的三級結構及相關參數。因此在 SwissModel 中提交人 HCN1 氨基酸序列,得到 1 個預測結果,結果見圖 8(GMQE:0.66;QMEAN:-0.97;Template:6uqf.1.A;Seq Identity:99.37%;Coverage:94~635)。

紅色為 α-螺旋,綠色為無規則卷曲,黃色為 β-轉角
Figure8. Tertiary structure prediction of human HCN1Red is α-helix, green is irregular curl, yellow is β-turn
2.1.9 人 HCN1 蛋白亞細胞定位、組織表達特異性與 GO 分析
通過 Compartments 在線軟件進行亞細胞定位分析,結果顯示,HCN1 主要分布于質膜中(Evidence:31/32)。在 The Human Protein Atlas 數據庫中的結果表明,HCN1 mRNA 在人體大多數組織均有表達,腦組織的表達量最高。利用 QuickGO 2 對人 HCN1 蛋白進行基因本體注釋(Gene ontology,GO)發現,該蛋白位于質膜中(GO:0005886),與亞細胞定位結果一致;分子功能表現為與 cAMP 結合(GO:0030552)、電壓門控離子通道活性(GO:0005244),參與細胞對 cAMP 的反應過程(GO:0071320)和鉀離子的跨膜運輸(GO:0071805)。
2.1.10 蛋白相互作用
使用 String 11.0[15]對人 HCN1 進行蛋白質相互作用預測,置信度設置為 0.400,數量限制為 10 個以內,構建人 HCN1 蛋白相互作用網絡。結果顯示,與人 HCN1 蛋白可能存在相互作用的有 10 個蛋白(圖 9),其名稱及得分見表 2,包括 HCN2、HCN4、PEX5L、MARCH7、KCTD3、GNAT3、SHKBP1、KCNQ2、FLNA、NEDD4L。人 HCN1 蛋白及其相互作用蛋白的 GO 分析及信號轉導通路見表 3。



2.2 HCN1 啟動子的生物信息學分析
啟動子區預測和分析參數設置:Neural Network Promoter Prediction[16]啟動子閾值設為 0.8,Promoter 2.0[17]和 TSSG[18]采用默認值。在 UCSC 數據庫中獲得人 HCN1 基因 5'上游?1~?2 000 bp 的序列,用 3 種不同的在線軟件對2 000 bp 序列進行潛在的啟動子區預測分析,TSSG 未發現啟動子區,余結果見表 4。將人 HCN1 基因 5'上游 2 000 bp 序列與 Genecopoeia 網站查詢到的人 HCN1 基因啟動子序列 HPRM49983(產品編號)用 BLAST 工具作全序列對比,發現兩者的一致性為 51%。HPRM49983 全 1289 bp,轉錄起始位點(TSS)位于 1 285 bp 的 C 堿基處。HCN1 基因 5'上游 2 000 bp 序列的 979~2 000 bp 與 HPRM49983 序列完全一致。由此推測 HCN1 基因啟動子位于 5'上游 1 100 bp 序列內。

2.3 TATA 盒、GC 盒和 CAAT 盒的模序識別
CAAT 盒、TATA 盒和 GC 盒的模序識別可通過在 HCN1 基因 5'調控區序列上是否發現相應特征序列來實現。TATA 盒序列格式為 TATAWAW(W 代表 A 或 T);GC 盒序列格式為 GGGCGG; CAAT 盒序列格式為 CCAAT。通過查 TATA 盒、GC 盒和 CAAT 盒的相應特征序列發現,人 HCN1 基因 5'調控區有 1 個 CAAT 盒及 1 個 TATA 盒,分別位于 1 849~1 853 和 36~41,未查找到 GC 盒。
2.4 啟動子區轉錄因子結合位點預測和分析
為提高轉錄因子結合位點預測的準確性,用 AliBaba2.1[19]和 PROMO2[20]種軟件預測人 HCN1 基因啟動子區轉錄因子結合位點。參數設置:Min mat.Conservation 設為 75%,其它參數為默認值;PROMO 參數設置:Considering factors選擇 Only human factors,Considering sites 選擇 Only human sites,其它參數為默認值;在 5'上游 1~2 000 bp 內 2 種軟件分別預測到 183 和 931 個轉錄因子結合位點,分別涉及到 67 和 77 種轉錄因子。被 2 種軟件共同預測到且結合位點位置相同的轉錄因子有 19 種,包括 NF-κB、NF-1、AP-1、TBP、IRF-1、c-Ets-1、Elf-1、HNF-3、HNF-1、YY1、GATA-1、RXR-α、GR、AP-2αA、ENKTF-1、C/EBPβ、C/EBPα、c-Fos 和 c-Jun。
2.5 人 HCN1 基因啟動子區甲基化 CpG 島預測
EMBOSS[21]預測人 HCN1 基因啟動子區 CpG 島。參數設置:CpG 檢測含量/期望含量(Obs/Exp)>0.60,C+G 含量百分比> 50%,CpG 島長度>200 bp。MethPrimer[22]采用默認值。利用在線軟件 EMBOSS 和 MethPrimer 預測人 HCN1 基因 5'上游 2 000 bp 序列中甲基化 CpG 島。EMBOSS 軟件預測結果顯示,未發現 CpG 島。MethPrimer 軟件預測結果顯示,1 個 CpG 島分為位于?213~?56 bp 處,長度為 158 bp(圖 10)。

附:
Protparam tool http://web.expasy.org/protparam
Protscale tool http://web.expasy.org/protscale
TMHMM http://www.cbs.dtu.dk/services/TMHMM
SignalP 5.0:http://www.cbs.dtu.dk/services/SignalP
NetPhos 3.1:http://www.cbs.dtu.dk/services/NetPhos
PRABI:https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_gor4.html
SMART:http://smart.embl-heidelberg.de/
SWISSMODEL:http://swissmodel.expasy.org/
STRING:https://string-db.org/
DAVID 數據庫:http://david.ncifcrf.gov
QuickGo:https://www.ebi.ac.uk/QuickGO/term/
The Human Protein Atlas:https://www.proteinatlas.org/
Compartments:https://compartments.jensenlab.org/
UCSC:https://genome.ucsc.edu/
Neural Network Promoter Prediction:http://www.fruitfly.org/seq_tools/promoter.Html
Promoter 2.0:http://www.cbs.dtu.dk/services/Promoter/
TSSG:http://linux1.softberry.com/berry.phtml?topic=tssg&group=programs&subgroup=promoter
Proscan:https://www-bimas.cit.nih.gov/molbio/proscan/
AliBaba2.1:http://gene-regulation.com/pub/programs/alibaba2/index.html
PROMO:http://alggen.lsi.upc.es/
JASPAR:http://jaspar.genereg.net/
CONREAL:http://conreal.niob.knaw.nl/
EMBOSS:http://www.ebi.ac.uk/Tools/seqstats/emboss_cpgplot/
MethPrimer:http://www.Urogene.org/cgi-bin/methprimer/methprimer.cgi
SNP 軟件:http://compbio.cs.queensu.ca/F-SNP/)
SNP Function Prediction:http://snpinfo.niehs.nih.gov/snpinfo/snpfunc.htm
Genecopoeia:http://www.genecopoeia.com/
Blast:https://blast.ncbi.nlm.nih.gov/Blast.cgi
3 討論
HCN 通道是一類獨特的電壓門控離子通道,由四個同源或者異源的亞基組成,主要是轉運鉀離子,在一定程度也能夠轉運鈉離子,其在電位超級化時被激活,在負電位狀態下能夠持續保持開放,當與 cAMP 結合時,其開放狀態增強。HCN 通道能夠在心臟及大腦中傳導一種內向的去極化電流,分別稱為 If('funny' current)和 Ih('hyperpolarization-activated' current)[23]。HCN 通道在神經系統中廣泛表達,其與神經元興奮性和神經網絡活動密切相關,HCN 通道的功能障礙會引起一系列的相關疾病,如心律失常、癲癇和神經性疼痛等。因此對 HCN 通道的進一步研究對于疾病的治療具有重要意義[24]。
利用 NCBI 公共數據庫獲取不同物種 HCN1 蛋白的氨基酸序列,同源度比對分析發現人 HCN1 與其他哺乳動物的一致性差異性較小,說明人 HCN1 基因與哺乳動物其他物種的同源基因在進化過程中保守性高。HCN1 蛋白是位于質膜上不穩定的親水性蛋白,存在典型的跨膜,通過 String 數據庫對 HCN1 相互作用的蛋白進行預測分析,得到了 HCN1 蛋白質相互作用的前 10 個蛋白質(HCN2、HCN4、PEX5L、MARCH7、KCTD3、GNAT3、SHKBP1、KCNQ2、FLNA、NEDD4L),其中 HCN2 和 HCN4 是 HCN 通道的兩個亞型,在中樞神經系統中,HCN 通道分布并不一致,HCN1 和 HCN2 表達最豐富,而 HCN4 通道在中樞神經系統中表達較少。HCN1 主要在新皮層、海馬、小腦皮層和腦干中表達最多。HCN2 幾乎在整個大腦中均有表達,表達最多為丘腦、外側膝狀體和腦干核團。HCN4 與 HCN1 表達有關,主要表達在丘腦各個核團、基底節和僵核[25]。HCN 通道在新皮層和海馬椎體神經元中,主要分布在遠端軸突[26],調控軸突的興奮和突觸的網絡聯系,海馬、小腦和中腦中間神經元,胞體和軸突均有分布,用于維持膜的穩定性和神經遞質的傳遞,這種不同的表達和分布有助于完成 HCN 的生理功能[27]。細絲蛋白(Filamin A,FLNA)是一種能夠與肌動蛋白交聯結合,進而穩定細胞骨架的蛋白質。現有研究表明其在大腦發育的早期階段廣泛表達,在大腦組織結構和神經元遷移中扮演著重要的角色[28]。有研究表明 FLNA 在調控神經元 HCN1 的表達起到重要作用,并在神經元的生理功能發揮重要作用,其通過動力依賴機制選擇性地內化 HCN1 型通道,進而導致 Ih 密度降低。KCTD3 是 KCTD 蛋白質家族的一員,使 HCN3 相互作用蛋白,其在腦和一些非神經元組織中廣泛表達,在大腦特定區域如下丘腦與 HCN3 共表達,KCTD3 與 HCN3 特異性結合,導致 HCN3 通道在細胞表面的表達及電流密度發生明顯的上調[29]。PEX5L 是 HCN 通道的結合蛋白,能夠調節其細胞表面表達和環核苷酸依賴性。這些蛋白參與的信號通路主要是參與 cAMP 信號通路及離子轉運過程,在電壓門控離子通道超家族中,HCN 通道主要是通過 cAMP 直接結合其環核苷酸結合域(CNBD)來調控的,通過 CNBD 構象的改變,cAMP 與環核苷酸結合,增加了超極化通道的開放概率[30]。已經構建出 cAMP 對 HCN 抑制的動物模型,未連接 cAMP 的 CSD 區可抑制 S6 活動,并且限制內源性電壓活動。當 cAMP 結合 CNBD 釋放 CSD 時,促進 HCN 通道開放。使 HCN1 和 HCN3 CSD 活性增高。同樣,cGMP 和 cCMP 也能通過類似的方式調節 HCN 通道的相關亞型[31]。啟動子是 RNA 聚合酶識別、結合和開始轉錄的一段 DNA 序列,目前認為啟動子一般位于轉錄起始點附近,通過啟動子分析軟件對人 HCN1 基因 5'上游 2 000 bp 序列進行分析,預測存在 3 個潛在的啟動子區。在基因表達調控網絡中,轉錄因子是通過結合特異性 DNA 序列控制遺傳信息從 DNA 到信使 RNA 的轉錄速率的蛋白,轉錄因子可通過修飾(甲基化、去甲基化、乙酰化、去乙酰化等修飾)與啟動子進行互作結合調控,產生促進或是抑制的效果。利用 AliBaba2.1 和 PROMO 在 HCN1 基因啟動子區預測到成百個轉錄因子結合位點,被 2 種軟件同時預測到且結合位置一致的轉錄因子有 19 種,這些轉錄因子存在的概率比較高,對于后續對相關轉錄因子的驗證中具有重要意義。這些預測不僅為 HCN1 的已知功能提供了參考,同時也提示多種轉錄因子調節 HCN1 的表達。本研究通過 MethPrimer 在線軟件預測 HCN1 基因啟動子區存在一個 CpG 島。啟動子的轉錄過程會受到 CpG 島甲基化的影響,通過阻礙轉錄因子對結合位點的識別,進而使基因的表達下降[32]。DNA 甲基化是一種 DNA 的天然修飾方式。在真核生物中,甲基化只發生在胞嘧啶第 5 位的碳原子上,由 DNA 甲基轉移酶(DNA methylation transferase,DNMT)所催化,以 S-腺苷甲硫氨酸(S-adenosylmethionine,SAM)作為甲基供體,將甲基轉移到胞嘧啶上,生成 5-甲基胞嘧啶的一種反應。在哺乳動物中,DNA 甲基化主要發生在 CpG 雙核苷酸序列的胞嘧啶上,由于啟動子區 CpG 序列較常見,一般以啟動子甲基化最為重要。DNA 甲基化雖然未改變核苷酸順序及其組成,但可在轉錄水平,尤其是轉錄起始階段調控基因的表達。在真核細胞中,某些轉錄因子特異性的結合位點中有 CpG,當這些位點出現高甲基化時,引起啟動子和轉錄因子結合降低,從而降低基因轉錄和表達。真核生物啟動子是一段位于結構基因 5′端上游區的 DNA 序列,能活化 RNA 聚合酶使之與模板 DNA 準確地結合并具有轉錄起始的特異性[33]。
目前研究主要是有關 HCN1 在疾病發生過程中的表達變化,本研究通過系統分析 HCN1 的表達、蛋白質相關信息和參與的生理功能等對深入研究其對機體發育及其在癲癇等疾病的發生發展中的作用具有重要意義。