轉錄組測序(RNA sequencing,RNA-seq)技術作為一種新興的測序方法,利用高通量測序平臺,對特定狀態下的細胞內全部 RNA 進行測序分析,揭示不同物種的基因表達情況以及轉錄調控的規律。癲癇發病原因復雜,即使具有相同突變基因的癲癇患者,臨床表現嚴重程度不同,提示存在額外的影響因素,RNA-seq 技術通過對差異表達基因的分析,在癲癇病因的研究中發揮重要的作用。文章主要介紹 RNA-seq 技術與其他測序技術的比較以及不同的 RNA-seq 技術平臺特點,并敘述 RNA-seq 技術在癲癇中的應用。
引用本文: 盧倩, 鄒麗萍. 轉錄組測序技術在癲癇中的應用. 癲癇雜志, 2018, 4(2): 112-116. doi: 10.7507/2096-0247.20180023 復制
2001 年人類基因組工作草圖的發表,被認為是生物史中重要的里程牌[1, 2]。之后短短十幾年時間里,隨著科學技術的更新以及研究的深入,不僅推動著基因組學的不斷發展,還促進了轉錄組測序的實現,使人們可以從 RNA 水平進行研究分析,揭示不同物種的基因表達情況以及轉錄調控的規律,解密生命科學的奧秘。
癲癇是一種以反復癇性發作為特征的慢性神經系統疾病,全球大約有超過 5 000 萬的癲癇患者,任何年齡段均可患病,80% 的患者生活在中低收入的國家,反復的癲癇發作對患者自身以及其家庭造成嚴重的影響[3]。國際抗癲癇聯盟(ILAE)2017 年將導致癲癇的病因分為六類:遺傳性、代謝性、結構性、免疫性、感染性和原因不明等[4]。約 70% 的癲癇患者存在遺傳基礎[5]。具有相同的基因突變而引起的臨床嚴重程度不同,這提示額外的因素可以改變基因突變導致的影響,從而出現不同的臨床表現。轉錄組具有空間特異性和時間特異性,反映細胞或組織在特定狀態下的生物學特點,對細胞生物活性的調節發揮重要作用[6]。因此對轉錄組的認識,將有助于我們解釋基因的功能,揭示細胞和組織的分子組成,加深對發育和疾病的理解。
新一代測序技術(Next-generation sequencing,NGS)的出現,使得人們可以對細胞內全部 RNA 反轉錄形成的 DNA(cDNA)文庫進行高通量測序[7],這種技術稱為轉錄組測序(RNA sequencing,RNA-seq),本文主要介紹 RNA-seq 技術及其在癲癇中的應用進行總結概括。
1 轉錄組測序技術與其他測序方法的比較
測序技術處在不斷的發展中,目前使用的測序技術包括三大類:基因芯片技術、基于 Sanger 技術的測序和新興起的高通量測序技術。下面將從測序原理和特點方面對三種不同的測序技術進行介紹。
自從 1995 年提出后[8],基因芯片(Microarray)技術得到了廣泛的應用。其原理是將大量已知序列的探針分子固定于基片(硅片或尼龍膜等)上,形成高密度點陣,從待測樣品中提取出 RNA,反轉錄形成 cDNA 并進行標記,將樣品中的被標記的序列與芯片上的探針雜交,產生雜交信號,收集并分析雜交信號,從而獲得大量的基因信息[9]。基因芯片技術測序發展較為成熟,測序技術相對較快,但其仍存在不足[10, 11],首先該技術需要大量已知的基因序列,對前期基礎工作要求較高;其次該技術對低表達的基因檢測敏感度較差。
表達序列標簽(Expressed sequence tags,EST)是基于 Sanger 技術的測序方法。絕大多數的真核生物 mRNA 分子都有 5'-UTR(5'端轉錄非翻譯區),3'-UTR(3'端轉錄非翻譯區)和 ORF(開放閱讀框架)三部分組成,反轉錄形成的 cDNA 同樣具有以上結構。通常情況,cDNA 鏈的 5'或 3'端的有限序列具有特異性[12]。EST 即利用該原理,隨機挑選 cDNA 文庫中的序列進行克隆并進行大規模測序。雖然真核生物基因數目較多,但編碼基因的序列只有 2%~3%,所以選擇 EST 技術可以提高檢測的效率。不過由于 EST 只是對基因的一部分序列進行檢測,因此得到的基因信息并不完整[13]。而且容易遺留一些少見的基因或者表達豐度相對較低的基因[14],這些技術方法均使用 Sanger 測序,花費較大,進行克隆時,耗時較長;而且只能分析一部分轉錄序列[15, 16]。
RNA-seq 是利用高通量測序技術進行轉錄組分析。雖然 RNA-seq 被廣泛應用時間較短,但是該技術在轉錄方面的成果,已改變了我們對基因表達和調節的認識。與前面兩種測序技術相比 RNA-seq 具有很多優勢:① RNA-seq 無需提前設計特異的探針,可以對任何物種直接轉錄組測序,同樣適用于缺乏基因組信息的非模式生物轉錄組測序[17];② RNA-seq 通量大,測序速度快,極大的縮短了轉錄組的測序時間;③ 靈敏度高,可以檢測到表達較低的基因序列;④ 準確性高,可以顯示轉錄序列的準確位置,并且能精確到單個核苷酸,識別轉錄序列中的變異,比如單核苷酸多態性(Single nucleotide polymorphism,SNPs)[18];⑤ 測序成本低,人類第一次基因組測序花費有數百萬,而利用高通量測序的花費大大減低[19];⑥ RNA-seq 不需要克隆等過程,操作更為簡便,對樣本量要求較少[7],因此也適用樣本量少的實驗。
2 不同的轉錄組測序技術平臺
目前 RNA-seq 技術平臺主要有三種,分別是 454 公司、SOLiD 公司以及 Illumina 公司。Costa 等[20]對 22 項哺乳動物 RNA-seq 研究進行總結,發現使用 Genome Analyzer 平臺的有 16 項,使用 SOLiD 平臺的有 3 項,使用 454 平臺的有 2 項。以上三種測序平臺均具有測序通量高,測序成本低的特點,但是不同的平臺所使用的測序原理、測序長度以及應用優勢有所不同,因此要衡量全部特點,對測序平臺進行正確的選擇[21, 22]。
2005 年底,454 公司推出了一種基于焦磷酸測序方法的高通量測序系統,開創邊合成邊測序的先河[23]。454 平臺最大的特點就是測序讀段較長,而測序準確度較差[24],但是其在從頭測序(de novo)和宏基因組測序等應用仍具有不可替代的作用。
SOLiD 公司使用 DNA 連接酶進行測序,由專門設計的含有熒光標記的 DNA 單鏈探針作為其反應底物。每次讀序都是 2 個堿基,并且每個堿基都被讀取兩次,這種方法又稱為“雙堿基讀序”[25],因此序列讀取準確度高,但測序速度與其他系統相比較慢[26]。
Illumina 公司的 Genome Analyzer 測序原理是:可逆性末端終結合成測序[27]。同樣是邊合成邊測序,新形成的鏈使用特殊的四種 dNTP,該 dNTP 帶有四種不同顏色標記的熒光,而且 3'端含有可以被切割的阻斷基團。在測序合成過程中,阻斷基團使得每次反應只能延長一個堿基。隨著測序的開始,dNTP 與測序鏈互補配對結合后,3'羥基端被切除,暴露出新的堿基,使測序不斷進行,通過捕獲的熒光顏色判斷序列的堿基分布,靈敏度和準確度較高。最近 Illumina 公司推出的 HiSeq 測序由于其通道較多、測序量大,在國內也被廣泛應用。
3 轉錄組測序技術在癲癇中的應用
RNA-seq 技術已經在生物學研究、臨床研究和藥物開發等領域廣泛應用。目前大部分高通量測序技術需要的是 cDNA 文庫,因此要將獲取的 RNA 經過反轉錄形成 cDNA,組建所需要的測序文庫。RNA-seq 結果的生物信息學分析根據有無參考基因組分成兩種比對方法。以 GOLD(genome online database)為標準,能夠找到相同或者相近的物種的基因組或者基因信息的,即為有參考基因組的比對方法,否則為無參考基因組的比對方法[28]。前者主要是將所得到的讀段全部映射(mapping)到基因組中,并且與參考基因組進行對比分析。當無參考基因序列存在時,測序所得到的讀段通過軟件的處理,進行從頭組裝(De novo assembly)[29]。通過基因表達水平的比較,可以發現不同樣品之間具有表達差異的基因。為了排除這些與基因表達的真實水平無關因素,提出了 FPKM(Fragments Per Kilobase per Million reads)的概念[30]。FPKM 指的是每百萬測序讀段中每千堿基長度中的片段數目,同時考慮到測序的深度和測序基因的長度,可以準確的反映基因表達水平,是目前評估基因表達水平的一種常用方法[31]。對差異表達基因進行功能分類包括:GO(gene ontology)富集和 KEGG(Kyoto Encyclopedia of Genes and Genomes)信號通路富集。GO 富集主要從生物過程(biological process)、細胞組分(cellular component)和分子功能(molecular function)三方面反映,該方法稱為 GO-seq,適用于全部的生物[32, 33]。KEGG 是一種關于信號通路的數據庫[34]。通過 KEGG 富集可以顯示出差異表達基因主要參與的信號通路。
編碼電壓門控鈉通道(Voltage-gated sodium channel,VGSC)的基因有 SCN1A、SCN2A、SCN3A 以及 SCN8A 等,如果這些基因發生突變則會引起多種癲癇,目前已經發現超過 1 200 種基因突變,引起的癲癇包括遺傳性癲癇伴熱性驚厥附加癥、良性家族性嬰兒癲癇以及早發嬰兒癲癇性腦病等[35]。例如 SCN1A 基因突變可以導致多種癲癇發生,從簡單的熱性驚厥到 Dravet 綜合癥,而 Dravet 綜合癥是一種嚴重的嬰兒發病的癲癇性腦病,患者有多種發作類型,伴隨智力和認知的落后,預后較差,出現癲癇猝死(Sudden unexpected death in epilesy,SUDEP)[5, 36]比例較高。研究發現小鼠模型中 SCN1A 基因缺失可以出現 Dravet 綜合癥的表現,但是 SCN1A 基因的雜合性在不同品種的小鼠模型中表型不同。在 129 系小鼠中 129.Scn1a+/– 并沒有表現出癲癇的發作并且具有正常的生存壽命;在 129 系小鼠和 C57BL/6J 小鼠雜交所產生的第一代小鼠則出現自發性癲癇發作,并且生后 8 周內死亡率達 75%[37]。Hawkins 等[5]對兩種品系的小鼠的海馬組織進行 RNA-seq 測序。通過對差異表達基因的分析,發現 Gabra2 基因在兩種品系中存在差異,并且具有特異性等位基因表達的特點,說明 Gabra2 是 Dravet 綜合癥小鼠模型的調節基因。
Scn2aQ54 轉基因小鼠模型攜帶 SCN2A 的突變基因并且有自發癲癇發作。Scn2aQ54 轉基因小鼠模型的臨床表現也具有品系特異性,C57BL/6J 品系的小鼠成年后開始出現癲癇發作,發作輕微;C57BL/6J 小鼠與 SJL 小鼠雜交產生的第一代小鼠青少年時出現癲癇發作,發作增加[38]。通過對兩種品系的小鼠全腦組織進行 RNA-seq 測序,發現許多的差異表達基因主要位于 11 號染色體,包括兩個電壓門控鈣通道的基因:Cacna1g 和 Cacnb1。經過相關驗證,Cacna1g 是癲癇的調節基因[35, 39]。
SCN8A 腦病是一種早發性癲癇,發病年齡多在生后 4 月齡,50% 的患兒不能坐或走,10% 的患兒會出現 SUDEP,主要是 SCN8A 基因突變導致電壓門控鈉通道功能獲得(gain of function),靶向鈉離子通道的抗癲癇藥物可以改善患者癥狀[40, 41]。SCN8A 腦病小鼠模型是將突變位點(p.Asn1768Asp)敲入小鼠基因中,該突變位點是一例確診為 SCN8A 腦病并且死亡的患兒中發現的[42]。將 SCN8A 腦病模型小鼠癲癇發作前和發作后的前腦、小腦、腦干以及同年齡的正常對照組小鼠的腦組織中的 RNA 提取,并進行 RNA-seq 測序,結果顯示只有癲癇發作后的前腦與正常對照組相比具有差異,編碼神經肽的兩個基因 Galanin 和 Npw 表達上調明顯,可能是出現癲癇后反應性增加,對小鼠起抗癲癇的作用,這些差異表達基因可能作為將來抑制癲癇作用的靶點[41, 42]。
海馬硬化是顳葉癲癇中最常見的神經病理學改變。顳葉癲癇患者中 30% 是藥物難治性癲癇,即使采取手術治療,1/3 的患者在術后仍有癲癇發作[43]。因此 Dixit 等[44]對藥物難治性顳葉癲癇患者和非癲癇患者(主要是腦腫瘤患者)腦組織進行 RNA-seq 測序,分析癲癇的發病機制。結果顯示顳葉癲癇患者有 56 個基因表達上調,基因富集分析主要與神經免疫或內源性免疫、突觸傳遞和神經網絡調節。多數海馬硬化的癲癇患者會發展成藥物難治性癲癇,只能通過手術治療[45]。在海馬齒狀回中,海馬硬化可能與異常苔蘚纖維出芽有關[46]。以往研究發現在伴有海馬硬化的顳葉癲癇患者中 miR-218 和 miR-204 表達下調,microRNAs 主要調節軸突的方向性和突觸的可塑性[47]。Griffin 等[48]為了分析顳葉癲癇患者齒狀回顆粒細胞基因表達特點,選擇顳葉癲癇伴或不伴海馬硬化的患者手術切除的組織中的顆粒細胞,進行 RNA-seq 測序,差異表達基因分析發現 55 個基因表達上調,11 個基因表達下調。主成分分析(Principal component analysis,PCA)顯示海馬硬化是基因差異的主要決定因素。在上調的基因中,主要是參與氧化磷酸化。
人類神經發育過程需要表達上千的基因進行準確的調節,如果基因網絡功能異常就會導致神經發育和精神類疾病[49]。通過對 18 例捐獻的腦組織進行 RNA-seq 測序,其中年齡從生后 4 個月~19 歲不等,可以分為 4 個發展階段:嬰兒期、幼兒期、兒童期和青春期,每個腦組織分為 6 個不同的區域:4 個前額葉皮層、海馬和小腦。通過分析不同發展階段、不同腦區以及不同性別對 microRNA 的表達的影響。結果顯示差異表達的 miRNA 靶基因主要與轉錄調節、突觸發生和一些基本的細胞內過程的功能相關,參與 Wnt 和 TGF-β 信號通路調控。并且這些差異表達的 miRNA 靶基因富集到孤獨癥、精神分裂癥、雙向精神障礙和抑郁癥的基因組中,但不包含神經退行性疾病、癲癇等[50]。
4 結語
RNA-seq 雖然是一個剛新起的技術,但卻使人們對基因表達情況的認識有了革命性的改變。與以往的基因芯片技術和 Sanger 測序技術相比,RNA-seq 技術具有明顯的優勢。不過該技術同樣也面臨一些需要解決的問題,比如測序分析軟件的缺乏,使得大量的測序數據很難進行分析,從而難以得到較好的結果。讀段越長則產生的錯誤率就會降低,因此測序平臺需要增大讀段的長度。
RNA-seq 在不同類型癲癇的病因的探究中發揮重要的作用,通過對差異表達基因的分析,可以篩選出導致目的基因,并對其進行下一步的驗證和研究。RNA-seq 是一種具有巨大潛力的測序技術,隨著相關學科的不斷發展,相信 RNA-seq 技術在轉錄組學領域發揮出更大的作用。
2001 年人類基因組工作草圖的發表,被認為是生物史中重要的里程牌[1, 2]。之后短短十幾年時間里,隨著科學技術的更新以及研究的深入,不僅推動著基因組學的不斷發展,還促進了轉錄組測序的實現,使人們可以從 RNA 水平進行研究分析,揭示不同物種的基因表達情況以及轉錄調控的規律,解密生命科學的奧秘。
癲癇是一種以反復癇性發作為特征的慢性神經系統疾病,全球大約有超過 5 000 萬的癲癇患者,任何年齡段均可患病,80% 的患者生活在中低收入的國家,反復的癲癇發作對患者自身以及其家庭造成嚴重的影響[3]。國際抗癲癇聯盟(ILAE)2017 年將導致癲癇的病因分為六類:遺傳性、代謝性、結構性、免疫性、感染性和原因不明等[4]。約 70% 的癲癇患者存在遺傳基礎[5]。具有相同的基因突變而引起的臨床嚴重程度不同,這提示額外的因素可以改變基因突變導致的影響,從而出現不同的臨床表現。轉錄組具有空間特異性和時間特異性,反映細胞或組織在特定狀態下的生物學特點,對細胞生物活性的調節發揮重要作用[6]。因此對轉錄組的認識,將有助于我們解釋基因的功能,揭示細胞和組織的分子組成,加深對發育和疾病的理解。
新一代測序技術(Next-generation sequencing,NGS)的出現,使得人們可以對細胞內全部 RNA 反轉錄形成的 DNA(cDNA)文庫進行高通量測序[7],這種技術稱為轉錄組測序(RNA sequencing,RNA-seq),本文主要介紹 RNA-seq 技術及其在癲癇中的應用進行總結概括。
1 轉錄組測序技術與其他測序方法的比較
測序技術處在不斷的發展中,目前使用的測序技術包括三大類:基因芯片技術、基于 Sanger 技術的測序和新興起的高通量測序技術。下面將從測序原理和特點方面對三種不同的測序技術進行介紹。
自從 1995 年提出后[8],基因芯片(Microarray)技術得到了廣泛的應用。其原理是將大量已知序列的探針分子固定于基片(硅片或尼龍膜等)上,形成高密度點陣,從待測樣品中提取出 RNA,反轉錄形成 cDNA 并進行標記,將樣品中的被標記的序列與芯片上的探針雜交,產生雜交信號,收集并分析雜交信號,從而獲得大量的基因信息[9]。基因芯片技術測序發展較為成熟,測序技術相對較快,但其仍存在不足[10, 11],首先該技術需要大量已知的基因序列,對前期基礎工作要求較高;其次該技術對低表達的基因檢測敏感度較差。
表達序列標簽(Expressed sequence tags,EST)是基于 Sanger 技術的測序方法。絕大多數的真核生物 mRNA 分子都有 5'-UTR(5'端轉錄非翻譯區),3'-UTR(3'端轉錄非翻譯區)和 ORF(開放閱讀框架)三部分組成,反轉錄形成的 cDNA 同樣具有以上結構。通常情況,cDNA 鏈的 5'或 3'端的有限序列具有特異性[12]。EST 即利用該原理,隨機挑選 cDNA 文庫中的序列進行克隆并進行大規模測序。雖然真核生物基因數目較多,但編碼基因的序列只有 2%~3%,所以選擇 EST 技術可以提高檢測的效率。不過由于 EST 只是對基因的一部分序列進行檢測,因此得到的基因信息并不完整[13]。而且容易遺留一些少見的基因或者表達豐度相對較低的基因[14],這些技術方法均使用 Sanger 測序,花費較大,進行克隆時,耗時較長;而且只能分析一部分轉錄序列[15, 16]。
RNA-seq 是利用高通量測序技術進行轉錄組分析。雖然 RNA-seq 被廣泛應用時間較短,但是該技術在轉錄方面的成果,已改變了我們對基因表達和調節的認識。與前面兩種測序技術相比 RNA-seq 具有很多優勢:① RNA-seq 無需提前設計特異的探針,可以對任何物種直接轉錄組測序,同樣適用于缺乏基因組信息的非模式生物轉錄組測序[17];② RNA-seq 通量大,測序速度快,極大的縮短了轉錄組的測序時間;③ 靈敏度高,可以檢測到表達較低的基因序列;④ 準確性高,可以顯示轉錄序列的準確位置,并且能精確到單個核苷酸,識別轉錄序列中的變異,比如單核苷酸多態性(Single nucleotide polymorphism,SNPs)[18];⑤ 測序成本低,人類第一次基因組測序花費有數百萬,而利用高通量測序的花費大大減低[19];⑥ RNA-seq 不需要克隆等過程,操作更為簡便,對樣本量要求較少[7],因此也適用樣本量少的實驗。
2 不同的轉錄組測序技術平臺
目前 RNA-seq 技術平臺主要有三種,分別是 454 公司、SOLiD 公司以及 Illumina 公司。Costa 等[20]對 22 項哺乳動物 RNA-seq 研究進行總結,發現使用 Genome Analyzer 平臺的有 16 項,使用 SOLiD 平臺的有 3 項,使用 454 平臺的有 2 項。以上三種測序平臺均具有測序通量高,測序成本低的特點,但是不同的平臺所使用的測序原理、測序長度以及應用優勢有所不同,因此要衡量全部特點,對測序平臺進行正確的選擇[21, 22]。
2005 年底,454 公司推出了一種基于焦磷酸測序方法的高通量測序系統,開創邊合成邊測序的先河[23]。454 平臺最大的特點就是測序讀段較長,而測序準確度較差[24],但是其在從頭測序(de novo)和宏基因組測序等應用仍具有不可替代的作用。
SOLiD 公司使用 DNA 連接酶進行測序,由專門設計的含有熒光標記的 DNA 單鏈探針作為其反應底物。每次讀序都是 2 個堿基,并且每個堿基都被讀取兩次,這種方法又稱為“雙堿基讀序”[25],因此序列讀取準確度高,但測序速度與其他系統相比較慢[26]。
Illumina 公司的 Genome Analyzer 測序原理是:可逆性末端終結合成測序[27]。同樣是邊合成邊測序,新形成的鏈使用特殊的四種 dNTP,該 dNTP 帶有四種不同顏色標記的熒光,而且 3'端含有可以被切割的阻斷基團。在測序合成過程中,阻斷基團使得每次反應只能延長一個堿基。隨著測序的開始,dNTP 與測序鏈互補配對結合后,3'羥基端被切除,暴露出新的堿基,使測序不斷進行,通過捕獲的熒光顏色判斷序列的堿基分布,靈敏度和準確度較高。最近 Illumina 公司推出的 HiSeq 測序由于其通道較多、測序量大,在國內也被廣泛應用。
3 轉錄組測序技術在癲癇中的應用
RNA-seq 技術已經在生物學研究、臨床研究和藥物開發等領域廣泛應用。目前大部分高通量測序技術需要的是 cDNA 文庫,因此要將獲取的 RNA 經過反轉錄形成 cDNA,組建所需要的測序文庫。RNA-seq 結果的生物信息學分析根據有無參考基因組分成兩種比對方法。以 GOLD(genome online database)為標準,能夠找到相同或者相近的物種的基因組或者基因信息的,即為有參考基因組的比對方法,否則為無參考基因組的比對方法[28]。前者主要是將所得到的讀段全部映射(mapping)到基因組中,并且與參考基因組進行對比分析。當無參考基因序列存在時,測序所得到的讀段通過軟件的處理,進行從頭組裝(De novo assembly)[29]。通過基因表達水平的比較,可以發現不同樣品之間具有表達差異的基因。為了排除這些與基因表達的真實水平無關因素,提出了 FPKM(Fragments Per Kilobase per Million reads)的概念[30]。FPKM 指的是每百萬測序讀段中每千堿基長度中的片段數目,同時考慮到測序的深度和測序基因的長度,可以準確的反映基因表達水平,是目前評估基因表達水平的一種常用方法[31]。對差異表達基因進行功能分類包括:GO(gene ontology)富集和 KEGG(Kyoto Encyclopedia of Genes and Genomes)信號通路富集。GO 富集主要從生物過程(biological process)、細胞組分(cellular component)和分子功能(molecular function)三方面反映,該方法稱為 GO-seq,適用于全部的生物[32, 33]。KEGG 是一種關于信號通路的數據庫[34]。通過 KEGG 富集可以顯示出差異表達基因主要參與的信號通路。
編碼電壓門控鈉通道(Voltage-gated sodium channel,VGSC)的基因有 SCN1A、SCN2A、SCN3A 以及 SCN8A 等,如果這些基因發生突變則會引起多種癲癇,目前已經發現超過 1 200 種基因突變,引起的癲癇包括遺傳性癲癇伴熱性驚厥附加癥、良性家族性嬰兒癲癇以及早發嬰兒癲癇性腦病等[35]。例如 SCN1A 基因突變可以導致多種癲癇發生,從簡單的熱性驚厥到 Dravet 綜合癥,而 Dravet 綜合癥是一種嚴重的嬰兒發病的癲癇性腦病,患者有多種發作類型,伴隨智力和認知的落后,預后較差,出現癲癇猝死(Sudden unexpected death in epilesy,SUDEP)[5, 36]比例較高。研究發現小鼠模型中 SCN1A 基因缺失可以出現 Dravet 綜合癥的表現,但是 SCN1A 基因的雜合性在不同品種的小鼠模型中表型不同。在 129 系小鼠中 129.Scn1a+/– 并沒有表現出癲癇的發作并且具有正常的生存壽命;在 129 系小鼠和 C57BL/6J 小鼠雜交所產生的第一代小鼠則出現自發性癲癇發作,并且生后 8 周內死亡率達 75%[37]。Hawkins 等[5]對兩種品系的小鼠的海馬組織進行 RNA-seq 測序。通過對差異表達基因的分析,發現 Gabra2 基因在兩種品系中存在差異,并且具有特異性等位基因表達的特點,說明 Gabra2 是 Dravet 綜合癥小鼠模型的調節基因。
Scn2aQ54 轉基因小鼠模型攜帶 SCN2A 的突變基因并且有自發癲癇發作。Scn2aQ54 轉基因小鼠模型的臨床表現也具有品系特異性,C57BL/6J 品系的小鼠成年后開始出現癲癇發作,發作輕微;C57BL/6J 小鼠與 SJL 小鼠雜交產生的第一代小鼠青少年時出現癲癇發作,發作增加[38]。通過對兩種品系的小鼠全腦組織進行 RNA-seq 測序,發現許多的差異表達基因主要位于 11 號染色體,包括兩個電壓門控鈣通道的基因:Cacna1g 和 Cacnb1。經過相關驗證,Cacna1g 是癲癇的調節基因[35, 39]。
SCN8A 腦病是一種早發性癲癇,發病年齡多在生后 4 月齡,50% 的患兒不能坐或走,10% 的患兒會出現 SUDEP,主要是 SCN8A 基因突變導致電壓門控鈉通道功能獲得(gain of function),靶向鈉離子通道的抗癲癇藥物可以改善患者癥狀[40, 41]。SCN8A 腦病小鼠模型是將突變位點(p.Asn1768Asp)敲入小鼠基因中,該突變位點是一例確診為 SCN8A 腦病并且死亡的患兒中發現的[42]。將 SCN8A 腦病模型小鼠癲癇發作前和發作后的前腦、小腦、腦干以及同年齡的正常對照組小鼠的腦組織中的 RNA 提取,并進行 RNA-seq 測序,結果顯示只有癲癇發作后的前腦與正常對照組相比具有差異,編碼神經肽的兩個基因 Galanin 和 Npw 表達上調明顯,可能是出現癲癇后反應性增加,對小鼠起抗癲癇的作用,這些差異表達基因可能作為將來抑制癲癇作用的靶點[41, 42]。
海馬硬化是顳葉癲癇中最常見的神經病理學改變。顳葉癲癇患者中 30% 是藥物難治性癲癇,即使采取手術治療,1/3 的患者在術后仍有癲癇發作[43]。因此 Dixit 等[44]對藥物難治性顳葉癲癇患者和非癲癇患者(主要是腦腫瘤患者)腦組織進行 RNA-seq 測序,分析癲癇的發病機制。結果顯示顳葉癲癇患者有 56 個基因表達上調,基因富集分析主要與神經免疫或內源性免疫、突觸傳遞和神經網絡調節。多數海馬硬化的癲癇患者會發展成藥物難治性癲癇,只能通過手術治療[45]。在海馬齒狀回中,海馬硬化可能與異常苔蘚纖維出芽有關[46]。以往研究發現在伴有海馬硬化的顳葉癲癇患者中 miR-218 和 miR-204 表達下調,microRNAs 主要調節軸突的方向性和突觸的可塑性[47]。Griffin 等[48]為了分析顳葉癲癇患者齒狀回顆粒細胞基因表達特點,選擇顳葉癲癇伴或不伴海馬硬化的患者手術切除的組織中的顆粒細胞,進行 RNA-seq 測序,差異表達基因分析發現 55 個基因表達上調,11 個基因表達下調。主成分分析(Principal component analysis,PCA)顯示海馬硬化是基因差異的主要決定因素。在上調的基因中,主要是參與氧化磷酸化。
人類神經發育過程需要表達上千的基因進行準確的調節,如果基因網絡功能異常就會導致神經發育和精神類疾病[49]。通過對 18 例捐獻的腦組織進行 RNA-seq 測序,其中年齡從生后 4 個月~19 歲不等,可以分為 4 個發展階段:嬰兒期、幼兒期、兒童期和青春期,每個腦組織分為 6 個不同的區域:4 個前額葉皮層、海馬和小腦。通過分析不同發展階段、不同腦區以及不同性別對 microRNA 的表達的影響。結果顯示差異表達的 miRNA 靶基因主要與轉錄調節、突觸發生和一些基本的細胞內過程的功能相關,參與 Wnt 和 TGF-β 信號通路調控。并且這些差異表達的 miRNA 靶基因富集到孤獨癥、精神分裂癥、雙向精神障礙和抑郁癥的基因組中,但不包含神經退行性疾病、癲癇等[50]。
4 結語
RNA-seq 雖然是一個剛新起的技術,但卻使人們對基因表達情況的認識有了革命性的改變。與以往的基因芯片技術和 Sanger 測序技術相比,RNA-seq 技術具有明顯的優勢。不過該技術同樣也面臨一些需要解決的問題,比如測序分析軟件的缺乏,使得大量的測序數據很難進行分析,從而難以得到較好的結果。讀段越長則產生的錯誤率就會降低,因此測序平臺需要增大讀段的長度。
RNA-seq 在不同類型癲癇的病因的探究中發揮重要的作用,通過對差異表達基因的分析,可以篩選出導致目的基因,并對其進行下一步的驗證和研究。RNA-seq 是一種具有巨大潛力的測序技術,隨著相關學科的不斷發展,相信 RNA-seq 技術在轉錄組學領域發揮出更大的作用。