引用本文: 吳茜, 宋興勃, 鐘慧鈺, 溫陽, 應斌武. 基于生物信息學分析參與結核病的關鍵基因和通路. 華西醫學, 2019, 34(9): 1033-1041. doi: 10.7507/1002-0179.201907081 復制
我國是結核病高負擔國家,結核病新發病例數位居全球第二[1]。流行病學和遺傳學研究表明,人類遺傳因素對結核病易感性的個體差異有顯著影響,但對于結核病的確切分子機制仍然很不清楚[2]。對于這種涉及人體免疫系統的復雜疾病,傳統的單基因篩查模式并不能完全準確地反映其發生、發展和發病機制[3]。因此,整合多學科方法構建免疫應答基因調控網絡,然后利用高通量篩選尋找體液中的診斷目標,可以增加對結核分枝桿菌(Mycobacterium tuberculosis,MTB)免疫應答中涉及的調控網絡的重要認識[4]。該策略可為早期臨床診斷結核病和開發新的結核病治療藥物奠定基礎[5]。本文基于基因表達綜合數據庫(Gene Expression Omnibus,GEO),選取 GSE54992 數據集[6],利用生物信息學的方法進行差異表達基因(differentially expressed gene,DEG)篩選、功能分析和信號通路分析,構建基因網絡圖,篩選關鍵基因靶點,可能為探索結核病的發病機制提供新的見解,或為結核病的診斷和治療評估提供新思路。現報告如下。
1 資料與方法
1.1 數據來源
使用“tuberculosis”關鍵詞在隸屬于美國國立生物技術信息中心(National Center for Biotechnology Information,NCBI)的 GEO 數據庫(
1.2 數據分析流程
將基因芯片數據導入基因云生物技術信息(Gene-Cloud of Biotechnology Information,GCBI)分析平臺進行數據分析。首先,對樣本數據進行對數化標準處理檢查均一性及數據是否具有可比性,接著進行 DEG 的篩選,隨后進行基因本體論(gene ontology,GO)富集分析、代謝通路分析(pathway 分析)及在 pathway 分析的基礎上進行 pathway 網絡分析。最后,取 GO 分析和 pathway 分析的交集結果進行基因信號網絡分析及共表達網絡分析。其中,無變換標準差(normalized unscaled standard errors,NUSE)=某個探針組在某個樣品的完全匹配(perfect match,PM)值的標準差/該探針組在各樣品中 PM 值標準差的中位數。當芯片中的各樣品質量都非常可靠時,各樣品的標準差都非常接近,因此會在縱坐標 1 左右。相對對數表達(relative log expression,RLE)=log(某探針組在某一樣本的表達值/某探針組在該芯片所有樣本的表達值的中位數),若每個數據集的實驗質量相當,每個樣品的中心應非常接近縱軸 0 的位置。研究設計流程圖如圖1所示。

1.3 DEG 篩選
使用 GCBI 平臺對 GSE54992 的微陣列數據對數化標準處理,在質控合格后比較結核患者和健康對照的 mRNA 表達差異,選擇差異倍數>2,Q<0.05,P<0.01 的基因作為 DEG[7]。將結果用火山圖和聚類圖表示。
1.4 GO 富集分析和 pathway 分析
DEG 的 GO 分析在生物過程的基礎上進行。Fisher 精確檢驗用于對 GO 類別進行分類,并計算偽發現率(false discovery rate,FDR)以校正 P 值。P<0.05 和 FDR<0.05 用作選擇顯著 GO 類別的閾值。通過 GO 富集分析,可以了解 DEG 富集的生物學功能[8]。通過計算富集分數,以獲得每個 GO 類別的富集水平。依據富集分數篩選前 10 個與 DEG 相關的 10 個生物過程。Pathway 分析是根據京都基因和基因組數據庫(Kyoto Encyclopedia of Genes and Genomes,KEGG),來確定 DEG 參與的重要途徑,在機制研究中尤為重要。Fisher 精確檢驗和 Benjamini-Hochberg 用于計算每個通路的 P 值和 FDR 值。P<0.05 且 FDR<0.05 作為選擇閾值[9]。計算富集分數以獲得每個通路的富集水平。同樣依據富集分數篩選出差異最顯著的 10 個通路進行排序及分析。
1.5 Pathway 網絡分析和基因信號網絡分析
Pathway 關系網絡分析可以直接和系統地找出重要通路之間的關系。通過計算其上游和下游通路的數量來測量每個通路在網絡中的度。更高度的通路表明它受其他通路調節或被其調節更多,這意味著在信號傳導網絡中起更重要的作用。網絡分析可以總結 DEG 的通路相互作用,并找出某些通路被激活的原因[10]。大量研究表明基因的表達受到彼此的影響。這種相互制約的關系構成了一個復雜的基因表達和調控網絡。基因信號網絡解構 KEGG 數據庫,突破了在單一途徑中獲得基因之間相互作用的極限。因此,基因信號網絡可以通過整個 KEGG 數據庫獲得蛋白質的上游或下游[11]。本研究使用 GCBI 平臺進行了通路網絡分析和基因信號網絡分析,以確定中樞通路和基因。
1.6 共表達網絡分析
基因共表達網絡分析是基于基因間表達數據的相似性而構建的網絡圖。共表達網絡分析通過基因表達的相似性簡單直觀地分析基因產物可能存在的相互作用關系,從而更深入地發現關鍵調控基因及其相互作用脈絡,了解基因間相互作用脈絡及尋找核心基因。圖中的節點代表基因,具有相似表達譜的基因被連接起來形成網絡。
2 結果
2.1 數據預處理
首先對表達譜數據進行預處理,然后通過 GCBI 在線平臺進行分析。用基因特異性探針進行基因表達數據的質量控制。由圖2 可見,所有 NUSE 和 RLE 均在可接受的范圍內,表明后續分析的結果是可靠的。

橫坐標表示每個樣本
2.2 DEG 篩選
DEG 的識別是篩選樣本間的高通量遺傳數據具有顯著差異的基因的統計方法。與健康對照相比,在結核病患者中篩選出共 3 492 個 DEG(Q<0.05,P<0.01,差異倍數>2),其中 1 686 個基因上調,1 806 個基因下調。由圖3、4 可知,分組合理,適用于進一步分析。根據差異倍數,挑選出上調和下調最顯著的前 10 個基因,分別為 HBA1、CD36、HBB、CREB5、HLA-DQB1、P2RY13、ALDH1A1、RTN1、DEFA1、MS4A6A和OLR1、CCL20、IL1A、TNFAIP6、IRG1、SLC7A11、MET、ITGB8、CCL7、SERPINB2(表1)。

橙色代表 DEG;下調的 DEG 位于中線的左側,上調的 DEG 位于右側;橫坐標代表差異倍數,縱坐標代表


結核組為藍色,健康對照組為黃色。紅色和綠色表示 DEG 在分組樣本中的表達值情況,紅色表示表達值高,綠色表示表達值較低
2.3 GO 分析結果
本文使用 GCBI 平臺獲得的 DEG 為 GO 富集分析形成了基礎,計算 GO 的富集程度,展示了最可能與 DEG 相關的 10 個生物過程,包括:小分子代謝過程、信號轉導、免疫反應、炎癥反應、先天免疫反應、凝血、凋亡過程、凋亡過程負調控、細胞黏附、趨化性(表2)。

2.4 Pathway 分析及網絡分析結果
通過對 DEG 的 pathway 分析,確定富集 DEG 的通路,并確定可能與不同樣本的 DEG 相關的細胞通路變化,最終確定了共 181 條差異調節的通路。這些途徑包括趨化因子信號通路、肺結核、核因子 kappa-B(nuclear factor kappa-B,NF kappa-B)信號通路、細胞因子受體相互作用等。在通路網絡分析中,共篩選出來 91 條通路,其中包括 3 條上調通路,1 條下調通路和 87 條上調/下調通路,尋找到 91 條通路中的 333 種關系,見圖5。

僅展示了 17 條通路的 69 種關系;黃色代表上調和下調;點越大說明與其具有上下游相互作用的信號通路越多;TGF-beta signaling pathway:TGF-β 信號通路;Wnt signaling pathway:Wnt 信號通路;p53 signaling pathway:p53 信號通路;Focal adhesion:黏著斑;Pathways in cancer:癌癥中的通路;Pancreatic cancer:胰腺癌;Adherens junction:黏合連接;ErbB signaling pathway:ErbB 信號通路;Apotosis:凋亡;Regulation of actin cytoskeleton:肌動蛋白骨架的調節;MAPK signaling pathway:MAPK 信號通路;Cytokine-cytokine receptor interaction:細胞因子受體相互作用;Cell cycle:細胞周期;Calcium signaling pathway:碳酸鈣信號通路;Cell adhesion molecules:細胞黏附分子;T cell receptor signaling pathway:T 細胞受體信號通路;Jak-STAT signaling pathway:Jak-STAT 信號通路
2.5 共表達網絡分析及信號網絡分析結果
將挑選出來自 GO 和 pathway 分析的 756 個重疊基因,應用于基因共表達網絡構建和信號網絡分析,可見共 212 個節點,代表212 個基因,727 個關系,分布以聚集性分布呈現,符合共表達理論,見圖6。其中前 10 個基因的信息如表3 所示。信號網絡分析共有 470 個中樞基因,1 227 個關系,前 10 個中樞基因的信息見表4。

僅展現 24 個節點的 195 個關系;實線表示正相關,虛線表示負相關;點越大,表明與其他有相互作用關系的基因越多


3 討論
結核病是最普遍的感染性疾病之一,從無癥狀,潛伏性結核病進展為活動性結核病的機制多年來一直是令人關注的問題。研究表明,結核的特定菌株、環境因素和宿主遺傳學可以解釋不同種族、地理區域、性別和年齡組之間的結核病發病率不同的原因[12-13]。遺傳因素與結核病的發生發展有關。來自雙胞胎研究的證據表明,宿主基因參與了結核病的進展[14],對結核病的可遺傳成分的估計從 39% 到 71% 不等[15-16]。先天免疫細胞和適應性免疫應答因子參與了和結核病的發病機制,免疫系統與 MTB 的保護機制有關[17]。本文致力于通過生物信息學的方法,探索結核病的發病機制,尋找新的分子標志物,這對結核病診斷、針對性治療和預后評估至關重要。
本文通過 9 例活動性肺結核患者和 6 例健康對照的基因表達譜進行生物信息學分析,篩選了涉及結核病發生發展的 DEG,結果表明,與健康對照組相比,結核病患者外周血單個核細胞中數千個基因發生了變化,總共確定了 3 492 個 DEG,包括 1 686 個上調基因和 1 806 個下調基因。通過對其進行了進一步的篩選,找出了上調和下調最顯著的前 10 個基因,其中 CD36 是一種清道夫受體,屬于清道夫受體的 B 類家族。CD36 介導Ⅱ型肺細胞攝取棕櫚酸酯[18],即合成表面活性劑的細胞。CD36 的位置和表達受表面活性劑脂質和蛋白質的調節,并且 CD36 有助于人巨噬細胞對表面活性劑脂質的攝取,在 MTB 感染的早期階段賦予細菌生長優勢。這提示我們在結核病中 CD36 的上調可能是結核病的易感因素之一。2015 年 Li 等[19]對于 HLA-DQ 等位基因與結核病風險的關系做 meta 分析,發現 DQB1 * 0601 等位基因與亞洲人結核病風險增加顯著相關;本研究結果與其一致,特定的 HLA-DQB1 可能被視為預測結核病發病風險的標志。免疫反應基因 1(immune-responsive gene 1,IRG1)是一種線粒體酶,在炎癥條件下產生衣康酸,RNA 測序分析表明,IRG1 及其產生的衣康酸可以在轉錄水平上調節 MTB 誘導的髓樣細胞的炎癥反應。IRG1 調節軸對于減少 MTB 對肺部的損害是至關重要的[20]。二甲雙胍是推薦用于治療 2 型糖尿病的一線抗高血糖藥物,其通過阻止肝葡萄糖的產生,抑制腸道葡萄糖吸收和提高葡萄糖利用來降低血糖水平,有研究發現,二甲雙胍在改善結核病治療有效性方面具有潛在作用,使用二甲雙胍作為現有方案的組合藥物可提高抗結核治療的成功率并降低復發率[21]。
GO 富集分析顯示 DEG 主要參與小分子代謝過程、信號轉導、免疫反應、炎癥反應、先天免疫反應、凝血、凋亡過程、凋亡過程負調控、細胞黏附、趨化性。Pathway 分析發現,差異最顯著的富集通路主要涉及趨化因子信號通路、肺結核、核因子 kappa-B 信號通路、細胞因子受體相互作用等,將基因間相互作用形成網絡后可見結核病患者和健康對照之間的差異主要集中在 MAPK 信號通路、細胞凋亡、細胞周期、p53 信號通路等,由此推測,結核的發生發展和細胞的免疫機制、炎癥反應及趨化因子、細胞自身的生長周期及凋亡有關。
在 DEG 的信號間相互作用分析中,本研究選擇了 10 個最重要的基因,這些基因在結核病中起關鍵作用。絲氨酸/蘇氨酸激酶 3(AKT serine/threonine kinase 3,AKT3)是響應胰島素和生長因子的細胞信號傳導的調節劑,涉及多種生物過程,包括細胞增殖、分化、凋亡、腫瘤發生及糖原合成和葡萄糖攝取。由不同基因編碼的 AKT 同種型有 3 種,即 AKT1 /PKBα、AKT2 /PKBβ 和 AKT3/PKBγ,它們都含有小鼠和人之間的保守肽序列[22],這 3 種同種型具有相似的 N-末端 Pleckstrin 同源結構域,中心絲氨酸-蘇氨酸激酶結構域,以及含蛋白激酶-A、-G 和-C 家族特征的 C-末端疏水基序調控區[23]。在小鼠中,AKT1、AKT2 mRNA 均在各種組織中普遍表達,在胰島素響應組織(包括脂肪、骨骼肌和肝臟)中具有最高的 AKT2 表達。而,AKT3 的表達在選擇性器官中受到限制,包括腦、睪丸、肺、乳腺和脂肪[24]。目前的研究大多是關于 AKT3 與腫瘤的研究,如前列腺癌、胃癌、卵巢癌等[25]。本研究發現 AKT3 在結核病的發生發展中起重要作用,并且 AKT3 在結核通路(通路 ID:hsa05152)中起關鍵作用。因此,需要進一步的研究來闡明 AKT3 在結核病中的確切作用。
DEG 的共表達網絡分析顯示 PYCARD、TNFSF13、PHPT1、COMT、GSTK1、TNFSF12 分別有 36、36、33、32、31、31 個基因呈現共表達趨勢,這些基因的作用主要體現在先天免疫反應的激活、激活 T 細胞增殖、趨化因子的分泌、宿主對病毒的正向免疫調控、T 細胞受體信號、細胞因子受體相互作用等方面。其中已有研究證明,MTB 在體外誘導人和小鼠巨噬細胞中的 IL-1β 分泌,該過程依賴于 PYCARD,在小鼠體內,PYCARD 在慢性 MTB 感染期間有助于保護宿主免于死亡[26]。
本文選取的數據集為單一研究所提交的,該研究包括活動性肺結核患者、潛伏性結核和健康對照,重點在于探討外周血補體水平和結核病的相關性,并且發現 C1q 可能是區分活動性肺結核與潛伏性結核感染的潛在診斷標志物[6]。為進一步充分利用該數據集,本文選取其中的活動性肺結核患者和健康對照兩組,進一步進行生物信息學分析。總之,我們目前的研究通過 DEG 的篩選、GO 分析、代謝通路分析、基因信號網絡分析和共表達分析提供了一個全面的生物信息學分析,得到可能與結核病相關的基因。該結果可能有助于促進對結核病發生發展中涉及的調控機制的理解。但生物信息學結果仍然需要分子生物學實驗以驗證其準確性,在目前的數據分析中,樣本量較小,且樣本選自一個平臺,這可能導致較高的假陽性。
我國是結核病高負擔國家,結核病新發病例數位居全球第二[1]。流行病學和遺傳學研究表明,人類遺傳因素對結核病易感性的個體差異有顯著影響,但對于結核病的確切分子機制仍然很不清楚[2]。對于這種涉及人體免疫系統的復雜疾病,傳統的單基因篩查模式并不能完全準確地反映其發生、發展和發病機制[3]。因此,整合多學科方法構建免疫應答基因調控網絡,然后利用高通量篩選尋找體液中的診斷目標,可以增加對結核分枝桿菌(Mycobacterium tuberculosis,MTB)免疫應答中涉及的調控網絡的重要認識[4]。該策略可為早期臨床診斷結核病和開發新的結核病治療藥物奠定基礎[5]。本文基于基因表達綜合數據庫(Gene Expression Omnibus,GEO),選取 GSE54992 數據集[6],利用生物信息學的方法進行差異表達基因(differentially expressed gene,DEG)篩選、功能分析和信號通路分析,構建基因網絡圖,篩選關鍵基因靶點,可能為探索結核病的發病機制提供新的見解,或為結核病的診斷和治療評估提供新思路。現報告如下。
1 資料與方法
1.1 數據來源
使用“tuberculosis”關鍵詞在隸屬于美國國立生物技術信息中心(National Center for Biotechnology Information,NCBI)的 GEO 數據庫(
1.2 數據分析流程
將基因芯片數據導入基因云生物技術信息(Gene-Cloud of Biotechnology Information,GCBI)分析平臺進行數據分析。首先,對樣本數據進行對數化標準處理檢查均一性及數據是否具有可比性,接著進行 DEG 的篩選,隨后進行基因本體論(gene ontology,GO)富集分析、代謝通路分析(pathway 分析)及在 pathway 分析的基礎上進行 pathway 網絡分析。最后,取 GO 分析和 pathway 分析的交集結果進行基因信號網絡分析及共表達網絡分析。其中,無變換標準差(normalized unscaled standard errors,NUSE)=某個探針組在某個樣品的完全匹配(perfect match,PM)值的標準差/該探針組在各樣品中 PM 值標準差的中位數。當芯片中的各樣品質量都非常可靠時,各樣品的標準差都非常接近,因此會在縱坐標 1 左右。相對對數表達(relative log expression,RLE)=log(某探針組在某一樣本的表達值/某探針組在該芯片所有樣本的表達值的中位數),若每個數據集的實驗質量相當,每個樣品的中心應非常接近縱軸 0 的位置。研究設計流程圖如圖1所示。

1.3 DEG 篩選
使用 GCBI 平臺對 GSE54992 的微陣列數據對數化標準處理,在質控合格后比較結核患者和健康對照的 mRNA 表達差異,選擇差異倍數>2,Q<0.05,P<0.01 的基因作為 DEG[7]。將結果用火山圖和聚類圖表示。
1.4 GO 富集分析和 pathway 分析
DEG 的 GO 分析在生物過程的基礎上進行。Fisher 精確檢驗用于對 GO 類別進行分類,并計算偽發現率(false discovery rate,FDR)以校正 P 值。P<0.05 和 FDR<0.05 用作選擇顯著 GO 類別的閾值。通過 GO 富集分析,可以了解 DEG 富集的生物學功能[8]。通過計算富集分數,以獲得每個 GO 類別的富集水平。依據富集分數篩選前 10 個與 DEG 相關的 10 個生物過程。Pathway 分析是根據京都基因和基因組數據庫(Kyoto Encyclopedia of Genes and Genomes,KEGG),來確定 DEG 參與的重要途徑,在機制研究中尤為重要。Fisher 精確檢驗和 Benjamini-Hochberg 用于計算每個通路的 P 值和 FDR 值。P<0.05 且 FDR<0.05 作為選擇閾值[9]。計算富集分數以獲得每個通路的富集水平。同樣依據富集分數篩選出差異最顯著的 10 個通路進行排序及分析。
1.5 Pathway 網絡分析和基因信號網絡分析
Pathway 關系網絡分析可以直接和系統地找出重要通路之間的關系。通過計算其上游和下游通路的數量來測量每個通路在網絡中的度。更高度的通路表明它受其他通路調節或被其調節更多,這意味著在信號傳導網絡中起更重要的作用。網絡分析可以總結 DEG 的通路相互作用,并找出某些通路被激活的原因[10]。大量研究表明基因的表達受到彼此的影響。這種相互制約的關系構成了一個復雜的基因表達和調控網絡。基因信號網絡解構 KEGG 數據庫,突破了在單一途徑中獲得基因之間相互作用的極限。因此,基因信號網絡可以通過整個 KEGG 數據庫獲得蛋白質的上游或下游[11]。本研究使用 GCBI 平臺進行了通路網絡分析和基因信號網絡分析,以確定中樞通路和基因。
1.6 共表達網絡分析
基因共表達網絡分析是基于基因間表達數據的相似性而構建的網絡圖。共表達網絡分析通過基因表達的相似性簡單直觀地分析基因產物可能存在的相互作用關系,從而更深入地發現關鍵調控基因及其相互作用脈絡,了解基因間相互作用脈絡及尋找核心基因。圖中的節點代表基因,具有相似表達譜的基因被連接起來形成網絡。
2 結果
2.1 數據預處理
首先對表達譜數據進行預處理,然后通過 GCBI 在線平臺進行分析。用基因特異性探針進行基因表達數據的質量控制。由圖2 可見,所有 NUSE 和 RLE 均在可接受的范圍內,表明后續分析的結果是可靠的。

橫坐標表示每個樣本
2.2 DEG 篩選
DEG 的識別是篩選樣本間的高通量遺傳數據具有顯著差異的基因的統計方法。與健康對照相比,在結核病患者中篩選出共 3 492 個 DEG(Q<0.05,P<0.01,差異倍數>2),其中 1 686 個基因上調,1 806 個基因下調。由圖3、4 可知,分組合理,適用于進一步分析。根據差異倍數,挑選出上調和下調最顯著的前 10 個基因,分別為 HBA1、CD36、HBB、CREB5、HLA-DQB1、P2RY13、ALDH1A1、RTN1、DEFA1、MS4A6A和OLR1、CCL20、IL1A、TNFAIP6、IRG1、SLC7A11、MET、ITGB8、CCL7、SERPINB2(表1)。

橙色代表 DEG;下調的 DEG 位于中線的左側,上調的 DEG 位于右側;橫坐標代表差異倍數,縱坐標代表


結核組為藍色,健康對照組為黃色。紅色和綠色表示 DEG 在分組樣本中的表達值情況,紅色表示表達值高,綠色表示表達值較低
2.3 GO 分析結果
本文使用 GCBI 平臺獲得的 DEG 為 GO 富集分析形成了基礎,計算 GO 的富集程度,展示了最可能與 DEG 相關的 10 個生物過程,包括:小分子代謝過程、信號轉導、免疫反應、炎癥反應、先天免疫反應、凝血、凋亡過程、凋亡過程負調控、細胞黏附、趨化性(表2)。

2.4 Pathway 分析及網絡分析結果
通過對 DEG 的 pathway 分析,確定富集 DEG 的通路,并確定可能與不同樣本的 DEG 相關的細胞通路變化,最終確定了共 181 條差異調節的通路。這些途徑包括趨化因子信號通路、肺結核、核因子 kappa-B(nuclear factor kappa-B,NF kappa-B)信號通路、細胞因子受體相互作用等。在通路網絡分析中,共篩選出來 91 條通路,其中包括 3 條上調通路,1 條下調通路和 87 條上調/下調通路,尋找到 91 條通路中的 333 種關系,見圖5。

僅展示了 17 條通路的 69 種關系;黃色代表上調和下調;點越大說明與其具有上下游相互作用的信號通路越多;TGF-beta signaling pathway:TGF-β 信號通路;Wnt signaling pathway:Wnt 信號通路;p53 signaling pathway:p53 信號通路;Focal adhesion:黏著斑;Pathways in cancer:癌癥中的通路;Pancreatic cancer:胰腺癌;Adherens junction:黏合連接;ErbB signaling pathway:ErbB 信號通路;Apotosis:凋亡;Regulation of actin cytoskeleton:肌動蛋白骨架的調節;MAPK signaling pathway:MAPK 信號通路;Cytokine-cytokine receptor interaction:細胞因子受體相互作用;Cell cycle:細胞周期;Calcium signaling pathway:碳酸鈣信號通路;Cell adhesion molecules:細胞黏附分子;T cell receptor signaling pathway:T 細胞受體信號通路;Jak-STAT signaling pathway:Jak-STAT 信號通路
2.5 共表達網絡分析及信號網絡分析結果
將挑選出來自 GO 和 pathway 分析的 756 個重疊基因,應用于基因共表達網絡構建和信號網絡分析,可見共 212 個節點,代表212 個基因,727 個關系,分布以聚集性分布呈現,符合共表達理論,見圖6。其中前 10 個基因的信息如表3 所示。信號網絡分析共有 470 個中樞基因,1 227 個關系,前 10 個中樞基因的信息見表4。

僅展現 24 個節點的 195 個關系;實線表示正相關,虛線表示負相關;點越大,表明與其他有相互作用關系的基因越多


3 討論
結核病是最普遍的感染性疾病之一,從無癥狀,潛伏性結核病進展為活動性結核病的機制多年來一直是令人關注的問題。研究表明,結核的特定菌株、環境因素和宿主遺傳學可以解釋不同種族、地理區域、性別和年齡組之間的結核病發病率不同的原因[12-13]。遺傳因素與結核病的發生發展有關。來自雙胞胎研究的證據表明,宿主基因參與了結核病的進展[14],對結核病的可遺傳成分的估計從 39% 到 71% 不等[15-16]。先天免疫細胞和適應性免疫應答因子參與了和結核病的發病機制,免疫系統與 MTB 的保護機制有關[17]。本文致力于通過生物信息學的方法,探索結核病的發病機制,尋找新的分子標志物,這對結核病診斷、針對性治療和預后評估至關重要。
本文通過 9 例活動性肺結核患者和 6 例健康對照的基因表達譜進行生物信息學分析,篩選了涉及結核病發生發展的 DEG,結果表明,與健康對照組相比,結核病患者外周血單個核細胞中數千個基因發生了變化,總共確定了 3 492 個 DEG,包括 1 686 個上調基因和 1 806 個下調基因。通過對其進行了進一步的篩選,找出了上調和下調最顯著的前 10 個基因,其中 CD36 是一種清道夫受體,屬于清道夫受體的 B 類家族。CD36 介導Ⅱ型肺細胞攝取棕櫚酸酯[18],即合成表面活性劑的細胞。CD36 的位置和表達受表面活性劑脂質和蛋白質的調節,并且 CD36 有助于人巨噬細胞對表面活性劑脂質的攝取,在 MTB 感染的早期階段賦予細菌生長優勢。這提示我們在結核病中 CD36 的上調可能是結核病的易感因素之一。2015 年 Li 等[19]對于 HLA-DQ 等位基因與結核病風險的關系做 meta 分析,發現 DQB1 * 0601 等位基因與亞洲人結核病風險增加顯著相關;本研究結果與其一致,特定的 HLA-DQB1 可能被視為預測結核病發病風險的標志。免疫反應基因 1(immune-responsive gene 1,IRG1)是一種線粒體酶,在炎癥條件下產生衣康酸,RNA 測序分析表明,IRG1 及其產生的衣康酸可以在轉錄水平上調節 MTB 誘導的髓樣細胞的炎癥反應。IRG1 調節軸對于減少 MTB 對肺部的損害是至關重要的[20]。二甲雙胍是推薦用于治療 2 型糖尿病的一線抗高血糖藥物,其通過阻止肝葡萄糖的產生,抑制腸道葡萄糖吸收和提高葡萄糖利用來降低血糖水平,有研究發現,二甲雙胍在改善結核病治療有效性方面具有潛在作用,使用二甲雙胍作為現有方案的組合藥物可提高抗結核治療的成功率并降低復發率[21]。
GO 富集分析顯示 DEG 主要參與小分子代謝過程、信號轉導、免疫反應、炎癥反應、先天免疫反應、凝血、凋亡過程、凋亡過程負調控、細胞黏附、趨化性。Pathway 分析發現,差異最顯著的富集通路主要涉及趨化因子信號通路、肺結核、核因子 kappa-B 信號通路、細胞因子受體相互作用等,將基因間相互作用形成網絡后可見結核病患者和健康對照之間的差異主要集中在 MAPK 信號通路、細胞凋亡、細胞周期、p53 信號通路等,由此推測,結核的發生發展和細胞的免疫機制、炎癥反應及趨化因子、細胞自身的生長周期及凋亡有關。
在 DEG 的信號間相互作用分析中,本研究選擇了 10 個最重要的基因,這些基因在結核病中起關鍵作用。絲氨酸/蘇氨酸激酶 3(AKT serine/threonine kinase 3,AKT3)是響應胰島素和生長因子的細胞信號傳導的調節劑,涉及多種生物過程,包括細胞增殖、分化、凋亡、腫瘤發生及糖原合成和葡萄糖攝取。由不同基因編碼的 AKT 同種型有 3 種,即 AKT1 /PKBα、AKT2 /PKBβ 和 AKT3/PKBγ,它們都含有小鼠和人之間的保守肽序列[22],這 3 種同種型具有相似的 N-末端 Pleckstrin 同源結構域,中心絲氨酸-蘇氨酸激酶結構域,以及含蛋白激酶-A、-G 和-C 家族特征的 C-末端疏水基序調控區[23]。在小鼠中,AKT1、AKT2 mRNA 均在各種組織中普遍表達,在胰島素響應組織(包括脂肪、骨骼肌和肝臟)中具有最高的 AKT2 表達。而,AKT3 的表達在選擇性器官中受到限制,包括腦、睪丸、肺、乳腺和脂肪[24]。目前的研究大多是關于 AKT3 與腫瘤的研究,如前列腺癌、胃癌、卵巢癌等[25]。本研究發現 AKT3 在結核病的發生發展中起重要作用,并且 AKT3 在結核通路(通路 ID:hsa05152)中起關鍵作用。因此,需要進一步的研究來闡明 AKT3 在結核病中的確切作用。
DEG 的共表達網絡分析顯示 PYCARD、TNFSF13、PHPT1、COMT、GSTK1、TNFSF12 分別有 36、36、33、32、31、31 個基因呈現共表達趨勢,這些基因的作用主要體現在先天免疫反應的激活、激活 T 細胞增殖、趨化因子的分泌、宿主對病毒的正向免疫調控、T 細胞受體信號、細胞因子受體相互作用等方面。其中已有研究證明,MTB 在體外誘導人和小鼠巨噬細胞中的 IL-1β 分泌,該過程依賴于 PYCARD,在小鼠體內,PYCARD 在慢性 MTB 感染期間有助于保護宿主免于死亡[26]。
本文選取的數據集為單一研究所提交的,該研究包括活動性肺結核患者、潛伏性結核和健康對照,重點在于探討外周血補體水平和結核病的相關性,并且發現 C1q 可能是區分活動性肺結核與潛伏性結核感染的潛在診斷標志物[6]。為進一步充分利用該數據集,本文選取其中的活動性肺結核患者和健康對照兩組,進一步進行生物信息學分析。總之,我們目前的研究通過 DEG 的篩選、GO 分析、代謝通路分析、基因信號網絡分析和共表達分析提供了一個全面的生物信息學分析,得到可能與結核病相關的基因。該結果可能有助于促進對結核病發生發展中涉及的調控機制的理解。但生物信息學結果仍然需要分子生物學實驗以驗證其準確性,在目前的數據分析中,樣本量較小,且樣本選自一個平臺,這可能導致較高的假陽性。