引用本文: 白志勛, 王艷平, 楊杰, 譚州科. 基于機器學習聯合加權基因共表達網絡分析鑒定狼瘡腎炎潛在生物標志物. 華西醫學, 2023, 38(7): 996-1005. doi: 10.7507/1002-0179.202306132 復制
系統性紅斑狼瘡(systemic lupus erythematosus, SLE)是一種累及腎臟等多系統的自身免疫性疾病,其中 50% 以上的患者可發展為狼瘡腎炎(lupus nephritis, LN)[1]。LN 是以補體大量激活、免疫復合物在腎小球內沉積、腎小球增生和硬化、腎組織炎癥反應為特點的腎損害[2]。LN 是我國最常見的繼發性腎小球疾病,約占腎小球疾病的 12%,占繼發性腎小球疾病的 70% 左右[3]。LN 患者具有廣泛的臨床表現,包括單純性血尿或快速進展的腎功能衰竭,以及各種器官組織的損害,病理類型表現為輕度的系膜高細胞增生到新月體腎炎和彌漫性硬化的各種階段。不同病理分型 LN 的疾病活動性及其預后不同,研究證實 LN 是導致 SLE 患者不良預后的首要原因,盡管激素及免疫抑制劑能夠改善部分 LN 患者預后,但仍有大量的 LN 患者進展為終末期腎病,極大增加了患者的經濟負擔,影響患者生活質量[4]。淋巴瘤同樣是一種系統性疾病,可以入侵幾乎任何組織和器官,在 SLE 患者中非霍奇金淋巴瘤很常見,其組織學類型通常為彌漫大 B 細胞淋巴瘤。臨床醫生必須高度警惕,積極進行檢查并及時完成淋巴結活檢,以便在早期階段發現淋巴瘤[5-10]。同時,LN 患者總體上患癌癥的風險也略有增加,可以猜測 LN 與淋巴瘤之間可能存在一定關聯。此外,臨床診療過程缺乏生物標志物和治療過程中的病情反復是目前 LN 治療的障礙。傳統的分子生物學只能解釋生物過程的局部部分,難以對 LN 進展中的整個生物系統進行全面探索。為探索篩選 SLE 患者中發生 LN 的差異表達基因,并研究 LN 的潛在機制和與 LN 進展相關的關鍵生物標志物和免疫相關途徑,本研究使用加權基因共表達網絡分析(weighted gene co-expression network analysis, WGCNA)方法,分析 Gene Expression Omnibus(GEO)數據庫中與 LN 相關的數據集,同時結合癌癥基因組圖譜(The Cancer Genome Atlas, TCGA)和基因型-組織表達數據庫(Genotype-Tissue Expression, GTEx)來分析 LN 與淋巴瘤之間的關聯。
1 資料與方法
1.1 數據收集與處理
LN 的表達譜數據集 GSE99967 從 GEO 數據庫中獲得[11]。GSE99967 中總共有 46 個樣本,其中 LN 樣本 29 個,對照樣本 17 個;所有樣本均來自周圍血液,根據測序平臺 GPL21970 的注釋信息,將探針翻譯為基因符號。
1.2 差異表達基因分析
為了在對照樣本和 LN 患者的周圍血液樣本中發現差異表達基因,本研究選擇 R 4.2.0 軟件中的“limma”軟件包對 GEO 數據集中 LN 和對照樣本進行差異分析。篩選標準為 P<0.05、差異表達倍數的對數>0.5。
1.3 WGCNA 構建
WGCNA 是一種分析基因間相關性以及模塊與外部樣本性狀之間關系的系統生物學方法,用于發現基因簇與臨床性狀之間的相關性,以及基因與共表達模塊或臨床性狀之間的相關性[12-13]。本研究選擇 hclust 函數進行樣本聚類分析,來消除異常值;然后選擇軟閾值函數來計算建立一個無標度的網絡架構所需的軟閾值功率量;再通過比較兩個節點與其他節點之間的加權相關性,定量表示節點之間的相似性,從而將連接矩陣轉變為拓撲重疊矩陣;通過拓撲重疊矩陣對不同基因模塊進行聚類,計算模塊特征基因和基因顯著性的表達量,將不同的模塊與表型聯系起來。使用 R 4.2.0 軟件中的“WGCNA”軟件包進行 WGCNA 分析。
1.4 生物標志物的篩選
使用 LASSO 回歸、支持向量機(support vector machine, SVM)、隨機森林 3 種機器學習進行生物標志物的篩選。LASSO 回歸可以在擬合廣義模型的同時進行變量篩選,以發現有意義的預測因素[14]。本研究使用 R 4.2.0 軟件的“glmnet”軟件包開展 LASSO 回歸分析。SVM 是一種線性分類器,使用基于 SVM 的最大間隔原理訓練樣本,不斷迭代,最后選出需要的特征數[15]。通過構建隨機森林選擇特征得到與 LN 和對照組顯著相關的基因的重要性[16]。
1.5 模型診斷價值評估
首先繪制箱式圖分析 GSE99967 數據集中 LN 組與對照組間樞紐基因(hub 基因)的表達差異水平,然后基于 hub 基因構建受試者操作特征(receiver operating characteristic, ROC)曲線,用曲線下面積(area under the curve, AUC)評估 hub 基因診斷 LN 的性能。
1.6 富集分析
將 P<0.05 作為基因本體論(Gene Ontology, GO)、疾病本體論(Disease Ontology, DO)、京都基因和基因組數據庫(Kyoto Encyclopedia of Genes and Genomes, KEGG)富集分析的檢驗標準。GO 用于注釋基因及其產物在生物過程中的功能、分子功能和細胞成分[17-18]。DO 用于注釋和分析基因與疾病的關系。KEGG 通過所包含基因、蛋白質化學成分及其相互作用、反應和關系網絡的信息,用于注釋和分析基因功能和代謝途徑[19]。采用單樣本基因集富集分析對潛在生物標志物的生物學功能及調控機制進行分析。
1.7 TCGA-GTEx 分析
TCGA 數據庫包含 33 個腫瘤的數據,用于分析基因表達和預后關系;GTEx 數據庫則只包含正常個體的數據,可以研究正常個體不同組織之間的基因表達差異[20]。通過整合 TCGA 及 GTEx 數據分析 hub 基因在淋巴瘤及 33 種腫瘤中的表達差異性。
2 結果
2.1 LN 中的差異表達基因
利用 GSE99967 數據集檢測到 LN 患者和對照樣本之間的 2297 個差異表達基因,其中 1060 個基因表達上調,1237 個基因表達下調(圖1)。

a. GSE99967 的熱圖,LN:狼瘡腎炎組,Con:對照組;b. GSE99967 差異基因火山圖,紅色表示上調的基因,藍色表示下調的基因,灰色表示無統計學差異的基因,FC:差異表達倍數
2.2 WGCNA 目標模塊的構建和基因篩選
WGCNA 分析如圖2a 所示,對所有樣本進行聚類分析后發現,GSM2666765 樣本的聚類偏離明顯,因此在 WGCNA 中被作為異常值而排除。使用剩余的 45 個樣本中差異表達基因的表達矩陣,研究構建了加權基因共表達網絡。合并特征因子大于 0.5 的模塊,并將模塊中最小基因數設置為 25(圖2b),從而在加權基因共表達網絡中篩選出 7 個共表達模塊(圖2c)。根據模塊與 LN 疾病的相關性研究,最終選擇青色模塊作為目標模塊(圖2d)。在青色模塊中,共有 347 個差異表達基因目標基因;LN 模塊成員度與基因顯著性的散點圖見圖2e。

a. GSE99967 數據集中 46 個樣本的聚類圖和性狀熱圖;b. GSE99967 數據集中常見基因的聚類樹;c. 采用無標度擬合指數(左)和平均連通性(右)來確定軟閾值功率;d. 狼瘡腎炎組(LN)和對照組(Con)與識別模塊相關的模塊特征熱圖,圖中數據為相關系數(
2.3 GO、DO 和 KEGG 富集分析
通過 GO、DO 和 KEGG 富集分析來研究 347 個差異表達基因的生物學功能。GO 分析表明,靶基因主要參與由免疫球蛋白超家族結構域構建的免疫受體、細胞因子介導的信號通路、細胞因子受體活性、免疫受體活性(圖3a);DO 富集分析表明,靶基因與阻塞性肺疾病、造血系統疾病以及肺病有關(圖3b);KEGG 富集分析表明,靶基因僅富集在細胞因子-細胞因子受體的相互作用中(圖3c)。

a. GO 分析結果;b. DO 分析結果;c. KEGG 分析結果。LN:狼瘡腎炎;GO:基因本體論;DO:疾病本體論;KEGG:京都基因和基因組數據庫;BP :生物過程;CC :細胞成分;MF:分子功能
2.4 基于機器學習算法鑒定 LN 潛在生物標志物
LASSO 模型篩選獲得 7 個基因(圖4a、4b),SVM 模型分析獲得 44 個基因(圖4c、4d),隨機森林模型篩選獲得 13 個基因(圖4e、4f)。使用維恩圖將 3 種機器學習算法篩選的基因交集出 3 個特征基因,即 ADGRE4P、CISD2 和 CLC(圖4g)。

a. 在 LASSO 模型(λ)內選擇 LN 的最優變量;b. LN 樣本中特異性基因的變量系數譜;c、d. 采用 SVM-REF 方法來篩選特征基因;e. 隨機森林算法顯示了 LN 的誤差;f. 根據重要性評分對對照組和基因進行排序;g. 韋恩圖通過整合 3 種算法的結果,顯示了候選的 LN 特征基因。log(λ):正則化參數對數;SVM-REF:支持向量機遞歸特征消除;SVM:支持向量機;LN:狼瘡腎炎
2.5 評估潛在生物標志物的表達水平和診斷意義
GSE99967 中基因的表達差異箱式圖顯示,與對照組相比,LN 患者中 ADGRE4P和 CLC 的表達下調,而 CISD2 則表達上調(圖5a~5c)。ROC 曲線圖顯示 ADGRE4P、CISD2、CLC 的 AUC 值分別為 0.813、0.718、0.718(圖5d~5f),均具有較好的診斷價值。聯合 3 個 Hub 基因建立診斷列線圖(圖5g),列線圖聯合診斷 AUC 值為 0.730(圖5h),因此可以考慮將 ADGRE4P、CISD2 和 CLC 作為 LN 患者的潛在生物標志物。

a~c. hub 基因在 LN 和對照組中基因的差異表達箱式圖;d~f. 數據集 GSE99967 關鍵基因的 ROC 曲線分析;g. 基于 3 個基因的 LN 診斷列線圖;h. 診斷列線圖 ROC 曲線分析。Con:對照組;LN:狼瘡腎炎;ROC 曲線:受試者操作特征曲線;AUC:曲線下面積
2.6 分析潛在生物標志物的生物學功能及調控機制
單樣本基因集富集分析顯示 ADGRE4P 主要參與各種類型的 N-聚糖的生物合成、核糖核酸聚合酶、核糖體和金黃色葡萄球菌感染,CISD2 主要參與細胞鐵死亡、線粒體吞噬、T 細胞受體信號通路和原發性免疫缺乏癥,CLC 主要參與核糖體、輔助性 T 細胞 1 和輔助性 T 細胞 2 的分化、各種類型的 N-聚糖生物合成和炎癥性腸疾病。
2.7 差異基因的 TCGA-GTEx 分析
研究結合 TCGA 和 GTEx 分析篩選出的 3 個關鍵基因正常組和淋巴瘤組的表達結果,并獲得相同的差異趨勢結果(圖6),ADGRE4P 和 CLC 下調,而 CISD2 上調。因此,本研究推測 LN 的差異表達基因與淋巴瘤的發生之間可能存在特異性聯系。另外,本研究在泛癌分析中觀察了這 3 個基因的表達,結果如圖7 所示,CISD2 基本上表達,且大部分上調;TCGA 分析顯示,ADGRE4P 在膠質母細胞瘤、腎癌、急性髓系白血病和低級別膠質瘤中高表達,在乳腺癌、宮頸鱗狀細胞癌、結腸腺癌和食管癌中低表達。CLC 在結腸腺癌、急性髓系白血病、直腸腺癌、胃癌和睪丸生殖細胞腫瘤中高表達,在彌漫性大 B 細胞淋巴瘤、肺腺癌和肺鱗癌中低表達。但是 ADGRE4P 和 CLC 在頭頸部鱗狀細胞癌、腎嫌色細胞瘤、肝癌、前列腺腺癌、子宮內膜癌、子宮肉瘤和葡萄膜黑色素瘤中均未表達。

***:

a.
3 討論
LN 是由于自身免疫系統發生紊亂,血液中形成的免疫復合物沉積于腎小球內,引起腎小球炎癥的一種自身免疫性疾病;它屬于 SLE 中常見的腎臟并發癥,同時也是導致 SLE 患者死亡的重要原因之一[21-22]。50% 以上的 SLE 患者有腎損害的臨床表現,腎活檢顯示腎臟受累幾乎為 100%,而 LN 是我國終末期腎衰竭的重要病因之一[23]。由于其臨床表現復雜且變化多端,因此 LN 尚未有治愈手段,而嚴重的 LN 患者可進展至終末期腎衰竭而需要透析治療,對患者生活造成極大影響。所以早期準確診斷 LN 非常重要。因此,在臨床治療中,迫切需要尋找合適的生物標志物來協助明確診斷 LN,并為其治療提早做好準備。
本研究采用 WGCNA 數據挖掘方法來識別 LN 和對照組中的差異表達基因,發現與 LN 發展顯著相關的關鍵模塊。研究通過 WGCNA,從 GSE99967 數據集中篩選出 7 個重要的基因模塊。青色模塊與患者 LN 狀態最為相關,因此本研究選擇青色模塊作為后續分析的主要模塊。研究者在青色模塊中找出 347 個 LN 的差異表達基因。機器學習可以更好地應對復雜數據關系,實現在眾多數據中更好地識別數據與臨床結局相關的變量,具有更好的預測能力及數據噪聲的穩健性[24-32]。本研究基于 LASSO、SVM、隨機森林 3 種機器學習方法篩選出了與 LN 相關的 3 個 hub 基因(ADGRE4P、CISD2、CLC),通過 ROC 曲線圖來確定 3 個 hub 基因對 LN 具有較高診斷準確性。
CISD2 基因編碼的蛋白質是定位于內質網的鋅指蛋白,編碼蛋白結合鐵/硫簇,可能參與鈣穩態,該基因的缺陷是導致 Wolfram 綜合征的原因。與 CISD2 相關的疾病包括狼瘡綜合征和其相關途徑包括葡萄糖/能量代謝。該基因是自噬調節因子,有助于在內質網拮抗自噬相關蛋白 Beclin-1(BECN1)介導的細胞自噬,參與 B 細胞淋巴瘤/白血病-2(BCL2)與 BECN1 的相互作用,是 BCL2 介導的自噬過程中抑制內質網鈣離子儲存所必需的,有助于 BIK(BCL2 interacting killer)啟動的自噬,而不參與 BIK 依賴的胱天蛋白酶活化,參與壽命控制,可能是通過其作為自噬調節器的功能。ADGRE4P 基因是 EGF-TM7 受體基因家族的一員,被認為在白細胞黏附和遷移中起作用。有研究表明,在其他脊椎動物中,包括非人靈長類,該基因編碼一種含有 N-末端 EGF 結構域和一個 C-末端跨膜結構域的蛋白質[33]。然而,人類基因的序列證據表明,基因組序列中的核苷酸缺失會導致移碼和翻譯提前終止[34]。這種基因表達的蛋白質是可溶的,而不是在細胞表面表達。由于編碼蛋白尚未被檢測到,該基因可能代表轉錄的假基因。該基因雖然還沒有相關疾病的研究,但它的功能可能介導骨髓細胞和 B 細胞之間的相互作用。溶血磷脂酶是作用于生物膜上調節多功能溶血磷脂酶,CLC 基因編碼的蛋白質是一種在嗜酸性粒細胞和嗜堿性粒細胞中表達的溶血磷脂酶,它將溶血磷脂酰膽堿水解成甘油磷酸膽堿和游離脂肪酸,這種蛋白質可能具有碳水化合物或免疫球蛋白 E 結合活性,在結構和功能上都與 β-半乳糖苷結合蛋白的 galectin 家族有關,可能與炎癥和一些髓系白血病有關。該基因通過識別細胞表面聚糖調節免疫反應,對 CD25 陽性調節性 T 細胞的無能和抑制功能至關重要。ADGRE4P、CISD2 和 CLC 這 3 個基因的功能與本研究分析的結果基本符合。進一步泛癌分析結果顯示,CISD2 基因基本高表達在各類腫瘤中;ADGRE4P 在膠質瘤、腎癌、血液腫瘤及低級別膠質瘤中高表達,在乳腺癌、宮頸鱗狀細胞癌、結腸腺癌和食管癌中低表達;CLC 在結腸腺癌、急性髓系白血病、直腸腺癌、胃癌和睪丸生殖細胞腫瘤中高表達,在彌漫性大 B 細胞淋巴瘤、肺腺癌和肺鱗癌中低表達。但是 ADGRE4P 和 CLC 在頭頸部鱗狀細胞癌、腎嫌色細胞瘤、肝癌、前列腺腺癌、子宮內膜癌、子宮肉瘤和葡萄膜黑色素瘤中均未表達。
研究通過結合 TCGA-GTEx 分析獲得 ADGRE4P、CISD2 和 CLC 在淋巴瘤中的表達,與 LN 中的表達結果一致,即 ADGRE4P 和 CLC 表達下調,而 CISD2 表達上調。既往臨床研究業已證實了 LN 與淋巴瘤發生之間的相關性[35]。因此,本研究結果篩選所得的關鍵基因不僅是在 LN 臨床診斷中起到一定的輔助決策作用,同時還具有預測 SLE 是否進一步并發腫瘤的相關風險能力,同時也為 LN 并發淋巴瘤的關系機制提供新的研究方向。
本研究仍然存在一定局限性,首先基于單個 LN 數據集進行了差異基因的探索,樣本量較少是本研究的不足之處,后續還需要進一步尋找大樣本進行外部驗證。此外,在泛癌基因研究中,基于公共數據庫的研究還需要進一步收集臨床樣本進行外部驗證才能更具有說服力。
綜上所述,本研究利用機器學習技術結合 WGCNA,篩選和獲得 LN 疾病發展中的 3 個 hub 基因(CLC、ADGRE4P 和 CISD2),有助于深入研究 LN 進展的機制,為進一步開展 SLE 與淋巴瘤的相關性研究提供新的方向。
利益沖突:所有作者聲明不存在利益沖突。
系統性紅斑狼瘡(systemic lupus erythematosus, SLE)是一種累及腎臟等多系統的自身免疫性疾病,其中 50% 以上的患者可發展為狼瘡腎炎(lupus nephritis, LN)[1]。LN 是以補體大量激活、免疫復合物在腎小球內沉積、腎小球增生和硬化、腎組織炎癥反應為特點的腎損害[2]。LN 是我國最常見的繼發性腎小球疾病,約占腎小球疾病的 12%,占繼發性腎小球疾病的 70% 左右[3]。LN 患者具有廣泛的臨床表現,包括單純性血尿或快速進展的腎功能衰竭,以及各種器官組織的損害,病理類型表現為輕度的系膜高細胞增生到新月體腎炎和彌漫性硬化的各種階段。不同病理分型 LN 的疾病活動性及其預后不同,研究證實 LN 是導致 SLE 患者不良預后的首要原因,盡管激素及免疫抑制劑能夠改善部分 LN 患者預后,但仍有大量的 LN 患者進展為終末期腎病,極大增加了患者的經濟負擔,影響患者生活質量[4]。淋巴瘤同樣是一種系統性疾病,可以入侵幾乎任何組織和器官,在 SLE 患者中非霍奇金淋巴瘤很常見,其組織學類型通常為彌漫大 B 細胞淋巴瘤。臨床醫生必須高度警惕,積極進行檢查并及時完成淋巴結活檢,以便在早期階段發現淋巴瘤[5-10]。同時,LN 患者總體上患癌癥的風險也略有增加,可以猜測 LN 與淋巴瘤之間可能存在一定關聯。此外,臨床診療過程缺乏生物標志物和治療過程中的病情反復是目前 LN 治療的障礙。傳統的分子生物學只能解釋生物過程的局部部分,難以對 LN 進展中的整個生物系統進行全面探索。為探索篩選 SLE 患者中發生 LN 的差異表達基因,并研究 LN 的潛在機制和與 LN 進展相關的關鍵生物標志物和免疫相關途徑,本研究使用加權基因共表達網絡分析(weighted gene co-expression network analysis, WGCNA)方法,分析 Gene Expression Omnibus(GEO)數據庫中與 LN 相關的數據集,同時結合癌癥基因組圖譜(The Cancer Genome Atlas, TCGA)和基因型-組織表達數據庫(Genotype-Tissue Expression, GTEx)來分析 LN 與淋巴瘤之間的關聯。
1 資料與方法
1.1 數據收集與處理
LN 的表達譜數據集 GSE99967 從 GEO 數據庫中獲得[11]。GSE99967 中總共有 46 個樣本,其中 LN 樣本 29 個,對照樣本 17 個;所有樣本均來自周圍血液,根據測序平臺 GPL21970 的注釋信息,將探針翻譯為基因符號。
1.2 差異表達基因分析
為了在對照樣本和 LN 患者的周圍血液樣本中發現差異表達基因,本研究選擇 R 4.2.0 軟件中的“limma”軟件包對 GEO 數據集中 LN 和對照樣本進行差異分析。篩選標準為 P<0.05、差異表達倍數的對數>0.5。
1.3 WGCNA 構建
WGCNA 是一種分析基因間相關性以及模塊與外部樣本性狀之間關系的系統生物學方法,用于發現基因簇與臨床性狀之間的相關性,以及基因與共表達模塊或臨床性狀之間的相關性[12-13]。本研究選擇 hclust 函數進行樣本聚類分析,來消除異常值;然后選擇軟閾值函數來計算建立一個無標度的網絡架構所需的軟閾值功率量;再通過比較兩個節點與其他節點之間的加權相關性,定量表示節點之間的相似性,從而將連接矩陣轉變為拓撲重疊矩陣;通過拓撲重疊矩陣對不同基因模塊進行聚類,計算模塊特征基因和基因顯著性的表達量,將不同的模塊與表型聯系起來。使用 R 4.2.0 軟件中的“WGCNA”軟件包進行 WGCNA 分析。
1.4 生物標志物的篩選
使用 LASSO 回歸、支持向量機(support vector machine, SVM)、隨機森林 3 種機器學習進行生物標志物的篩選。LASSO 回歸可以在擬合廣義模型的同時進行變量篩選,以發現有意義的預測因素[14]。本研究使用 R 4.2.0 軟件的“glmnet”軟件包開展 LASSO 回歸分析。SVM 是一種線性分類器,使用基于 SVM 的最大間隔原理訓練樣本,不斷迭代,最后選出需要的特征數[15]。通過構建隨機森林選擇特征得到與 LN 和對照組顯著相關的基因的重要性[16]。
1.5 模型診斷價值評估
首先繪制箱式圖分析 GSE99967 數據集中 LN 組與對照組間樞紐基因(hub 基因)的表達差異水平,然后基于 hub 基因構建受試者操作特征(receiver operating characteristic, ROC)曲線,用曲線下面積(area under the curve, AUC)評估 hub 基因診斷 LN 的性能。
1.6 富集分析
將 P<0.05 作為基因本體論(Gene Ontology, GO)、疾病本體論(Disease Ontology, DO)、京都基因和基因組數據庫(Kyoto Encyclopedia of Genes and Genomes, KEGG)富集分析的檢驗標準。GO 用于注釋基因及其產物在生物過程中的功能、分子功能和細胞成分[17-18]。DO 用于注釋和分析基因與疾病的關系。KEGG 通過所包含基因、蛋白質化學成分及其相互作用、反應和關系網絡的信息,用于注釋和分析基因功能和代謝途徑[19]。采用單樣本基因集富集分析對潛在生物標志物的生物學功能及調控機制進行分析。
1.7 TCGA-GTEx 分析
TCGA 數據庫包含 33 個腫瘤的數據,用于分析基因表達和預后關系;GTEx 數據庫則只包含正常個體的數據,可以研究正常個體不同組織之間的基因表達差異[20]。通過整合 TCGA 及 GTEx 數據分析 hub 基因在淋巴瘤及 33 種腫瘤中的表達差異性。
2 結果
2.1 LN 中的差異表達基因
利用 GSE99967 數據集檢測到 LN 患者和對照樣本之間的 2297 個差異表達基因,其中 1060 個基因表達上調,1237 個基因表達下調(圖1)。

a. GSE99967 的熱圖,LN:狼瘡腎炎組,Con:對照組;b. GSE99967 差異基因火山圖,紅色表示上調的基因,藍色表示下調的基因,灰色表示無統計學差異的基因,FC:差異表達倍數
2.2 WGCNA 目標模塊的構建和基因篩選
WGCNA 分析如圖2a 所示,對所有樣本進行聚類分析后發現,GSM2666765 樣本的聚類偏離明顯,因此在 WGCNA 中被作為異常值而排除。使用剩余的 45 個樣本中差異表達基因的表達矩陣,研究構建了加權基因共表達網絡。合并特征因子大于 0.5 的模塊,并將模塊中最小基因數設置為 25(圖2b),從而在加權基因共表達網絡中篩選出 7 個共表達模塊(圖2c)。根據模塊與 LN 疾病的相關性研究,最終選擇青色模塊作為目標模塊(圖2d)。在青色模塊中,共有 347 個差異表達基因目標基因;LN 模塊成員度與基因顯著性的散點圖見圖2e。

a. GSE99967 數據集中 46 個樣本的聚類圖和性狀熱圖;b. GSE99967 數據集中常見基因的聚類樹;c. 采用無標度擬合指數(左)和平均連通性(右)來確定軟閾值功率;d. 狼瘡腎炎組(LN)和對照組(Con)與識別模塊相關的模塊特征熱圖,圖中數據為相關系數(
2.3 GO、DO 和 KEGG 富集分析
通過 GO、DO 和 KEGG 富集分析來研究 347 個差異表達基因的生物學功能。GO 分析表明,靶基因主要參與由免疫球蛋白超家族結構域構建的免疫受體、細胞因子介導的信號通路、細胞因子受體活性、免疫受體活性(圖3a);DO 富集分析表明,靶基因與阻塞性肺疾病、造血系統疾病以及肺病有關(圖3b);KEGG 富集分析表明,靶基因僅富集在細胞因子-細胞因子受體的相互作用中(圖3c)。

a. GO 分析結果;b. DO 分析結果;c. KEGG 分析結果。LN:狼瘡腎炎;GO:基因本體論;DO:疾病本體論;KEGG:京都基因和基因組數據庫;BP :生物過程;CC :細胞成分;MF:分子功能
2.4 基于機器學習算法鑒定 LN 潛在生物標志物
LASSO 模型篩選獲得 7 個基因(圖4a、4b),SVM 模型分析獲得 44 個基因(圖4c、4d),隨機森林模型篩選獲得 13 個基因(圖4e、4f)。使用維恩圖將 3 種機器學習算法篩選的基因交集出 3 個特征基因,即 ADGRE4P、CISD2 和 CLC(圖4g)。

a. 在 LASSO 模型(λ)內選擇 LN 的最優變量;b. LN 樣本中特異性基因的變量系數譜;c、d. 采用 SVM-REF 方法來篩選特征基因;e. 隨機森林算法顯示了 LN 的誤差;f. 根據重要性評分對對照組和基因進行排序;g. 韋恩圖通過整合 3 種算法的結果,顯示了候選的 LN 特征基因。log(λ):正則化參數對數;SVM-REF:支持向量機遞歸特征消除;SVM:支持向量機;LN:狼瘡腎炎
2.5 評估潛在生物標志物的表達水平和診斷意義
GSE99967 中基因的表達差異箱式圖顯示,與對照組相比,LN 患者中 ADGRE4P和 CLC 的表達下調,而 CISD2 則表達上調(圖5a~5c)。ROC 曲線圖顯示 ADGRE4P、CISD2、CLC 的 AUC 值分別為 0.813、0.718、0.718(圖5d~5f),均具有較好的診斷價值。聯合 3 個 Hub 基因建立診斷列線圖(圖5g),列線圖聯合診斷 AUC 值為 0.730(圖5h),因此可以考慮將 ADGRE4P、CISD2 和 CLC 作為 LN 患者的潛在生物標志物。

a~c. hub 基因在 LN 和對照組中基因的差異表達箱式圖;d~f. 數據集 GSE99967 關鍵基因的 ROC 曲線分析;g. 基于 3 個基因的 LN 診斷列線圖;h. 診斷列線圖 ROC 曲線分析。Con:對照組;LN:狼瘡腎炎;ROC 曲線:受試者操作特征曲線;AUC:曲線下面積
2.6 分析潛在生物標志物的生物學功能及調控機制
單樣本基因集富集分析顯示 ADGRE4P 主要參與各種類型的 N-聚糖的生物合成、核糖核酸聚合酶、核糖體和金黃色葡萄球菌感染,CISD2 主要參與細胞鐵死亡、線粒體吞噬、T 細胞受體信號通路和原發性免疫缺乏癥,CLC 主要參與核糖體、輔助性 T 細胞 1 和輔助性 T 細胞 2 的分化、各種類型的 N-聚糖生物合成和炎癥性腸疾病。
2.7 差異基因的 TCGA-GTEx 分析
研究結合 TCGA 和 GTEx 分析篩選出的 3 個關鍵基因正常組和淋巴瘤組的表達結果,并獲得相同的差異趨勢結果(圖6),ADGRE4P 和 CLC 下調,而 CISD2 上調。因此,本研究推測 LN 的差異表達基因與淋巴瘤的發生之間可能存在特異性聯系。另外,本研究在泛癌分析中觀察了這 3 個基因的表達,結果如圖7 所示,CISD2 基本上表達,且大部分上調;TCGA 分析顯示,ADGRE4P 在膠質母細胞瘤、腎癌、急性髓系白血病和低級別膠質瘤中高表達,在乳腺癌、宮頸鱗狀細胞癌、結腸腺癌和食管癌中低表達。CLC 在結腸腺癌、急性髓系白血病、直腸腺癌、胃癌和睪丸生殖細胞腫瘤中高表達,在彌漫性大 B 細胞淋巴瘤、肺腺癌和肺鱗癌中低表達。但是 ADGRE4P 和 CLC 在頭頸部鱗狀細胞癌、腎嫌色細胞瘤、肝癌、前列腺腺癌、子宮內膜癌、子宮肉瘤和葡萄膜黑色素瘤中均未表達。

***:

a.
3 討論
LN 是由于自身免疫系統發生紊亂,血液中形成的免疫復合物沉積于腎小球內,引起腎小球炎癥的一種自身免疫性疾病;它屬于 SLE 中常見的腎臟并發癥,同時也是導致 SLE 患者死亡的重要原因之一[21-22]。50% 以上的 SLE 患者有腎損害的臨床表現,腎活檢顯示腎臟受累幾乎為 100%,而 LN 是我國終末期腎衰竭的重要病因之一[23]。由于其臨床表現復雜且變化多端,因此 LN 尚未有治愈手段,而嚴重的 LN 患者可進展至終末期腎衰竭而需要透析治療,對患者生活造成極大影響。所以早期準確診斷 LN 非常重要。因此,在臨床治療中,迫切需要尋找合適的生物標志物來協助明確診斷 LN,并為其治療提早做好準備。
本研究采用 WGCNA 數據挖掘方法來識別 LN 和對照組中的差異表達基因,發現與 LN 發展顯著相關的關鍵模塊。研究通過 WGCNA,從 GSE99967 數據集中篩選出 7 個重要的基因模塊。青色模塊與患者 LN 狀態最為相關,因此本研究選擇青色模塊作為后續分析的主要模塊。研究者在青色模塊中找出 347 個 LN 的差異表達基因。機器學習可以更好地應對復雜數據關系,實現在眾多數據中更好地識別數據與臨床結局相關的變量,具有更好的預測能力及數據噪聲的穩健性[24-32]。本研究基于 LASSO、SVM、隨機森林 3 種機器學習方法篩選出了與 LN 相關的 3 個 hub 基因(ADGRE4P、CISD2、CLC),通過 ROC 曲線圖來確定 3 個 hub 基因對 LN 具有較高診斷準確性。
CISD2 基因編碼的蛋白質是定位于內質網的鋅指蛋白,編碼蛋白結合鐵/硫簇,可能參與鈣穩態,該基因的缺陷是導致 Wolfram 綜合征的原因。與 CISD2 相關的疾病包括狼瘡綜合征和其相關途徑包括葡萄糖/能量代謝。該基因是自噬調節因子,有助于在內質網拮抗自噬相關蛋白 Beclin-1(BECN1)介導的細胞自噬,參與 B 細胞淋巴瘤/白血病-2(BCL2)與 BECN1 的相互作用,是 BCL2 介導的自噬過程中抑制內質網鈣離子儲存所必需的,有助于 BIK(BCL2 interacting killer)啟動的自噬,而不參與 BIK 依賴的胱天蛋白酶活化,參與壽命控制,可能是通過其作為自噬調節器的功能。ADGRE4P 基因是 EGF-TM7 受體基因家族的一員,被認為在白細胞黏附和遷移中起作用。有研究表明,在其他脊椎動物中,包括非人靈長類,該基因編碼一種含有 N-末端 EGF 結構域和一個 C-末端跨膜結構域的蛋白質[33]。然而,人類基因的序列證據表明,基因組序列中的核苷酸缺失會導致移碼和翻譯提前終止[34]。這種基因表達的蛋白質是可溶的,而不是在細胞表面表達。由于編碼蛋白尚未被檢測到,該基因可能代表轉錄的假基因。該基因雖然還沒有相關疾病的研究,但它的功能可能介導骨髓細胞和 B 細胞之間的相互作用。溶血磷脂酶是作用于生物膜上調節多功能溶血磷脂酶,CLC 基因編碼的蛋白質是一種在嗜酸性粒細胞和嗜堿性粒細胞中表達的溶血磷脂酶,它將溶血磷脂酰膽堿水解成甘油磷酸膽堿和游離脂肪酸,這種蛋白質可能具有碳水化合物或免疫球蛋白 E 結合活性,在結構和功能上都與 β-半乳糖苷結合蛋白的 galectin 家族有關,可能與炎癥和一些髓系白血病有關。該基因通過識別細胞表面聚糖調節免疫反應,對 CD25 陽性調節性 T 細胞的無能和抑制功能至關重要。ADGRE4P、CISD2 和 CLC 這 3 個基因的功能與本研究分析的結果基本符合。進一步泛癌分析結果顯示,CISD2 基因基本高表達在各類腫瘤中;ADGRE4P 在膠質瘤、腎癌、血液腫瘤及低級別膠質瘤中高表達,在乳腺癌、宮頸鱗狀細胞癌、結腸腺癌和食管癌中低表達;CLC 在結腸腺癌、急性髓系白血病、直腸腺癌、胃癌和睪丸生殖細胞腫瘤中高表達,在彌漫性大 B 細胞淋巴瘤、肺腺癌和肺鱗癌中低表達。但是 ADGRE4P 和 CLC 在頭頸部鱗狀細胞癌、腎嫌色細胞瘤、肝癌、前列腺腺癌、子宮內膜癌、子宮肉瘤和葡萄膜黑色素瘤中均未表達。
研究通過結合 TCGA-GTEx 分析獲得 ADGRE4P、CISD2 和 CLC 在淋巴瘤中的表達,與 LN 中的表達結果一致,即 ADGRE4P 和 CLC 表達下調,而 CISD2 表達上調。既往臨床研究業已證實了 LN 與淋巴瘤發生之間的相關性[35]。因此,本研究結果篩選所得的關鍵基因不僅是在 LN 臨床診斷中起到一定的輔助決策作用,同時還具有預測 SLE 是否進一步并發腫瘤的相關風險能力,同時也為 LN 并發淋巴瘤的關系機制提供新的研究方向。
本研究仍然存在一定局限性,首先基于單個 LN 數據集進行了差異基因的探索,樣本量較少是本研究的不足之處,后續還需要進一步尋找大樣本進行外部驗證。此外,在泛癌基因研究中,基于公共數據庫的研究還需要進一步收集臨床樣本進行外部驗證才能更具有說服力。
綜上所述,本研究利用機器學習技術結合 WGCNA,篩選和獲得 LN 疾病發展中的 3 個 hub 基因(CLC、ADGRE4P 和 CISD2),有助于深入研究 LN 進展的機制,為進一步開展 SLE 與淋巴瘤的相關性研究提供新的方向。
利益沖突:所有作者聲明不存在利益沖突。