引用本文: 趙盼盼, 許博, 鄭福增. 基于生物信息學的系統性硬化癥相關間質性肺病生物標志物分析. 華西醫學, 2023, 38(9): 1347-1353. doi: 10.7507/1002-0179.202306192 復制
系統性硬化癥(systemic sclerosis, SSc)又稱硬皮病,是一種病因尚不明確,以皮膚、器官纖維化及血管損傷為主要臨床特征的自身免疫性疾病。該病主要損傷內臟器官包括肺、心臟、腎臟和腸道,其中以肺部的損害最為常見,也最為嚴重,表現為間質性肺病(interstitial lung disease, ILD)及肺動脈高壓,而 SSc 相關 ILD(SSc-associated ILD, SSc-ILD)患者在 SSc 患者肺部病變中占比高達 90%[1-2]。在治療及疾病控制上,免疫抑制劑目前仍然是 SSc-ILD 最好、最常用的治療方法,此外自體干細胞移植是該疾病的一個潛在嘗試[3]。現如今生物制劑如利妥昔單抗、托珠單抗和尼達尼布等在改善血管、皮膚炎癥和肺部纖維化等癥狀上具有巨大的應用前景[4]。SSc-ILD 的諸多研究使我們對該病有了一定程度的了解,但是其具體發病機制仍未明確,所以深入研究其分子機制對于 SSc-ILD 的早期診斷、早期治療及治療手段都有著十分重要的意義。本研究運用生物信息學從基因表達綜合數據庫(Gene Expression Omnibus, GEO)收集 SSc-ILD 的相關基因數據集,與正常人作對比,以探討該疾病相關生物機制。
1 資料與方法
1.1 數據獲取及準備
以“SSc-ILD”作為關鍵詞從 GEO 數據庫下載 GSE40839(平臺 GPL96)、GSE76808(平臺 GPL571)和 GSE33463(平臺 GPL6947)3 個數據集。3 個數據集總共納入 30 個 SSc-ILD 樣本(病例組)和 55 個健康樣本(對照組)。
根據平臺文件找到探針的信息與基因之間的對應關系,然后運用 Perl 語言將探針的矩陣轉化為基因的表達矩陣。將 GSE40839 和 GSE76808 作為訓練組運用 R 4.2.3 軟件進行數據合并,GSE33463 留作驗證組進行驗證。
1.2 差異基因篩選
運用 R 4.2.3 軟件中的“limma”包對 GSE40839 和 GSE7680 兩組數據進行差異分析,設置條件為|log2FC|>1(其中 FC 表示差異倍數)、P<0.05,篩選出上調、下調的差異基因。
1.3 基因富集分析
運用 R 4.2.3 軟件的“clusterProfiler”“enrichplot”和“ggplot2”包對差異基因進行基因本體(gene ontology, GO)功能富集分析、京都基因和基因組數據庫(Kyoto Encyclopedia of Genes and Genomes, KEGG)通路富集分析、疾病本體(disease ontology, DO)疾病富集分析及基因集富集分析(gene set enrichment analysis, GSEA),獲取差異基因的生物學信息。
1.4 篩選疾病的診斷基因
使用 R 4.2.3 軟件中的“glmnet”包進行最小絕對收縮和選擇算子(least absolute shrinkage and seletion operator, LASSO)算法,找出交叉驗證誤差最小的點,得到特征基因。然后運用支持向量機(support vector machine, SVM)-遞歸特征消除(recursive feature elimination, RFE)算法,設置種子數為 150 個,得到特征基因。將 2 組特征基因取交集得到疾病的診斷基因。最后,在驗證組 GSE33463 進行差異分析,當 P<0.05 說明目標基因在對照組和病例組中具有差異。
1.5 篩選出的診斷基因的診斷價值
運用 R 4.2.3 軟件的“pROC”包將 SSc-ILD 樣本和對照樣本的基因表達數據生成受試者操作特征(receiver operating characteristic, ROC)曲線,利用 ROC 曲線下面積(area under the ROC curve, AUC)來判斷診斷基因的準確性,AUC 越大,篩選出的基因作為疾病診斷基因的準確性就越高。最后在驗證組 GSE33463 中同樣進行 ROC 曲線繪制,根據 AUC 來對診斷基因進行驗證。
1.6 免疫細胞浸潤
運用 CIBERSORT 生物信息學算法獲取每個樣品中免疫細胞的相對含量,設置條件為模擬數目(perm)=1000,P<0.05。使用“corrplot”包分析免疫細胞之間的相關性,繪制相關性矩陣。對免疫細胞進行差異分析,當 P<0.05 表明該免疫細胞在對照組和病例組之間具有差異,使用“vioplot”包繪制小提琴圖。
1.7 診斷基因與浸潤免疫細胞相關性分析
運用 R 4.2.3 軟件的 Spearman 相關性分析對診斷基因與免疫細胞之間進行相關性分析,當 P<0.05 表明該免疫細胞與目標基因之間的相關性有統計學意義,然后使用“ggplot2”包對整個相關性結果繪制棒棒糖圖進行可視化。
2 結果
2.1 差異基因獲取結果
對 GSE40839 和 GSE76808 兩個數據集分析后共獲得差異基因 178 個,其中上調基因 54 個,下調基因 124 個。
2.2 富集分析結果
GO 富集分析結果顯示,在生物過程上,差異基因主要富集在細胞因子介導的信號通路、對病毒的反應、對病毒的防御反應等;在細胞組分上,差異基因主要富集在主軸、染色體、著絲粒區等;在分子功能上,差異基因主要富集在受體配體活性、信號受體激活劑活性、細胞因子活性等。KEGG 富集分析結果顯示,差異基因主要富集于細胞因子-細胞因子受體相互作用、腫瘤壞死因子(tumor necrosis factor, TNF)信號通路、NOD 樣受體信號通路等。DO 疾病富集分析結果顯示,差異基因主要與肝炎、胃癌、細菌性傳染病等有關。GSEA 結果顯示,病例組主要富集在細胞周期、DNA 復制、亨廷頓病、卵母細胞減數分裂、帕金森病等,對照組主要富集在趨化因子信號通路、細胞因子-細胞因子受體相互作用、NOD 樣受體信號通路、RIG-I 樣受體信號通路、Toll 樣受體信號通路等。
2.3 診斷基因及驗證結果
LASSO 回歸篩選出 11 個基因,SVM-RFE 篩選出 28 個基因,兩者交集基因為 9 個,分別是 TNFAIP3、IRF1、PARP12、APOL1、UGCG、CCL2、ADM、ID3、NT5DC2。運用第 3 組數據集 GSE33463 進行差異分析,結果顯示 TNFAIP3、ID3、NT5DC2 這 3 個基因在病例組與對照組間差異有統計學意義(P<0.05),其余 6 個基因組間差異無統計學意義(P>0.05)。
2.4 診斷基因的診斷價值及驗證結果
9 個基因在訓練組 ROC 診斷價值分析中均有較好的結果,但在驗證組 GSE33463 ROC 分析中只有 TNFAIP3、ID3、NT5DC2 有較好的結果(表1)。綜合差異分析、訓練組 ROC 分析、驗證組 ROC 分析結果,我們選擇 TNFAIP3、ID3、NT5DC2 作為該疾病的診斷基因。

2.5 免疫細胞浸潤結果
根據小提琴圖可以得出免疫細胞差異分析有統計學意義(P<0.05)的免疫細胞有漿細胞、巨噬細胞 M1、巨噬細胞 M2、靜息樹突狀細胞、活化樹突狀細胞、靜息肥大細胞、活化肥大細胞(圖1)。免疫細胞浸潤總共篩選出 22 種免疫細胞的相對表達量(圖2)。

SSc-ILD:系統性硬化癥相關間質性肺病

圖中數值代表免疫細胞之間的相關系數,紅色代表正相關,藍色代表負相關
2.6 診斷基因與免疫細胞相關性結果
與 TNFAIP3 基因相關的免疫細胞有 5 個,分別為漿細胞(P=0.013)、靜息肥大細胞(P<0.001)、巨噬細胞 M2(P=0.006)、靜息樹突狀細胞(P=0.008)、活化樹突狀細胞(P<0.001)。與 ID3 基因相關的免疫細胞有 5 個,分別為漿細胞(P=0.030)、活化自然殺傷細胞(P=0.045)、巨噬細胞 M1(P=0.016)、靜息樹突狀細胞(P<0.001)、活化樹突狀細胞(P<0.001)。與 NT5DC2 基因相關的免疫細胞有 5 個,分別為漿細胞(P<0.001)、靜息肥大細胞(P=0.003)、巨噬細胞 M1(P=0.008)、靜息樹突狀細胞(P=0.013)、活化樹突狀細胞(P=0.001)。見圖3。

3 討論
據悉,40% 的 SSc-ILD 患者于發病后的 10 年內陸續死亡[5]。1990 年-2019 年我國 ILD 與其他慢性呼吸疾病相比,患病、死亡病例數與傷殘調整壽命年絕對數均呈現持續上升的趨勢[6]。因此,我們應當對 SSc-ILD 給予重視。有研究表明,ILD 從首次就診開始的中位時間不到 5 年,被認為是 SSc 患者死亡的危險因素,5 年內如果 SSc-ILD 患者仍然處于輕癥,那么很少會面臨死亡威脅,所以疾病能夠盡早確診是治療 ILD 面對的首要問題[7]。
本研究共篩選出 178 個差異表達基因,其中上調基因 54 個,下調基因 124 個。GO 富集分析主要富集于細胞因子、病毒感染、信號通路等生物過程上。細胞因子上,SSc-ILD 核心因子是其釋放的轉化生長因子-β(transforming growth factor-β, TGF-β),它可以修復炎癥損傷并促進血管生成,調節免疫,但卻又會促進相關纖維化因子分泌,加劇纖維化[8]。病原體感染上,相關研究表明,B19 細小病毒、人巨細胞病毒、EB 病毒、內源性逆轉錄病毒、幽門螺桿菌、沙眼衣原體和肺炎衣原體等病毒和細菌的感染與環境因素相互作用可能是觸發 SSc 患者免疫反應、血管炎癥和纖維化的因素[9]。信號通路上,參與 SSc-ILD 的信號通路有 TGF-β1/SMAD 蛋白(drosophila mothers against decapentaplegic protein)、磷脂酰肌醇 3-激酶/蛋白激酶 B、Notch 信號通路、Wnt/β-連環蛋白等,其中 TGF-β1/SMAD 研究較多[8]。DO 富集分析顯示細菌性傳染病、肝炎、胃癌等都與 SSc-ILD 有聯系。一項調查對 674 例 SSc 患者進行了隊列研究,結果顯示異常肝功能衰竭發病率為 10.2/100 人年,肝炎、膽汁淤積和膽汁淤積性肝炎的發病率分別為 20.5/100 人年、12.9/100 人年和 20.4/100 人年,肝炎的發生率最高[10]。日本的一項研究納入 405 例 SSc 患者,其中惡性腫瘤患者 27 例,27 例中肺癌占比最高(10 例,37%),其次是乳腺癌(4 例,15%)及胃癌(3 例,11%)[11]。此外韓國的一項研究也調查了 SSc 患者惡性腫瘤發生率,達到 6.1%,其中肺癌占比最高(23.9%),胃癌其次(13%)[12]。兩項研究均發現胃癌發生率相對較高,說明兩者有一定聯系。
KEGG 富集分析顯示差異基因富集于 TNF 信號通路、NOD 樣受體信號通路、細胞因子-細胞因子受體相互作用等。有研究表明,TNF-α 與 SSc 的發病機制存在重要的聯系,它能夠激活核因子 κB(nuclear factor kappa-B, NF-κB)通路釋放炎癥因子白細胞介素(interleukin, IL)-1、IL-6、γ 干擾素等,促進肺間質炎癥和纖維化;上調 TGF-β1 的表達,促進成纖維細胞增殖;激活血管內皮生長因子和血管黏附分子 1,誘發肺動脈高壓及促進纖維化;其受體 TNFR1 和 TNFR2 誘導 IL-6/可溶性 IL-6 受體觸發纖維化,并且 TNF-α 抑制劑運用于 SSc 患者有不錯的療效[13]。NOD 樣家族是機體最大的一類模式識別受體,其中與 SSc 可能相關的有 NOD 樣受體蛋白(NOD-like receptor protein, NLRP)1、NLRP3 等,有研究通過單核苷酸多態性分析探究 NLRP1 與 SSc 的關聯性發現,NLRP1 是 SSc 相關肺纖維化一個新的遺傳易感因子,并且很有可能是通過促 IL-1β 激活[14]。有研究表明 NLRP3 炎癥小體的激活會導致 IL-1β 和 IL-18 的轉錄增加,也會導致 miR-155 的上調,此外細小病毒 B19 感染也會激活 NLRP3 炎癥小體,在單核細胞中產生 IL-1β 和 TNF-α[15]。GSEA 富集分析正常組顯示主要富集于 NOD 樣受體信號通路、RIG-I 樣受體信號通路、Toll 樣受體信號通路等 3 種模式識別受體,其中 NOD 與 KEGG 結果相印證。我們已知 SSc 主要是導致機體炎癥和纖維化,而 Toll 樣受體是機體的前哨站,識別病原體或內部危險信號,刺激下游的信號通路,導致炎癥和免疫改變,也會激活成纖維細胞產生大量的膠原蛋白,促進纖維化[16]。3 種模式識別受體提示了先天免疫在 SSc-ILD 發病機制中的重要作用。
根據兩種算法,我們篩選出的特征基因為 TNFAIP3、ID3、NT5DC2,通過驗證顯示具有較高的診斷價值。現如今 TNFAIP3 備受關注,一是因為現有大量研究表明 TNFAIP3 基因多態性與自身免疫性疾病之間的關聯性,二是因為其能夠減少基因靶向小鼠實驗性自身免疫疾病的發生,三是因為其能夠調控 NF-κB 影響機體對自身免疫疾病的易感性[17]。TNFAIP3 基因位于染色體 6q23.3,編碼鋅指蛋白 A20(zinc finger protein A20, A20),Wang 等[18]對 A20 及其負轉錄調節因子下游調控元件拮抗調節劑(downstream regulatory element antagonist modulator, DREAM)在 SSc 患者和疾病模型中的表達、功能和作用進行了研究,發現當 SSc 患者的 A20 表達降低時 DREAM 表達水平增高,其次 A20 缺失的小鼠表現出 SSc 的疾病特征,而 DREAM 缺失的小鼠則免受 SSc 侵害,此外,在 DREAM 缺失的成纖維細胞中發現 SSc 疾病核心因子 TGF-β 誘導 A20 的表達。有研究發現,ID3 是骨形態發生蛋白的下游靶標,可以抑制促纖維化的 TGF-β2 信號通路[19]。Qiaolongbatu 等[20]通過血漿代謝組學和網絡分析五味子醇 A 及其代謝產物對肺纖維化的治療機制發現 TGF-β1-ID3-肌酸途徑可用來治療肺纖維化。NT5DC2 在心房顫動和肺纖維化的研究中被檢測發現其轉錄上調[21]。以上研究與本研究結果相互佐證。
免疫浸潤分析結果發現多種免疫細胞與 SSc-ILD 的生物學過程密切相關,與診斷基因相關性結果相結合,發現 7 種免疫細胞(漿細胞、靜息肥大細胞、活化自然殺傷細胞、巨噬細胞 M1 和 M2、靜息樹突狀細胞、活化樹突狀細胞)可能參與 SSc-ILD 疾病的發生。有研究發現樹突狀細胞能夠調節免疫反應,還具有調節血管細胞和成纖維細胞樣細胞的能力,與 SSc 的發病機制有重要聯系[22]。漿細胞又稱效應 B 細胞,是常見的纖維化誘導劑,其分泌 IL-6 參與炎癥反應[23]。Frantz 等[24]納入 203 例患者,采集血液和尿液進行分析發現,在 SSc 患者的血液和尿液存在較高濃度的血清可溶性血紅蛋白清道夫受體 163(soluble cluster differentiation 163, sCD163),而 sCD163 則是巨噬細胞 M2 公認的標志物。肥大細胞是 TGF-β 的主要來源,并且可以通過細胞-細胞接觸將 TGF-β 從肥大細胞轉移到成纖維細胞[25]。Padilla 等[26]發現與健康組相比,SSc-ILD 肺中活化的 CD16+ 自然殺傷細胞比例較高,且活化的細胞毒性自然殺傷細胞可以殺死肺泡上皮細胞。這幾種細胞都在已有的研究中顯示出與 SSc-ILD 的關聯性。
綜上所述,TNFAIP3、ID3、NT5DC2 有望成為 SSc-ILD 診斷標志物,漿細胞、靜息肥大細胞、活化自然殺傷細胞、巨噬細胞 M1 和 M2、靜息樹突狀細胞、活化樹突狀細胞可能參與 SSc-ILD 的發生。本研究為生物信息學分析,為下一步臨床研究及實驗提供了一定的理論及數據支持,然而本研究樣本量有限,還需要實驗進一步驗證。
利益沖突:所有作者聲明不存在利益沖突。
系統性硬化癥(systemic sclerosis, SSc)又稱硬皮病,是一種病因尚不明確,以皮膚、器官纖維化及血管損傷為主要臨床特征的自身免疫性疾病。該病主要損傷內臟器官包括肺、心臟、腎臟和腸道,其中以肺部的損害最為常見,也最為嚴重,表現為間質性肺病(interstitial lung disease, ILD)及肺動脈高壓,而 SSc 相關 ILD(SSc-associated ILD, SSc-ILD)患者在 SSc 患者肺部病變中占比高達 90%[1-2]。在治療及疾病控制上,免疫抑制劑目前仍然是 SSc-ILD 最好、最常用的治療方法,此外自體干細胞移植是該疾病的一個潛在嘗試[3]。現如今生物制劑如利妥昔單抗、托珠單抗和尼達尼布等在改善血管、皮膚炎癥和肺部纖維化等癥狀上具有巨大的應用前景[4]。SSc-ILD 的諸多研究使我們對該病有了一定程度的了解,但是其具體發病機制仍未明確,所以深入研究其分子機制對于 SSc-ILD 的早期診斷、早期治療及治療手段都有著十分重要的意義。本研究運用生物信息學從基因表達綜合數據庫(Gene Expression Omnibus, GEO)收集 SSc-ILD 的相關基因數據集,與正常人作對比,以探討該疾病相關生物機制。
1 資料與方法
1.1 數據獲取及準備
以“SSc-ILD”作為關鍵詞從 GEO 數據庫下載 GSE40839(平臺 GPL96)、GSE76808(平臺 GPL571)和 GSE33463(平臺 GPL6947)3 個數據集。3 個數據集總共納入 30 個 SSc-ILD 樣本(病例組)和 55 個健康樣本(對照組)。
根據平臺文件找到探針的信息與基因之間的對應關系,然后運用 Perl 語言將探針的矩陣轉化為基因的表達矩陣。將 GSE40839 和 GSE76808 作為訓練組運用 R 4.2.3 軟件進行數據合并,GSE33463 留作驗證組進行驗證。
1.2 差異基因篩選
運用 R 4.2.3 軟件中的“limma”包對 GSE40839 和 GSE7680 兩組數據進行差異分析,設置條件為|log2FC|>1(其中 FC 表示差異倍數)、P<0.05,篩選出上調、下調的差異基因。
1.3 基因富集分析
運用 R 4.2.3 軟件的“clusterProfiler”“enrichplot”和“ggplot2”包對差異基因進行基因本體(gene ontology, GO)功能富集分析、京都基因和基因組數據庫(Kyoto Encyclopedia of Genes and Genomes, KEGG)通路富集分析、疾病本體(disease ontology, DO)疾病富集分析及基因集富集分析(gene set enrichment analysis, GSEA),獲取差異基因的生物學信息。
1.4 篩選疾病的診斷基因
使用 R 4.2.3 軟件中的“glmnet”包進行最小絕對收縮和選擇算子(least absolute shrinkage and seletion operator, LASSO)算法,找出交叉驗證誤差最小的點,得到特征基因。然后運用支持向量機(support vector machine, SVM)-遞歸特征消除(recursive feature elimination, RFE)算法,設置種子數為 150 個,得到特征基因。將 2 組特征基因取交集得到疾病的診斷基因。最后,在驗證組 GSE33463 進行差異分析,當 P<0.05 說明目標基因在對照組和病例組中具有差異。
1.5 篩選出的診斷基因的診斷價值
運用 R 4.2.3 軟件的“pROC”包將 SSc-ILD 樣本和對照樣本的基因表達數據生成受試者操作特征(receiver operating characteristic, ROC)曲線,利用 ROC 曲線下面積(area under the ROC curve, AUC)來判斷診斷基因的準確性,AUC 越大,篩選出的基因作為疾病診斷基因的準確性就越高。最后在驗證組 GSE33463 中同樣進行 ROC 曲線繪制,根據 AUC 來對診斷基因進行驗證。
1.6 免疫細胞浸潤
運用 CIBERSORT 生物信息學算法獲取每個樣品中免疫細胞的相對含量,設置條件為模擬數目(perm)=1000,P<0.05。使用“corrplot”包分析免疫細胞之間的相關性,繪制相關性矩陣。對免疫細胞進行差異分析,當 P<0.05 表明該免疫細胞在對照組和病例組之間具有差異,使用“vioplot”包繪制小提琴圖。
1.7 診斷基因與浸潤免疫細胞相關性分析
運用 R 4.2.3 軟件的 Spearman 相關性分析對診斷基因與免疫細胞之間進行相關性分析,當 P<0.05 表明該免疫細胞與目標基因之間的相關性有統計學意義,然后使用“ggplot2”包對整個相關性結果繪制棒棒糖圖進行可視化。
2 結果
2.1 差異基因獲取結果
對 GSE40839 和 GSE76808 兩個數據集分析后共獲得差異基因 178 個,其中上調基因 54 個,下調基因 124 個。
2.2 富集分析結果
GO 富集分析結果顯示,在生物過程上,差異基因主要富集在細胞因子介導的信號通路、對病毒的反應、對病毒的防御反應等;在細胞組分上,差異基因主要富集在主軸、染色體、著絲粒區等;在分子功能上,差異基因主要富集在受體配體活性、信號受體激活劑活性、細胞因子活性等。KEGG 富集分析結果顯示,差異基因主要富集于細胞因子-細胞因子受體相互作用、腫瘤壞死因子(tumor necrosis factor, TNF)信號通路、NOD 樣受體信號通路等。DO 疾病富集分析結果顯示,差異基因主要與肝炎、胃癌、細菌性傳染病等有關。GSEA 結果顯示,病例組主要富集在細胞周期、DNA 復制、亨廷頓病、卵母細胞減數分裂、帕金森病等,對照組主要富集在趨化因子信號通路、細胞因子-細胞因子受體相互作用、NOD 樣受體信號通路、RIG-I 樣受體信號通路、Toll 樣受體信號通路等。
2.3 診斷基因及驗證結果
LASSO 回歸篩選出 11 個基因,SVM-RFE 篩選出 28 個基因,兩者交集基因為 9 個,分別是 TNFAIP3、IRF1、PARP12、APOL1、UGCG、CCL2、ADM、ID3、NT5DC2。運用第 3 組數據集 GSE33463 進行差異分析,結果顯示 TNFAIP3、ID3、NT5DC2 這 3 個基因在病例組與對照組間差異有統計學意義(P<0.05),其余 6 個基因組間差異無統計學意義(P>0.05)。
2.4 診斷基因的診斷價值及驗證結果
9 個基因在訓練組 ROC 診斷價值分析中均有較好的結果,但在驗證組 GSE33463 ROC 分析中只有 TNFAIP3、ID3、NT5DC2 有較好的結果(表1)。綜合差異分析、訓練組 ROC 分析、驗證組 ROC 分析結果,我們選擇 TNFAIP3、ID3、NT5DC2 作為該疾病的診斷基因。

2.5 免疫細胞浸潤結果
根據小提琴圖可以得出免疫細胞差異分析有統計學意義(P<0.05)的免疫細胞有漿細胞、巨噬細胞 M1、巨噬細胞 M2、靜息樹突狀細胞、活化樹突狀細胞、靜息肥大細胞、活化肥大細胞(圖1)。免疫細胞浸潤總共篩選出 22 種免疫細胞的相對表達量(圖2)。

SSc-ILD:系統性硬化癥相關間質性肺病

圖中數值代表免疫細胞之間的相關系數,紅色代表正相關,藍色代表負相關
2.6 診斷基因與免疫細胞相關性結果
與 TNFAIP3 基因相關的免疫細胞有 5 個,分別為漿細胞(P=0.013)、靜息肥大細胞(P<0.001)、巨噬細胞 M2(P=0.006)、靜息樹突狀細胞(P=0.008)、活化樹突狀細胞(P<0.001)。與 ID3 基因相關的免疫細胞有 5 個,分別為漿細胞(P=0.030)、活化自然殺傷細胞(P=0.045)、巨噬細胞 M1(P=0.016)、靜息樹突狀細胞(P<0.001)、活化樹突狀細胞(P<0.001)。與 NT5DC2 基因相關的免疫細胞有 5 個,分別為漿細胞(P<0.001)、靜息肥大細胞(P=0.003)、巨噬細胞 M1(P=0.008)、靜息樹突狀細胞(P=0.013)、活化樹突狀細胞(P=0.001)。見圖3。

3 討論
據悉,40% 的 SSc-ILD 患者于發病后的 10 年內陸續死亡[5]。1990 年-2019 年我國 ILD 與其他慢性呼吸疾病相比,患病、死亡病例數與傷殘調整壽命年絕對數均呈現持續上升的趨勢[6]。因此,我們應當對 SSc-ILD 給予重視。有研究表明,ILD 從首次就診開始的中位時間不到 5 年,被認為是 SSc 患者死亡的危險因素,5 年內如果 SSc-ILD 患者仍然處于輕癥,那么很少會面臨死亡威脅,所以疾病能夠盡早確診是治療 ILD 面對的首要問題[7]。
本研究共篩選出 178 個差異表達基因,其中上調基因 54 個,下調基因 124 個。GO 富集分析主要富集于細胞因子、病毒感染、信號通路等生物過程上。細胞因子上,SSc-ILD 核心因子是其釋放的轉化生長因子-β(transforming growth factor-β, TGF-β),它可以修復炎癥損傷并促進血管生成,調節免疫,但卻又會促進相關纖維化因子分泌,加劇纖維化[8]。病原體感染上,相關研究表明,B19 細小病毒、人巨細胞病毒、EB 病毒、內源性逆轉錄病毒、幽門螺桿菌、沙眼衣原體和肺炎衣原體等病毒和細菌的感染與環境因素相互作用可能是觸發 SSc 患者免疫反應、血管炎癥和纖維化的因素[9]。信號通路上,參與 SSc-ILD 的信號通路有 TGF-β1/SMAD 蛋白(drosophila mothers against decapentaplegic protein)、磷脂酰肌醇 3-激酶/蛋白激酶 B、Notch 信號通路、Wnt/β-連環蛋白等,其中 TGF-β1/SMAD 研究較多[8]。DO 富集分析顯示細菌性傳染病、肝炎、胃癌等都與 SSc-ILD 有聯系。一項調查對 674 例 SSc 患者進行了隊列研究,結果顯示異常肝功能衰竭發病率為 10.2/100 人年,肝炎、膽汁淤積和膽汁淤積性肝炎的發病率分別為 20.5/100 人年、12.9/100 人年和 20.4/100 人年,肝炎的發生率最高[10]。日本的一項研究納入 405 例 SSc 患者,其中惡性腫瘤患者 27 例,27 例中肺癌占比最高(10 例,37%),其次是乳腺癌(4 例,15%)及胃癌(3 例,11%)[11]。此外韓國的一項研究也調查了 SSc 患者惡性腫瘤發生率,達到 6.1%,其中肺癌占比最高(23.9%),胃癌其次(13%)[12]。兩項研究均發現胃癌發生率相對較高,說明兩者有一定聯系。
KEGG 富集分析顯示差異基因富集于 TNF 信號通路、NOD 樣受體信號通路、細胞因子-細胞因子受體相互作用等。有研究表明,TNF-α 與 SSc 的發病機制存在重要的聯系,它能夠激活核因子 κB(nuclear factor kappa-B, NF-κB)通路釋放炎癥因子白細胞介素(interleukin, IL)-1、IL-6、γ 干擾素等,促進肺間質炎癥和纖維化;上調 TGF-β1 的表達,促進成纖維細胞增殖;激活血管內皮生長因子和血管黏附分子 1,誘發肺動脈高壓及促進纖維化;其受體 TNFR1 和 TNFR2 誘導 IL-6/可溶性 IL-6 受體觸發纖維化,并且 TNF-α 抑制劑運用于 SSc 患者有不錯的療效[13]。NOD 樣家族是機體最大的一類模式識別受體,其中與 SSc 可能相關的有 NOD 樣受體蛋白(NOD-like receptor protein, NLRP)1、NLRP3 等,有研究通過單核苷酸多態性分析探究 NLRP1 與 SSc 的關聯性發現,NLRP1 是 SSc 相關肺纖維化一個新的遺傳易感因子,并且很有可能是通過促 IL-1β 激活[14]。有研究表明 NLRP3 炎癥小體的激活會導致 IL-1β 和 IL-18 的轉錄增加,也會導致 miR-155 的上調,此外細小病毒 B19 感染也會激活 NLRP3 炎癥小體,在單核細胞中產生 IL-1β 和 TNF-α[15]。GSEA 富集分析正常組顯示主要富集于 NOD 樣受體信號通路、RIG-I 樣受體信號通路、Toll 樣受體信號通路等 3 種模式識別受體,其中 NOD 與 KEGG 結果相印證。我們已知 SSc 主要是導致機體炎癥和纖維化,而 Toll 樣受體是機體的前哨站,識別病原體或內部危險信號,刺激下游的信號通路,導致炎癥和免疫改變,也會激活成纖維細胞產生大量的膠原蛋白,促進纖維化[16]。3 種模式識別受體提示了先天免疫在 SSc-ILD 發病機制中的重要作用。
根據兩種算法,我們篩選出的特征基因為 TNFAIP3、ID3、NT5DC2,通過驗證顯示具有較高的診斷價值。現如今 TNFAIP3 備受關注,一是因為現有大量研究表明 TNFAIP3 基因多態性與自身免疫性疾病之間的關聯性,二是因為其能夠減少基因靶向小鼠實驗性自身免疫疾病的發生,三是因為其能夠調控 NF-κB 影響機體對自身免疫疾病的易感性[17]。TNFAIP3 基因位于染色體 6q23.3,編碼鋅指蛋白 A20(zinc finger protein A20, A20),Wang 等[18]對 A20 及其負轉錄調節因子下游調控元件拮抗調節劑(downstream regulatory element antagonist modulator, DREAM)在 SSc 患者和疾病模型中的表達、功能和作用進行了研究,發現當 SSc 患者的 A20 表達降低時 DREAM 表達水平增高,其次 A20 缺失的小鼠表現出 SSc 的疾病特征,而 DREAM 缺失的小鼠則免受 SSc 侵害,此外,在 DREAM 缺失的成纖維細胞中發現 SSc 疾病核心因子 TGF-β 誘導 A20 的表達。有研究發現,ID3 是骨形態發生蛋白的下游靶標,可以抑制促纖維化的 TGF-β2 信號通路[19]。Qiaolongbatu 等[20]通過血漿代謝組學和網絡分析五味子醇 A 及其代謝產物對肺纖維化的治療機制發現 TGF-β1-ID3-肌酸途徑可用來治療肺纖維化。NT5DC2 在心房顫動和肺纖維化的研究中被檢測發現其轉錄上調[21]。以上研究與本研究結果相互佐證。
免疫浸潤分析結果發現多種免疫細胞與 SSc-ILD 的生物學過程密切相關,與診斷基因相關性結果相結合,發現 7 種免疫細胞(漿細胞、靜息肥大細胞、活化自然殺傷細胞、巨噬細胞 M1 和 M2、靜息樹突狀細胞、活化樹突狀細胞)可能參與 SSc-ILD 疾病的發生。有研究發現樹突狀細胞能夠調節免疫反應,還具有調節血管細胞和成纖維細胞樣細胞的能力,與 SSc 的發病機制有重要聯系[22]。漿細胞又稱效應 B 細胞,是常見的纖維化誘導劑,其分泌 IL-6 參與炎癥反應[23]。Frantz 等[24]納入 203 例患者,采集血液和尿液進行分析發現,在 SSc 患者的血液和尿液存在較高濃度的血清可溶性血紅蛋白清道夫受體 163(soluble cluster differentiation 163, sCD163),而 sCD163 則是巨噬細胞 M2 公認的標志物。肥大細胞是 TGF-β 的主要來源,并且可以通過細胞-細胞接觸將 TGF-β 從肥大細胞轉移到成纖維細胞[25]。Padilla 等[26]發現與健康組相比,SSc-ILD 肺中活化的 CD16+ 自然殺傷細胞比例較高,且活化的細胞毒性自然殺傷細胞可以殺死肺泡上皮細胞。這幾種細胞都在已有的研究中顯示出與 SSc-ILD 的關聯性。
綜上所述,TNFAIP3、ID3、NT5DC2 有望成為 SSc-ILD 診斷標志物,漿細胞、靜息肥大細胞、活化自然殺傷細胞、巨噬細胞 M1 和 M2、靜息樹突狀細胞、活化樹突狀細胞可能參與 SSc-ILD 的發生。本研究為生物信息學分析,為下一步臨床研究及實驗提供了一定的理論及數據支持,然而本研究樣本量有限,還需要實驗進一步驗證。
利益沖突:所有作者聲明不存在利益沖突。