引用本文: 王凡, 李培, 許芳, 李風森. 特發性肺間質纖維化中長鏈非編碼 RNA 及轉錄因子的生物信息學挖掘. 中國呼吸與危重監護雜志, 2020, 19(6): 554-562. doi: 10.7507/1671-6205.201909064 復制
肺間質纖維化是一種以成纖維細胞/肌成纖維細胞的異常激活,以及膠原蛋白從肺泡到肺間質基質中的過度沉積為特征的持續性肺組織損傷,其中特發性肺間質纖維化(idiopathic pulmonary fibrosis,IPF)是間質性肺炎中最常見的類型,其 3 年到 5 年的中位生存率僅為 20% 到 30%[1-2]。由于 IPF 的復雜性和異質性,該病在全球范圍內的發病率穩步上升,且與高齡呈正相關[3]。盡管近 5 年來 IPF 的藥物治療(如吡非尼酮、尼達尼布)取得了一定的進展,但由于 IPF 病程多變、不可預測、個體差異較大,到目前為止治療效果并不理想[4]。IPF 的發病機制尚不明確,但公認的病理過程是由炎癥、吸煙、病毒、環境等因素所致的肺泡上皮損傷,并隨著肺組織結構的重構而使肺功能衰竭逐漸加重[5]。有研究表明 IPF 的發病與肺組織損傷區域的纖維細胞募集以及上皮間充質轉化有關。某些遺傳易感性,如Ⅱ型肺泡上皮細胞功能障礙也會增加 IPF 的易感性。此外,目前新興的研究方法,如蛋白質組和轉錄組等分析可揭示部分與 IPF 發病相關的基因和通路,包括 轉化生長因子-β、Wnt、基質金屬蛋白酶、白細胞介素-13 等[6-8]。然而,IPF 在纖維化病理中的潛在機制和纖維化發展的詳細過程仍不為人所知,因此肺間質纖維化的進程是不可預測的。
長鏈非編碼 RNA(long non-coding RNAs,lncRNAs)是一類在哺乳動物基因組中被普遍轉錄,在表觀遺傳調控、轉錄調控以及轉錄后調控這 3 個層面發揮調控基因表達的作用,其相關研究已經受到越來越多的關注[9],為 IPF 的潛在分子機制提供了一個新的視角[10]。然而,在 IPF 領域中,涉及轉錄組的相關研究對于低豐度轉錄本的分析結果不太準確,而且涉及不同陣列平臺的轉錄本的研究較少等諸多因素導致假陽性結論[11-12]。因此,基于數據庫挖掘的進一步生物信息學分析,不僅可以為轉錄調控提供一個全面的視角,還可以為轉錄后調控提供一個全面的視角,并可能揭示與 IPF 發病機制和進展相關的更可靠、更一致的調控因子。本研究基于 NCBI 基因表達芯片數據庫(Gene Expression Omnibus,GEO)[13]的數據挖掘,進行深度生物信息學綜合分析,從而獲得在 IPF 中差異表達的 lncRNAs 和轉錄因子(transcription factors,TFs),通過 IPF 中差異表達的基因及其相關基因表達網絡,為 IPF 的發病及進展的調控機制提供了一個新的視角,旨在為減輕或逆轉肺纖維化提供有效治療靶點。
1 資料及方法
1.1 數據來源及注釋
GEO 是免費的芯片數據庫,其中包括微陣列/基因圖譜、二代測序、雜交陣列和芯片數據。本研究的所有數據均來自 GEO 中的三個數據集 GSE2052、GSE44723 和 GSE24206。GSE2052 的微陣列數據是基于 GPL1739 平臺,其樣本來源于 15 個 IPF 和 11 個正常肺組織;GSE44723 數據是基于 GPL570 平臺,其樣本來源于 10 個 IPF 和 4 個正常肺組織;GSE24206 數據是基于 GPL570 平臺,其樣本來源于 17 個 IPF 和 6 個正常肺組織[14-17]。
1.2 篩選 IPF 中差異表達的基因
從上述 3 個數據集下載 CEL 格式的原始數據用于后續生物信息分析。采用 R 軟件(3.6.0 版本)中的 limma 包進行差異基因的分析[18]。采用 Cluster 3.0 進行無監督分層聚類分析將數據進行歸一化處理以及 log2 轉換,對來自多個探針組的基因進行預處理后,采用 t 檢驗計算 P 值,當│logFC│>1 以及 P<0.05 時作為截取值,選擇差異表達的基因[19]。繪制表達基因的火山圖,采用韋恩圖(Venn 圖)方法,獲得三個數據集中共同異常表達的基因。
1.3 差異基因的生物功能富集分析
利用在線生物信息學數據庫(The Database for Annotation,Visualization and Integrated Discovery,DAVID v6.7)(
1.4 構建蛋白質–蛋白質互作網絡
對 GO 功能和 KEGG 通路富集分析的 DEGs 進行蛋白質–蛋白質互作網絡(protein-protein interaction network,PPI 網絡)分析并篩選出核心基因(Hub gene),為 IPF 的發病機制提供一個新的視角。通過基因交互檢索在線數據庫(STRING,11.0 版本)(
1.5 篩選關鍵基因
采用 Cytoscape 中的 MCODE(1.4.2 版本)插件,基于所確定基因網絡的拓撲結構,對密集連接域進行聚類,從而篩選基因網絡中的關鍵基因。Cytoscape 中的 ClueGO(2.5.1 版本)插件對所篩選的關鍵基因進行 GO 和通路富集功能分析。并進一步采用 Cytoscape 中的 BiNGO(3.0.3 版本)插件構建所篩選關鍵基因的生物通路關系網絡[25-27]。采用超幾何檢驗方法,獲得 IPF 中的差異表達的 lncRNAs 及 TFs,其中 P<0.05 為差異有統計學意義。
1.6 實時熒光定量聚合酶鏈反應對篩選關鍵基因的驗證
參考 2016 年《特發性肺纖維化診斷和治療中國專家共識》[28],排除其他已知的可能導致繼發性肺間質纖維化的因素,如職業暴露、藥物性肺損傷、結締組織疾病;未行肺組織活檢者,但胸部 HRCT 應呈典型普通型間質性肺炎改變。符合以上兩條即可診斷為 IPF。根據以上診斷標準,選取的 16 例 IPF 病例均為 2017 年 10 月至 2019 年 3 月新疆維吾爾自治區中醫院呼吸科門診就診及呼吸科病房收治的患者,根據公式:,式中
,
,采用雙側檢驗,
,
,
估算出兩組樣本量分別為 16 例,隨機將健康體檢者設置為對照組。IPF 組中男 10 例,女 6 例,年齡最小 56 歲,最大 80 歲,平均年齡(70.2±21.1)歲,病程最短 2 年,最長 8 年。對照組中男 8 例,女 8 例,年齡最小 45 歲,最大 68 歲,平均年齡(71.1±15.8)歲。經新疆維吾爾自治區中醫院倫理委員會審查并批準,批準號 2018XE0109-1,所有參與者均簽署知情同意書。
提取 IPF 患者及對照組的外周血單個核細胞,隨后采用 TRlzol 法提取 RNA。使用 PrimeScriptTM RT reagent Kit 逆轉錄 RNA,每個樣本的 cDNA 以 GAPDH 作為內參,目的和內參基因引物序列見表 1。使用 StepOnePlus?Real-time PCR 系統進行實時熒光定量聚合酶鏈反應(real-time fluorescence quantitative polymerase chain reaction,RT-qPCR)。結果表示為 3 次重復的均值,采用 2-??ct 方法進行量化。采用 SPSS 22.0 和 graphpad prism 6.0 進行統計分析和圖表繪制。計量資料以均數±標準差(±s)表示,計數資料采用 χ2 檢驗比較差異。三組以上數據比較,對于方差齊性時采用方差分析,組間兩兩比較采用 SNK 和 LSD 法,方差不齊時采用非參數檢驗;兩組數據比較,方差齊時采用 t 檢驗,方差不齊的數據資料則采用 t’ 檢驗。P<0.05 為差異有統計學意義。

2 結果
2.1 鑒定 IPF 中差異表達的基因
GEO 中三個數據集 GSE2052、GSE44723 以及 GSE24206 的原始數據經歸一化處理(圖 1a~c)。與正常肺組織相比,IPF 中共有 8483 個異常表達的基因,其中包括 988 個表達上調和 7495 個表達下調的基因。采用韋恩圖方法,獲得三個數據集中共同異常表達的 29 個基因(圖 1d)。

a~c. 三個數據集的 DEGs 分布的火山圖,繪制上調基因(紅點)和下調基因(藍點)。沒有顯著變化的基因被標記為灰點。d. 從這三個數據集中使用 Venn 圖識別 29 個常見的變化數據集。(http://www.ehbio.com/ImageGP/index.php/Home/)。不同的顏色區域表示不同的數據集。重疊區域表示共同表達的差異基因
2.2 DEGs 的 GO 和 KEGG 富集分析
結果如表 2 所示。前 6 位 GO 功能分析結果顯示,在 IPF 中 DEGs 中顯著富集的 BPs 主要集中在細胞黏附、細胞增殖調控、微管發育、骨骼系統發育等。前 6 位顯著富集的 MFs 主要集中在鈣離子結合、細胞因子結合、趨化因子活性、同源蛋白結合、趨化因子受體結合、微管結合等。前 6 位顯著富集的 CCs 主要集中在胞外區域部分、胞外空間、胞外基質、蛋白質胞外基質、質膜部分以及質膜類固有成分等。前 6 位顯著富集的 KEGG 通路主要集中在細胞外基質–受體交互、細胞因子–細胞因子受體交互、黏著斑、補體系統、谷胱甘肽代謝、苯丙氨酸代謝類。

2.3 分子模塊的構建和富集分析
將所篩選出的 DEGs,采用 STRING 在線數據庫構建 PPI,使用 Cytoscape 中的 ClusterONE 插件獲得 18 個分子模塊(圖 2a)。進一步采用 DAVID 分析這 18 個分子模塊所涉及基因的功能和通路富集信息(圖 2b~d)。前 10 個分子模塊中顯著富集的 BPs 主要集中在蛋白多聚化、纖毛基底體–質膜對接、高爾基體囊泡轉運、受體介導的內吞作用、Ⅰ型干擾素信號通路、染色體分離、核苷酸生物合成、鏈間交聯修復、核苷酸切除修復、核分裂等。前 10 個分子模塊中顯著富集的 CCs 主要集中在泛素連接酶復合物、微管組織中心部分、微管相關復合物、MHC 蛋白復合物、染色體中心體區、鳥苷環化酶復合物、DNA 修復復合物等。前 10 個分子模塊中顯著富集的 MFs 主要集中在泛素蛋白轉移酶活性、細胞骨架結構成分、微管運動活性、網格蛋白結合、肽抗原結合、著絲粒結合、磷酸轉移酶活性、DNA 的催化活性等(表 3)。這 18 個分子模塊中的 KEGG 通路富集結果集中在泛素介導的蛋白酶解、剪接體、嘌呤代謝、谷胱甘肽代謝、核糖體、細胞周期等。

a. 采用 STRING,構建 PPI 網絡;b~d. 采用 GO 分析確定模塊基因的生物功能;e. 采用 KEGG 分析,識別模塊基因的生物學通路信息

2.4 關鍵基因的篩選
采用 Cytoscape 中的 BiNGO 插件構建 IPF 中 DEGs 的生物網絡,結果顯示大部分的生物系統集中在細胞大分子代謝、核酸磷酸二酯鍵水解、RNA 加工等(圖 3a)。采用 Cytoscape 的另一個插件 ClueGO 注釋和可視化生物功能,結果顯示大部分生物功能集中在谷胱甘肽代謝、核苷酸切除修復、泛素介導的蛋白酶解、細胞色素 P450 的生物代謝、核糖體類等方面(圖 3b)。

a. 利用 Cytoscape 的 BiNGO 插件,對顯著 DEGs 進行生物網絡構建;b. 利用 Cytoscape 的 ClueGO 插件,GO 和 KEGG 分析確定顯著的差異基因;c. 利用超幾何檢驗鑒定模塊基因中的 ncRNAs;d. 利用超幾何檢驗鑒定模塊基因中的 TFs
通過超幾何檢驗方法獲得 IPF 中差異表達的關鍵 lncRNAs 及 TFs。在其中有 13 個模塊共富集 30 個 microRNAs 和 4 個 lncRNAs,其中的 10 個分子模塊中共富集 44 個 TFs(圖 3c-3d)。根據富集分數,相關的非編碼 RNA 主要富集在與泛素介導蛋白酶解 m1 模塊,剪接體 m2 模塊,細胞周期 m14 及 m18 模塊,以及內吞作用 m12 模塊,其中的 lncRNAs 有 MALAT1(模塊連接數=14,P=7.6×10–3),FENDRR(模塊連接數=18,P=2.5×10–3),RNU1-1(模塊連接數=23,P=0)以及 TUG1(模塊連接數=17,P=4.03×10–7)。根據富集分數而確定的 TFs,其生物功能主要聚集在與 GPR 信號通路相關 m3 模塊,細胞外基質–受體交互 m4 模塊,谷胱甘肽代謝 m5 模塊,刺激神經配體–受體交互 m9 模塊,胞內吞 m12 模塊,細胞粘附 m13 模塊,核苷酸切除修復 m17 模塊,同源重組 m16 模塊,以及細胞周期 m14、m18 模塊,其中的 TFs 有 E2F1(模塊連接數=5,P=3×10–4),TP53(模塊連接數=6,P=2×10–4),YBX1(模塊連接數=4,P=1.24×10–5),E2F4(模塊連接數=3,P=2×10–4),SP1(模塊連接數=7,P=4.3×10–3),BRCA1(模塊連接數=3,P=2.8×10–3),CREB1(模塊連接數=5,P=4.74×10–5),CIITA(模塊連接數=5,P=4.19×10–7)。在所構建的分子網絡中,根據節點顏色和 P 值等作為選擇候選基因的依據,選擇 MALAT1、FENDRR,以及 E2F1、YBX1 作為本研究的初步候選 lncRNAs 及 TFs。這些候選基因可能在細胞周期調控、甲基化、乙酰轉移酶活性和細胞周期等層面發揮重要作用。
2.5 RT-qPCR 驗證 IPF 中 lncRNAs 和 TFs
RT-qPCR 結果顯示,lncRNA MALAT1、E2F1 在 IPF 患者外周血中高表達,而在對照組中低表達(P<0.001),YBX1 在 IPF 患者外周血中低表達,而在對照組中高表達(P<0.001),FENDRR 在兩組患者表達差異不顯著(P>0.05)。具體見表 4。

3 討論
肺間質纖維化是以病因不明的限制性氣道重塑為主要特征,盡管越來越多的證據表明活化的成纖維細胞可能對 IPF 的發病機制和進展有重要影響,但參與 IPF 調控的潛在分子機制仍不清楚。近 10 年來,表觀遺傳學涉及在沒有改變 DNA 序列,而基因功能出現可逆的、可遺傳的變化,并已逐漸成為研究熱點。大量證據表明,包括 lncRNAs 在內的表觀遺傳學過程可導致限制性肺結構重構。lncRNAs 作為一種多功能的適配體分子,可以與 DNA、蛋白質以及特定的 RNA 相結合,通過調控 mRNA 的衰減、剪接、基因環化等,在調控基因表達方面發揮多種功能[29-32]。雖然高通量測序技術已經揭示出越來越多的 lncRNAs 與多種疾病相關,但 lncRNAs 參與 IPF 的分子機制仍缺乏足夠的認識。lncRNAs 微陣列分析和 RNA 測序等高通量測序技術有助于探索 IPF 基因組水平的改變,揭示準確的診斷標志物和治療方法。然而,在單個數據集的分析中可能只會顯示單方面的結果,并且可能會出現一定的假陽性率[14]。因此,我們整合了來自 IPF 和正常肺組織的三個微陣列數據集的數據分析。
大量涉及 IPF 發病機制的研究發現,成纖維細胞和肌成纖維細胞過度積累,并伴有肺泡細胞外基質的沉積,是 IPF 病理過程的主要特征[33]。在這些過程中,主要的病理特征表現在肌成纖維細胞持續激活及成纖維細胞不斷抵抗凋亡、α2β1 整合素及病理通路的異常激活等[34-36]。本研究整合了 GSE2052、GSE44723、GSE24206 等 3 個 mRNA 芯片數據集的原始數據,經過一系列生物信息學分析獲得 18 個與 IPF 相關的 DEGs 模塊,隨后進行 GO 和 KEGG 富集分析等,與既往機制研究結果一致,本研究發現差異基因的生物功能主要集中在細胞粘附、細胞骨架發育、細胞外基質改變、細胞因子相互作用、多聚泛素化等方面。經過一系列生物信息分析,并通過收集 IPF 的血液標本及對照組的血液標本進行驗證,最終獲得與 IPF 發病相關的關鍵基因中 MALAT1、E2F1 在 IPF 組中高表達,而在對照組中低表達,YBX1 在 IPF 組中低表達,而在對照組中高表達。轉移相關肺腺癌轉錄本 1(MALAT1),也稱為核富集豐富轉錄本 2(NEAT2),涉及以下生物學功能類別:核糖核酸蛋白復合物的分子支架、基因轉錄調控和細胞周期調控。大量研究表明 lncRNA MALAT1 在多種實體腫瘤、感染性肺損傷、心肌或腎缺血再灌注損傷、心肌纖維化、肝纖維化、硅誘導的肺纖維化等多種疾病的發病機制和進展中均有作用[37-44]。E2F1 是 E2F 轉錄因子家族中的成員,參與調節細胞周期,介導細胞增殖和凋亡。相關文獻檢索結果僅揭示了尼達尼布治療后 E2F1 和 miRNA 表達譜的變化,未揭示可能的 E2F1 相關分子機制[45]。YBX1 為 Y-Box 結合蛋白 1,是 Y-BOX 結合蛋白家族中的成員,參與調控轉錄翻譯、premRNA 剪接等[46]。
高通量測序技術和分子機制的大規模研究為 IPF 的起源和發展提供了線索,但進一步闡明 IPF 的發病機制仍需進一步研究。考慮到單個微陣列數據集分析可能出現假陽性結果、樣本量有限以及潛在的異質性,我們整合了來自三個數據集(GSE2052、GSE24206 和 GSE44723)的數據,所獲得的 DEGs 所涉及的 IPF 發病分子機制仍需進一步探索。本研究的局限性在于,雖然通過對多個數據集的數據挖掘和詳細的生物信息學分析,提取了與 IPF 相關的 DEGs,并根據分子相關網絡獲得 lncRNAs 和 TFs 等關鍵基因,雖經 RT-qPCR 技術獲得在 mRNA 水平的表達驗證,但后期仍需進行蛋白免疫印跡、免疫組織化學分析等相關實驗來驗證這些基因在 IPF 中的表達。除了通過分析三個數據集來識別與 IPF 相關的 DEGs 和關鍵基因外,還需要通過新的技術和生物信息學分析方法來探索更加可靠和準確的 DGEs。第二,必須在體內和體外進行進一步的功能喪失和功能獲得實驗證實。本研究為 IPF 的發病機制和進展提供了可靠而全面的視角,通過生物信息學分析可獲得大量與 IPF 發病相關的潛在分子,并能通過后期的實驗驗證,為 IPF 的診斷和治療提供更詳細的依據。
利益沖突:本研究不涉及任何利益沖突。
肺間質纖維化是一種以成纖維細胞/肌成纖維細胞的異常激活,以及膠原蛋白從肺泡到肺間質基質中的過度沉積為特征的持續性肺組織損傷,其中特發性肺間質纖維化(idiopathic pulmonary fibrosis,IPF)是間質性肺炎中最常見的類型,其 3 年到 5 年的中位生存率僅為 20% 到 30%[1-2]。由于 IPF 的復雜性和異質性,該病在全球范圍內的發病率穩步上升,且與高齡呈正相關[3]。盡管近 5 年來 IPF 的藥物治療(如吡非尼酮、尼達尼布)取得了一定的進展,但由于 IPF 病程多變、不可預測、個體差異較大,到目前為止治療效果并不理想[4]。IPF 的發病機制尚不明確,但公認的病理過程是由炎癥、吸煙、病毒、環境等因素所致的肺泡上皮損傷,并隨著肺組織結構的重構而使肺功能衰竭逐漸加重[5]。有研究表明 IPF 的發病與肺組織損傷區域的纖維細胞募集以及上皮間充質轉化有關。某些遺傳易感性,如Ⅱ型肺泡上皮細胞功能障礙也會增加 IPF 的易感性。此外,目前新興的研究方法,如蛋白質組和轉錄組等分析可揭示部分與 IPF 發病相關的基因和通路,包括 轉化生長因子-β、Wnt、基質金屬蛋白酶、白細胞介素-13 等[6-8]。然而,IPF 在纖維化病理中的潛在機制和纖維化發展的詳細過程仍不為人所知,因此肺間質纖維化的進程是不可預測的。
長鏈非編碼 RNA(long non-coding RNAs,lncRNAs)是一類在哺乳動物基因組中被普遍轉錄,在表觀遺傳調控、轉錄調控以及轉錄后調控這 3 個層面發揮調控基因表達的作用,其相關研究已經受到越來越多的關注[9],為 IPF 的潛在分子機制提供了一個新的視角[10]。然而,在 IPF 領域中,涉及轉錄組的相關研究對于低豐度轉錄本的分析結果不太準確,而且涉及不同陣列平臺的轉錄本的研究較少等諸多因素導致假陽性結論[11-12]。因此,基于數據庫挖掘的進一步生物信息學分析,不僅可以為轉錄調控提供一個全面的視角,還可以為轉錄后調控提供一個全面的視角,并可能揭示與 IPF 發病機制和進展相關的更可靠、更一致的調控因子。本研究基于 NCBI 基因表達芯片數據庫(Gene Expression Omnibus,GEO)[13]的數據挖掘,進行深度生物信息學綜合分析,從而獲得在 IPF 中差異表達的 lncRNAs 和轉錄因子(transcription factors,TFs),通過 IPF 中差異表達的基因及其相關基因表達網絡,為 IPF 的發病及進展的調控機制提供了一個新的視角,旨在為減輕或逆轉肺纖維化提供有效治療靶點。
1 資料及方法
1.1 數據來源及注釋
GEO 是免費的芯片數據庫,其中包括微陣列/基因圖譜、二代測序、雜交陣列和芯片數據。本研究的所有數據均來自 GEO 中的三個數據集 GSE2052、GSE44723 和 GSE24206。GSE2052 的微陣列數據是基于 GPL1739 平臺,其樣本來源于 15 個 IPF 和 11 個正常肺組織;GSE44723 數據是基于 GPL570 平臺,其樣本來源于 10 個 IPF 和 4 個正常肺組織;GSE24206 數據是基于 GPL570 平臺,其樣本來源于 17 個 IPF 和 6 個正常肺組織[14-17]。
1.2 篩選 IPF 中差異表達的基因
從上述 3 個數據集下載 CEL 格式的原始數據用于后續生物信息分析。采用 R 軟件(3.6.0 版本)中的 limma 包進行差異基因的分析[18]。采用 Cluster 3.0 進行無監督分層聚類分析將數據進行歸一化處理以及 log2 轉換,對來自多個探針組的基因進行預處理后,采用 t 檢驗計算 P 值,當│logFC│>1 以及 P<0.05 時作為截取值,選擇差異表達的基因[19]。繪制表達基因的火山圖,采用韋恩圖(Venn 圖)方法,獲得三個數據集中共同異常表達的基因。
1.3 差異基因的生物功能富集分析
利用在線生物信息學數據庫(The Database for Annotation,Visualization and Integrated Discovery,DAVID v6.7)(
1.4 構建蛋白質–蛋白質互作網絡
對 GO 功能和 KEGG 通路富集分析的 DEGs 進行蛋白質–蛋白質互作網絡(protein-protein interaction network,PPI 網絡)分析并篩選出核心基因(Hub gene),為 IPF 的發病機制提供一個新的視角。通過基因交互檢索在線數據庫(STRING,11.0 版本)(
1.5 篩選關鍵基因
采用 Cytoscape 中的 MCODE(1.4.2 版本)插件,基于所確定基因網絡的拓撲結構,對密集連接域進行聚類,從而篩選基因網絡中的關鍵基因。Cytoscape 中的 ClueGO(2.5.1 版本)插件對所篩選的關鍵基因進行 GO 和通路富集功能分析。并進一步采用 Cytoscape 中的 BiNGO(3.0.3 版本)插件構建所篩選關鍵基因的生物通路關系網絡[25-27]。采用超幾何檢驗方法,獲得 IPF 中的差異表達的 lncRNAs 及 TFs,其中 P<0.05 為差異有統計學意義。
1.6 實時熒光定量聚合酶鏈反應對篩選關鍵基因的驗證
參考 2016 年《特發性肺纖維化診斷和治療中國專家共識》[28],排除其他已知的可能導致繼發性肺間質纖維化的因素,如職業暴露、藥物性肺損傷、結締組織疾病;未行肺組織活檢者,但胸部 HRCT 應呈典型普通型間質性肺炎改變。符合以上兩條即可診斷為 IPF。根據以上診斷標準,選取的 16 例 IPF 病例均為 2017 年 10 月至 2019 年 3 月新疆維吾爾自治區中醫院呼吸科門診就診及呼吸科病房收治的患者,根據公式:,式中
,
,采用雙側檢驗,
,
,
估算出兩組樣本量分別為 16 例,隨機將健康體檢者設置為對照組。IPF 組中男 10 例,女 6 例,年齡最小 56 歲,最大 80 歲,平均年齡(70.2±21.1)歲,病程最短 2 年,最長 8 年。對照組中男 8 例,女 8 例,年齡最小 45 歲,最大 68 歲,平均年齡(71.1±15.8)歲。經新疆維吾爾自治區中醫院倫理委員會審查并批準,批準號 2018XE0109-1,所有參與者均簽署知情同意書。
提取 IPF 患者及對照組的外周血單個核細胞,隨后采用 TRlzol 法提取 RNA。使用 PrimeScriptTM RT reagent Kit 逆轉錄 RNA,每個樣本的 cDNA 以 GAPDH 作為內參,目的和內參基因引物序列見表 1。使用 StepOnePlus?Real-time PCR 系統進行實時熒光定量聚合酶鏈反應(real-time fluorescence quantitative polymerase chain reaction,RT-qPCR)。結果表示為 3 次重復的均值,采用 2-??ct 方法進行量化。采用 SPSS 22.0 和 graphpad prism 6.0 進行統計分析和圖表繪制。計量資料以均數±標準差(±s)表示,計數資料采用 χ2 檢驗比較差異。三組以上數據比較,對于方差齊性時采用方差分析,組間兩兩比較采用 SNK 和 LSD 法,方差不齊時采用非參數檢驗;兩組數據比較,方差齊時采用 t 檢驗,方差不齊的數據資料則采用 t’ 檢驗。P<0.05 為差異有統計學意義。

2 結果
2.1 鑒定 IPF 中差異表達的基因
GEO 中三個數據集 GSE2052、GSE44723 以及 GSE24206 的原始數據經歸一化處理(圖 1a~c)。與正常肺組織相比,IPF 中共有 8483 個異常表達的基因,其中包括 988 個表達上調和 7495 個表達下調的基因。采用韋恩圖方法,獲得三個數據集中共同異常表達的 29 個基因(圖 1d)。

a~c. 三個數據集的 DEGs 分布的火山圖,繪制上調基因(紅點)和下調基因(藍點)。沒有顯著變化的基因被標記為灰點。d. 從這三個數據集中使用 Venn 圖識別 29 個常見的變化數據集。(http://www.ehbio.com/ImageGP/index.php/Home/)。不同的顏色區域表示不同的數據集。重疊區域表示共同表達的差異基因
2.2 DEGs 的 GO 和 KEGG 富集分析
結果如表 2 所示。前 6 位 GO 功能分析結果顯示,在 IPF 中 DEGs 中顯著富集的 BPs 主要集中在細胞黏附、細胞增殖調控、微管發育、骨骼系統發育等。前 6 位顯著富集的 MFs 主要集中在鈣離子結合、細胞因子結合、趨化因子活性、同源蛋白結合、趨化因子受體結合、微管結合等。前 6 位顯著富集的 CCs 主要集中在胞外區域部分、胞外空間、胞外基質、蛋白質胞外基質、質膜部分以及質膜類固有成分等。前 6 位顯著富集的 KEGG 通路主要集中在細胞外基質–受體交互、細胞因子–細胞因子受體交互、黏著斑、補體系統、谷胱甘肽代謝、苯丙氨酸代謝類。

2.3 分子模塊的構建和富集分析
將所篩選出的 DEGs,采用 STRING 在線數據庫構建 PPI,使用 Cytoscape 中的 ClusterONE 插件獲得 18 個分子模塊(圖 2a)。進一步采用 DAVID 分析這 18 個分子模塊所涉及基因的功能和通路富集信息(圖 2b~d)。前 10 個分子模塊中顯著富集的 BPs 主要集中在蛋白多聚化、纖毛基底體–質膜對接、高爾基體囊泡轉運、受體介導的內吞作用、Ⅰ型干擾素信號通路、染色體分離、核苷酸生物合成、鏈間交聯修復、核苷酸切除修復、核分裂等。前 10 個分子模塊中顯著富集的 CCs 主要集中在泛素連接酶復合物、微管組織中心部分、微管相關復合物、MHC 蛋白復合物、染色體中心體區、鳥苷環化酶復合物、DNA 修復復合物等。前 10 個分子模塊中顯著富集的 MFs 主要集中在泛素蛋白轉移酶活性、細胞骨架結構成分、微管運動活性、網格蛋白結合、肽抗原結合、著絲粒結合、磷酸轉移酶活性、DNA 的催化活性等(表 3)。這 18 個分子模塊中的 KEGG 通路富集結果集中在泛素介導的蛋白酶解、剪接體、嘌呤代謝、谷胱甘肽代謝、核糖體、細胞周期等。

a. 采用 STRING,構建 PPI 網絡;b~d. 采用 GO 分析確定模塊基因的生物功能;e. 采用 KEGG 分析,識別模塊基因的生物學通路信息

2.4 關鍵基因的篩選
采用 Cytoscape 中的 BiNGO 插件構建 IPF 中 DEGs 的生物網絡,結果顯示大部分的生物系統集中在細胞大分子代謝、核酸磷酸二酯鍵水解、RNA 加工等(圖 3a)。采用 Cytoscape 的另一個插件 ClueGO 注釋和可視化生物功能,結果顯示大部分生物功能集中在谷胱甘肽代謝、核苷酸切除修復、泛素介導的蛋白酶解、細胞色素 P450 的生物代謝、核糖體類等方面(圖 3b)。

a. 利用 Cytoscape 的 BiNGO 插件,對顯著 DEGs 進行生物網絡構建;b. 利用 Cytoscape 的 ClueGO 插件,GO 和 KEGG 分析確定顯著的差異基因;c. 利用超幾何檢驗鑒定模塊基因中的 ncRNAs;d. 利用超幾何檢驗鑒定模塊基因中的 TFs
通過超幾何檢驗方法獲得 IPF 中差異表達的關鍵 lncRNAs 及 TFs。在其中有 13 個模塊共富集 30 個 microRNAs 和 4 個 lncRNAs,其中的 10 個分子模塊中共富集 44 個 TFs(圖 3c-3d)。根據富集分數,相關的非編碼 RNA 主要富集在與泛素介導蛋白酶解 m1 模塊,剪接體 m2 模塊,細胞周期 m14 及 m18 模塊,以及內吞作用 m12 模塊,其中的 lncRNAs 有 MALAT1(模塊連接數=14,P=7.6×10–3),FENDRR(模塊連接數=18,P=2.5×10–3),RNU1-1(模塊連接數=23,P=0)以及 TUG1(模塊連接數=17,P=4.03×10–7)。根據富集分數而確定的 TFs,其生物功能主要聚集在與 GPR 信號通路相關 m3 模塊,細胞外基質–受體交互 m4 模塊,谷胱甘肽代謝 m5 模塊,刺激神經配體–受體交互 m9 模塊,胞內吞 m12 模塊,細胞粘附 m13 模塊,核苷酸切除修復 m17 模塊,同源重組 m16 模塊,以及細胞周期 m14、m18 模塊,其中的 TFs 有 E2F1(模塊連接數=5,P=3×10–4),TP53(模塊連接數=6,P=2×10–4),YBX1(模塊連接數=4,P=1.24×10–5),E2F4(模塊連接數=3,P=2×10–4),SP1(模塊連接數=7,P=4.3×10–3),BRCA1(模塊連接數=3,P=2.8×10–3),CREB1(模塊連接數=5,P=4.74×10–5),CIITA(模塊連接數=5,P=4.19×10–7)。在所構建的分子網絡中,根據節點顏色和 P 值等作為選擇候選基因的依據,選擇 MALAT1、FENDRR,以及 E2F1、YBX1 作為本研究的初步候選 lncRNAs 及 TFs。這些候選基因可能在細胞周期調控、甲基化、乙酰轉移酶活性和細胞周期等層面發揮重要作用。
2.5 RT-qPCR 驗證 IPF 中 lncRNAs 和 TFs
RT-qPCR 結果顯示,lncRNA MALAT1、E2F1 在 IPF 患者外周血中高表達,而在對照組中低表達(P<0.001),YBX1 在 IPF 患者外周血中低表達,而在對照組中高表達(P<0.001),FENDRR 在兩組患者表達差異不顯著(P>0.05)。具體見表 4。

3 討論
肺間質纖維化是以病因不明的限制性氣道重塑為主要特征,盡管越來越多的證據表明活化的成纖維細胞可能對 IPF 的發病機制和進展有重要影響,但參與 IPF 調控的潛在分子機制仍不清楚。近 10 年來,表觀遺傳學涉及在沒有改變 DNA 序列,而基因功能出現可逆的、可遺傳的變化,并已逐漸成為研究熱點。大量證據表明,包括 lncRNAs 在內的表觀遺傳學過程可導致限制性肺結構重構。lncRNAs 作為一種多功能的適配體分子,可以與 DNA、蛋白質以及特定的 RNA 相結合,通過調控 mRNA 的衰減、剪接、基因環化等,在調控基因表達方面發揮多種功能[29-32]。雖然高通量測序技術已經揭示出越來越多的 lncRNAs 與多種疾病相關,但 lncRNAs 參與 IPF 的分子機制仍缺乏足夠的認識。lncRNAs 微陣列分析和 RNA 測序等高通量測序技術有助于探索 IPF 基因組水平的改變,揭示準確的診斷標志物和治療方法。然而,在單個數據集的分析中可能只會顯示單方面的結果,并且可能會出現一定的假陽性率[14]。因此,我們整合了來自 IPF 和正常肺組織的三個微陣列數據集的數據分析。
大量涉及 IPF 發病機制的研究發現,成纖維細胞和肌成纖維細胞過度積累,并伴有肺泡細胞外基質的沉積,是 IPF 病理過程的主要特征[33]。在這些過程中,主要的病理特征表現在肌成纖維細胞持續激活及成纖維細胞不斷抵抗凋亡、α2β1 整合素及病理通路的異常激活等[34-36]。本研究整合了 GSE2052、GSE44723、GSE24206 等 3 個 mRNA 芯片數據集的原始數據,經過一系列生物信息學分析獲得 18 個與 IPF 相關的 DEGs 模塊,隨后進行 GO 和 KEGG 富集分析等,與既往機制研究結果一致,本研究發現差異基因的生物功能主要集中在細胞粘附、細胞骨架發育、細胞外基質改變、細胞因子相互作用、多聚泛素化等方面。經過一系列生物信息分析,并通過收集 IPF 的血液標本及對照組的血液標本進行驗證,最終獲得與 IPF 發病相關的關鍵基因中 MALAT1、E2F1 在 IPF 組中高表達,而在對照組中低表達,YBX1 在 IPF 組中低表達,而在對照組中高表達。轉移相關肺腺癌轉錄本 1(MALAT1),也稱為核富集豐富轉錄本 2(NEAT2),涉及以下生物學功能類別:核糖核酸蛋白復合物的分子支架、基因轉錄調控和細胞周期調控。大量研究表明 lncRNA MALAT1 在多種實體腫瘤、感染性肺損傷、心肌或腎缺血再灌注損傷、心肌纖維化、肝纖維化、硅誘導的肺纖維化等多種疾病的發病機制和進展中均有作用[37-44]。E2F1 是 E2F 轉錄因子家族中的成員,參與調節細胞周期,介導細胞增殖和凋亡。相關文獻檢索結果僅揭示了尼達尼布治療后 E2F1 和 miRNA 表達譜的變化,未揭示可能的 E2F1 相關分子機制[45]。YBX1 為 Y-Box 結合蛋白 1,是 Y-BOX 結合蛋白家族中的成員,參與調控轉錄翻譯、premRNA 剪接等[46]。
高通量測序技術和分子機制的大規模研究為 IPF 的起源和發展提供了線索,但進一步闡明 IPF 的發病機制仍需進一步研究。考慮到單個微陣列數據集分析可能出現假陽性結果、樣本量有限以及潛在的異質性,我們整合了來自三個數據集(GSE2052、GSE24206 和 GSE44723)的數據,所獲得的 DEGs 所涉及的 IPF 發病分子機制仍需進一步探索。本研究的局限性在于,雖然通過對多個數據集的數據挖掘和詳細的生物信息學分析,提取了與 IPF 相關的 DEGs,并根據分子相關網絡獲得 lncRNAs 和 TFs 等關鍵基因,雖經 RT-qPCR 技術獲得在 mRNA 水平的表達驗證,但后期仍需進行蛋白免疫印跡、免疫組織化學分析等相關實驗來驗證這些基因在 IPF 中的表達。除了通過分析三個數據集來識別與 IPF 相關的 DEGs 和關鍵基因外,還需要通過新的技術和生物信息學分析方法來探索更加可靠和準確的 DGEs。第二,必須在體內和體外進行進一步的功能喪失和功能獲得實驗證實。本研究為 IPF 的發病機制和進展提供了可靠而全面的視角,通過生物信息學分析可獲得大量與 IPF 發病相關的潛在分子,并能通過后期的實驗驗證,為 IPF 的診斷和治療提供更詳細的依據。
利益沖突:本研究不涉及任何利益沖突。