引用本文: 韓偉光, 金超, 莘瑋, 蘇水霞, 王青. 基于轉錄組學的肝內膽管癌預后相關基因分析. 中國普外基礎與臨床雜志, 2021, 28(4): 472-476. doi: 10.7507/1007-9424.202007062 復制
膽管癌起源于肝內或肝外膽管,可分為肝內、肝門周圍和遠端膽管癌[1-2],其中肝內膽管癌(intrahepatic cholangiocarcinoma,ICC)是第 2 種常見的原發性肝癌,僅次于肝細胞癌,在原發性肝癌中的占比為 5%~30%[3]。近年來,ICC 的發病率在全球范圍內不斷上升[4]。目前,臨床上治療 ICC 的主要手段是手術切除,而大多數患者被確診時已是 ICC 晚期[5]。據統計 2/3 的患者術后復發,ICC 具有復發性高的特征[5-6],與 ICC 復發相關的因素包括血管侵襲、多發性腫瘤和淋巴結轉移[7]。ICC 治療方面,目前藥物治療方案并沒有顯著改善患者的治療效果和延長患者的生存期[8-9]。由此可見,患者術后復發是治療 ICC 常見問題。而關于 ICC 發生發展機制研究尚未明確,ICC 的治療面臨巨大的挑戰。在分子研究層面,ICC 的基因組學和轉錄組學研究可用于 ICC 的分類或用來鑒定新型預后生物標志物并發現 ICC 潛在靶標的分子[5, 10-15]。組學研究有助于了解 ICC 分子變化情況及闡明 ICC 發生發展機制,因此本研究旨在從轉錄組學層面發現 ICC 預后相關的基因,以此推動 ICC 研究進展。
1 資料與方法
1.1 資料來源
本研究在基因表達匯編數據庫(Gene Expression Omnibus database,GEO)中尋找 ICC 相關的 3 個基因表達譜數據集,其中第 1 個數據集編號為 GSE107943,其檢測平臺是基于高通量測序的 Illumina NextSeq 500(GPL18573),收集的樣本來源于 30 例 ICC 組織和 27 例 ICC 癌旁組織;第 2 個數據集編號為 GSE119336,其檢測平臺是基于高通量測序的 Illumina HiSeq 2000(GPL11154),樣本來源于 15 例配對的 ICC 癌組織和癌旁組織;第 3 個數據集編號為 GSE45001,其檢測平臺是基于芯片的 Agilent-028004 SurePrint G3 Human GE 8x60K Microarray(GPL14550),樣本來源于 10 例配對的 ICC 癌組織和癌旁組織。
1.2 方法
1.2.1 基因表達譜預處理
基于第 1 個和第 2 個數據集(GSE107943 和 GSE119336)的原始數據,經過質量控制后采用 TopHatv2 軟件將 RNA 序列比對到 hg19 參考基因組上,隨后使用 FeatureCounts 軟件計算每一個基因的 count 數,經標準化后得到基因表達值。第 3 個數據集(GSE45001)基于 Agilent 基因芯片的原始數據,使用 GeneSpring 軟件處理得到基因表達譜。使用韋恩圖(韋恩圖通常用來表示不同集合之間在數學或邏輯上的關系)展示 3 個數據集中差異表達基因數目的交集關系。
1.2.2 差異表達基因分析
為了在 ICC 癌組織和癌旁組織樣本中尋找 ICC 相關的差異表達基因,在 3 個基因表達譜數據集中同時采用的差異分析方法是雙樣本 t 檢驗和倍數變化(fold change,FC)法。t 檢驗得到的 P 值采用多重檢驗校正方法 Benjamini-Hochberg 進行校正并控制錯誤發現率(false discovery rate,FDR)<0.05;同時癌組織樣本相對于癌旁組織樣本的基因表達值的 FC>2 或<0.5 的基因被定義為差異表達基因。篩選差異表達基因的條件設定為 FDR<0.05 且 |log2FC|>1。基于可重復性研究的考慮,后續將 3 個數據集中共同篩選到的差異表達基因用于后續的功能富集分析和蛋白質互作網絡分析。
1.2.3 基因的功能富集分析
由于 KEGG 數據庫[16]包含了生物學通路的信息,因此,為了解 3 個數據集中重疊的 ICC 相關的差異表達基因以及與預后相關的死亡和復發相關基因主要富集的生物學通路,采用 R 語言的 ClusterProfiler 包進行 KEGG 功能富集分析,P<0.05 的通路為相關基因富集到的生物學通路。
1.2.4 基因的蛋白質互作網絡分析
采用 STRING 數據庫[17]的蛋白質互作信息來構建 ICC 相關的差異表達基因的蛋白質互作網絡。在蛋白質互作網絡中,位于網絡中心的基因與多數基因具有相互作用的關系,意味著該基因在生物學過程中發揮著核心作用。為了尋找位于網絡中心的核心節點即 Hub 節點,本研究采用了 R 語言中的 igraph 包計算蛋白質互作網絡中的度、介數和接近中心性并選其同時位于前 10 的基因作為蛋白質互作網絡的 Hub 節點,尋找的 Hub 節點為 ICC 發生發展過程中的重要基因。
1.2.5 Kaplan-Meier 生存分析
GSE107943 數據集提供了 30 例 ICC 患者的臨床信息,包括患者的無病生存期、總生存期和生存結局;本研究同時收集了癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數據庫中的 33 例 ICC 患者的基因表達譜數據和臨床預后信息用于預后分析。為了研究基因表達的高低對于患者的預后(復發和死亡)是否有影響,采用 R 語言的 survival 包進行 Kaplan-Meier 生存分析,使用 log-rank 檢驗分析 ICC 患者在基因高表達和基因低表達時的生存率差異是否有統計學意義,同時設定 P<0.05 的基因為 ICC 預后相關基因。設定基因表達值最高的 8 個樣本為高表達樣本,基因表達值最低的 8 個樣本為低表達樣本。
2 結果
2.1 差異表達基因分析結果
韋恩圖結果顯示,共有 1 134 個 ICC 相關的差異表達基因在 3 個數據集中重疊,其中同時在 GSE107943 和 GSE119336 數據集者 3 103 個,同時在 GSE107943 和 GSE45001 數據集者 2 003 個,同時在 GSE119336 和 GSE45001 者 1 903 個,見圖 1。

2.2 基因的蛋白質互作網絡分析結果
蛋白質互作網絡分析結果發現,在 1 134 個差異表達基因中,322 個差異表達基因尚無研究表明其對應的互作基因,只有 812 個基因與 5 397 個基因之間發生互作關系。進一步尋找位于前 10 的基因蛋白質互作網絡中的 Hub 節點即度、介數和接近中心性,其值表示該基因越靠近網絡的中心位置。結果見表 1,由表 1 可見,TAF1 的度、介數和接近中心性值最大,其處于網絡中最核心的位置。此外,度、介數和接近中心性同時位于前 10 的基因有 6 個基因,分別是 TAF1、GRB2、E2F4、HNF4A、MYC 和 TP53,其中 TAF1、E2F4、GRB2 和 TP53 是差異表達基因,HNF4A 和 MYC 并非差異表達基因。

2.3 功能富集分析結果
為了解 1 134 個差異表達基因參與的生物學通路,本研究發現差異表達基因主要參與 15 條通路,見圖 2a。從圖 2a 可見,差異表達基因主要參與 DNA復制、細胞周期、藥物代謝、RNA 轉運、過氧化物酶體增殖劑激活受體(peroxisome proliferator activated receptor,PPAR)等信號通路和氨基酸的生物合成等生物學過程。差異表達基因的功能富集分析結果提示,ICC 的發生伴隨著細胞周期、代謝等功能的異常。

a:差異表達基因;b:死亡相關基因;c:復發相關基因;d、e:GRB2(d) 和 TP53(e) 在 GSE107943 數據集中的數據;f、g: GRB2(f) 和 TP53(g) 在 TCGA 數據庫中的數據
2.4 生存分析結果
本研究在 GSE107943 數據集中找到了 4 108 個 ICC 死亡相關基因和 4 821 個 ICC 復發相關的基因,同時在 TCGA 數據庫中發現了 1 040 個 ICC 死亡相關基因。GSE107943 數據集和 TCGA 數據庫中共同發現的死亡相關基因共 120 個,將這 120 個基因進行 KEGG 功能富集分析發現其主要富集到 7 條 KEGG 通路(圖 2b),主要參與糖類、脂肪代謝、激素合成、Toll 樣信號通路、吞噬體等過程;對 4 821 個 ICC 復發相關的基因進行 KEGG 功能富集分析(圖 2c)發現,這些基因主要富集到 2 條 KEGG 通路,主要參與脂肪酸延長和不飽和脂肪酸的生物合成的通路,與脂肪酸的生成相關,即脂肪酸相關過程的異常與 ICC 患者的復發相關。由于 GRB2 和 TP53 既是蛋白質互作網絡的 Hub 節點,也是 ICC 死亡相關基因,因此繪制其 Kaplan-Meier 生存曲線,結果顯示,GRB2 基因低表達者較其高表達者總生存情況更好(P=0.040 9,圖 2d ),而 TP53 是低表達者較其高表達者總生存情況更差(P=0.027 3,圖 2e);為了進一步驗證 GRB2 和 TP53 是否與 ICC 預后相關,再利用 TCGA 數據庫中的數據采用相同的分析方法發現同樣的結果(圖 2f、2g),進一步提示 GRB2 和 TP53 基因與 ICC 的預后息息相關。
3 討論
ICC 是第二種常見的原發性肝癌,而 ICC 發生發展的相關機制尚不清楚。目前面臨的主要問題是 ICC 術后患者易發生腫瘤復發,從而影響預后生存。因此,本研究旨從轉錄組層面發現 ICC 預后相關基因。
在本研究中,從轉錄組學層面使用 t 檢驗和 FC 法的差異分析法在 GEO 數據庫中的 GSE107943、GSE119336 和 GSE45001 這 3 個數據集中共篩選出 1 134 個差異表達基因,然后通過 KEGG 功能富集分析發現,差異表達基因主要參與 DNA 復制、藥物代謝、RNA 轉運、PPAR 等信號通路和氨基酸合成等生物學過程,結果提示,ICC 的發生伴隨著細胞周期、代謝等功能的異常;隨后對差異表達基因進行蛋白質互作網絡分析,發現了 TAF1、GRB2、E2F4、HNF4A、MYC 和 TP53 是蛋白質互作網絡中的 Hub 節點,提示這 6 個基因在 ICC 的發生發展中發揮著重要作用,與 ICC 的發生發展息息相關。值得注意的是,TAF1、E2F4、GRB2 和 TP53 在 ICC 患者和正常者中差異表達。后續通過 log-rank 檢驗進行生存分析發現,其中 TP53 基因高表達者比低表達者總生存情況更好,而 GRB2 基因低表達者比高表達者總生存情況更好,且進一步利用 TCGA 數據庫數據進行了分析,結果也提示了 GRB2 和 TP53 基因與 ICC 的預后息息相關,而未發現 TAF1 和 E2F4 基因表達的高低與預后有關。
目前 ICC 的預后研究中,有 Yu 等[18]采用了免疫組織化學方法檢測了 UBE2T 基因的表達值,發現 UBE2T 高表達提示 ICC 的預后較差;而本研究中采用的是基于二代測序檢測基因的表達值,相比于 Yu 等[18]的研究,本研究中提供了更多的基因表達值,有利于更多的基因納入后續的分析,能發現更多的 ICC 預后相關基因。值得一提的是,在本研究中 UBE2T 基因是 ICC 復發相關的基因,該基因低表達患者比高表達患者具有更長的無病生存期(P<0.001),與 Yu 等[18]的研究結果相一致。本研究中發現,PDK3 基因表達與 ICC 復發相關,已有研究[19]表明 PDK3 能夠作為膽管癌的診斷和預后標志。特別說明一點,由于本研究中有統計學意義的差異表達基因數量比較多,因篇幅限制,故結果沒有全部展示在文中。
在 GRB2 基因與 ICC 相關研究中,有研究[20]從遺傳學和分子流行病學的角度探討 GRB2 基因對肝外膽管癌發生有影響;Iwaki 等[21]的研究表明,微小 RNA miR-376c 作用于靶基因 GRB2,其在 ICC 中下調促進了表皮生長因子依賴的細胞遷移,由于 微小 RNA 有抑制基因表達的作用,因此 miR-376c 的下調將導致 GRB2 基因表達的上調,促進細胞的遷移,從而導致惡性腫瘤轉移和復發。結合本研究中發現,GRB2 基因高表達的患者總生存情況更差,可能是由于 GRB2 基因的高表達促進了細胞的轉移,從而增加了 ICC 復發的可能性。結合 Iwaki 等[21]的研究和本研究結果看,GRB2 基因在 ICC 中的發生發展以及預后有著重要作用。結果提示,GRB2 基因有望成為 ICC 預后標志物,其有待后續研究進一步證實。而在 TP53 基因與 ICC 的研究報道中,Simbolo 等[22]研究表明 TP53 和 ARID1A 是 ICC 的臨床不良表現指標。TP53 和 ARID1A 作為本研究中 ICC 死亡相關的基因,Simbolo 等[22]研究與本研究的結果相符合,再一次說明了本研究結果的可靠性。
總之,本研究從轉錄組學層面了解 ICC 相關的差異表達基因參與的 KEGG 生物學通路以及 ICC 發生發展的重要基因,為認識 ICC 發生發展的分子機制提供了一定依據;此外,本研究中發現了與 ICC 預后相關的基因并進一步通過 TCGA 數據集證實,有助于應用于臨床,為后續研究的開展以及藥物的研發提供理論依據,也有助于推進 ICC 預后研究進展,改善 ICC 患者的預后情況,降低 ICC 患者的復發率。然而本研究尚存在一定的局限性,首先,本研究僅基于生物信息學分析,缺乏后續的研究進一步證實本研究的結論;第二,ICC 具有兩種不同的病理類型,分別是膽總管和膽小管的 ICC,不同的病理類型對于研究結果可能會造成一定的影響,由于因考慮到研究所需的樣本量大小,在本研究沒有考慮 ICC 的病理類型;第三,本研究只在轉錄組層面開展相關研究,而其他組學如基因組學、蛋白質組學、代謝組學等多維組學在 ICC 的發生發展中同樣具有重要的作用,因此,后續有必要開展關于 ICC 的其他組學研究。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們無相互競爭的利益。
作者貢獻聲明:韓偉光負責研究方案的設計、數據分析以及文章的撰寫;金超負責文章中數據下載和處理;莘瑋負責文獻檢索;蘇水霞負責圖片繪制;王青負責文章的選題、研究方案的設計以及文章內容的修改。
膽管癌起源于肝內或肝外膽管,可分為肝內、肝門周圍和遠端膽管癌[1-2],其中肝內膽管癌(intrahepatic cholangiocarcinoma,ICC)是第 2 種常見的原發性肝癌,僅次于肝細胞癌,在原發性肝癌中的占比為 5%~30%[3]。近年來,ICC 的發病率在全球范圍內不斷上升[4]。目前,臨床上治療 ICC 的主要手段是手術切除,而大多數患者被確診時已是 ICC 晚期[5]。據統計 2/3 的患者術后復發,ICC 具有復發性高的特征[5-6],與 ICC 復發相關的因素包括血管侵襲、多發性腫瘤和淋巴結轉移[7]。ICC 治療方面,目前藥物治療方案并沒有顯著改善患者的治療效果和延長患者的生存期[8-9]。由此可見,患者術后復發是治療 ICC 常見問題。而關于 ICC 發生發展機制研究尚未明確,ICC 的治療面臨巨大的挑戰。在分子研究層面,ICC 的基因組學和轉錄組學研究可用于 ICC 的分類或用來鑒定新型預后生物標志物并發現 ICC 潛在靶標的分子[5, 10-15]。組學研究有助于了解 ICC 分子變化情況及闡明 ICC 發生發展機制,因此本研究旨在從轉錄組學層面發現 ICC 預后相關的基因,以此推動 ICC 研究進展。
1 資料與方法
1.1 資料來源
本研究在基因表達匯編數據庫(Gene Expression Omnibus database,GEO)中尋找 ICC 相關的 3 個基因表達譜數據集,其中第 1 個數據集編號為 GSE107943,其檢測平臺是基于高通量測序的 Illumina NextSeq 500(GPL18573),收集的樣本來源于 30 例 ICC 組織和 27 例 ICC 癌旁組織;第 2 個數據集編號為 GSE119336,其檢測平臺是基于高通量測序的 Illumina HiSeq 2000(GPL11154),樣本來源于 15 例配對的 ICC 癌組織和癌旁組織;第 3 個數據集編號為 GSE45001,其檢測平臺是基于芯片的 Agilent-028004 SurePrint G3 Human GE 8x60K Microarray(GPL14550),樣本來源于 10 例配對的 ICC 癌組織和癌旁組織。
1.2 方法
1.2.1 基因表達譜預處理
基于第 1 個和第 2 個數據集(GSE107943 和 GSE119336)的原始數據,經過質量控制后采用 TopHatv2 軟件將 RNA 序列比對到 hg19 參考基因組上,隨后使用 FeatureCounts 軟件計算每一個基因的 count 數,經標準化后得到基因表達值。第 3 個數據集(GSE45001)基于 Agilent 基因芯片的原始數據,使用 GeneSpring 軟件處理得到基因表達譜。使用韋恩圖(韋恩圖通常用來表示不同集合之間在數學或邏輯上的關系)展示 3 個數據集中差異表達基因數目的交集關系。
1.2.2 差異表達基因分析
為了在 ICC 癌組織和癌旁組織樣本中尋找 ICC 相關的差異表達基因,在 3 個基因表達譜數據集中同時采用的差異分析方法是雙樣本 t 檢驗和倍數變化(fold change,FC)法。t 檢驗得到的 P 值采用多重檢驗校正方法 Benjamini-Hochberg 進行校正并控制錯誤發現率(false discovery rate,FDR)<0.05;同時癌組織樣本相對于癌旁組織樣本的基因表達值的 FC>2 或<0.5 的基因被定義為差異表達基因。篩選差異表達基因的條件設定為 FDR<0.05 且 |log2FC|>1。基于可重復性研究的考慮,后續將 3 個數據集中共同篩選到的差異表達基因用于后續的功能富集分析和蛋白質互作網絡分析。
1.2.3 基因的功能富集分析
由于 KEGG 數據庫[16]包含了生物學通路的信息,因此,為了解 3 個數據集中重疊的 ICC 相關的差異表達基因以及與預后相關的死亡和復發相關基因主要富集的生物學通路,采用 R 語言的 ClusterProfiler 包進行 KEGG 功能富集分析,P<0.05 的通路為相關基因富集到的生物學通路。
1.2.4 基因的蛋白質互作網絡分析
采用 STRING 數據庫[17]的蛋白質互作信息來構建 ICC 相關的差異表達基因的蛋白質互作網絡。在蛋白質互作網絡中,位于網絡中心的基因與多數基因具有相互作用的關系,意味著該基因在生物學過程中發揮著核心作用。為了尋找位于網絡中心的核心節點即 Hub 節點,本研究采用了 R 語言中的 igraph 包計算蛋白質互作網絡中的度、介數和接近中心性并選其同時位于前 10 的基因作為蛋白質互作網絡的 Hub 節點,尋找的 Hub 節點為 ICC 發生發展過程中的重要基因。
1.2.5 Kaplan-Meier 生存分析
GSE107943 數據集提供了 30 例 ICC 患者的臨床信息,包括患者的無病生存期、總生存期和生存結局;本研究同時收集了癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數據庫中的 33 例 ICC 患者的基因表達譜數據和臨床預后信息用于預后分析。為了研究基因表達的高低對于患者的預后(復發和死亡)是否有影響,采用 R 語言的 survival 包進行 Kaplan-Meier 生存分析,使用 log-rank 檢驗分析 ICC 患者在基因高表達和基因低表達時的生存率差異是否有統計學意義,同時設定 P<0.05 的基因為 ICC 預后相關基因。設定基因表達值最高的 8 個樣本為高表達樣本,基因表達值最低的 8 個樣本為低表達樣本。
2 結果
2.1 差異表達基因分析結果
韋恩圖結果顯示,共有 1 134 個 ICC 相關的差異表達基因在 3 個數據集中重疊,其中同時在 GSE107943 和 GSE119336 數據集者 3 103 個,同時在 GSE107943 和 GSE45001 數據集者 2 003 個,同時在 GSE119336 和 GSE45001 者 1 903 個,見圖 1。

2.2 基因的蛋白質互作網絡分析結果
蛋白質互作網絡分析結果發現,在 1 134 個差異表達基因中,322 個差異表達基因尚無研究表明其對應的互作基因,只有 812 個基因與 5 397 個基因之間發生互作關系。進一步尋找位于前 10 的基因蛋白質互作網絡中的 Hub 節點即度、介數和接近中心性,其值表示該基因越靠近網絡的中心位置。結果見表 1,由表 1 可見,TAF1 的度、介數和接近中心性值最大,其處于網絡中最核心的位置。此外,度、介數和接近中心性同時位于前 10 的基因有 6 個基因,分別是 TAF1、GRB2、E2F4、HNF4A、MYC 和 TP53,其中 TAF1、E2F4、GRB2 和 TP53 是差異表達基因,HNF4A 和 MYC 并非差異表達基因。

2.3 功能富集分析結果
為了解 1 134 個差異表達基因參與的生物學通路,本研究發現差異表達基因主要參與 15 條通路,見圖 2a。從圖 2a 可見,差異表達基因主要參與 DNA復制、細胞周期、藥物代謝、RNA 轉運、過氧化物酶體增殖劑激活受體(peroxisome proliferator activated receptor,PPAR)等信號通路和氨基酸的生物合成等生物學過程。差異表達基因的功能富集分析結果提示,ICC 的發生伴隨著細胞周期、代謝等功能的異常。

a:差異表達基因;b:死亡相關基因;c:復發相關基因;d、e:GRB2(d) 和 TP53(e) 在 GSE107943 數據集中的數據;f、g: GRB2(f) 和 TP53(g) 在 TCGA 數據庫中的數據
2.4 生存分析結果
本研究在 GSE107943 數據集中找到了 4 108 個 ICC 死亡相關基因和 4 821 個 ICC 復發相關的基因,同時在 TCGA 數據庫中發現了 1 040 個 ICC 死亡相關基因。GSE107943 數據集和 TCGA 數據庫中共同發現的死亡相關基因共 120 個,將這 120 個基因進行 KEGG 功能富集分析發現其主要富集到 7 條 KEGG 通路(圖 2b),主要參與糖類、脂肪代謝、激素合成、Toll 樣信號通路、吞噬體等過程;對 4 821 個 ICC 復發相關的基因進行 KEGG 功能富集分析(圖 2c)發現,這些基因主要富集到 2 條 KEGG 通路,主要參與脂肪酸延長和不飽和脂肪酸的生物合成的通路,與脂肪酸的生成相關,即脂肪酸相關過程的異常與 ICC 患者的復發相關。由于 GRB2 和 TP53 既是蛋白質互作網絡的 Hub 節點,也是 ICC 死亡相關基因,因此繪制其 Kaplan-Meier 生存曲線,結果顯示,GRB2 基因低表達者較其高表達者總生存情況更好(P=0.040 9,圖 2d ),而 TP53 是低表達者較其高表達者總生存情況更差(P=0.027 3,圖 2e);為了進一步驗證 GRB2 和 TP53 是否與 ICC 預后相關,再利用 TCGA 數據庫中的數據采用相同的分析方法發現同樣的結果(圖 2f、2g),進一步提示 GRB2 和 TP53 基因與 ICC 的預后息息相關。
3 討論
ICC 是第二種常見的原發性肝癌,而 ICC 發生發展的相關機制尚不清楚。目前面臨的主要問題是 ICC 術后患者易發生腫瘤復發,從而影響預后生存。因此,本研究旨從轉錄組層面發現 ICC 預后相關基因。
在本研究中,從轉錄組學層面使用 t 檢驗和 FC 法的差異分析法在 GEO 數據庫中的 GSE107943、GSE119336 和 GSE45001 這 3 個數據集中共篩選出 1 134 個差異表達基因,然后通過 KEGG 功能富集分析發現,差異表達基因主要參與 DNA 復制、藥物代謝、RNA 轉運、PPAR 等信號通路和氨基酸合成等生物學過程,結果提示,ICC 的發生伴隨著細胞周期、代謝等功能的異常;隨后對差異表達基因進行蛋白質互作網絡分析,發現了 TAF1、GRB2、E2F4、HNF4A、MYC 和 TP53 是蛋白質互作網絡中的 Hub 節點,提示這 6 個基因在 ICC 的發生發展中發揮著重要作用,與 ICC 的發生發展息息相關。值得注意的是,TAF1、E2F4、GRB2 和 TP53 在 ICC 患者和正常者中差異表達。后續通過 log-rank 檢驗進行生存分析發現,其中 TP53 基因高表達者比低表達者總生存情況更好,而 GRB2 基因低表達者比高表達者總生存情況更好,且進一步利用 TCGA 數據庫數據進行了分析,結果也提示了 GRB2 和 TP53 基因與 ICC 的預后息息相關,而未發現 TAF1 和 E2F4 基因表達的高低與預后有關。
目前 ICC 的預后研究中,有 Yu 等[18]采用了免疫組織化學方法檢測了 UBE2T 基因的表達值,發現 UBE2T 高表達提示 ICC 的預后較差;而本研究中采用的是基于二代測序檢測基因的表達值,相比于 Yu 等[18]的研究,本研究中提供了更多的基因表達值,有利于更多的基因納入后續的分析,能發現更多的 ICC 預后相關基因。值得一提的是,在本研究中 UBE2T 基因是 ICC 復發相關的基因,該基因低表達患者比高表達患者具有更長的無病生存期(P<0.001),與 Yu 等[18]的研究結果相一致。本研究中發現,PDK3 基因表達與 ICC 復發相關,已有研究[19]表明 PDK3 能夠作為膽管癌的診斷和預后標志。特別說明一點,由于本研究中有統計學意義的差異表達基因數量比較多,因篇幅限制,故結果沒有全部展示在文中。
在 GRB2 基因與 ICC 相關研究中,有研究[20]從遺傳學和分子流行病學的角度探討 GRB2 基因對肝外膽管癌發生有影響;Iwaki 等[21]的研究表明,微小 RNA miR-376c 作用于靶基因 GRB2,其在 ICC 中下調促進了表皮生長因子依賴的細胞遷移,由于 微小 RNA 有抑制基因表達的作用,因此 miR-376c 的下調將導致 GRB2 基因表達的上調,促進細胞的遷移,從而導致惡性腫瘤轉移和復發。結合本研究中發現,GRB2 基因高表達的患者總生存情況更差,可能是由于 GRB2 基因的高表達促進了細胞的轉移,從而增加了 ICC 復發的可能性。結合 Iwaki 等[21]的研究和本研究結果看,GRB2 基因在 ICC 中的發生發展以及預后有著重要作用。結果提示,GRB2 基因有望成為 ICC 預后標志物,其有待后續研究進一步證實。而在 TP53 基因與 ICC 的研究報道中,Simbolo 等[22]研究表明 TP53 和 ARID1A 是 ICC 的臨床不良表現指標。TP53 和 ARID1A 作為本研究中 ICC 死亡相關的基因,Simbolo 等[22]研究與本研究的結果相符合,再一次說明了本研究結果的可靠性。
總之,本研究從轉錄組學層面了解 ICC 相關的差異表達基因參與的 KEGG 生物學通路以及 ICC 發生發展的重要基因,為認識 ICC 發生發展的分子機制提供了一定依據;此外,本研究中發現了與 ICC 預后相關的基因并進一步通過 TCGA 數據集證實,有助于應用于臨床,為后續研究的開展以及藥物的研發提供理論依據,也有助于推進 ICC 預后研究進展,改善 ICC 患者的預后情況,降低 ICC 患者的復發率。然而本研究尚存在一定的局限性,首先,本研究僅基于生物信息學分析,缺乏后續的研究進一步證實本研究的結論;第二,ICC 具有兩種不同的病理類型,分別是膽總管和膽小管的 ICC,不同的病理類型對于研究結果可能會造成一定的影響,由于因考慮到研究所需的樣本量大小,在本研究沒有考慮 ICC 的病理類型;第三,本研究只在轉錄組層面開展相關研究,而其他組學如基因組學、蛋白質組學、代謝組學等多維組學在 ICC 的發生發展中同樣具有重要的作用,因此,后續有必要開展關于 ICC 的其他組學研究。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們無相互競爭的利益。
作者貢獻聲明:韓偉光負責研究方案的設計、數據分析以及文章的撰寫;金超負責文章中數據下載和處理;莘瑋負責文獻檢索;蘇水霞負責圖片繪制;王青負責文章的選題、研究方案的設計以及文章內容的修改。