引用本文: 陸思芬, 魏小珍, 楊聲英, 楊浩, 陳勃江, 李為民. 基于生物信息數據探索 CCNB1、CCNB2 和 CDK1 在肺腺癌中的作用. 華西醫學, 2023, 38(1): 18-27. doi: 10.7507/1002-0179.202210220 復制
肺腺癌是最常見的肺癌[1],給人類的生存與健康帶來了重大挑戰。近些年,肺腺癌的發病率和死亡率一直在上升[2]。雖然肺腺癌的治療方法近期得到不斷發展,但其治療效果依然不理想,患者 5 年生存率只有約 15% [3]。目前為止,早發現、早診斷和早治療仍為肺腺癌能否治愈的關鍵,但肺腺癌的早期特征并不明顯,其生物學標志物有待進一步開發。人類迫切需要探索更特異、更有效、更精確的生物標志物來預測肺腺癌的發展及預后,并以此研究出更好的治療策略。近年來,基于高通量測序平臺的基因表達數據已成為篩選重要的癌癥診斷和預后生物標志物的有效工具[4]。而且,基因表達綜合數據庫(Gene Expression Omnibus, GEO)中有來自于世界各國研究機構提交的高通量基因表達數據[5-6]。本研究根據 GEO 數據庫中高通量測序的肺腺癌表達量數據,結合癌癥基因組圖譜數據庫(The Cancer Genome Atlas, TCGA)和基因型-組織表達數據庫(The Genotype-Tissue Expression, GTEx)中 RNA 高通量測序數據以及人類蛋白質圖譜(Human Protein Atlas, HPA)中免疫組織化學的實驗數據作驗證,通過一系列的生物信息綜合分析,旨在找到肺腺癌的有效預后和治療標志物,以提高肺腺癌的預后生存率,為肺腺癌的治療探索出更好的方案。
1 資料與方法
1.1 數據收集
首先,從 GEO 數據庫(

1.2 差異表達基因分析
首先,采用跨平臺標準化算法[9]調整 2 個 RNA 高通量測序數據集之間可能的批次處理影響,分別合并所有肺腺癌組織的數據和正常組織的數據,將批次效應最小化。然后,基于合并后的 97 個肺腺癌組織和 97 個正常組織的表達量數據(去掉其中的長鏈非編碼 RNA 和重復的 mRNA),采用 DESeq2 軟件[10]鑒定差異表達基因,并設定閾值為:|log2FC|≥2 [其中FC為差異倍數(fold change)]和校正后 P≤0.01[11],然后篩選蛋白質編碼相關基因。分別定義 log2FC>0 和 log2FC<0 為上調差異表達基因和下調差異表達基因的閾值。
1.3 蛋白互作網絡和核心基因分析
首先,采用 STRING(Search Tool for the Retrieval of Interacting Genes/Proteins)數據庫(v11;
1.4 核心基因的 RNA 表達量驗證
首先選擇來自 TCGA 和 GTEx 數據庫中的 RNA 高通量測序樣本(包括 483 個肺腺癌組織和 347 個正常組織)的表達量數據驗證這些核心基因的表達量,驗證這些基因是否為差異表達基因。然后將驗證確定為差異表達基因的核心基因用于后續分析。
1.5 核心基因的生存分析和疾病分期分析
采用基因表達譜交互分析(Gene Expression Profiling Interactive Analysis, GEPIA)數據庫(
1.6 核心基因的通路富集分析
采用 KOBAS(KEGG Orthology Based Annotation System)數據庫(
1.7 核心基因的表達量水平與基因突變狀態的關聯分析
采用 muTarget 工具(
1.8 核心基因的蛋白水平分析
采用 HPA 數據庫[20]中免疫組織化學的實驗數據,分析篩選出來的核心基因在肺腺癌組織和正常組織中蛋白水平的表達,從生物學實驗角度再次驗證核心基因的表達情況。
1.9 統計學方法
采用 R 4.0.3 軟件進行統計和作圖。計量資料采用均數±標準差表示,計數資料采用例數表示。選擇乘積極限法計算生存數據并繪制生存曲線,選擇對數秩檢驗進行組間比較。采用單因素方差分析對生存曲線有統計學意義的基因在不同時期的表達情況進行分期分析。雙側檢驗水準 α=0.05。
2 結果
2.1 鑒定差異表達基因
共有 1245 個差異表達基因,包括 594 個上調基因和 651 個下調基因(圖1a),其中細胞周期蛋白 B1(cyclin B1, CCNB1)、細胞周期蛋白 B2(cyclin B2, CCNB2)和細胞周期蛋白依賴性激酶 1(cyclin dependent kinase 1, CDK1)均為上調基因。差異表達基因的結果表明肺腺癌組織的基因表達與癌旁正常組織的基因表達差異明顯。

a. 差異表達基因的火山圖,基于 97 個肺腺癌組織和 97 個正常組織的表達量數據,每個點表示一個基因,紅點表示上調基因,藍點表示下調基因;b. 核心基因的蛋白互作網絡圖中打分最高的模塊,MCODE Score=27.655,Nodes=30
2.2 差異表達基因的蛋白互作網絡和核心基因分析
采用 STRING 數據庫分析上述 1245 個差異表達基因的蛋白互作網絡,只保留其中來自于實驗驗證和文獻支持的數據,結果顯示,該蛋白互作網絡包含 1240 個節點和 5874 條邊。采用 MCODE 軟件分析該蛋白互作網絡中的模塊,選出打分最高的模塊(MOCDE score=27.655,Nodes=30),30 個核心基因的蛋白互作網絡圖見圖1b。
2.3 核心基因的 RNA 表達量驗證
采用來自 TCGA 和 GTEx 數據庫中的包含更大樣本量的 RNA 表達量數據(包括 483 個肺腺癌樣本和 347 個正常樣本)對上面挑選出的 30 個核心基因的表達情況進行驗證。結果顯示,只有 18 個基因為差異表達基因(圖2)。

T:肺腺癌組織(
2.4 核心基因的生存曲線分析
采用 GEPIA 數據庫中的肺腺癌數據集分析這 18 個核心基因在肺腺癌中的生存曲線,結果顯示,只有 8 個基因,其表達量越高,對應的無病生存率越低(圖3),包括 AURKB(P=0.018)、BIRC5(P=0.013)、CCNB1(P=0.007)、CCNB2(P=0.012)、CDK1(P=0.025)、CENPF(P=0.026)、DLGAP5(P=0.021)和 NUF2(P=0.014),而其他基因的生存曲線無統計學意義(P>0.05)。該結果提示,這 8 個基因可能與肺腺癌的進展和預后密切相關。

這些基因的高表達與肺腺癌的預后不良有關(
2.5 核心基因的疾病分期分析
為了進一步探索這 8 個基因跟肺腺癌的進展和預后的關系,本研究分析了這 8 個基因在肺腺癌不同時期的表達情況(圖4),結果顯示這 8 個基因在肺腺癌不同時期都是差異表達的(P<0.05),尤其在肺腺癌中后期表達量更高。這進一步提示這 8 個基因可能與肺腺癌的進展和預后密切相關。

篩選出的 8 個核心基因在肺腺癌不同時期的表達都是差異表達的(
2.6 核心基因的通路富集分析
為了探索這 8 個基因可能的分子功能,本研究采用 KOBAS 數據庫進行 KEGG 通路富集分析。結果顯示,CCNB1、CCNB2 和 CDK1 可以在細胞周期(cell cycle)通路中顯著富集。
2.7 核心基因的突變狀態分析
進了一步探索 CCNB1、CCNB2 和 CDK1 在肺腺癌中的功能,本研究分析了這 3 個基因的表達量與哪些基因的突變有關,以及突變的狀態如何。結果顯示,在肺腺癌中,CCNB1、CCNB2 和 CDK1 3 個基因的表達量在 TP53 突變型的肺腺癌組織中均高于在 TP53 野生型的肺腺癌組織中(P<0.001),見圖5。

a.
2.8 核心基因的藥物治療分析
基于 GDSC 數據庫中的信息,尋找這 3 個基因與藥物的關系。結果顯示,CDK1 可以參與到細胞周期這個通路中,并與藥物 AT-7519、CGP-60474、Dinaciclib 和 RO-3306 密切相關(表2),該結果提示 CDK1 是肺腺癌潛在的治療靶標。

2.9 核心基因的蛋白水平表達分析
CCNB1、CCNB2 和 CDK1 蛋白在肺腺癌組織中呈現出過表達的趨勢。該結果再次驗證了這 3 個基因在肺腺癌中是差異顯著高表達的。見圖6。

3 討論
目前為止,肺腺癌的死亡率仍然很高,生存率仍然很低,因此,為肺腺癌尋找有效的預后和治療標志物具有很重要的臨床意義。本研究通過 GEO 數據庫中來自于數據集 GSE140343 和 GSE110907 中的 RNA 表達量數據,聯合 TCGA 和 GTEx 數據庫中的 RNA 表達量數據,篩選出 18 個差異表達的核心基因;然后,對這 18 個基因進行生存曲線分析和不同時期的表達量分析,發現只有 8 個基因與肺腺癌的進展和預后密切相關;再通過 KEGG 功能富集分析,發現 CCNB1、CCNB2 和 CDK1 能夠參與到細胞周期這個通路中,提示它們與肺腺癌的預后密切相關。另外,這 3 個基因與 TP53 基因的突變呈正相關,且已有文獻報道 TP53 突變與肺腺癌預后不良的關系[21-23],再次提示這 3 個基因很可能是肺腺癌預后不良的標志物。本研究通過 GDSC 數據庫中的數據發現,有 4 種藥物可以針對 CDK1 進行治療,提示 CDK1 在肺腺癌治療中的價值;最后,通過 HPA 數據庫中的免疫組織化學實驗數據,從蛋白質水平再次驗證了這 3 個基因在肺腺癌中是高表達的。
據報道,CCNB2 在細胞生長中起著至關重要的作用,在多種人類腫瘤中檢測到 CCNB2 的過表達,包括肺、結直腸腺癌和垂體腺瘤[24-27]。肺癌和消化道腫瘤患者中 CCNB2 是高表達的,且與腫瘤分期和轉移狀態相關[28]。CCNB2 跟肝癌的預后密切相關[29],而且 CCNB2 是中國非小細胞肺癌患者的預后標志物[30]。因此,本研究認為高表達的 CCNB2 與肺腺癌的預后不良有關。CCNB1 是一種參與細胞增殖的調節蛋白,可以與 CDK1 結合形成復合體,該復合體可以導致細胞周期進展,在前列腺癌中檢測到 CCNB1 是高表達的[31],而且高表達的 CCNB1 可以導致乳腺癌和食管癌預后不良[32-33]。因此,本研究認為高表達的 CCNB1 與肺腺癌的預后不良有關。
更重要的是,本研究探索了 CDK1 在肺腺癌治療中的潛在價值,發現了 CDK1 可以參與到細胞周期這個通路中,并與藥物 AT-7519[34]、CGP-60474[35]、Dinaciclib [36]和 RO-3306 [37]密切相關。這 4 種藥物在肺腺癌治療中的應用需要進一步研究確定。
值得一提的是,本研究選擇了質量較好且時效性較新的高通量測序 RNA 表達量數據,且通過核心基因的分子通路闡述了核心基因與預后的關系。更重要的是,本研究運用了生物信息綜合分析,并結合了免疫組織化學的實驗數據,條理清晰,逐步展開,層層深入地鑒定了 CCNB1、CCNB2 和 CDK1 在肺腺癌預后中的潛在作用,而且還找到了針對 CDK1 進行治療的相關藥物,發現了 CDK1 在肺腺癌治療中的潛在價值。但是,本研究也存在著不足之處,本研究中的生物信息學分析結果尚需要在未來的生物實驗中得到證實。未來,我們將進一步探討這些基因在肺腺癌進展中的潛在分子機制。
綜上所述,本研究發現 CCNB1、CCNB2 和 CDK1 與肺腺癌的進展和預后相關,即高表達的 CCNB1、CCNB2 和 CDK1 與肺腺癌的預后不良有關,這 3 個基因是肺腺癌潛在的預后標志物;而且,CDK1 可能是肺腺癌的潛在治療靶標。本研究的結果可以為肺腺癌制定有效的診斷和治療策略提供參考。
利益沖突:所有作者聲明不存在利益沖突。
肺腺癌是最常見的肺癌[1],給人類的生存與健康帶來了重大挑戰。近些年,肺腺癌的發病率和死亡率一直在上升[2]。雖然肺腺癌的治療方法近期得到不斷發展,但其治療效果依然不理想,患者 5 年生存率只有約 15% [3]。目前為止,早發現、早診斷和早治療仍為肺腺癌能否治愈的關鍵,但肺腺癌的早期特征并不明顯,其生物學標志物有待進一步開發。人類迫切需要探索更特異、更有效、更精確的生物標志物來預測肺腺癌的發展及預后,并以此研究出更好的治療策略。近年來,基于高通量測序平臺的基因表達數據已成為篩選重要的癌癥診斷和預后生物標志物的有效工具[4]。而且,基因表達綜合數據庫(Gene Expression Omnibus, GEO)中有來自于世界各國研究機構提交的高通量基因表達數據[5-6]。本研究根據 GEO 數據庫中高通量測序的肺腺癌表達量數據,結合癌癥基因組圖譜數據庫(The Cancer Genome Atlas, TCGA)和基因型-組織表達數據庫(The Genotype-Tissue Expression, GTEx)中 RNA 高通量測序數據以及人類蛋白質圖譜(Human Protein Atlas, HPA)中免疫組織化學的實驗數據作驗證,通過一系列的生物信息綜合分析,旨在找到肺腺癌的有效預后和治療標志物,以提高肺腺癌的預后生存率,為肺腺癌的治療探索出更好的方案。
1 資料與方法
1.1 數據收集
首先,從 GEO 數據庫(

1.2 差異表達基因分析
首先,采用跨平臺標準化算法[9]調整 2 個 RNA 高通量測序數據集之間可能的批次處理影響,分別合并所有肺腺癌組織的數據和正常組織的數據,將批次效應最小化。然后,基于合并后的 97 個肺腺癌組織和 97 個正常組織的表達量數據(去掉其中的長鏈非編碼 RNA 和重復的 mRNA),采用 DESeq2 軟件[10]鑒定差異表達基因,并設定閾值為:|log2FC|≥2 [其中FC為差異倍數(fold change)]和校正后 P≤0.01[11],然后篩選蛋白質編碼相關基因。分別定義 log2FC>0 和 log2FC<0 為上調差異表達基因和下調差異表達基因的閾值。
1.3 蛋白互作網絡和核心基因分析
首先,采用 STRING(Search Tool for the Retrieval of Interacting Genes/Proteins)數據庫(v11;
1.4 核心基因的 RNA 表達量驗證
首先選擇來自 TCGA 和 GTEx 數據庫中的 RNA 高通量測序樣本(包括 483 個肺腺癌組織和 347 個正常組織)的表達量數據驗證這些核心基因的表達量,驗證這些基因是否為差異表達基因。然后將驗證確定為差異表達基因的核心基因用于后續分析。
1.5 核心基因的生存分析和疾病分期分析
采用基因表達譜交互分析(Gene Expression Profiling Interactive Analysis, GEPIA)數據庫(
1.6 核心基因的通路富集分析
采用 KOBAS(KEGG Orthology Based Annotation System)數據庫(
1.7 核心基因的表達量水平與基因突變狀態的關聯分析
采用 muTarget 工具(
1.8 核心基因的蛋白水平分析
采用 HPA 數據庫[20]中免疫組織化學的實驗數據,分析篩選出來的核心基因在肺腺癌組織和正常組織中蛋白水平的表達,從生物學實驗角度再次驗證核心基因的表達情況。
1.9 統計學方法
采用 R 4.0.3 軟件進行統計和作圖。計量資料采用均數±標準差表示,計數資料采用例數表示。選擇乘積極限法計算生存數據并繪制生存曲線,選擇對數秩檢驗進行組間比較。采用單因素方差分析對生存曲線有統計學意義的基因在不同時期的表達情況進行分期分析。雙側檢驗水準 α=0.05。
2 結果
2.1 鑒定差異表達基因
共有 1245 個差異表達基因,包括 594 個上調基因和 651 個下調基因(圖1a),其中細胞周期蛋白 B1(cyclin B1, CCNB1)、細胞周期蛋白 B2(cyclin B2, CCNB2)和細胞周期蛋白依賴性激酶 1(cyclin dependent kinase 1, CDK1)均為上調基因。差異表達基因的結果表明肺腺癌組織的基因表達與癌旁正常組織的基因表達差異明顯。

a. 差異表達基因的火山圖,基于 97 個肺腺癌組織和 97 個正常組織的表達量數據,每個點表示一個基因,紅點表示上調基因,藍點表示下調基因;b. 核心基因的蛋白互作網絡圖中打分最高的模塊,MCODE Score=27.655,Nodes=30
2.2 差異表達基因的蛋白互作網絡和核心基因分析
采用 STRING 數據庫分析上述 1245 個差異表達基因的蛋白互作網絡,只保留其中來自于實驗驗證和文獻支持的數據,結果顯示,該蛋白互作網絡包含 1240 個節點和 5874 條邊。采用 MCODE 軟件分析該蛋白互作網絡中的模塊,選出打分最高的模塊(MOCDE score=27.655,Nodes=30),30 個核心基因的蛋白互作網絡圖見圖1b。
2.3 核心基因的 RNA 表達量驗證
采用來自 TCGA 和 GTEx 數據庫中的包含更大樣本量的 RNA 表達量數據(包括 483 個肺腺癌樣本和 347 個正常樣本)對上面挑選出的 30 個核心基因的表達情況進行驗證。結果顯示,只有 18 個基因為差異表達基因(圖2)。

T:肺腺癌組織(
2.4 核心基因的生存曲線分析
采用 GEPIA 數據庫中的肺腺癌數據集分析這 18 個核心基因在肺腺癌中的生存曲線,結果顯示,只有 8 個基因,其表達量越高,對應的無病生存率越低(圖3),包括 AURKB(P=0.018)、BIRC5(P=0.013)、CCNB1(P=0.007)、CCNB2(P=0.012)、CDK1(P=0.025)、CENPF(P=0.026)、DLGAP5(P=0.021)和 NUF2(P=0.014),而其他基因的生存曲線無統計學意義(P>0.05)。該結果提示,這 8 個基因可能與肺腺癌的進展和預后密切相關。

這些基因的高表達與肺腺癌的預后不良有關(
2.5 核心基因的疾病分期分析
為了進一步探索這 8 個基因跟肺腺癌的進展和預后的關系,本研究分析了這 8 個基因在肺腺癌不同時期的表達情況(圖4),結果顯示這 8 個基因在肺腺癌不同時期都是差異表達的(P<0.05),尤其在肺腺癌中后期表達量更高。這進一步提示這 8 個基因可能與肺腺癌的進展和預后密切相關。

篩選出的 8 個核心基因在肺腺癌不同時期的表達都是差異表達的(
2.6 核心基因的通路富集分析
為了探索這 8 個基因可能的分子功能,本研究采用 KOBAS 數據庫進行 KEGG 通路富集分析。結果顯示,CCNB1、CCNB2 和 CDK1 可以在細胞周期(cell cycle)通路中顯著富集。
2.7 核心基因的突變狀態分析
進了一步探索 CCNB1、CCNB2 和 CDK1 在肺腺癌中的功能,本研究分析了這 3 個基因的表達量與哪些基因的突變有關,以及突變的狀態如何。結果顯示,在肺腺癌中,CCNB1、CCNB2 和 CDK1 3 個基因的表達量在 TP53 突變型的肺腺癌組織中均高于在 TP53 野生型的肺腺癌組織中(P<0.001),見圖5。

a.
2.8 核心基因的藥物治療分析
基于 GDSC 數據庫中的信息,尋找這 3 個基因與藥物的關系。結果顯示,CDK1 可以參與到細胞周期這個通路中,并與藥物 AT-7519、CGP-60474、Dinaciclib 和 RO-3306 密切相關(表2),該結果提示 CDK1 是肺腺癌潛在的治療靶標。

2.9 核心基因的蛋白水平表達分析
CCNB1、CCNB2 和 CDK1 蛋白在肺腺癌組織中呈現出過表達的趨勢。該結果再次驗證了這 3 個基因在肺腺癌中是差異顯著高表達的。見圖6。

3 討論
目前為止,肺腺癌的死亡率仍然很高,生存率仍然很低,因此,為肺腺癌尋找有效的預后和治療標志物具有很重要的臨床意義。本研究通過 GEO 數據庫中來自于數據集 GSE140343 和 GSE110907 中的 RNA 表達量數據,聯合 TCGA 和 GTEx 數據庫中的 RNA 表達量數據,篩選出 18 個差異表達的核心基因;然后,對這 18 個基因進行生存曲線分析和不同時期的表達量分析,發現只有 8 個基因與肺腺癌的進展和預后密切相關;再通過 KEGG 功能富集分析,發現 CCNB1、CCNB2 和 CDK1 能夠參與到細胞周期這個通路中,提示它們與肺腺癌的預后密切相關。另外,這 3 個基因與 TP53 基因的突變呈正相關,且已有文獻報道 TP53 突變與肺腺癌預后不良的關系[21-23],再次提示這 3 個基因很可能是肺腺癌預后不良的標志物。本研究通過 GDSC 數據庫中的數據發現,有 4 種藥物可以針對 CDK1 進行治療,提示 CDK1 在肺腺癌治療中的價值;最后,通過 HPA 數據庫中的免疫組織化學實驗數據,從蛋白質水平再次驗證了這 3 個基因在肺腺癌中是高表達的。
據報道,CCNB2 在細胞生長中起著至關重要的作用,在多種人類腫瘤中檢測到 CCNB2 的過表達,包括肺、結直腸腺癌和垂體腺瘤[24-27]。肺癌和消化道腫瘤患者中 CCNB2 是高表達的,且與腫瘤分期和轉移狀態相關[28]。CCNB2 跟肝癌的預后密切相關[29],而且 CCNB2 是中國非小細胞肺癌患者的預后標志物[30]。因此,本研究認為高表達的 CCNB2 與肺腺癌的預后不良有關。CCNB1 是一種參與細胞增殖的調節蛋白,可以與 CDK1 結合形成復合體,該復合體可以導致細胞周期進展,在前列腺癌中檢測到 CCNB1 是高表達的[31],而且高表達的 CCNB1 可以導致乳腺癌和食管癌預后不良[32-33]。因此,本研究認為高表達的 CCNB1 與肺腺癌的預后不良有關。
更重要的是,本研究探索了 CDK1 在肺腺癌治療中的潛在價值,發現了 CDK1 可以參與到細胞周期這個通路中,并與藥物 AT-7519[34]、CGP-60474[35]、Dinaciclib [36]和 RO-3306 [37]密切相關。這 4 種藥物在肺腺癌治療中的應用需要進一步研究確定。
值得一提的是,本研究選擇了質量較好且時效性較新的高通量測序 RNA 表達量數據,且通過核心基因的分子通路闡述了核心基因與預后的關系。更重要的是,本研究運用了生物信息綜合分析,并結合了免疫組織化學的實驗數據,條理清晰,逐步展開,層層深入地鑒定了 CCNB1、CCNB2 和 CDK1 在肺腺癌預后中的潛在作用,而且還找到了針對 CDK1 進行治療的相關藥物,發現了 CDK1 在肺腺癌治療中的潛在價值。但是,本研究也存在著不足之處,本研究中的生物信息學分析結果尚需要在未來的生物實驗中得到證實。未來,我們將進一步探討這些基因在肺腺癌進展中的潛在分子機制。
綜上所述,本研究發現 CCNB1、CCNB2 和 CDK1 與肺腺癌的進展和預后相關,即高表達的 CCNB1、CCNB2 和 CDK1 與肺腺癌的預后不良有關,這 3 個基因是肺腺癌潛在的預后標志物;而且,CDK1 可能是肺腺癌的潛在治療靶標。本研究的結果可以為肺腺癌制定有效的診斷和治療策略提供參考。
利益沖突:所有作者聲明不存在利益沖突。