引用本文: 謝潭, 張澤宇, 王士銘, 王飛通. 基于TCGA數據庫構建肝細胞癌程序性細胞死亡的列線圖預后預測模型. 中國普外基礎與臨床雜志, 2023, 30(7): 842-848. doi: 10.7507/1007-9424.202302028 復制
肝癌(由于肝細胞癌占成人原發性肝臟惡性腫瘤的絕大部分,因此下文中出現的“肝癌”若無特別說明均指“肝細胞癌”)是一種常見惡性腫瘤,早期缺乏典型臨床表現,早期診斷困難[1];此外,在無任何干預的情況下,肝癌患者的生存期僅為6~20個月[2]。程序性細胞死亡(programmed cell death,PCD)是復雜的細胞內在程序介導下的調節性細胞死亡,不同類型的細胞死亡在觸發機制和表現形式上各不相同[3],因而惡性腫瘤的發展需要克服各種形式的細胞死亡[4]。長鏈非編碼RNA(long non-coding RNA,lncRNA)是一系列長度超過200 bp的核苷酸,它不具有編碼蛋白質的能力,廣泛參與多種惡性腫瘤的發展。已有多種PCD相關的lncRNAs被作為預測癌癥患者預后的生物標志物[5-6],而且在肝癌的發生、發展及轉移中起著重要作用[7-9],如lncRNA miR-34a的去甲基化可誘導肝癌細胞凋亡,從而抑制肝癌進展[7];lncRNA SNHG7在肝癌組織中高表達,并且可通過SNHG7/miR-34a/SIRT1軸抑制肝癌細胞焦亡[9]。然而對更多PCD與肝癌之間的關系仍有許多未解之迷。因此,本研究基于癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數據庫中的肝癌基因表達數據集進行分析,篩選與PCD相關的lncRNAs,以建立評價肝癌患者臨床預后的新指標。
1 資料與方法
1.1 肝癌患者數據下載
登錄TCGA數據庫網站(https://portal.gdc.cancer.gov/),在Project下選取TCGA-LIHC,在Experimental strategy下選取RNA-seq,下載肝癌患者樣本和正常樣本的全部標準化RNA-seq數據和每千個堿基轉錄物每百萬映射閱讀片段的臨床數據。
1.2 PCD相關基因的篩選
PCD相關基因包含細胞凋亡、壞死性凋亡、焦亡、鐵死亡、銅死亡、多聚二磷酸腺苷核糖聚合酶1 [poly-(ADP-ribose) polymerase 1,PARP-1]依賴性細胞死亡、中性粒細胞胞外陷阱(neutrophil extracellular traps,NET)介導的細胞死亡、細胞嵌入式死亡、溶酶體依賴性細胞死亡、自噬、堿死亡及氧死亡共12種PCD模式的關鍵調控基因[3]。從在線基因集富集分析(gene set enrichment analysis,GSEA)基因集、京都基因與基因組百科全書(Kyoto encyclopedia of genes and genomes,KEGG)、綜述文章和人工整理的基因中收集PCD相關基因[3]。
1.3 PCD相關差異表達基因(differentially expressed gene,DEG)的篩選和富集分析
通過R軟件的“limma”數據包篩選肝癌組織和正常肝組織之間差異表達的PCD相關基因。使用R軟件的“clusterProfiler”和“Annotation”數據包對PCD相關DEG進行KEGG和基因本體(gene ontology,GO)富集分析。
1.4 構建預后風險評分函數模型(下文簡稱“風險模型” )并驗證
1.4.1 PCD相關lncRNAs篩選以及構建與肝癌患者總生存時間(overall survival,OS)有關的預后風險模型
① 通過R軟件的“limma”數據包,采用Pearson相關性分析篩選PCD相關lncRNAs,以|相關系數|>0.4和P<0.001作為篩選標準。② 采用單因素Cox比例風險回歸(簡稱“Cox回歸”)模型分析以篩選與訓練集中肝癌患者OS相關的PCD相關lncRNAs,檢驗水準α=0.05。③ 根據R軟件的“glmnet”數據包,使用最小絕對收縮和選擇算子(LASSO)回歸方法來識別與總生存率最相關的PCD相關lncRNAs,然后采用多因素Cox回歸模型確定與肝癌患者OS有關的PCD相關lncRNAs基因及其偏回歸系數(β),檢驗水準α=0.05。然后進一步采用多因素Cox回歸模型分析影響HCC患者OS有關的PCD相關lncRNAs基因并構建判斷HCC患者預后(指標為OS)風險模型。
1.4.2 風險模型的驗證和評估
本研究中使用R軟件將納入肝癌患者按1∶1的比例隨機分為訓練集和驗證集。根據風險模型計算每例患者風險評分,然后根據訓練集中患者的中位風險評分將各集中的肝癌患者分為高風險和低風險。為了驗證風險模型與預后的關系,使用R軟件的“survival”數據包分析,采用Kaplan-Meier法繪制總生存曲線并采用log-rank檢驗比較高風險和低風險肝癌患者總生存情況的差異;同時使用“timeROC”數據包分析,采用時間相關受試者操作特征(receiver operating characteristic,ROC)曲線下面積(area under ROC curve,AUC)評估風險模型在訓練集、驗證集及整體集中對肝癌患者1、3、5年總生存率的區分度;此外,基于每例患者的風險評分和生存狀態,使用R軟件“pheatmap”數據包繪制風險曲線和散點圖。
1.5 列線圖的構建和校準
采用R軟件的“rms”數據包構建列線圖。列線圖包含風險模型、年齡、性別、腫瘤分級及腫瘤分期(在既往研究中,年齡、性別、腫瘤分級及腫瘤分期均為肝癌患者的危險因素)。采用ROC曲線評估列線圖預測整體肝癌患者的1、3和5年總生存率的區分度;利用R軟件的“survival”數據包繪制列線圖的校準曲線,評估列線圖的預測準確性。檢驗水準α=0.05。
2 結果
2.1 下載的肝癌患者數據
從TCGA中下載了374例肝癌組織樣本和50個正常肝組織樣本,獲得了14 142個lncRNAs表達和19 658個基因表達譜。有342例肝癌患者的臨床病理資料完整。
2.2 PCD相關DEGs篩選及DEGs基因富集分析結果
最終的基因列表是12個PCD模式的調控基因,包括580個凋亡基因,367個自噬依賴性細胞死亡基因,220個溶酶體依賴性細胞死亡基因,101個壞死性凋亡基因,88個鐵死亡基因,52個焦亡基因,15個細胞嵌入式死亡基因,14個銅死亡基因,9個PARP-1依賴性細胞死亡基因,8個NET介導的細胞死亡,7個堿死亡基因和5個氧死亡基因(附補充表1),共1 466個基因,由于同一基因可以調控多個細胞死亡模式,相同基因合并后最終1 078個基因被納入分析。

按照DEG的篩選條件,共獲得401個PCD相關DEGs(附補充表2),其中373個DEGs基因上調 [log2(差異倍數)≥1],28個DEGs基因下調 [log2(差異倍數)<1]。

KEGG通路分析結果(附補充圖1a)表明,PCD相關DEG主要富集于溶酶體、人乳頭瘤病毒感染、微小RNA與癌癥、志賀菌病、細胞凋亡、血脂與動脈粥樣硬化、人巨細胞病毒感染、mTOR信號通路、NOD樣受體信號通路、細胞衰老、腫瘤壞死因子信號通路、p53信號通路、核因子-κB信號通路、白細胞介素-17信號通路等。GO分析結果(附補充圖1b)顯示,在生物過程類別中,DEG主要富集于凋亡信號通路的調控、自噬、自噬調節等;在細胞成分類別中,DEG主要富集于液泡膜、溶酶體膜、內體膜等;在分子功能類別中,DEG主要富集于泛素樣蛋白連接酶結合、細胞因子受體結合、熱休克蛋白結合、p53結合等。

a~c:分別為訓練集(a)、驗證集(b)和整體集(c)中高風險和低風險肝癌患者的總生存曲線;d~f:分別為預后風險模型預測訓練集(d)、驗證集(e)和整體集(f)中肝癌患者1、3、5年總生存率的ROC曲線;g~i:分別為訓練集(g)、驗證集(h)和整體集(i)風險評分曲線;j~l:分別為訓練集(j)、驗證集(k)和整體集(l)中肝癌患者生存狀態的散點圖
2.3 PCD相關lncRNAs預后風險模型的構建及驗證
① 通過Pearson相關性分析PCD相關DEGs,共獲得了1 021個PCD相關lncRNAs。② 通過在訓練集中對肝癌患者的相關lncRNAs進行的單因素Cox回歸模型分析結果,獲得了107個重疊候選PCD相關lncRNAs與OS有關(附補充表3)。為了進一步確定與肝癌患者預后顯著相關的107個lncRNAs,進行了10倍交叉驗證的LASSO回歸,以獲得來自最小部分似然偏差的最佳λ值,得到了25個與OS相關的PCD相關lncRNAs(附圖2a、2b)。然后進一步行多因素Cox回歸模型分析后共獲得8個與肝癌患者OS有關的PCD相關lncRNAs(表1),其中AC099850.3、LINC00942、AC040970.1、AC009403.1和AL355974.2是危險因素 [風險比率(hazard ratio,RR)>1],AC022613.1、AC015908.3和AC009283.1是保護因素(RR<1)。8個PCD相關lncRNAs在肝癌中的表達水平見補充表4。③ 根據多因素Cox回歸模型分析影響HCC患者OS有關的8個PCD相關lncRNAs基因用來構建判斷HCC患者預后(OS)風險模型函數表達式為:預后風險評分=exp1×β1+exp2×β2…+expi×βi(其中expi表示目標PCD相關lncRNA的表達水平,βi是目標PCD相關lncRNA多因素Cox回歸分析的偏回歸系數)。根據預后風險模型在訓練集肝癌患者中的中位風險評分為0.89分,低風險和高風險患者在訓練集中分別為86和85例、在驗證集中分別為86和85例、在整體集中分別為172和170例,訓練集、驗證集及整體集中Kaplan-Meier法繪制的生存曲線比較結果均發現低風險HCC患者的總生存情況優于高風險患者(P<0.001,圖1a~1c)。ROC曲線(圖1d~1f)顯示,預后風險模型在訓練集、驗證集及整體集中預測肝癌患者1、3、5年總生存率有一定的價值,其AUC值見表2。根據每例患者風險模型評分和生存狀態繪制風險曲線(圖1g~1i)和散點圖(圖1j~1l)直觀結果也發現,在訓練集、驗證集及整體集中高風險患者預后較低風險差。

a、b:分別為影響肝癌患者OS的單因素(a)和多因素(b)分析森林圖;c:各指標預測肝癌患者總生存率的ROC曲線;d:基于風險模型和其他臨床病理因素構建的列線圖;e:列線圖預測的1、3、5年總生存率的校準圖
2.4 PCD相關預后風險模型的預測價值
為了評估篩選出的8個PCD相關lncRNAs預后風險模型是否是肝癌患者總生存時間的影響因素,同時納入了年齡、性別、腫瘤分級、腫瘤TNM分期、T、N、M分期進行了單因素和多因素Cox回歸分析,單因素Cox回歸分析(圖2a)發現,腫瘤TNM分期、T、M分期、風險模型與肝癌患者的OS有關(P<0.05),多因素Cox回歸分析(圖2b)發現,風險模型≥0.89分是影響肝癌患者OS的危險因素 [RR=1.217,95%CI(1.151,1.286),P<0.001]。年齡、性別、腫瘤分級、腫瘤TNM分期、T、N、M分期及風險模型預測肝癌患者總生存率的AUC(95%CI)分別為0.517(0.418,0.586)、0.434(0.360,0.525)、0.528(0.415,0.582)、0.722(0.528,0.782)、0.716(0.620,0.776)、0.507(0.454,0.605)、0.517(0.428,0.594)、0.822(0.796,0.873),風險模型預測肝癌的累積總生存率有較高的價值,見圖2c。
使用8個PCD相關lncRNAs構建的預后風險模型結合其他臨床病理因素(在既往研究中,年齡、性別、分期等都為肝癌危險因素)構建了臨床適應性列線圖(圖2d)。列線圖預測1、3和5年總生存率的AUC值(95%CI)分別為0.843(0.782,0.868)、0.839(0.769,0.871)、0.834(0.785,0.886)。訓練集內1、3和5年總生存率列線圖的校準圖(圖2e)顯示,校準曲線與45°參考線均比較靠近,提示列線圖預測總生存率與實際總生存率較一致。
3 討論
隨著生物信息學技術的發展,越來越多的lncRNAs相關模型被用于預測諸如肝癌[10]、胰腺癌[11]、結直腸癌[12]、膀胱癌[13]等惡性腫瘤患者的預后。lncRNAs在PCD中也起著至關重要的作用,如lnc-TC/miR-142-5p/CUL4B信號軸促進細胞鐵死亡而參與苯血液毒性[14];lncRNA重編程調節器敲低通過調節PTBP1/FOXP1軸抑制B3型柯薩奇病毒誘導的心肌細胞炎癥和核苷酸結合寡聚結構域樣受體家族3介導的細胞焦亡[15]。
PCD是區別于細胞意外死亡的一種調節性細胞死亡。其中,細胞凋亡典型特點為凝固、核分裂和核仁溶解,巨噬細胞吞噬凋亡囊泡而不影響周圍細胞[16];壞死性凋亡也被證實是一種可誘導的程序性死亡,壞死小體形成是其典型特征,涉及多種復雜步驟[17];焦亡過程涉及復雜炎癥反應,細胞腫脹、溶解和釋放大量促炎因子為特征[18];鐵死亡是一種鐵依賴性脂質過氧化物增加導致的程序性死亡[19];銅死亡與鐵死亡類似,細胞內銅離子蓄積而表現出細胞毒性[20];內源性細胞死亡是鄰近細胞吞噬并殺死另一個細胞的現象[21];NET介導的細胞死亡是細胞損傷期間由NETs釋放引起[22];廣泛DNA損傷引起核蛋白酶PARP-1過度激活是PARP-1介導細胞死亡的特征[23];溶酶體依賴性細胞死亡特征是溶酶體破裂釋放大量水解酶繼而導致細胞死亡[24];自噬是一種吞噬隔離細胞內應激物質的自我保護現象,而不可逆的細胞應激則會導致自噬依賴細胞死亡[25];堿死亡是通過細胞內堿化作用導致程序性死亡,具體分子機制尚不明確[26];氧死亡利用特定途徑介導氧自由基導致細胞死亡,是一種新型細胞死亡途徑[27]。
本研究在肝癌中全面分析了PCD的表達模式,根據TCGA中的數據分析構建了一個包含8個PCD相關lncRNAs基因(AC099850.3、LINC00942、AC040970.1、AC022613.1、AC009403.1、AL355974.2、AC015908.3、AC009283.1)的風險模型,發現該模型在訓練集中預測肝癌患者1、3及5年總生存率均有一定的準確性,其AUC分別為0.814、0.768和0.811,并且單因素和多因素Cox回歸分析結果顯示,該風險模型是影響肝癌患者預后(OS)的風險因素 [風險評分模型≥0.89分/<0.89分,RR=1.217,95%CI(1.151,1.286),P<0.001]。對于這8個PCD相關lncRNAs基因,在既往的研究[28]中發現, AC099850.3通過PRR11/PI3K/AKT軸促進肝癌細胞的增殖和侵襲且與患者預后相關;LINC00942通過經典Wnt信號通路相關FZD1上調促進肺腺癌細胞增殖和轉移[29];AC022613.1、AL355974.2、AC015908.3及AC009283.1為肝癌[30-31]或乳腺癌[32-33]診斷和預后的治療靶點和潛在生物標志物;然而未發現AC040970.1和AC009403.1在癌癥預后中作用的相關報道。
目前有較多的列線圖用于預測肝癌患者的預后[34]。本研究中使用包括8個PCD相關lncRNAs構建的風險模型在內的臨床病理影響因素構建了列線圖,它用于預測肝癌患者1、3和5年總生存率的AUC值分別為0.843、0.839、0.834,體現較好預測能力。結合LASSO回歸模型、Kaplan-Meier生存評估、ROC曲線分析和多因素Cox回歸模型分析和校準曲線的結果,該列線圖模型具有較好的區分度和準確性,提示它有預測肝癌患者生存預后的潛力。
雖然本研究對數據庫中的數據進行分析得到了理想的陽性結果,但對結論也需謹慎看待,研究存在一些局限性:數據來源單一,數據量不大,因此分析結果可能存在一定偏差;為了保證風險模型的準確性,建立的風險模型需在其他獨立隊列中進一步確認;應驗證lncRNAs表達差異,進一步證明相關lncRNA潛在的分子機制。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:謝潭撰寫文本和圖片制作;王飛通構思和設計了實驗并給予技術和寫作指導;張澤宇和王士銘審查論文及編輯。所有作者均審閱了此文稿并同意最終文稿。
肝癌(由于肝細胞癌占成人原發性肝臟惡性腫瘤的絕大部分,因此下文中出現的“肝癌”若無特別說明均指“肝細胞癌”)是一種常見惡性腫瘤,早期缺乏典型臨床表現,早期診斷困難[1];此外,在無任何干預的情況下,肝癌患者的生存期僅為6~20個月[2]。程序性細胞死亡(programmed cell death,PCD)是復雜的細胞內在程序介導下的調節性細胞死亡,不同類型的細胞死亡在觸發機制和表現形式上各不相同[3],因而惡性腫瘤的發展需要克服各種形式的細胞死亡[4]。長鏈非編碼RNA(long non-coding RNA,lncRNA)是一系列長度超過200 bp的核苷酸,它不具有編碼蛋白質的能力,廣泛參與多種惡性腫瘤的發展。已有多種PCD相關的lncRNAs被作為預測癌癥患者預后的生物標志物[5-6],而且在肝癌的發生、發展及轉移中起著重要作用[7-9],如lncRNA miR-34a的去甲基化可誘導肝癌細胞凋亡,從而抑制肝癌進展[7];lncRNA SNHG7在肝癌組織中高表達,并且可通過SNHG7/miR-34a/SIRT1軸抑制肝癌細胞焦亡[9]。然而對更多PCD與肝癌之間的關系仍有許多未解之迷。因此,本研究基于癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數據庫中的肝癌基因表達數據集進行分析,篩選與PCD相關的lncRNAs,以建立評價肝癌患者臨床預后的新指標。
1 資料與方法
1.1 肝癌患者數據下載
登錄TCGA數據庫網站(https://portal.gdc.cancer.gov/),在Project下選取TCGA-LIHC,在Experimental strategy下選取RNA-seq,下載肝癌患者樣本和正常樣本的全部標準化RNA-seq數據和每千個堿基轉錄物每百萬映射閱讀片段的臨床數據。
1.2 PCD相關基因的篩選
PCD相關基因包含細胞凋亡、壞死性凋亡、焦亡、鐵死亡、銅死亡、多聚二磷酸腺苷核糖聚合酶1 [poly-(ADP-ribose) polymerase 1,PARP-1]依賴性細胞死亡、中性粒細胞胞外陷阱(neutrophil extracellular traps,NET)介導的細胞死亡、細胞嵌入式死亡、溶酶體依賴性細胞死亡、自噬、堿死亡及氧死亡共12種PCD模式的關鍵調控基因[3]。從在線基因集富集分析(gene set enrichment analysis,GSEA)基因集、京都基因與基因組百科全書(Kyoto encyclopedia of genes and genomes,KEGG)、綜述文章和人工整理的基因中收集PCD相關基因[3]。
1.3 PCD相關差異表達基因(differentially expressed gene,DEG)的篩選和富集分析
通過R軟件的“limma”數據包篩選肝癌組織和正常肝組織之間差異表達的PCD相關基因。使用R軟件的“clusterProfiler”和“Annotation”數據包對PCD相關DEG進行KEGG和基因本體(gene ontology,GO)富集分析。
1.4 構建預后風險評分函數模型(下文簡稱“風險模型” )并驗證
1.4.1 PCD相關lncRNAs篩選以及構建與肝癌患者總生存時間(overall survival,OS)有關的預后風險模型
① 通過R軟件的“limma”數據包,采用Pearson相關性分析篩選PCD相關lncRNAs,以|相關系數|>0.4和P<0.001作為篩選標準。② 采用單因素Cox比例風險回歸(簡稱“Cox回歸”)模型分析以篩選與訓練集中肝癌患者OS相關的PCD相關lncRNAs,檢驗水準α=0.05。③ 根據R軟件的“glmnet”數據包,使用最小絕對收縮和選擇算子(LASSO)回歸方法來識別與總生存率最相關的PCD相關lncRNAs,然后采用多因素Cox回歸模型確定與肝癌患者OS有關的PCD相關lncRNAs基因及其偏回歸系數(β),檢驗水準α=0.05。然后進一步采用多因素Cox回歸模型分析影響HCC患者OS有關的PCD相關lncRNAs基因并構建判斷HCC患者預后(指標為OS)風險模型。
1.4.2 風險模型的驗證和評估
本研究中使用R軟件將納入肝癌患者按1∶1的比例隨機分為訓練集和驗證集。根據風險模型計算每例患者風險評分,然后根據訓練集中患者的中位風險評分將各集中的肝癌患者分為高風險和低風險。為了驗證風險模型與預后的關系,使用R軟件的“survival”數據包分析,采用Kaplan-Meier法繪制總生存曲線并采用log-rank檢驗比較高風險和低風險肝癌患者總生存情況的差異;同時使用“timeROC”數據包分析,采用時間相關受試者操作特征(receiver operating characteristic,ROC)曲線下面積(area under ROC curve,AUC)評估風險模型在訓練集、驗證集及整體集中對肝癌患者1、3、5年總生存率的區分度;此外,基于每例患者的風險評分和生存狀態,使用R軟件“pheatmap”數據包繪制風險曲線和散點圖。
1.5 列線圖的構建和校準
采用R軟件的“rms”數據包構建列線圖。列線圖包含風險模型、年齡、性別、腫瘤分級及腫瘤分期(在既往研究中,年齡、性別、腫瘤分級及腫瘤分期均為肝癌患者的危險因素)。采用ROC曲線評估列線圖預測整體肝癌患者的1、3和5年總生存率的區分度;利用R軟件的“survival”數據包繪制列線圖的校準曲線,評估列線圖的預測準確性。檢驗水準α=0.05。
2 結果
2.1 下載的肝癌患者數據
從TCGA中下載了374例肝癌組織樣本和50個正常肝組織樣本,獲得了14 142個lncRNAs表達和19 658個基因表達譜。有342例肝癌患者的臨床病理資料完整。
2.2 PCD相關DEGs篩選及DEGs基因富集分析結果
最終的基因列表是12個PCD模式的調控基因,包括580個凋亡基因,367個自噬依賴性細胞死亡基因,220個溶酶體依賴性細胞死亡基因,101個壞死性凋亡基因,88個鐵死亡基因,52個焦亡基因,15個細胞嵌入式死亡基因,14個銅死亡基因,9個PARP-1依賴性細胞死亡基因,8個NET介導的細胞死亡,7個堿死亡基因和5個氧死亡基因(附補充表1),共1 466個基因,由于同一基因可以調控多個細胞死亡模式,相同基因合并后最終1 078個基因被納入分析。

按照DEG的篩選條件,共獲得401個PCD相關DEGs(附補充表2),其中373個DEGs基因上調 [log2(差異倍數)≥1],28個DEGs基因下調 [log2(差異倍數)<1]。

KEGG通路分析結果(附補充圖1a)表明,PCD相關DEG主要富集于溶酶體、人乳頭瘤病毒感染、微小RNA與癌癥、志賀菌病、細胞凋亡、血脂與動脈粥樣硬化、人巨細胞病毒感染、mTOR信號通路、NOD樣受體信號通路、細胞衰老、腫瘤壞死因子信號通路、p53信號通路、核因子-κB信號通路、白細胞介素-17信號通路等。GO分析結果(附補充圖1b)顯示,在生物過程類別中,DEG主要富集于凋亡信號通路的調控、自噬、自噬調節等;在細胞成分類別中,DEG主要富集于液泡膜、溶酶體膜、內體膜等;在分子功能類別中,DEG主要富集于泛素樣蛋白連接酶結合、細胞因子受體結合、熱休克蛋白結合、p53結合等。

a~c:分別為訓練集(a)、驗證集(b)和整體集(c)中高風險和低風險肝癌患者的總生存曲線;d~f:分別為預后風險模型預測訓練集(d)、驗證集(e)和整體集(f)中肝癌患者1、3、5年總生存率的ROC曲線;g~i:分別為訓練集(g)、驗證集(h)和整體集(i)風險評分曲線;j~l:分別為訓練集(j)、驗證集(k)和整體集(l)中肝癌患者生存狀態的散點圖
2.3 PCD相關lncRNAs預后風險模型的構建及驗證
① 通過Pearson相關性分析PCD相關DEGs,共獲得了1 021個PCD相關lncRNAs。② 通過在訓練集中對肝癌患者的相關lncRNAs進行的單因素Cox回歸模型分析結果,獲得了107個重疊候選PCD相關lncRNAs與OS有關(附補充表3)。為了進一步確定與肝癌患者預后顯著相關的107個lncRNAs,進行了10倍交叉驗證的LASSO回歸,以獲得來自最小部分似然偏差的最佳λ值,得到了25個與OS相關的PCD相關lncRNAs(附圖2a、2b)。然后進一步行多因素Cox回歸模型分析后共獲得8個與肝癌患者OS有關的PCD相關lncRNAs(表1),其中AC099850.3、LINC00942、AC040970.1、AC009403.1和AL355974.2是危險因素 [風險比率(hazard ratio,RR)>1],AC022613.1、AC015908.3和AC009283.1是保護因素(RR<1)。8個PCD相關lncRNAs在肝癌中的表達水平見補充表4。③ 根據多因素Cox回歸模型分析影響HCC患者OS有關的8個PCD相關lncRNAs基因用來構建判斷HCC患者預后(OS)風險模型函數表達式為:預后風險評分=exp1×β1+exp2×β2…+expi×βi(其中expi表示目標PCD相關lncRNA的表達水平,βi是目標PCD相關lncRNA多因素Cox回歸分析的偏回歸系數)。根據預后風險模型在訓練集肝癌患者中的中位風險評分為0.89分,低風險和高風險患者在訓練集中分別為86和85例、在驗證集中分別為86和85例、在整體集中分別為172和170例,訓練集、驗證集及整體集中Kaplan-Meier法繪制的生存曲線比較結果均發現低風險HCC患者的總生存情況優于高風險患者(P<0.001,圖1a~1c)。ROC曲線(圖1d~1f)顯示,預后風險模型在訓練集、驗證集及整體集中預測肝癌患者1、3、5年總生存率有一定的價值,其AUC值見表2。根據每例患者風險模型評分和生存狀態繪制風險曲線(圖1g~1i)和散點圖(圖1j~1l)直觀結果也發現,在訓練集、驗證集及整體集中高風險患者預后較低風險差。

a、b:分別為影響肝癌患者OS的單因素(a)和多因素(b)分析森林圖;c:各指標預測肝癌患者總生存率的ROC曲線;d:基于風險模型和其他臨床病理因素構建的列線圖;e:列線圖預測的1、3、5年總生存率的校準圖
2.4 PCD相關預后風險模型的預測價值
為了評估篩選出的8個PCD相關lncRNAs預后風險模型是否是肝癌患者總生存時間的影響因素,同時納入了年齡、性別、腫瘤分級、腫瘤TNM分期、T、N、M分期進行了單因素和多因素Cox回歸分析,單因素Cox回歸分析(圖2a)發現,腫瘤TNM分期、T、M分期、風險模型與肝癌患者的OS有關(P<0.05),多因素Cox回歸分析(圖2b)發現,風險模型≥0.89分是影響肝癌患者OS的危險因素 [RR=1.217,95%CI(1.151,1.286),P<0.001]。年齡、性別、腫瘤分級、腫瘤TNM分期、T、N、M分期及風險模型預測肝癌患者總生存率的AUC(95%CI)分別為0.517(0.418,0.586)、0.434(0.360,0.525)、0.528(0.415,0.582)、0.722(0.528,0.782)、0.716(0.620,0.776)、0.507(0.454,0.605)、0.517(0.428,0.594)、0.822(0.796,0.873),風險模型預測肝癌的累積總生存率有較高的價值,見圖2c。
使用8個PCD相關lncRNAs構建的預后風險模型結合其他臨床病理因素(在既往研究中,年齡、性別、分期等都為肝癌危險因素)構建了臨床適應性列線圖(圖2d)。列線圖預測1、3和5年總生存率的AUC值(95%CI)分別為0.843(0.782,0.868)、0.839(0.769,0.871)、0.834(0.785,0.886)。訓練集內1、3和5年總生存率列線圖的校準圖(圖2e)顯示,校準曲線與45°參考線均比較靠近,提示列線圖預測總生存率與實際總生存率較一致。
3 討論
隨著生物信息學技術的發展,越來越多的lncRNAs相關模型被用于預測諸如肝癌[10]、胰腺癌[11]、結直腸癌[12]、膀胱癌[13]等惡性腫瘤患者的預后。lncRNAs在PCD中也起著至關重要的作用,如lnc-TC/miR-142-5p/CUL4B信號軸促進細胞鐵死亡而參與苯血液毒性[14];lncRNA重編程調節器敲低通過調節PTBP1/FOXP1軸抑制B3型柯薩奇病毒誘導的心肌細胞炎癥和核苷酸結合寡聚結構域樣受體家族3介導的細胞焦亡[15]。
PCD是區別于細胞意外死亡的一種調節性細胞死亡。其中,細胞凋亡典型特點為凝固、核分裂和核仁溶解,巨噬細胞吞噬凋亡囊泡而不影響周圍細胞[16];壞死性凋亡也被證實是一種可誘導的程序性死亡,壞死小體形成是其典型特征,涉及多種復雜步驟[17];焦亡過程涉及復雜炎癥反應,細胞腫脹、溶解和釋放大量促炎因子為特征[18];鐵死亡是一種鐵依賴性脂質過氧化物增加導致的程序性死亡[19];銅死亡與鐵死亡類似,細胞內銅離子蓄積而表現出細胞毒性[20];內源性細胞死亡是鄰近細胞吞噬并殺死另一個細胞的現象[21];NET介導的細胞死亡是細胞損傷期間由NETs釋放引起[22];廣泛DNA損傷引起核蛋白酶PARP-1過度激活是PARP-1介導細胞死亡的特征[23];溶酶體依賴性細胞死亡特征是溶酶體破裂釋放大量水解酶繼而導致細胞死亡[24];自噬是一種吞噬隔離細胞內應激物質的自我保護現象,而不可逆的細胞應激則會導致自噬依賴細胞死亡[25];堿死亡是通過細胞內堿化作用導致程序性死亡,具體分子機制尚不明確[26];氧死亡利用特定途徑介導氧自由基導致細胞死亡,是一種新型細胞死亡途徑[27]。
本研究在肝癌中全面分析了PCD的表達模式,根據TCGA中的數據分析構建了一個包含8個PCD相關lncRNAs基因(AC099850.3、LINC00942、AC040970.1、AC022613.1、AC009403.1、AL355974.2、AC015908.3、AC009283.1)的風險模型,發現該模型在訓練集中預測肝癌患者1、3及5年總生存率均有一定的準確性,其AUC分別為0.814、0.768和0.811,并且單因素和多因素Cox回歸分析結果顯示,該風險模型是影響肝癌患者預后(OS)的風險因素 [風險評分模型≥0.89分/<0.89分,RR=1.217,95%CI(1.151,1.286),P<0.001]。對于這8個PCD相關lncRNAs基因,在既往的研究[28]中發現, AC099850.3通過PRR11/PI3K/AKT軸促進肝癌細胞的增殖和侵襲且與患者預后相關;LINC00942通過經典Wnt信號通路相關FZD1上調促進肺腺癌細胞增殖和轉移[29];AC022613.1、AL355974.2、AC015908.3及AC009283.1為肝癌[30-31]或乳腺癌[32-33]診斷和預后的治療靶點和潛在生物標志物;然而未發現AC040970.1和AC009403.1在癌癥預后中作用的相關報道。
目前有較多的列線圖用于預測肝癌患者的預后[34]。本研究中使用包括8個PCD相關lncRNAs構建的風險模型在內的臨床病理影響因素構建了列線圖,它用于預測肝癌患者1、3和5年總生存率的AUC值分別為0.843、0.839、0.834,體現較好預測能力。結合LASSO回歸模型、Kaplan-Meier生存評估、ROC曲線分析和多因素Cox回歸模型分析和校準曲線的結果,該列線圖模型具有較好的區分度和準確性,提示它有預測肝癌患者生存預后的潛力。
雖然本研究對數據庫中的數據進行分析得到了理想的陽性結果,但對結論也需謹慎看待,研究存在一些局限性:數據來源單一,數據量不大,因此分析結果可能存在一定偏差;為了保證風險模型的準確性,建立的風險模型需在其他獨立隊列中進一步確認;應驗證lncRNAs表達差異,進一步證明相關lncRNA潛在的分子機制。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:謝潭撰寫文本和圖片制作;王飛通構思和設計了實驗并給予技術和寫作指導;張澤宇和王士銘審查論文及編輯。所有作者均審閱了此文稿并同意最終文稿。