引用本文: 宋佳佳, 白夢鴿, 劉堂喻亨, 胡雪姣, 趙珍珍, 彭武, 白浩, 吳茜, 應斌武. 活動性肺結核患者外周血中長鏈非編碼 RNA lnc-PAPSS2-2 的表達及其診斷價值的探究. 華西醫學, 2018, 33(8): 953-957. doi: 10.7507/1002-0179.201807068 復制
結核病是由結核分枝桿菌(Mycobacterium tuberculosis,MTB)引起的慢性傳染性疾病。據 2016 年世界衛生組織全球結核病報告,全球每年結核發病人數約為 1 040 萬例,死亡人數為 140 萬例,估計全世界有 1/3 的人口處于 MTB 潛伏感染狀態[1]。我國作為結核病高負擔國家之一,與其他國家相比結核病疫情仍十分嚴重,全國有 5 億以上人口感染 MTB,活動性肺結核患者超過 600 萬人,每年新發結核病 100 萬人,死亡 3.9 萬人[2]。目前,細菌學診斷是診斷結核病的金標準,但痰涂片檢測陽性率低,而 MTB 培養耗時長。此外,新興的免疫以及分子診斷方法雖各自有其特點,但多有費用昂貴、樣本要求高等不足[3]。因此,找到特異性生物標志物,開發快速、低成本、非侵襲性并易推廣的診斷方法對于結核病的預防和控制非常必要。
長鏈非編碼 RNA(long non-coding RNA,lncRNA)是一類長度>200 個核苷酸、不編碼蛋白質的 RNA 分子,但可通過多種機制參與調節基因的表達[4]。已有研究表明 lncRNA 與結核病的發生發展相關,例如,Yang 等[5]發現的 MIR3945HG V1 和 MIR3945HG V2 在結核感染巨噬細胞中高表達以及本課題組前期發現 lncRNA AC0797767.4 可能與肺結核易感性和肺結核臨床表現相關[6]。Lnc-PAPSS2-2(lnc-PA,ENST00000416679)是一個肺組織特異性較高的 lncRNA。在本課題前期研究中,lncRNA 芯片篩選發現其在潛伏感染和活動性結核病患者外周血中表達存在差異,在結核患者體內表達下調 2.48 倍,有希望成為活動性肺結核診斷標志物。因此本研究首次檢測了活動性肺結核患者外周血中 lnc-PA 的表達情況并評價其對活動性肺結核的診斷價值。現報告如下。
1 資料與方法
1.1 研究對象
納入 2011 年 1 月—2018 年 1 月在四川大學華西醫院就診的活動性肺結核患者 798 例(活動性肺結核組),其中以初治患者為主;并篩選同期健康體檢者 1 650 例(健康對照組)。
活動性肺結核組納入標準:① 抗酸染色陽性、MTB 培養陽性或 MTB DNA 測定(TB-DNA)陽性;② 符合我國結核病分類標準和診斷標準;③ 病理學診斷支持結核病變;④ CT 等影像學檢查顯示典型的活動性肺結核病變表現;⑤ 納入者間無血緣關系。排除標準:① 合并其他呼吸系統疾病如肺部感染等;② 系統性慢性疾病如高血壓、糖尿病等;③ 人類免疫缺陷病毒(human immunodeficiency virus,HIV)感染、腫瘤、免疫系統功能紊亂的患者;④ 患有其他基礎疾病的患者;⑤ 妊娠患者。
健康對照組納入標準:① 痰抗酸染色以及 TB-DNA 陰性;② 影像學檢查無異常;③ 既往無結核病史。入選者均排除使用激素或患有其他影響免疫功能的疾病及其他慢性疾病。
1.2 研究方法
1.2.1 電子病歷(electronic health record,EHR)信息的提取
通過四川大學華西醫院實驗室管理系統收集入選研究對象的相關 EHR 資料。個人一般情況包括年齡、性別等,臨床相關資料包括血常規及免疫學指標等。
1.2.2 訓練集和驗證集
將納入的活動性肺結核患者和健康對照人群根據入組時間先后順序分為訓練集和驗證集(2014 年 12 月 31 日之前入組的研究對象分入訓練集,之后入組的研究對象分入驗證集)。其中,活動性肺結核組,訓練集 445 例,驗證集 353 例;健康對照組,訓練集 826 例,驗證集 824 例。
1.2.3 Trizol 法提取總 RNA
取肝素鈉抗凝血 2~3 mL,室溫下 2 500 r/min 離心 5 min,吸取白膜 0.5 mL,按 Trizol 試劑說明書提取總 RNA,使用無核糖核酸酶水溶解。使用分光光度計檢測總 RNA 濃度和質量,合格后保存于–80℃ 待用。
1.2.4 RNA 逆轉錄為互補 DNA
采用日本寶日醫生物技術有限公司(TaKaRa)PrimeScriptTM RT reagent Kit with gDNA Eraser 試劑盒將上述 RNA 反轉錄為互補 DNA,產物保存于–80℃ 待用。
1.2.5 實時熒光定量聚合酶鏈反應(quantitative real-time polymerase chain reaction,qRT-PCR)檢測 lnc-PA 表達水平
采用 SYBR 法進行 qRT-PCR 檢測。反應體系為:Mix(2×KAPA SYBR FAST qPCR Master Mix2 Universal)5 μL、特異前向引物 0.2 μL、特異反向引物 0.2 μL、反轉錄產物 1 μL。反應條件見表 1。

1.3 統計學方法
采用 SPSS 22.0 軟件進行數據的統計和分析。符合正態分布的連續變量用均數±標準差表示,不符合正態分布的連續變量采用中位數(四分位數)表示。采用 Mann-Whitney 秩和檢驗比較兩組間 lnc-PA 表達水平是否有差異。按表 2 所示設置參數進行 logistic 多因素回歸分析,比較這些因素在活動性肺結核組與健康對照組之間的分布。檢驗水準 α=0.05。根據 logistic 多因素回歸分析確定最終的模型入組變量,并根據選入變量的回歸系數使用 R 軟件畫出相應的列線圖模型。采用 Bootstrap 自抽樣方法對列線圖模型進行內部驗證。使用受試者工作特征曲線(receiver operating characteristic curve,ROC 曲線)評價各個模型的診斷效能。

2 結果
2.1 活動性肺結核組和健康對照組間 lnc-PA 的表達差異
qRT-PCR 檢測了 445 例活動性肺結核患者以及 826 例健康對照人群外周血中 lnc-PA 的表達量。非參數檢驗結果顯示差異具有統計學意義(P<0.001)。活動性肺結核組外周血 lnc-PA 表達量低于健康對照組(表 3)。

2.2 診斷活動性肺結核的列線圖模型
Logistic 多因素回歸分析篩選出的 6 個臨床 EHR 指標,分別為年齡(Age)、血清白蛋白濃度(albumin,Alb)、血清球蛋白濃度(globin)、紅細胞比容(hematocrit,Hct)、血小板計數(platelet count,PLT)、淋巴細胞計數(lymphocyte,L)。如圖 1 所示,基于 age、Alb、globin、Hct、PLT、L、lnc-PA 這 7 個預測因素及其回歸系數建立活動性肺結核診斷模型并繪制列線圖。使用列線圖時要先明確患者每個預測因子對應的評分,每個指標都可在最上面“points”軸找到對應值,即為對應評分。然后將 7 個因素的評分相加得到總分,再從最底部“Total points”水平軸上找到患者總分對應的點,將其投射到最下面“Risk of TB”軸上,即可算出該患者為活動性肺結核病的概率。
從區分度和校正情況兩方面對該模型的診斷能力進行評價,模型的 ROC 曲線下面積為 0.964。通過 Bootstrap 法進行內部驗證,校正后的 ROC 曲線下面積為 0.950。

Points:評分;Age:年齡;Alb:血清白蛋白濃度;PLT:血小板計數;Globin:血清球蛋白濃度;HCT:紅細胞比容;L:淋巴細胞計數;Risk of TB:活動性肺結核患病風險
2.3 Lnc-PA 對活動性肺結核診斷價值的分析
在訓練集中,列線圖模型詳細分析了分別以 lnc-PA、EHR 以及兩者聯合作為診斷活動性肺結核變量的 ROC 曲線,結果顯示 ROC 曲線下面積分別為 0.619、0.962、0.964。利用驗證集樣本對上述過程進行再次驗證,得到 ROC 曲線下面積分別為 0.626、0.950、0.950。比較單獨 lnc-PA、EHR 以及兩者聯合的 ROC 曲線下面積結果,發現 lnc-PA 的區分度較低。見圖 2。

藍線代表僅 lnc-PA 的 ROC 曲線,紅線代表僅 EHR 的 ROC 曲線,綠線代表兩者聯合的 ROC 曲線;a. 以訓練集數據為基礎分別作 lnc-PA、EHR 以及兩者聯合作為診斷活動性肺結核變量的 ROC 曲線;b. 以驗證集數據為基礎分別作 lnc-PA、EHR 以及兩者聯合作為診斷活動性肺結核變量的 ROC 曲線
3 討論
自從發現 lncRNA 可能調節先天免疫應答以來[7-8],lncRNA 成為近年來的研究熱點。越來越多證據表明,lncRNA 在宿主對 MTB 感染的反應中具有關鍵作用。例如,Fu 等[9]研究發現,細胞因子信號 3 的抑制因子(suppressor of cytokine signaling 3,SOCS3)是結核感染的重要負調控因子,其附近的 lncRNA XLOC_012582 在活動性肺結核患者 B 細胞中高表達。除此之外,已有研究報道了在活動性肺結核患者和健康人群的血漿中存在一系列差異性表達的 lncRNA 并擴大樣本驗證了其中兩個 lncRNA(ENST00000354432 和 ENST00000427151)在活動性肺結核患者的血漿中高表達[10]。由此可以看出 lncRNA 在新的結核診斷標志物方面具有巨大的研究潛力。本研究首次報道了 lnc-PA 在活動性肺結核患者外周血中低表達,是潛在的活動性肺結核診斷標志物。Lnc-PA 位于 10 號染色體:87878692-87880427,鄰近腫瘤抑制因子 PTEN。有研究報道,lncRNA 可能會調控鄰近基因的表達[11]。而 PTEN 缺乏可使多種類型的細胞對支原體和牛結核桿菌(卡介苗)的感染敏感度增高[12]。提示差異表達的 lnc-PA 可能通過調控鄰近的 PTEN 基因發揮其生物學功能,但是目前未有研究報道 lnc-PA 的分子機制及生物學功能。
為評價 lnc-PA 是否可以作為診斷活動性肺結核的潛在生物標志物,本研究結合列線圖模型,分析比較 lnc-PA、EHR 以及兩者聯合的 ROC 曲線,結果表明 lnc-PA 的區分效能相對較低,其 ROC 曲線下面積僅為 0.619(訓練集)、0.626(驗證集)。列線圖模型是一種在多因素分析的基礎上,能夠整合多個預測指標,并能個體化且精準地預測某結果事件發生概率的模型[13],在結核病方面已有研究應用。例如,Thao 等[14]利用列線圖建立預測結核性腦膜炎死亡風險模型,最終曲線下面積為 0.77(未感染 HIV 人群)、0.78(HIV 感染人群),高于傳統的醫學研究委員會疾病嚴重程度評分(曲線下面積 0.66、0.70)和格拉斯哥昏迷記分法(曲線下面積 0.68、0.71)。Pontual 等[15]利用 ABCB1 基因中 rs1128503 多態性、結核病臨床分型、用藥史、膚色 4 種因素建立了預測產生抗結核藥物耐藥的列線圖模型,最高可預測 90% 可能性產生耐藥。但該研究未驗證預測模型,也未與已有預測方法比較。本研究發現 lnc-PA 診斷活動性肺結核價值較差,EHR 列線圖模型診斷能力較好,提示 lnc-PA 作為活動性肺結核生物標志物的臨床應用價值有待于進一步探索。
本研究的局限性在于:① 只選取了一個 lnc-PA,結果僅反應該 lncRNA 的診斷效能,不具有普遍性,結論的說服力還不夠;② 未區分潛伏感染者及健康對照;③ 沒有設置病例對照,篩選指標的特異性還有待驗證。
綜上所述,雖然 lnc-PA 表達量在活動性肺結核組和健康對照組間存在差異,但其診斷效能較 EHR 診斷模型低。Lnc-PA 聯合 EHR 診斷模型的診斷效能較 EHR 診斷模型沒有明顯提高。Lnc-PA 作為活動性肺結核生物標志物的臨床應用價值有待于進一步探索。
結核病是由結核分枝桿菌(Mycobacterium tuberculosis,MTB)引起的慢性傳染性疾病。據 2016 年世界衛生組織全球結核病報告,全球每年結核發病人數約為 1 040 萬例,死亡人數為 140 萬例,估計全世界有 1/3 的人口處于 MTB 潛伏感染狀態[1]。我國作為結核病高負擔國家之一,與其他國家相比結核病疫情仍十分嚴重,全國有 5 億以上人口感染 MTB,活動性肺結核患者超過 600 萬人,每年新發結核病 100 萬人,死亡 3.9 萬人[2]。目前,細菌學診斷是診斷結核病的金標準,但痰涂片檢測陽性率低,而 MTB 培養耗時長。此外,新興的免疫以及分子診斷方法雖各自有其特點,但多有費用昂貴、樣本要求高等不足[3]。因此,找到特異性生物標志物,開發快速、低成本、非侵襲性并易推廣的診斷方法對于結核病的預防和控制非常必要。
長鏈非編碼 RNA(long non-coding RNA,lncRNA)是一類長度>200 個核苷酸、不編碼蛋白質的 RNA 分子,但可通過多種機制參與調節基因的表達[4]。已有研究表明 lncRNA 與結核病的發生發展相關,例如,Yang 等[5]發現的 MIR3945HG V1 和 MIR3945HG V2 在結核感染巨噬細胞中高表達以及本課題組前期發現 lncRNA AC0797767.4 可能與肺結核易感性和肺結核臨床表現相關[6]。Lnc-PAPSS2-2(lnc-PA,ENST00000416679)是一個肺組織特異性較高的 lncRNA。在本課題前期研究中,lncRNA 芯片篩選發現其在潛伏感染和活動性結核病患者外周血中表達存在差異,在結核患者體內表達下調 2.48 倍,有希望成為活動性肺結核診斷標志物。因此本研究首次檢測了活動性肺結核患者外周血中 lnc-PA 的表達情況并評價其對活動性肺結核的診斷價值。現報告如下。
1 資料與方法
1.1 研究對象
納入 2011 年 1 月—2018 年 1 月在四川大學華西醫院就診的活動性肺結核患者 798 例(活動性肺結核組),其中以初治患者為主;并篩選同期健康體檢者 1 650 例(健康對照組)。
活動性肺結核組納入標準:① 抗酸染色陽性、MTB 培養陽性或 MTB DNA 測定(TB-DNA)陽性;② 符合我國結核病分類標準和診斷標準;③ 病理學診斷支持結核病變;④ CT 等影像學檢查顯示典型的活動性肺結核病變表現;⑤ 納入者間無血緣關系。排除標準:① 合并其他呼吸系統疾病如肺部感染等;② 系統性慢性疾病如高血壓、糖尿病等;③ 人類免疫缺陷病毒(human immunodeficiency virus,HIV)感染、腫瘤、免疫系統功能紊亂的患者;④ 患有其他基礎疾病的患者;⑤ 妊娠患者。
健康對照組納入標準:① 痰抗酸染色以及 TB-DNA 陰性;② 影像學檢查無異常;③ 既往無結核病史。入選者均排除使用激素或患有其他影響免疫功能的疾病及其他慢性疾病。
1.2 研究方法
1.2.1 電子病歷(electronic health record,EHR)信息的提取
通過四川大學華西醫院實驗室管理系統收集入選研究對象的相關 EHR 資料。個人一般情況包括年齡、性別等,臨床相關資料包括血常規及免疫學指標等。
1.2.2 訓練集和驗證集
將納入的活動性肺結核患者和健康對照人群根據入組時間先后順序分為訓練集和驗證集(2014 年 12 月 31 日之前入組的研究對象分入訓練集,之后入組的研究對象分入驗證集)。其中,活動性肺結核組,訓練集 445 例,驗證集 353 例;健康對照組,訓練集 826 例,驗證集 824 例。
1.2.3 Trizol 法提取總 RNA
取肝素鈉抗凝血 2~3 mL,室溫下 2 500 r/min 離心 5 min,吸取白膜 0.5 mL,按 Trizol 試劑說明書提取總 RNA,使用無核糖核酸酶水溶解。使用分光光度計檢測總 RNA 濃度和質量,合格后保存于–80℃ 待用。
1.2.4 RNA 逆轉錄為互補 DNA
采用日本寶日醫生物技術有限公司(TaKaRa)PrimeScriptTM RT reagent Kit with gDNA Eraser 試劑盒將上述 RNA 反轉錄為互補 DNA,產物保存于–80℃ 待用。
1.2.5 實時熒光定量聚合酶鏈反應(quantitative real-time polymerase chain reaction,qRT-PCR)檢測 lnc-PA 表達水平
采用 SYBR 法進行 qRT-PCR 檢測。反應體系為:Mix(2×KAPA SYBR FAST qPCR Master Mix2 Universal)5 μL、特異前向引物 0.2 μL、特異反向引物 0.2 μL、反轉錄產物 1 μL。反應條件見表 1。

1.3 統計學方法
采用 SPSS 22.0 軟件進行數據的統計和分析。符合正態分布的連續變量用均數±標準差表示,不符合正態分布的連續變量采用中位數(四分位數)表示。采用 Mann-Whitney 秩和檢驗比較兩組間 lnc-PA 表達水平是否有差異。按表 2 所示設置參數進行 logistic 多因素回歸分析,比較這些因素在活動性肺結核組與健康對照組之間的分布。檢驗水準 α=0.05。根據 logistic 多因素回歸分析確定最終的模型入組變量,并根據選入變量的回歸系數使用 R 軟件畫出相應的列線圖模型。采用 Bootstrap 自抽樣方法對列線圖模型進行內部驗證。使用受試者工作特征曲線(receiver operating characteristic curve,ROC 曲線)評價各個模型的診斷效能。

2 結果
2.1 活動性肺結核組和健康對照組間 lnc-PA 的表達差異
qRT-PCR 檢測了 445 例活動性肺結核患者以及 826 例健康對照人群外周血中 lnc-PA 的表達量。非參數檢驗結果顯示差異具有統計學意義(P<0.001)。活動性肺結核組外周血 lnc-PA 表達量低于健康對照組(表 3)。

2.2 診斷活動性肺結核的列線圖模型
Logistic 多因素回歸分析篩選出的 6 個臨床 EHR 指標,分別為年齡(Age)、血清白蛋白濃度(albumin,Alb)、血清球蛋白濃度(globin)、紅細胞比容(hematocrit,Hct)、血小板計數(platelet count,PLT)、淋巴細胞計數(lymphocyte,L)。如圖 1 所示,基于 age、Alb、globin、Hct、PLT、L、lnc-PA 這 7 個預測因素及其回歸系數建立活動性肺結核診斷模型并繪制列線圖。使用列線圖時要先明確患者每個預測因子對應的評分,每個指標都可在最上面“points”軸找到對應值,即為對應評分。然后將 7 個因素的評分相加得到總分,再從最底部“Total points”水平軸上找到患者總分對應的點,將其投射到最下面“Risk of TB”軸上,即可算出該患者為活動性肺結核病的概率。
從區分度和校正情況兩方面對該模型的診斷能力進行評價,模型的 ROC 曲線下面積為 0.964。通過 Bootstrap 法進行內部驗證,校正后的 ROC 曲線下面積為 0.950。

Points:評分;Age:年齡;Alb:血清白蛋白濃度;PLT:血小板計數;Globin:血清球蛋白濃度;HCT:紅細胞比容;L:淋巴細胞計數;Risk of TB:活動性肺結核患病風險
2.3 Lnc-PA 對活動性肺結核診斷價值的分析
在訓練集中,列線圖模型詳細分析了分別以 lnc-PA、EHR 以及兩者聯合作為診斷活動性肺結核變量的 ROC 曲線,結果顯示 ROC 曲線下面積分別為 0.619、0.962、0.964。利用驗證集樣本對上述過程進行再次驗證,得到 ROC 曲線下面積分別為 0.626、0.950、0.950。比較單獨 lnc-PA、EHR 以及兩者聯合的 ROC 曲線下面積結果,發現 lnc-PA 的區分度較低。見圖 2。

藍線代表僅 lnc-PA 的 ROC 曲線,紅線代表僅 EHR 的 ROC 曲線,綠線代表兩者聯合的 ROC 曲線;a. 以訓練集數據為基礎分別作 lnc-PA、EHR 以及兩者聯合作為診斷活動性肺結核變量的 ROC 曲線;b. 以驗證集數據為基礎分別作 lnc-PA、EHR 以及兩者聯合作為診斷活動性肺結核變量的 ROC 曲線
3 討論
自從發現 lncRNA 可能調節先天免疫應答以來[7-8],lncRNA 成為近年來的研究熱點。越來越多證據表明,lncRNA 在宿主對 MTB 感染的反應中具有關鍵作用。例如,Fu 等[9]研究發現,細胞因子信號 3 的抑制因子(suppressor of cytokine signaling 3,SOCS3)是結核感染的重要負調控因子,其附近的 lncRNA XLOC_012582 在活動性肺結核患者 B 細胞中高表達。除此之外,已有研究報道了在活動性肺結核患者和健康人群的血漿中存在一系列差異性表達的 lncRNA 并擴大樣本驗證了其中兩個 lncRNA(ENST00000354432 和 ENST00000427151)在活動性肺結核患者的血漿中高表達[10]。由此可以看出 lncRNA 在新的結核診斷標志物方面具有巨大的研究潛力。本研究首次報道了 lnc-PA 在活動性肺結核患者外周血中低表達,是潛在的活動性肺結核診斷標志物。Lnc-PA 位于 10 號染色體:87878692-87880427,鄰近腫瘤抑制因子 PTEN。有研究報道,lncRNA 可能會調控鄰近基因的表達[11]。而 PTEN 缺乏可使多種類型的細胞對支原體和牛結核桿菌(卡介苗)的感染敏感度增高[12]。提示差異表達的 lnc-PA 可能通過調控鄰近的 PTEN 基因發揮其生物學功能,但是目前未有研究報道 lnc-PA 的分子機制及生物學功能。
為評價 lnc-PA 是否可以作為診斷活動性肺結核的潛在生物標志物,本研究結合列線圖模型,分析比較 lnc-PA、EHR 以及兩者聯合的 ROC 曲線,結果表明 lnc-PA 的區分效能相對較低,其 ROC 曲線下面積僅為 0.619(訓練集)、0.626(驗證集)。列線圖模型是一種在多因素分析的基礎上,能夠整合多個預測指標,并能個體化且精準地預測某結果事件發生概率的模型[13],在結核病方面已有研究應用。例如,Thao 等[14]利用列線圖建立預測結核性腦膜炎死亡風險模型,最終曲線下面積為 0.77(未感染 HIV 人群)、0.78(HIV 感染人群),高于傳統的醫學研究委員會疾病嚴重程度評分(曲線下面積 0.66、0.70)和格拉斯哥昏迷記分法(曲線下面積 0.68、0.71)。Pontual 等[15]利用 ABCB1 基因中 rs1128503 多態性、結核病臨床分型、用藥史、膚色 4 種因素建立了預測產生抗結核藥物耐藥的列線圖模型,最高可預測 90% 可能性產生耐藥。但該研究未驗證預測模型,也未與已有預測方法比較。本研究發現 lnc-PA 診斷活動性肺結核價值較差,EHR 列線圖模型診斷能力較好,提示 lnc-PA 作為活動性肺結核生物標志物的臨床應用價值有待于進一步探索。
本研究的局限性在于:① 只選取了一個 lnc-PA,結果僅反應該 lncRNA 的診斷效能,不具有普遍性,結論的說服力還不夠;② 未區分潛伏感染者及健康對照;③ 沒有設置病例對照,篩選指標的特異性還有待驗證。
綜上所述,雖然 lnc-PA 表達量在活動性肺結核組和健康對照組間存在差異,但其診斷效能較 EHR 診斷模型低。Lnc-PA 聯合 EHR 診斷模型的診斷效能較 EHR 診斷模型沒有明顯提高。Lnc-PA 作為活動性肺結核生物標志物的臨床應用價值有待于進一步探索。