抗菌藥物耐藥已成為棘手的全球性健康問題。近年來,基于宏基因組下一代測序(metagenomic next-generation sequencing,mNGS)的病原體檢測技術,因其不受培養限制、時效性高、病原體覆蓋廣的特點,已廣泛應用于臨床診斷。該技術在藥物敏感性檢測方面的應用價值也備受關注。該文總結和歸納了基于 mNGS 的抗菌藥物敏感性檢測方法,從耐藥基因數據庫、序列比對軟件、耐藥基因數據比對方法和耐藥預測模型方面分析比較了 mNGS 藥物敏感性檢測的分析流程,并探討了 mNGS 耐藥分析臨床應用存在的問題。
引用本文: 王婧, 陳勃江, 周永召, 李為民. 宏基因組下一代測序技術檢測呼吸道病原體耐藥性的應用價值探討. 華西醫學, 2022, 37(8): 1121-1127. doi: 10.7507/1002-0179.202206094 復制
過去幾十年來抗菌藥物的廣泛使用、濫用甚至誤用使得病原體耐藥成為了一個非常棘手的全球性健康問題。最新研究表明,2019 年全球范圍內抗菌藥物耐藥細菌感染直接導致 127 萬人死亡,間接導致 495 萬人死亡,其中下呼吸道感染直接及間接導致的死亡人數分別為 40 萬和 150 萬[1]。因此,盡早精準識別病原體,預測病原體對藥物的敏感性,及時指導抗感染治療,對改善患者預后及控制耐藥菌的出現和傳播至關重要。近年來,宏基因組下一代測序(metagenomic next-generation sequencing,mNGS)技術,又稱宏基因組高通量測序技術,因其不依賴于培養,且直接檢測樣本中全部核酸信息,已廣泛應用于臨床微生物鑒定。已有多篇指南及專家共識發布以規范該技術的臨床應用和報告解讀[2-7]。雖已有不少研究對 mNGS 技術在耐藥分析方面的應用進行了探索,但總體而言,基于 mNGS 技術的耐藥分析還處于起步階段,常規應用于臨床仍然面臨諸多挑戰[8-9]。本文對基于 mNGS 技術的藥物敏感性檢測的應用現狀、方法和挑戰進行綜述,探討該技術在臨床診斷方面的價值。
1 mNGS 技術在臨床微生物診斷鑒定中的應用現狀
mNGS 是對樣本中的 DNA 或 RNA 進行鳥槍法測序,無偏倚地檢測該樣本中的多種微生物(包括病毒、細菌、真菌和寄生蟲等)的測序技術。該技術可以用于第 2 代或第 3 代測序平臺如 Illumina、華大智造基因測序儀、Oxford Nanopore 等。由于該方法理論上可快速、客觀地檢出臨床樣本中的所有微生物,為疑難危重癥及罕見病原微生物感染的精準診斷提供了有效的技術手段。因此,mNGS 技術在臨床微生物診斷鑒定中被廣泛使用,越來越多的醫院建立了本地化實驗室開展 mNGS 檢測。近年來,為規范 mNGS 技術的臨床應用,多篇專家共識從 mNGS 應用的本地化系統建立模式、臨床適應證、樣本選擇及采集、檢測流程、分析性能確認、質量控制、數據分析、報告解讀等方面提出了原則性建議[2-7]。
2 基于高通量測序技術的抗菌藥物敏感性檢測方法概述
臨床微生物實驗室常用的抗菌藥物敏感性檢測方法包括基于表型檢測的紙片擴散法、稀釋法、濃度梯度瓊脂擴散試驗法和自動化儀器法。耐藥基因檢測的方法包括普通聚合酶鏈反應(polymerase chain reaction,PCR)、熒光定量 PCR、基因芯片、飛行時間質譜等。隨著測序技術的革新、測序成本的降低,高通量測序技術也逐漸被用于抗菌藥物敏感性檢測。相較于或耗時數天,或一次檢測僅可提供有限的耐藥信息的依賴培養的傳統藥物敏感性試驗和依賴 PCR 擴增的核酸檢測,基于高通量測序的抗菌藥物敏感性檢測可提供更為全面、系統的耐藥信息,包括已知和未知的耐藥突變以及生長緩慢或難以培養的菌株耐藥信息。
2.1 基于全基因組測序的抗菌藥物敏感性檢測
全基因組測序抗菌藥物敏感性檢測(whole-genome sequencing-antimicrobial susceptibility testing,WGS-AST)是通過對臨床樣本中分離培養出的純種微生物進行鳥槍測序,全面檢測該菌株的基因組及移動元件的核酸信息,從基因層面分析其藥物敏感性和耐藥性。近幾年有不少采用 WGS-AST 的研究,如針對大腸埃希菌[10-11]、結核分枝桿菌[12-15]、金黃色葡萄球菌[16-17]、肺炎鏈球菌[18]、糞腸球菌[19]、銅綠假單胞菌[20]、肺炎克雷伯菌[21]、淋病奈瑟菌[22]等致病菌。根據各研究采用的分析策略、軟件或預測模型,WGS-AST 對常用抗菌藥物,如阿莫西林、甲氧芐啶、乙胺丁醇、異煙肼、利福平、吡嗪酰胺、紅霉素、卡那霉素、左氧氟沙星、阿奇霉素、環丙沙星、萬古霉素等耐藥性分析的診斷敏感性為 73%~100%,診斷特異性為 77%~100%[23]。雖然 WGS-AST 能提供較為全面的病原體基因信息,但 WGS-AST 仍需對臨床樣本進行培養,耗時較長,且不適用于難以培養的病原體的耐藥分析。
2.2 基于靶向下一代測序(targeted next-generation sequencing,tNGS)的抗菌藥物敏感性檢測
tNGS 是通過多重 PCR 或探針捕獲技術,對于感興趣的目標區域/基因進行特異性富集后再進行高通量測序。富集目標不僅可以包括臨床常見、罕見病原體,還可包括特定的耐藥基因、毒力因子等。基于 tNGS 的微生物測序優勢在于直接對臨床樣本中的目標微生物進行檢測,不受培養的影響,降低了宿主和背景菌的干擾,同時提高了低豐度菌株的檢出率。由于可覆蓋的目標區域更大,探針捕獲富集技術比多重 PCR 技術更適合于當前的抗菌藥物敏感性檢測[24]。Allicock 等[25]設計了包含 307 種致病細菌和已知耐藥基因及毒力因子(覆蓋 420 萬個堿基)的細菌捕獲測序(BacCapSeq)基因檢測套餐,該基因套餐測序數據極大地提升了細菌讀長序列數和基因組覆蓋度。Ferreira 等[26]的研究采用了包含 9218 個抗菌藥物耐藥性標志物的基因檢測套餐,該基因套餐在 1×103 CFU/mL 細菌濃度條件下,耐藥基因檢出率高達 61%,診斷敏感性在 91% 以上。
2.3 基于宏基因組測序的抗菌藥物敏感性檢測
mNGS 因其無偏倚性地直接檢測臨床樣本中的全部核酸,突破了培養的瓶頸限制,對于生長緩慢的細菌和難以培養的病原體的檢測具有絕對優勢。有文獻報道,針對重癥監護病房的肺部感染患者,44.24% 的樣本通過 mNGS 技術檢測到了一種或多種含有耐藥基因的細菌,如紋狀體棒狀桿菌中檢出 ermX 和 cmx 兩種耐藥基因,鮑曼不動桿菌中檢出了多個 RND 家族外排泵基因,而 ermB 和 efmA 為糞腸球菌中的主要耐藥基因[27]。針對下呼吸道病原分析的文獻也指出了基于 mNGS 的抗菌藥物敏感性檢測可以準確檢出 A 類、D 類 β-內酰胺酶和 mecA 耐藥基因[28]。Wang 等[29]同時使用牛津納米孔 MinION 和 BGISEQ-500 二代測序平臺對培養陰性的肺組織樣本進行細菌感染診斷檢測,其結果不僅提示了肺炎克雷伯菌感染,還檢測出了 blaSHV-12、blaKPC-2、blaTEM-1、blaCTX-M-65 等耐藥基因,且三代牛津納米孔的檢測時效性非常高,在測序 2 h 內即檢出了上述耐藥基因。部分專家也指出 mNGS 藥物敏感性檢測還存在一定局限性,比如當前二代測序平臺的 mNGS 常規檢測數據量(2000 萬條讀長序列)難以檢出相關耐藥基因;對于有微生物定植的呼吸道、腸道等部位,耐藥基因的來源無法確定,其臨床解釋存在一定困難[2, 5]。
2.4 基于功能宏基因組的抗菌藥物敏感性檢測
功能宏基因組(functional metagenomics),是將樣本中提取到的微生物 DNA 片段克隆至表達載體建立宏基因組文庫,再將文庫轉化至敏感宿主模式細菌中,通過藥物敏感性試驗篩選耐藥宿主菌株后進行測序,結合生物信息學分析導致藥物敏感/耐藥表型的插入序列。該方法沒有序列偏好性,不依賴于對原始微生物的培養,是研究抗性組學、發現新耐藥基因的有力工具。有文獻報道,通過對健康患者糞便樣本進行功能宏基因組研究發現了一段與禽類致病大腸埃希菌毒力質粒序列高度相似的序列,并最終鑒定為大腸埃希菌素 V 生物合成基因簇[30]。另有研究利用健康志愿者的唾液樣本構建口腔宏基因組文庫,利用不同抗菌藥物篩選不僅發現了已知耐藥基因 msr、mef(A)、tetAB(46)和 fabK,還發現了新的對次氯酸鈉和氯己定具有耐藥性的 recA 和 accB 基因[31]。
3 基于 mNGS 的耐藥分析流程概述
測序原始數據首先需要通過生物信息學流程進行質量控制和過濾,去除低質量序列和重復序列。合格的測序序列在去除了人源序列后,需與數據庫中的微生物基因組序列進行比對分析。完成耐藥相關基因識別并進行功能注釋后,需要通過相應的軟件進行耐藥表型預測分析。基于高通量測序數據的耐藥基因表型預測分析依賴于耐藥基因數據庫、耐藥基因比對分析軟件和預測模型的選擇。不同的數據庫和比對分析軟件可得到不同數量的檢索結果及基因,不同的預測模型、條件閾值也將直接影響預測結果的敏感性和特異性。
3.1 耐藥基因數據庫
耐藥基因數據庫的選擇,對于從 mNGS 數據中準確檢測出耐藥基因至關重要。不同的公共數據庫涵蓋的耐藥機制和提供的耐藥基因注釋信息各有側重,目前暫時沒有數據庫能夠提供現有已知的全部耐藥機制和耐藥基因信息。與人類病原體相關的耐藥基因數據庫主要分為通用型耐藥數據庫和藥物特異或菌種特異型數據庫兩大類。
通用型耐藥數據庫能較為廣泛地覆蓋多種微生物耐藥基因和耐藥機制,如 ARDB(已停更)[32]、ARG-ANNOT(已關閉)[33]、CARD[34]、Resfinder[35]、Resfams[36]、FARME[37]、SARG(v2)[38]、Mustard[39]等。
藥物特異或菌種特異型數據庫能針對特定的基因家族或微生物物種提供更為全面詳盡的藥物敏感性信息。藥物特異型數據庫有聚焦 β-內酰胺酶的 LacED[40-41]、Lahey list of β-lactamases[42]、CBMAR[43]、BLDB[44]等;菌種特異型數據庫有針對結核分枝桿菌的 MUBII-TB-DB[45]和 TBDReaMDB[46],針對大腸埃希菌的 u-CARE 數據庫[47]等。
耐藥基因數據庫的類型、特征及所含的信息全面程度、使用分析軟件預測模型、信息更新頻次等均是選擇數據庫需要考量的關鍵點。有文獻整理評估了目前常用的 16 個耐藥基因數據庫,可為臨床使用提供一定的參考[48]。
3.2 耐藥基因數據比對方法
目前針對測序數據的耐藥基因序列比對主要分為兩大類方法:基于讀長序列(reads-based)的耐藥基因序列比對和基于組裝(assembly-based or contigs-based)的耐藥基因序列比對。
基于讀長序列的耐藥基因序列比對是將測序得到的合格序列直接用 Bowtie2 或 BWA 比對軟件與參考基因組及數據庫進行比對。常用的比對工具有 SRST2[49]、GeneFinder[16]、KmerResistance[50]、ARIBA[51]、GROOT[52]、PointFinder[53]等。SRST2 和 GeneFinder 使用 Bowtie 軟件比對同時提供單核苷酸多態性(single-nucleotide polymorphisms,SNP)信息。KmerResistance 可以在低序列數和有污染存在的情況下鑒定耐藥基因,但無法預測由 SNP 引起的耐藥表型。ARIBA 先將序列聚類進行部分從頭組裝后再進行比對。GROOT 通過構建變異圖比對測序序列,可有效提高耐藥基因的注釋準確率。PointFinder 是一款網頁版軟件,可提供點突變信息。
基于組裝的耐藥基因序列比對需先將測序所得的短序列拼接成長的連續的序列重疊群(contigs),組裝成基因組再與參考數據庫比對分析耐藥基因。對于單一菌種的全基因組測序數據,可用基于德布萊英圖(De Brujin graph-based)組裝軟件如 SPAdes[54]、Velvet[55]、ABySS[56]和 SOAPdenovo[57]進行基因組組裝。與全基因組測序數據相比,mNGS 數據更加復雜,如其樣本常常具有物種不明、豐度不清、系統發育關系未知的特點,存在各物種間測序覆蓋度不均衡等問題。因此,也有不少專門針對 mNGS 開發的組裝軟件,如 IDBA-UD[58]、MEGAHIT[59]、MetaSPAdes[60]和 MetaVelvet[61]。組裝后的序列數據通常采用 BLAST、USEARCH 或 DIAMOND 等基于序列相似性的比對軟件進行耐藥基因數據庫比對。
無論基于序列還是基于組裝,兩種比對方法各有千秋。基于讀長序列的耐藥基因分析速度更快,對計算資源的要求更低,就結果的時效性而言更適合于臨床診斷應用。但其缺乏基因序列的定位信息,無法分析上下游基因元件對耐藥基因的影響,同時由于短序列容易錯誤比對到其他同源基因,因此假陽性率較高[62]。基于組裝的耐藥基因分析,需要從頭組裝序列、預測蛋白編碼基因,對計算資源要求較高,耗時較長,且對基因組覆蓋度也有較高要求,有一定的信息丟失[63]。但如果測序覆蓋度足夠高,基于組裝的比對方法能夠構建整個基因組或較大的蛋白質編碼基因區域、調控序列信息和完整的編碼區上下游信息,從而更加系統地分析抗菌藥物敏感性。
3.3 耐藥預測模型
耐藥預測模型主要分為兩大類:基于規則的分類預測模型和基于機器學習的預測模型。
基于規則的預測模型是最為直接的耐藥分析方法,根據預定的規則檢索耐藥基因座,再對檢測出的基因/突變進行藥物敏感性表型預測,包括蛋白編碼基因、質粒/移動元件、單核苷酸突變、等位基因變異和基因拷貝數變異。如最常用的 BLAST、DIAMOND 等工具,是基于序列相似度規則預測耐藥表型,根據參數的設定,檢出的耐藥基因數量及結果的可信程度有很大差異。Hmmer是基于隱形馬爾科夫模型即基于功能相似度的預測模型[64]。此類預測模型擅長檢索蛋白功能近似但序列一致性不高的耐藥基因序列,更利于發現新的未知耐藥基因和已知耐藥基因的遠源基因,尤其是針對苛養和無法培養的微生物。各大耐藥基因數據庫都有相應的分析軟件和預測工具,部分數據庫還可提供多種預測模型,如 CARD 數據庫的 RGI 同時提供 BLAST 和隱形馬爾科夫模型。對于序列的相似程度、檢出序列在耐藥基因上的覆蓋程度等閾值的設定尚無統一標準,但對于臨床應用而言,也有專家建議采用較為嚴苛的參數如在 80% 氨基酸序列里達到 80% 以上的序列一致率,以保證對已知耐藥基因檢出的高置信度[8]。
基于機器學習的預測模型不僅考慮耐藥基因/突變檢出情況,還將其相互影響、對耐藥表型的重要程度、微生物自身基因組對耐藥基因表達的調控作用等多方面因素納入考量、給予不同的權重,最終得出藥物敏感/耐藥預測。目前已有一些文獻采用不同的機器學習模型算法,如隨機森林、支持向量機、自適應增強、神經網絡等進行測序數據耐藥預測。一項針對結核分枝桿菌的研究利用 1839 株結核菌株對 8 種藥物建立了 7 種機器學習預測模型,其結果表明,對于單種藥物而言機器學習預測模型比規則預測模型具有更高的診斷敏感性,但是沒有一種機器學習預測模型是萬能的,每種藥物都有其不同的模型算法[13]。Khaledi 等[65]采用支持向量機的機器學習算法對 414 株臨床耐藥銅綠假單胞菌進行分析,指出結合 SNP、耐藥基因攜帶情況、基因表達情況和耐藥表型最低抑菌濃度數據綜合分析預測耐藥結果更加準確。Aytan-Aktug 等[66]基于全基因組比對構建隨機森林機器學習矩陣,對肺炎克雷伯菌、腸炎沙門菌和結核分枝桿菌建立預測藥物敏感性表型,受試者工作特征曲線下面積均值分別為 0.878、0.778、0.804;該研究嘗試用 5~10 kb 不完整的基因組序列信息(占參考染色體 0.1%~0.2%)構建預測模型,雖然這些模型的平均曲線下面積比基于全基因組比對模型低 5%~12%,但其結果證明了使用部分保守基因序列預測藥物敏感性表型的可行性。無論采用何種算法,機器學習模型的性能和準確率都極大地依賴于現有已知的信息/知識庫的完整程度以及訓練數據集的大小。
4 mNGS 耐藥分析臨床應用的挑戰
4.1 耐藥基因數據庫還有待進一步完善
無論是用于鑒定微生物種屬的基因組的信息,還是用于預測耐藥表型的相關基因型信息,mNGS 數據的分析都依賴于現有的知識和數據庫信息的準確及完整程度[8-9, 23]。前文所述的耐藥基因數據庫多側重于編碼蛋白質的耐藥基因,對于基因組上的調控因子、微生物基因組保守區域 SNP、核糖體 RNA 等突變引發的耐藥機制關注較少[23, 67]。其次,還有很多的厭氧、苛養微生物其本身的生物學信息和機制不是特別清楚,此類細菌的耐藥機制需要科學家們更深入地研究[68-69]。此外,通過測序技術發現的新的藥物敏感/耐藥相關基因,其藥物敏感性表型還有待進一步驗證。因此,不斷完善微生物及耐藥基因數據庫,才能為臨床耐藥指導提供更加準確的預測。
4.2 藥物敏感性/耐藥預測需要藥物敏感性試驗以佐證
除部分在特定細菌中基因型和表型高度一致的耐藥基因,如 mec 基因和金黃色葡萄球菌,met 基因和大腸埃希菌、肺炎克雷伯菌等,在同時檢出菌種和耐藥基因的情況下,可以較為準確地提示耐藥信息[9];大多數情況,由于耐藥機制的復雜性,如調控區域突變、外排系統過表達、核糖體 RNA 單個拷貝發生突變等,僅編碼蛋白的耐藥基因/突變的檢出不能直接關聯耐藥表型。一項基于下呼吸道細菌感染的研究發現,基于牛津納米孔的 mNGS 數據在 41 份患者呼吸道樣本中總計檢出 183 個耐藥基因,其中僅 24 個基因與耐藥表型一致,16 個基因與表型完全不匹配[70]。因此,通過 mNGS 數據得到的耐藥基因信息僅可作為臨床參考,還需要藥物敏感性試驗予以佐證,同時結合臨床表征、多種檢測信息綜合分析判斷其真實性。
4.3 準確性不及全基因組測序數據,臨床解讀需謹慎
目前基于測序數據進行的藥物敏感性分析研究多采用純菌種的全基因組測序數據。mNGS 數據在總體微生物序列數、單物種基因組覆蓋深度、耐藥基因序列檢出率方面均不及全基因組測序數據[67]。因此,基于 mNGS 數據的藥物敏感性分析可能存在一定的片面性,難以排除多基因協同表達引起的假陰性和假陽性。此外,mNGS 為無偏倚性檢測技術,對于所檢出耐藥基因序列,尤其是非菌種特異性的序列無法進行定位,即無法追溯耐藥基因的原始宿主菌種。特別是對于呼吸道樣本多種致病菌檢出又存在耐藥基因序列的情況下,mNGS 無法區分耐藥基因是來源于定植菌還是致病菌,也無法判斷真實的耐藥致病菌株。比如在可移動元件上的耐藥基因 blaCTX-M,可以在大腸埃希菌、肺炎克雷伯菌等腸桿菌科細菌中共享。在同時檢出 blaCTX-M基因和多種腸桿菌科細菌時,臨床解讀會較為困難[9]。也有文獻指出,有效去除宿主核酸提高微生物測序數據量,基于三代測序平臺的長讀長 mNGS 技術,聯合針對特定耐藥基因序列的靶向捕獲測序技術,或許是未來優化 mNGS 耐藥檢測能力的方向[9, 71-72]。
5 展望
抗菌藥物耐藥已成為了加重臨床和公共衛生負擔的全球性大問題。研究顯示,抗菌藥物耐藥在全球 204 個國家和地區已成為主要死亡原因之一,其致死人數高于艾滋病和瘧疾[1]。耐藥菌的感染和防控任重道遠,迅速診斷病原體、預測致病菌藥物敏感性、指導合理臨床用藥決策是關鍵。mNGS 作為一種無偏倚性的新興微生物診斷技術已廣泛用于感染患者的臨床診斷。基于 mNGS 的耐藥檢測雖然還處于起步階段,但其具有檢測時效性高,微生物種屬覆蓋度廣,可研究分離株相關性用于感染控制、預防及實驗室污染檢測等,發現新的潛在耐藥基因,回溯基因數據用于新藥藥效性預測等諸多優勢[8],臨床應用價值毋庸置疑。雖然現階段 mNGS 耐藥分析還存在不少困難和挑戰,但隨著臨床研究的深入、技術的優化、方法學尤其是分析解讀流程的科學評價的發展,再加上人工智能技術的融合應用,mNGS 將逐漸成為病原學診斷和耐藥表型預測的重要工具。
利益沖突:所有作者聲明不存在利益沖突。
過去幾十年來抗菌藥物的廣泛使用、濫用甚至誤用使得病原體耐藥成為了一個非常棘手的全球性健康問題。最新研究表明,2019 年全球范圍內抗菌藥物耐藥細菌感染直接導致 127 萬人死亡,間接導致 495 萬人死亡,其中下呼吸道感染直接及間接導致的死亡人數分別為 40 萬和 150 萬[1]。因此,盡早精準識別病原體,預測病原體對藥物的敏感性,及時指導抗感染治療,對改善患者預后及控制耐藥菌的出現和傳播至關重要。近年來,宏基因組下一代測序(metagenomic next-generation sequencing,mNGS)技術,又稱宏基因組高通量測序技術,因其不依賴于培養,且直接檢測樣本中全部核酸信息,已廣泛應用于臨床微生物鑒定。已有多篇指南及專家共識發布以規范該技術的臨床應用和報告解讀[2-7]。雖已有不少研究對 mNGS 技術在耐藥分析方面的應用進行了探索,但總體而言,基于 mNGS 技術的耐藥分析還處于起步階段,常規應用于臨床仍然面臨諸多挑戰[8-9]。本文對基于 mNGS 技術的藥物敏感性檢測的應用現狀、方法和挑戰進行綜述,探討該技術在臨床診斷方面的價值。
1 mNGS 技術在臨床微生物診斷鑒定中的應用現狀
mNGS 是對樣本中的 DNA 或 RNA 進行鳥槍法測序,無偏倚地檢測該樣本中的多種微生物(包括病毒、細菌、真菌和寄生蟲等)的測序技術。該技術可以用于第 2 代或第 3 代測序平臺如 Illumina、華大智造基因測序儀、Oxford Nanopore 等。由于該方法理論上可快速、客觀地檢出臨床樣本中的所有微生物,為疑難危重癥及罕見病原微生物感染的精準診斷提供了有效的技術手段。因此,mNGS 技術在臨床微生物診斷鑒定中被廣泛使用,越來越多的醫院建立了本地化實驗室開展 mNGS 檢測。近年來,為規范 mNGS 技術的臨床應用,多篇專家共識從 mNGS 應用的本地化系統建立模式、臨床適應證、樣本選擇及采集、檢測流程、分析性能確認、質量控制、數據分析、報告解讀等方面提出了原則性建議[2-7]。
2 基于高通量測序技術的抗菌藥物敏感性檢測方法概述
臨床微生物實驗室常用的抗菌藥物敏感性檢測方法包括基于表型檢測的紙片擴散法、稀釋法、濃度梯度瓊脂擴散試驗法和自動化儀器法。耐藥基因檢測的方法包括普通聚合酶鏈反應(polymerase chain reaction,PCR)、熒光定量 PCR、基因芯片、飛行時間質譜等。隨著測序技術的革新、測序成本的降低,高通量測序技術也逐漸被用于抗菌藥物敏感性檢測。相較于或耗時數天,或一次檢測僅可提供有限的耐藥信息的依賴培養的傳統藥物敏感性試驗和依賴 PCR 擴增的核酸檢測,基于高通量測序的抗菌藥物敏感性檢測可提供更為全面、系統的耐藥信息,包括已知和未知的耐藥突變以及生長緩慢或難以培養的菌株耐藥信息。
2.1 基于全基因組測序的抗菌藥物敏感性檢測
全基因組測序抗菌藥物敏感性檢測(whole-genome sequencing-antimicrobial susceptibility testing,WGS-AST)是通過對臨床樣本中分離培養出的純種微生物進行鳥槍測序,全面檢測該菌株的基因組及移動元件的核酸信息,從基因層面分析其藥物敏感性和耐藥性。近幾年有不少采用 WGS-AST 的研究,如針對大腸埃希菌[10-11]、結核分枝桿菌[12-15]、金黃色葡萄球菌[16-17]、肺炎鏈球菌[18]、糞腸球菌[19]、銅綠假單胞菌[20]、肺炎克雷伯菌[21]、淋病奈瑟菌[22]等致病菌。根據各研究采用的分析策略、軟件或預測模型,WGS-AST 對常用抗菌藥物,如阿莫西林、甲氧芐啶、乙胺丁醇、異煙肼、利福平、吡嗪酰胺、紅霉素、卡那霉素、左氧氟沙星、阿奇霉素、環丙沙星、萬古霉素等耐藥性分析的診斷敏感性為 73%~100%,診斷特異性為 77%~100%[23]。雖然 WGS-AST 能提供較為全面的病原體基因信息,但 WGS-AST 仍需對臨床樣本進行培養,耗時較長,且不適用于難以培養的病原體的耐藥分析。
2.2 基于靶向下一代測序(targeted next-generation sequencing,tNGS)的抗菌藥物敏感性檢測
tNGS 是通過多重 PCR 或探針捕獲技術,對于感興趣的目標區域/基因進行特異性富集后再進行高通量測序。富集目標不僅可以包括臨床常見、罕見病原體,還可包括特定的耐藥基因、毒力因子等。基于 tNGS 的微生物測序優勢在于直接對臨床樣本中的目標微生物進行檢測,不受培養的影響,降低了宿主和背景菌的干擾,同時提高了低豐度菌株的檢出率。由于可覆蓋的目標區域更大,探針捕獲富集技術比多重 PCR 技術更適合于當前的抗菌藥物敏感性檢測[24]。Allicock 等[25]設計了包含 307 種致病細菌和已知耐藥基因及毒力因子(覆蓋 420 萬個堿基)的細菌捕獲測序(BacCapSeq)基因檢測套餐,該基因套餐測序數據極大地提升了細菌讀長序列數和基因組覆蓋度。Ferreira 等[26]的研究采用了包含 9218 個抗菌藥物耐藥性標志物的基因檢測套餐,該基因套餐在 1×103 CFU/mL 細菌濃度條件下,耐藥基因檢出率高達 61%,診斷敏感性在 91% 以上。
2.3 基于宏基因組測序的抗菌藥物敏感性檢測
mNGS 因其無偏倚性地直接檢測臨床樣本中的全部核酸,突破了培養的瓶頸限制,對于生長緩慢的細菌和難以培養的病原體的檢測具有絕對優勢。有文獻報道,針對重癥監護病房的肺部感染患者,44.24% 的樣本通過 mNGS 技術檢測到了一種或多種含有耐藥基因的細菌,如紋狀體棒狀桿菌中檢出 ermX 和 cmx 兩種耐藥基因,鮑曼不動桿菌中檢出了多個 RND 家族外排泵基因,而 ermB 和 efmA 為糞腸球菌中的主要耐藥基因[27]。針對下呼吸道病原分析的文獻也指出了基于 mNGS 的抗菌藥物敏感性檢測可以準確檢出 A 類、D 類 β-內酰胺酶和 mecA 耐藥基因[28]。Wang 等[29]同時使用牛津納米孔 MinION 和 BGISEQ-500 二代測序平臺對培養陰性的肺組織樣本進行細菌感染診斷檢測,其結果不僅提示了肺炎克雷伯菌感染,還檢測出了 blaSHV-12、blaKPC-2、blaTEM-1、blaCTX-M-65 等耐藥基因,且三代牛津納米孔的檢測時效性非常高,在測序 2 h 內即檢出了上述耐藥基因。部分專家也指出 mNGS 藥物敏感性檢測還存在一定局限性,比如當前二代測序平臺的 mNGS 常規檢測數據量(2000 萬條讀長序列)難以檢出相關耐藥基因;對于有微生物定植的呼吸道、腸道等部位,耐藥基因的來源無法確定,其臨床解釋存在一定困難[2, 5]。
2.4 基于功能宏基因組的抗菌藥物敏感性檢測
功能宏基因組(functional metagenomics),是將樣本中提取到的微生物 DNA 片段克隆至表達載體建立宏基因組文庫,再將文庫轉化至敏感宿主模式細菌中,通過藥物敏感性試驗篩選耐藥宿主菌株后進行測序,結合生物信息學分析導致藥物敏感/耐藥表型的插入序列。該方法沒有序列偏好性,不依賴于對原始微生物的培養,是研究抗性組學、發現新耐藥基因的有力工具。有文獻報道,通過對健康患者糞便樣本進行功能宏基因組研究發現了一段與禽類致病大腸埃希菌毒力質粒序列高度相似的序列,并最終鑒定為大腸埃希菌素 V 生物合成基因簇[30]。另有研究利用健康志愿者的唾液樣本構建口腔宏基因組文庫,利用不同抗菌藥物篩選不僅發現了已知耐藥基因 msr、mef(A)、tetAB(46)和 fabK,還發現了新的對次氯酸鈉和氯己定具有耐藥性的 recA 和 accB 基因[31]。
3 基于 mNGS 的耐藥分析流程概述
測序原始數據首先需要通過生物信息學流程進行質量控制和過濾,去除低質量序列和重復序列。合格的測序序列在去除了人源序列后,需與數據庫中的微生物基因組序列進行比對分析。完成耐藥相關基因識別并進行功能注釋后,需要通過相應的軟件進行耐藥表型預測分析。基于高通量測序數據的耐藥基因表型預測分析依賴于耐藥基因數據庫、耐藥基因比對分析軟件和預測模型的選擇。不同的數據庫和比對分析軟件可得到不同數量的檢索結果及基因,不同的預測模型、條件閾值也將直接影響預測結果的敏感性和特異性。
3.1 耐藥基因數據庫
耐藥基因數據庫的選擇,對于從 mNGS 數據中準確檢測出耐藥基因至關重要。不同的公共數據庫涵蓋的耐藥機制和提供的耐藥基因注釋信息各有側重,目前暫時沒有數據庫能夠提供現有已知的全部耐藥機制和耐藥基因信息。與人類病原體相關的耐藥基因數據庫主要分為通用型耐藥數據庫和藥物特異或菌種特異型數據庫兩大類。
通用型耐藥數據庫能較為廣泛地覆蓋多種微生物耐藥基因和耐藥機制,如 ARDB(已停更)[32]、ARG-ANNOT(已關閉)[33]、CARD[34]、Resfinder[35]、Resfams[36]、FARME[37]、SARG(v2)[38]、Mustard[39]等。
藥物特異或菌種特異型數據庫能針對特定的基因家族或微生物物種提供更為全面詳盡的藥物敏感性信息。藥物特異型數據庫有聚焦 β-內酰胺酶的 LacED[40-41]、Lahey list of β-lactamases[42]、CBMAR[43]、BLDB[44]等;菌種特異型數據庫有針對結核分枝桿菌的 MUBII-TB-DB[45]和 TBDReaMDB[46],針對大腸埃希菌的 u-CARE 數據庫[47]等。
耐藥基因數據庫的類型、特征及所含的信息全面程度、使用分析軟件預測模型、信息更新頻次等均是選擇數據庫需要考量的關鍵點。有文獻整理評估了目前常用的 16 個耐藥基因數據庫,可為臨床使用提供一定的參考[48]。
3.2 耐藥基因數據比對方法
目前針對測序數據的耐藥基因序列比對主要分為兩大類方法:基于讀長序列(reads-based)的耐藥基因序列比對和基于組裝(assembly-based or contigs-based)的耐藥基因序列比對。
基于讀長序列的耐藥基因序列比對是將測序得到的合格序列直接用 Bowtie2 或 BWA 比對軟件與參考基因組及數據庫進行比對。常用的比對工具有 SRST2[49]、GeneFinder[16]、KmerResistance[50]、ARIBA[51]、GROOT[52]、PointFinder[53]等。SRST2 和 GeneFinder 使用 Bowtie 軟件比對同時提供單核苷酸多態性(single-nucleotide polymorphisms,SNP)信息。KmerResistance 可以在低序列數和有污染存在的情況下鑒定耐藥基因,但無法預測由 SNP 引起的耐藥表型。ARIBA 先將序列聚類進行部分從頭組裝后再進行比對。GROOT 通過構建變異圖比對測序序列,可有效提高耐藥基因的注釋準確率。PointFinder 是一款網頁版軟件,可提供點突變信息。
基于組裝的耐藥基因序列比對需先將測序所得的短序列拼接成長的連續的序列重疊群(contigs),組裝成基因組再與參考數據庫比對分析耐藥基因。對于單一菌種的全基因組測序數據,可用基于德布萊英圖(De Brujin graph-based)組裝軟件如 SPAdes[54]、Velvet[55]、ABySS[56]和 SOAPdenovo[57]進行基因組組裝。與全基因組測序數據相比,mNGS 數據更加復雜,如其樣本常常具有物種不明、豐度不清、系統發育關系未知的特點,存在各物種間測序覆蓋度不均衡等問題。因此,也有不少專門針對 mNGS 開發的組裝軟件,如 IDBA-UD[58]、MEGAHIT[59]、MetaSPAdes[60]和 MetaVelvet[61]。組裝后的序列數據通常采用 BLAST、USEARCH 或 DIAMOND 等基于序列相似性的比對軟件進行耐藥基因數據庫比對。
無論基于序列還是基于組裝,兩種比對方法各有千秋。基于讀長序列的耐藥基因分析速度更快,對計算資源的要求更低,就結果的時效性而言更適合于臨床診斷應用。但其缺乏基因序列的定位信息,無法分析上下游基因元件對耐藥基因的影響,同時由于短序列容易錯誤比對到其他同源基因,因此假陽性率較高[62]。基于組裝的耐藥基因分析,需要從頭組裝序列、預測蛋白編碼基因,對計算資源要求較高,耗時較長,且對基因組覆蓋度也有較高要求,有一定的信息丟失[63]。但如果測序覆蓋度足夠高,基于組裝的比對方法能夠構建整個基因組或較大的蛋白質編碼基因區域、調控序列信息和完整的編碼區上下游信息,從而更加系統地分析抗菌藥物敏感性。
3.3 耐藥預測模型
耐藥預測模型主要分為兩大類:基于規則的分類預測模型和基于機器學習的預測模型。
基于規則的預測模型是最為直接的耐藥分析方法,根據預定的規則檢索耐藥基因座,再對檢測出的基因/突變進行藥物敏感性表型預測,包括蛋白編碼基因、質粒/移動元件、單核苷酸突變、等位基因變異和基因拷貝數變異。如最常用的 BLAST、DIAMOND 等工具,是基于序列相似度規則預測耐藥表型,根據參數的設定,檢出的耐藥基因數量及結果的可信程度有很大差異。Hmmer是基于隱形馬爾科夫模型即基于功能相似度的預測模型[64]。此類預測模型擅長檢索蛋白功能近似但序列一致性不高的耐藥基因序列,更利于發現新的未知耐藥基因和已知耐藥基因的遠源基因,尤其是針對苛養和無法培養的微生物。各大耐藥基因數據庫都有相應的分析軟件和預測工具,部分數據庫還可提供多種預測模型,如 CARD 數據庫的 RGI 同時提供 BLAST 和隱形馬爾科夫模型。對于序列的相似程度、檢出序列在耐藥基因上的覆蓋程度等閾值的設定尚無統一標準,但對于臨床應用而言,也有專家建議采用較為嚴苛的參數如在 80% 氨基酸序列里達到 80% 以上的序列一致率,以保證對已知耐藥基因檢出的高置信度[8]。
基于機器學習的預測模型不僅考慮耐藥基因/突變檢出情況,還將其相互影響、對耐藥表型的重要程度、微生物自身基因組對耐藥基因表達的調控作用等多方面因素納入考量、給予不同的權重,最終得出藥物敏感/耐藥預測。目前已有一些文獻采用不同的機器學習模型算法,如隨機森林、支持向量機、自適應增強、神經網絡等進行測序數據耐藥預測。一項針對結核分枝桿菌的研究利用 1839 株結核菌株對 8 種藥物建立了 7 種機器學習預測模型,其結果表明,對于單種藥物而言機器學習預測模型比規則預測模型具有更高的診斷敏感性,但是沒有一種機器學習預測模型是萬能的,每種藥物都有其不同的模型算法[13]。Khaledi 等[65]采用支持向量機的機器學習算法對 414 株臨床耐藥銅綠假單胞菌進行分析,指出結合 SNP、耐藥基因攜帶情況、基因表達情況和耐藥表型最低抑菌濃度數據綜合分析預測耐藥結果更加準確。Aytan-Aktug 等[66]基于全基因組比對構建隨機森林機器學習矩陣,對肺炎克雷伯菌、腸炎沙門菌和結核分枝桿菌建立預測藥物敏感性表型,受試者工作特征曲線下面積均值分別為 0.878、0.778、0.804;該研究嘗試用 5~10 kb 不完整的基因組序列信息(占參考染色體 0.1%~0.2%)構建預測模型,雖然這些模型的平均曲線下面積比基于全基因組比對模型低 5%~12%,但其結果證明了使用部分保守基因序列預測藥物敏感性表型的可行性。無論采用何種算法,機器學習模型的性能和準確率都極大地依賴于現有已知的信息/知識庫的完整程度以及訓練數據集的大小。
4 mNGS 耐藥分析臨床應用的挑戰
4.1 耐藥基因數據庫還有待進一步完善
無論是用于鑒定微生物種屬的基因組的信息,還是用于預測耐藥表型的相關基因型信息,mNGS 數據的分析都依賴于現有的知識和數據庫信息的準確及完整程度[8-9, 23]。前文所述的耐藥基因數據庫多側重于編碼蛋白質的耐藥基因,對于基因組上的調控因子、微生物基因組保守區域 SNP、核糖體 RNA 等突變引發的耐藥機制關注較少[23, 67]。其次,還有很多的厭氧、苛養微生物其本身的生物學信息和機制不是特別清楚,此類細菌的耐藥機制需要科學家們更深入地研究[68-69]。此外,通過測序技術發現的新的藥物敏感/耐藥相關基因,其藥物敏感性表型還有待進一步驗證。因此,不斷完善微生物及耐藥基因數據庫,才能為臨床耐藥指導提供更加準確的預測。
4.2 藥物敏感性/耐藥預測需要藥物敏感性試驗以佐證
除部分在特定細菌中基因型和表型高度一致的耐藥基因,如 mec 基因和金黃色葡萄球菌,met 基因和大腸埃希菌、肺炎克雷伯菌等,在同時檢出菌種和耐藥基因的情況下,可以較為準確地提示耐藥信息[9];大多數情況,由于耐藥機制的復雜性,如調控區域突變、外排系統過表達、核糖體 RNA 單個拷貝發生突變等,僅編碼蛋白的耐藥基因/突變的檢出不能直接關聯耐藥表型。一項基于下呼吸道細菌感染的研究發現,基于牛津納米孔的 mNGS 數據在 41 份患者呼吸道樣本中總計檢出 183 個耐藥基因,其中僅 24 個基因與耐藥表型一致,16 個基因與表型完全不匹配[70]。因此,通過 mNGS 數據得到的耐藥基因信息僅可作為臨床參考,還需要藥物敏感性試驗予以佐證,同時結合臨床表征、多種檢測信息綜合分析判斷其真實性。
4.3 準確性不及全基因組測序數據,臨床解讀需謹慎
目前基于測序數據進行的藥物敏感性分析研究多采用純菌種的全基因組測序數據。mNGS 數據在總體微生物序列數、單物種基因組覆蓋深度、耐藥基因序列檢出率方面均不及全基因組測序數據[67]。因此,基于 mNGS 數據的藥物敏感性分析可能存在一定的片面性,難以排除多基因協同表達引起的假陰性和假陽性。此外,mNGS 為無偏倚性檢測技術,對于所檢出耐藥基因序列,尤其是非菌種特異性的序列無法進行定位,即無法追溯耐藥基因的原始宿主菌種。特別是對于呼吸道樣本多種致病菌檢出又存在耐藥基因序列的情況下,mNGS 無法區分耐藥基因是來源于定植菌還是致病菌,也無法判斷真實的耐藥致病菌株。比如在可移動元件上的耐藥基因 blaCTX-M,可以在大腸埃希菌、肺炎克雷伯菌等腸桿菌科細菌中共享。在同時檢出 blaCTX-M基因和多種腸桿菌科細菌時,臨床解讀會較為困難[9]。也有文獻指出,有效去除宿主核酸提高微生物測序數據量,基于三代測序平臺的長讀長 mNGS 技術,聯合針對特定耐藥基因序列的靶向捕獲測序技術,或許是未來優化 mNGS 耐藥檢測能力的方向[9, 71-72]。
5 展望
抗菌藥物耐藥已成為了加重臨床和公共衛生負擔的全球性大問題。研究顯示,抗菌藥物耐藥在全球 204 個國家和地區已成為主要死亡原因之一,其致死人數高于艾滋病和瘧疾[1]。耐藥菌的感染和防控任重道遠,迅速診斷病原體、預測致病菌藥物敏感性、指導合理臨床用藥決策是關鍵。mNGS 作為一種無偏倚性的新興微生物診斷技術已廣泛用于感染患者的臨床診斷。基于 mNGS 的耐藥檢測雖然還處于起步階段,但其具有檢測時效性高,微生物種屬覆蓋度廣,可研究分離株相關性用于感染控制、預防及實驗室污染檢測等,發現新的潛在耐藥基因,回溯基因數據用于新藥藥效性預測等諸多優勢[8],臨床應用價值毋庸置疑。雖然現階段 mNGS 耐藥分析還存在不少困難和挑戰,但隨著臨床研究的深入、技術的優化、方法學尤其是分析解讀流程的科學評價的發展,再加上人工智能技術的融合應用,mNGS 將逐漸成為病原學診斷和耐藥表型預測的重要工具。
利益沖突:所有作者聲明不存在利益沖突。