關曉宇 1 , 王宇 2,3 , 張金月 2,3 , 邵偉 1 , 黃碩 2,3 , 張道強 1
  • 1. 南京航空航天大學 計算機科學與技術學院 工信部模式分析與機器智能重點實驗室 (南京 211106);
  • 2. 南京大學 化學化工學院 生命科學分析化學國家重點實驗室 (南京 210023);
  • 3. 南京大學 化學與生物醫學創新中心 (南京 210023);
導出 下載 收藏 掃碼 引用

O6-甲基鳥嘌呤(O6-CMG)是DNA中的一種高致突變烷基化產物,它會導致生命體罹患胃腸道腫瘤。現有的研究主要是利用恥垢分枝桿菌膜蛋白(MspA)納米孔技術,借助枯草芽孢桿菌噬菌體Phi29 DNA多聚酶(Phi29 DNA polymerase)對突變進行精確定位。近年來,機器學習技術被廣泛應用于納米孔測序數據的分析,但是機器學習往往需要大量的數據標記,這給研究者們帶來了額外的工作負擔,大大影響了其實用性。因此,本文提出了一種納米無監督深度學習(nano-UDL)方法,該方法能自動識別含有突變段的納米孔數據。nano-UDL方法利用深度自動編碼器從納米孔數據中提取特征,然后通過均值漂移(MeanShift)聚類算法對特征數據進行分類。此外,該方法還聯合優化了聚類損失和重構損失,從而提取最優的特征用于聚類。實驗結果表明,nano-UDL方法在O6-CMG數據集上具有較高的識別精度,能準確識別出所有包含O6-CMG的序列段。為了進一步驗證nano-UDL方法的魯棒性,本文進行了超參數敏感性驗證和消融實驗。利用nano-UDL方法分析納米孔數據不但可以有效降低人工分析數據帶來的額外成本,而且對包括基因組測序在內的諸多生物研究具有重要意義。

引用本文: 關曉宇, 王宇, 張金月, 邵偉, 黃碩, 張道強. 基于無監督深度學習的納米孔測序O6-甲基鳥嘌呤識別. 生物醫學工程學雜志, 2022, 39(1): 139-148. doi: 10.7507/1001-5515.202104068 復制

  • 上一篇

    多通道微流控芯片的設計、仿真及細胞遷移應用研究
  • 下一篇

    一種輔助進餐機器人的結構設計與性能分析