发布时间:2018-12-27 13:56 原文链接: 生物学中的应用1:对MinION测序结果中basecalling的计算

  记得去年“阿尔法狗”(AlphaGo)的新闻出来后,小编曾下定决心要跨专业学习一下AI,看看它能否在咱们生物领域也掀起热浪。结果当小编刚刚了解到阿尔法狗的命脉乃来自Deep Learning (深度学习)真传时,它的亲兄弟“AlphaFold” 就以迅雷不及掩耳之势(2018年12月初召开新闻发布会)在蛋白质折叠预测领域独领风骚。有生物学背景的我们都知道,虽然科学家们破译了基因组,但从DNA到蛋白质翻译过程受各种基因和/或蛋白质的调控、修饰,并且蛋白质从翻译产生到能发挥功能的这一过程也是在细胞内经历了各种修饰、折叠。但人家“AlphaFold”则不畏这些千难万苦,“硬生生”的通过氨基酸序列直接预测蛋白质的3D结构(AlphaFold 的新闻发布链接:https://deepmind.com/blog/alphafold/)。所以当“AlphaFold”一出世,大家都惊呼它是能把诺贝尔奖抱回家的人选之一。

   既然“AlphaFold”和“AlphaGo”是亲兄弟,那它们两个到底有什么相同点呢?其实这个相同点就是Deep Learing算法。而不同点则在于该算法分别应用在了围棋领域和蛋白质研究领域。所以,无论是学生物的,还是学物理的,还是学化学的小童鞋们是时候学习一下Deep Learing算法,说不定你就是下一个诺贝尔获奖者呢!如果你还没有这个意识,那小编告诉你,学Deep Learing的专家和学者已经进军到生物领域的各个方向了。

   QB期刊向来提倡交叉,尤其是计算、数学、物理等领域与生命科学的交叉,并且我们也一直在跟踪、刊登这些交叉领域的前沿热点文章。在Deep Learning这个火热阶段,我们编辑部特别邀请到了该领域的曾坚阳教授和裴剑锋教授作为QB期刊2018年第四期的Guest Editors,为我们组织了一场关于Deep Learning或Neural Network在第三代测序分析碱基识别、药用蛋白预测中应用和线粒体形态定量分析的“盛宴”(感兴趣的小伙伴可以登陆我们网站先睹为快哈,网站地址为:https://link.springer.com/journal/40484,或直接在百度中搜索“Quantitative Biology”,进入期刊的网站首页)。

   Deep Learning在MinION测序仪base-calling中的应用【1】(WaveNano:a signal-level nanopore base-caller via simultaneous prediction of nucleotide labels and move labels through bi-directional WaveNets)全文下载:https://link.springer.com/article/10.1007/s40484-018-0155-4。

图片.png

  文章简介

   这篇文章是来自沙特阿卜杜拉国王科技大学(KAUST)的Xin Gao教授团队与香港中文大学(深圳)的Zhen Li 博士合作完成。 Xin Gao 教授团队目前已经完成了一系列与纳米孔测序相关的工作。该团队关于Deep Learning在MinION测序仪数据模拟器中的工作(DeepSimulator: a deep simulator for Nanopore sequencing)于今年9月份发表在了生物信息学领域老牌期刊Bioinformatics上的哦【2】。此外,该团队还完成了一款全新的cwDTW算法,可以高效的联配超长的纳米孔信号,并以此为基础进行信号标注(signal labeling)从而能够检测单核苷酸多态性(SNP)【3】。该工作在国际顶级生物信息学会议ECCB 2018上口头展示,同时亦发表于Bioinformatics。在这里向Xin Gao教授及其团队表示祝贺!

  英国生物技术公司OxfordNanopore自2014年推出MinION测序仪后,由于其小巧的身材(iphone大小),要求不高的运行环境,较长的reads读取(超过15kb),较快的测序速度,实时的测序数据监测等特点,一经问世就受到广泛关注。该测序仪于2016年登上了国际太空站(ISS),完成了第一次太空测序,并证实了对Lambda phage的测序结果在ISS和地球上并无差别【4】。 MinION测序仪的基本工作原理是基于纳米孔测序技术,通过检测单链DNA分子通过纳米孔时引起电流变化的不同,用于碱基的识别(见Figure 1)。由于电流检测的频率通常是DNA序列通过纳米孔速度的7-9倍,因此这对base-calling造成巨大的技术挑战。此外,较高的测序错误率,尤其是对indels(插入和缺失)的测序,是纳米孔测序仪面临的一个主要问题。

图片.png

  为了解决纳米孔测序仪较高错误率的问题,目前已经出现了多种算法。这些算法可以简单地归为两类,即基于机器学习(Machine Learning)的算法和基于共有序列(Consensus)的算法。这两种算法的基本原理都是通过serial base-calling过程(见Figure 2A)进行碱基识别,而这一过程势必会增加错误率。此外,这两种算法所用到的机器学习中的模型建构(Model Architecture)更适用于短片段的计算。为了解决上述问题,本文作者们采用了Google DeepMind团队在语音合成和语音识别方面新开发的具有完美表现的WaveNets深度学习方法【5】将纳米孔中的信号当作语音信号,而base-calling则类似于语音识别过程,开发了一种基于机器学习的新算法-WaveNano(见Figure 2B和Figure 3)。这种算法不依赖任何segmentations/decoding工具,而完全是一种self-contained 的线下工具。

图片.png

  通过该算法,文章作者对Lambdaphage的基因组用MinION进行了测序,结果得到了大约24,000个reads,电流信号平均为63,000bp。同时,作者还将WaveNano与官方的Metrichor算法以及Albacore算法进行了结果比较(如Table1),结果表明WaveNano不仅能预测比较准确的DNA序列,同时该算法对indel的处理结果明显优于Metrichor和Albacore。此外,WaveNano的运行时间约为1个信号序列为0.5s,而Albacore的运行时间则为2s。

图片.png

  由此可见,WaveNano算法对于分析MinION产生的Lambda phage测序结果具有良好的表现,尤其对于indel序列的分析,其结果要比目前商用的Metrichor和Albacore具有更高的准确度。

  Reference

  Sheng Wang, Zhen Li,Yizhou Yu and Xin Gao. (2018) WaveNano:a signal-level nanopore base-caller viasimultaneous prediction of nucleotide labels and move labels throughbi-directional WaveNets. Quant. Biol., 6 (4): 359-368.

  YuLi, Renmin Han, Chongwei Bi, Mo Li, Sheng Wang, Xin Gao. (2018) DeepSimulator:a deep simulator for Nanopore sequencing. Bioinformatics, 34 (17), 2899-2908

  Renmin Han, Yu Li, Xin Gao, Sheng Wang. (2018)An accurate and rapid continuous wavelet dynamic time warping algorithm forend-to-end mapping in ultra-long nanopore sequencing. Bioinformatics, 34 (17),i722-i731

  Castro-Wallace,S. L., Chiu, C. Y., John, K. K., Stahl, S. E., Rubins, K.H.,McIntyre, A.B.R.,Dworkin, J.P.,Lupisella, M.L., Smith, D. J., Botkin, D. J., et al. (2017)Nanopore DNA sequencing and genome assembly on the International Space Station.Sci. Rep., 7, 18022

  VanDen Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A.,Kalchbrenner, N., Senior, A., and Kavukcuoglu K. (2016) Wavenet: A generativemodel for raw audio. ArXiv, 1609.03499


相关文章

美国成立国家生物学理论和数学研究所

美国国家科学基金会(NSF)与西蒙斯基金会出资5000万美元合作成立了国家生物学理论与数学研究所(NITMB),将汇集数学和生物科学领域的专家,探索与环境、生物医学和生物技术等广泛主题和行业相关的研究......

瑞孚迪:改变千万新生命——全基因组测序在新生儿筛查中的应用

导读:这项技术可以及早发现那些可能对患儿生命产生重大影响的罕见疾病。     瑞孚迪的这项首创研究证明了全基因组测序在对看似健康的新生儿的筛查中存在重......

美国成立国家生物学理论和数学研究所

美国国家科学基金会(NSF)与西蒙斯基金会出资5000万美元合作成立了国家生物学理论与数学研究所(NITMB),将汇集数学和生物科学领域的专家,探索与环境、生物医学和生物技术等广泛主题和行业相关的研究......

立足“东方大湾区”:因美纳携手海普洛斯打造国产旗舰桌面测序系统

2023年12月11日,中国深圳——12月9日,全球基因测序和芯片技术的领导者因美纳携手中国肿瘤液体活检和基因大数据高新技术企业海普洛斯共同宣布,首台NextSeq™2000Dx-CN-HAP国产基因......

迄今最大全基因组测序数据公布!产业链受益上市公司梳理

经过历时5年、超35万小时的基因组测序以及超2亿英镑的投资,英国生物银行30日发布了迄今为止世界上最大的全基因组测序数据。英国生物银行首席研究员罗里·柯林斯表示,对于从事健康研究的科学家来说,这是名副......

高通量测序基因分型系统规范即将实施!

国家标准《信息技术生物特征识别高通量测序基因分型系统规范》将于2023年12月1日正式实施。该标准由TC28(全国信息技术标准化技术委员会)归口,TC28SC37(全国信息技术标准化技术委员会生物特征......

4000万!20232026年中国科学院测序和质谱检测项目公开招标

公告信息采购项目名称2023-2026年度测序服务商采购项目品目服务/科学研究和试验开发/其他研究和试验开发服务采购单位中国科学院遗传与发育生物学研究所行政区域北京市公告时间2023年11月03日14......

贝瑞基因:基于三代测序平台单分子实时测序技术的动态突变检测dmTGS

贝瑞基因正式推出基于三代测序平台单分子实时测序技术的动态突变检测dmTGS,能够进一步拓展疾病检测范围,一次性检测41个基因导致的48种动态突变疾病。......

NMPA:非小细胞肺癌组织TMB检测试剂盒(可逆末端终止测序法)获批上市

近日,国家药品监督管理局批准了南京世和医疗器械有限公司生产的“非小细胞肺癌组织TMB检测试剂盒(可逆末端终止测序法)”创新产品注册申请。该产品用于体外定性检测EGFR基因突变阴性和ALK阴性的非鳞状非......

中国银河给予诺禾致源买入评级,目标价位30.0元

中国银河证券股份有限公司程培近期对诺禾致源进行研究并发布了研究报告《平台切换影响短期业务节奏,看好核心业务长期成长》,本报告对诺禾致源给出买入评级,认为其目标价位为30.00元,当前股价为20.61元......