发布时间:2018-12-27 13:56 原文链接: 生物学中的应用1:对MinION测序结果中basecalling的计算

  记得去年“阿尔法狗”(AlphaGo)的新闻出来后,小编曾下定决心要跨专业学习一下AI,看看它能否在咱们生物领域也掀起热浪。结果当小编刚刚了解到阿尔法狗的命脉乃来自Deep Learning (深度学习)真传时,它的亲兄弟“AlphaFold” 就以迅雷不及掩耳之势(2018年12月初召开新闻发布会)在蛋白质折叠预测领域独领风骚。有生物学背景的我们都知道,虽然科学家们破译了基因组,但从DNA到蛋白质翻译过程受各种基因和/或蛋白质的调控、修饰,并且蛋白质从翻译产生到能发挥功能的这一过程也是在细胞内经历了各种修饰、折叠。但人家“AlphaFold”则不畏这些千难万苦,“硬生生”的通过氨基酸序列直接预测蛋白质的3D结构(AlphaFold 的新闻发布链接:https://deepmind.com/blog/alphafold/)。所以当“AlphaFold”一出世,大家都惊呼它是能把诺贝尔奖抱回家的人选之一。

   既然“AlphaFold”和“AlphaGo”是亲兄弟,那它们两个到底有什么相同点呢?其实这个相同点就是Deep Learing算法。而不同点则在于该算法分别应用在了围棋领域和蛋白质研究领域。所以,无论是学生物的,还是学物理的,还是学化学的小童鞋们是时候学习一下Deep Learing算法,说不定你就是下一个诺贝尔获奖者呢!如果你还没有这个意识,那小编告诉你,学Deep Learing的专家和学者已经进军到生物领域的各个方向了。

   QB期刊向来提倡交叉,尤其是计算、数学、物理等领域与生命科学的交叉,并且我们也一直在跟踪、刊登这些交叉领域的前沿热点文章。在Deep Learning这个火热阶段,我们编辑部特别邀请到了该领域的曾坚阳教授和裴剑锋教授作为QB期刊2018年第四期的Guest Editors,为我们组织了一场关于Deep Learning或Neural Network在第三代测序分析碱基识别、药用蛋白预测中应用和线粒体形态定量分析的“盛宴”(感兴趣的小伙伴可以登陆我们网站先睹为快哈,网站地址为:https://link.springer.com/journal/40484,或直接在百度中搜索“Quantitative Biology”,进入期刊的网站首页)。

   Deep Learning在MinION测序仪base-calling中的应用【1】(WaveNano:a signal-level nanopore base-caller via simultaneous prediction of nucleotide labels and move labels through bi-directional WaveNets)全文下载:https://link.springer.com/article/10.1007/s40484-018-0155-4。

图片.png

  文章简介

   这篇文章是来自沙特阿卜杜拉国王科技大学(KAUST)的Xin Gao教授团队与香港中文大学(深圳)的Zhen Li 博士合作完成。 Xin Gao 教授团队目前已经完成了一系列与纳米孔测序相关的工作。该团队关于Deep Learning在MinION测序仪数据模拟器中的工作(DeepSimulator: a deep simulator for Nanopore sequencing)于今年9月份发表在了生物信息学领域老牌期刊Bioinformatics上的哦【2】。此外,该团队还完成了一款全新的cwDTW算法,可以高效的联配超长的纳米孔信号,并以此为基础进行信号标注(signal labeling)从而能够检测单核苷酸多态性(SNP)【3】。该工作在国际顶级生物信息学会议ECCB 2018上口头展示,同时亦发表于Bioinformatics。在这里向Xin Gao教授及其团队表示祝贺!

  英国生物技术公司OxfordNanopore自2014年推出MinION测序仪后,由于其小巧的身材(iphone大小),要求不高的运行环境,较长的reads读取(超过15kb),较快的测序速度,实时的测序数据监测等特点,一经问世就受到广泛关注。该测序仪于2016年登上了国际太空站(ISS),完成了第一次太空测序,并证实了对Lambda phage的测序结果在ISS和地球上并无差别【4】。 MinION测序仪的基本工作原理是基于纳米孔测序技术,通过检测单链DNA分子通过纳米孔时引起电流变化的不同,用于碱基的识别(见Figure 1)。由于电流检测的频率通常是DNA序列通过纳米孔速度的7-9倍,因此这对base-calling造成巨大的技术挑战。此外,较高的测序错误率,尤其是对indels(插入和缺失)的测序,是纳米孔测序仪面临的一个主要问题。

图片.png

  为了解决纳米孔测序仪较高错误率的问题,目前已经出现了多种算法。这些算法可以简单地归为两类,即基于机器学习(Machine Learning)的算法和基于共有序列(Consensus)的算法。这两种算法的基本原理都是通过serial base-calling过程(见Figure 2A)进行碱基识别,而这一过程势必会增加错误率。此外,这两种算法所用到的机器学习中的模型建构(Model Architecture)更适用于短片段的计算。为了解决上述问题,本文作者们采用了Google DeepMind团队在语音合成和语音识别方面新开发的具有完美表现的WaveNets深度学习方法【5】将纳米孔中的信号当作语音信号,而base-calling则类似于语音识别过程,开发了一种基于机器学习的新算法-WaveNano(见Figure 2B和Figure 3)。这种算法不依赖任何segmentations/decoding工具,而完全是一种self-contained 的线下工具。

图片.png

  通过该算法,文章作者对Lambdaphage的基因组用MinION进行了测序,结果得到了大约24,000个reads,电流信号平均为63,000bp。同时,作者还将WaveNano与官方的Metrichor算法以及Albacore算法进行了结果比较(如Table1),结果表明WaveNano不仅能预测比较准确的DNA序列,同时该算法对indel的处理结果明显优于Metrichor和Albacore。此外,WaveNano的运行时间约为1个信号序列为0.5s,而Albacore的运行时间则为2s。

图片.png

  由此可见,WaveNano算法对于分析MinION产生的Lambda phage测序结果具有良好的表现,尤其对于indel序列的分析,其结果要比目前商用的Metrichor和Albacore具有更高的准确度。

  Reference

  Sheng Wang, Zhen Li,Yizhou Yu and Xin Gao. (2018) WaveNano:a signal-level nanopore base-caller viasimultaneous prediction of nucleotide labels and move labels throughbi-directional WaveNets. Quant. Biol., 6 (4): 359-368.

  YuLi, Renmin Han, Chongwei Bi, Mo Li, Sheng Wang, Xin Gao. (2018) DeepSimulator:a deep simulator for Nanopore sequencing. Bioinformatics, 34 (17), 2899-2908

  Renmin Han, Yu Li, Xin Gao, Sheng Wang. (2018)An accurate and rapid continuous wavelet dynamic time warping algorithm forend-to-end mapping in ultra-long nanopore sequencing. Bioinformatics, 34 (17),i722-i731

  Castro-Wallace,S. L., Chiu, C. Y., John, K. K., Stahl, S. E., Rubins, K.H.,McIntyre, A.B.R.,Dworkin, J.P.,Lupisella, M.L., Smith, D. J., Botkin, D. J., et al. (2017)Nanopore DNA sequencing and genome assembly on the International Space Station.Sci. Rep., 7, 18022

  VanDen Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A.,Kalchbrenner, N., Senior, A., and Kavukcuoglu K. (2016) Wavenet: A generativemodel for raw audio. ArXiv, 1609.03499


相关文章

科学家测序动物界最大基因组

科技日报北京8月15日电(记者张佳欣)据最新一期《自然》杂志报道,德国康斯坦茨大学和维尔茨堡大学领导的国际研究团队,对动物界最大基因组的拥有者——肺鱼进行了基因组测序。肺鱼基因组约为人类基因组大小的3......

动物保护新动作,300多种反刍动物基因组将测序

据最新一期《自然·遗传学》杂志报道,由多个机构组成的国际“端粒对端粒(T2T)”联盟正在推进“反刍动物端粒-端粒”项目,旨在对300多种反刍动物的基因组进行测序。研究团队期望通过测序得到的基因组图谱,......

预测蛋白质序列的新AI模型问世

瑞士洛桑联邦理工学院开发了一种名为CARBonAra的新型人工智能(AI)驱动模型。该模型可以根据不同分子环境所施加限制的主链支架预测蛋白质序列,有望在蛋白质工程及包括医学和生物技术在内的多个领域带来......

300多种反刍动物基因组将测序

科技日报北京8月8日电(记者刘霞)据最新一期《自然·遗传学》杂志报道,由多个机构组成的国际“端粒对端粒(T2T)”联盟正在推进“反刍动物端粒-端粒”项目,旨在对300多种反刍动物的基因组进行测序。研究......

Platensilin、Platensimycin、Platencin及其类似物的不对称合成和生物学评价

山东大学娄红祥团队报道了基于生物启发骨架重建方法的Platensilin,Platensimycin,Platencin及其类似物的不对称合成和生物学评价。相关研究成果于2024年7月8日发表在国际知......

Nature:一项开源项目或能以前所未有的细节绘制出人类脊髓损伤的生物学图谱

近日,一篇发表在国际杂志Nature上题为“Single-cellandspatialatlasesofspinalcordinjuryintheTabulaeParalytica”的研究报告中,来自......

细胞用量大幅减少,新技术提升单分子DNA测序水平

美国格拉德斯通研究所团队开发了两种新的单分子分析工具,可将所需的DNA量减少90%至95%。该研究成果发表在最新一期《自然·遗传学》杂志上,展示了这些工具如何帮助科学家解决他们以前无法回答的生物学问题......

药典委:《微生物全基因组测序技术指导原则》二次公示

近日,国家药典委员会发布了《微生物全基因组测序技术指导原则》的第二次公示稿,以征求社会各界的意见和建议。公示期为一个月,从即日起至2024年7月1日结束。《微生物全基因组测序技术指导原则》旨在为药品微......

华大智造2023年财报发布:核心测序业务稳步增30.31%

华大智造近日公布了其2023年的财务报告,2023年的营业收入达到了29.11亿元,较2022年的42.31亿元降低了31.19%。营业总成本33.31亿元,其中研发投入9.1亿元,占总收入的31.2......

3450万,该高校6、7月份采购计划出炉

为便于供应商及时了解政府采购信息,根据《江苏省财政厅关于做好政府采购意向公开工作的通知》等有关规定,现将南京医科大学(本部)2024年5月(第1批)政府采购意向公告如下:编号项目名称采购需求概况采购预......