发布时间:2019-12-10 14:34 原文链接: 研究发现全新全基因组组装方法

模糊布鲁因图的构建与基因组序列的恢复。阮珏供图

   十年前,Illumina基因组测序技术进入市场时,前所未有的庞大数据量淘汰了较早开发的测序分析工具。

  历史总是重演。如今,第三代测序技术已经达到低成本群体测序规模的临界点。

  英国时间12月9日,《自然—方法学》在线发表了第一个能够跟上基因组测序产生速度的组装算法。

  这篇论文只有两位作者,他们是中国农业科学院农业基因组研究所阮珏博士与美国哈佛大学医学院李恒博士。这个新的第三代测序数据组装算法被他们称为Wtdbg。

  三代测序的尴尬

  20年前,破译人类遗传密码还是极具挑战的大科学工程,当时的人类基因组测序计划与曼哈顿原子弹计划、阿波罗计划并称为三大科学计划。

  如今,完成一个人的全基因组测序已经是普通实验室甚至家庭都可以负担起费用的“平常”事情。用第三代测序技术完成个体全基因组测序仅需一天时间,费用也已经低于5万元。

  2011年,PacBio公司正式宣布三代单分子测序开始商业化。相比于二代测序每个序列的几百碱基对测序读长,三代测序的平均读长达到了几万碱基对,最长可以达到数百万碱基对。

  西北工业大学生态环境学院教授邱强告诉《中国科学报》,这一技术出现时,科研人员期待利用它填补基因组序列中高重复高杂合的区域,挑战高难度的基因组。然而,人们迅速发现,这一新技术的普及和应用遇到了很大的困难。

  “这主要由两个原因所导致。第一,三代测序的成本在初期要远高于二代测序;第二,由于三代测序错误率较高,此前用于第二代基因组测序的组装方法纷纷失效,缺乏有效率的组装工具,特别是PacBio官方推出的falcon方法,消耗资源极多。”邱强介绍,数年后,Ont公司推出纳米孔测序技术,市场竞争逐渐拉低了第三代测序的成本。而在基因组组装方面,尽管已经出现了canu、marvel等多个组装软件,“但组装仍然是一个十分费时费力的过程,一个哺乳动物基因组的组装时间要以数周来计算”。

  以人类基因组组装为例,在2014年需要消耗50万个CPU小时,只能在超大计算机集群上进行。“这种情况下,同时对大量个体进行组装分析是难以想象的。”但现实是,“以全基因组组装方式对群体进行测序分析已经成为生物医学研究的趋势”,阮珏说。

  首次:数据分析比数据产生更快

  “wtdbg和即将推出的工具可能会从根本上改变当前测序数据分析的实践。”阮珏在接受《中国科学报》采访时说。

  此前,“数据产出速度远高于数据分析速度。”因此,近年来,生物信息学领域的科学家群体致力于改变这种尴尬状况,不断开发出更高效的组装分析算法。

  例如,继falcon、canu等算法之后,2019年4月,美国加利福尼亚大学圣地亚哥分校NIH计算质谱中心主任Pavel A. Pevzner在《自然—生物技术》上发表了Flye算法,其速度远高于falcon、canu。

  而阮珏和李恒正式发表的第三代测序数据组装算法wtdbg,比之Flye算法,分析速度提升了5倍,也首次让数据分析时间少于数据产出时间。

  西北工业大学生态环境学院的科学家已经用wtdbg组装了十多个哺乳动物基因组。西北工业大学教授陈垒在接受《中国科学报》采访时说:“我们用过falcon和canu等组装方法,相比较而言,wtdbg组装运算时间最快,占用资源少,能节省大量时间。组装出的基因组连续性很高,组装质量均符合现在主流的基因组评估。”特别是,对超大型基因组的组装,wtdbg应该是目前为数不多的可以高效使用的组装软件。

  “对于人类基因组数据,wtdbg比已发布的工具快几十倍,同时实现了相当的连续性和准确性。它代表了算法上的重大进步,并为将来群体规模的组装分析铺平道路”阮珏说。

  模糊布鲁因图问世

  上世纪90年代,Pavel A. Pevzner将德布鲁因图(de Bruijn Graph)引入了基因组组装领域。阮珏介绍,由于第二代测序错误率低,大部分短串(k-mer)是正确的,相同的短串间可以利用德布鲁因图的原理合并起来构成组装图。

  但三代测序数据的错误率非常高,如果还是使用短串k-mer的话,大部分短串带有测序错误,不可以合并起来。因此,德布鲁因图从未成功应用在第三代测序数据。

  突破性的方法基于突破性的理论基础。

  2013年开始,阮珏和李恒着手解决三代测序组装的问题,分别开发的SMARTdenovo和Miniasm在领域内均有较好的表现。随后在德布鲁因图基础上,设计出一个新的组装图理论——模糊布鲁因图(Fuzzy Bruijn Graph)。他们重新定义了“短串”,将测序数据切分为固定长度的新型短串k-bin,k-bin比k-mer的长度更长,“新设计的模糊布鲁因图能够容忍高噪音数据,并随后对生成组装图与恢复基因组序列做了大量相应的重构,使其兼具高效率和高容错的优点”阮珏说。

  “一般软件组装第三代测序数据的思路是,先对测序数据进行比对纠错,再进行基因组序列的构建。”邱强说,wtdbg则直接进行基因组组装,避免了需要提前纠错的耗时步骤,直接得到一个相对可靠的组装结果。

  “组装费时费力这一问题的真正改善,正是由阮珏和李恒所研发的wtdbg算法开始”邱强说。在他们的课题组中,wtdbg算法得到了广泛使用,极大提高工作效率。不仅如此,他们还与阮珏进行了深入沟通,对超大基因组组装进行了优化,“我们得以获取基因组大小40G左右的高质量基因组序列”。

  公众参与下的技术改进

  2016年,为了让基因组测序领域可以及时使用新技术,阮珏和李恒将wtdbg研究成果对所有人免费开放使用。

  3年来,wtdbg不仅被几十篇学术论文引用,还被国内多家基因组测序分析公司作为主要组装分析工具,并且在2019年世界大学生超算竞赛中做为性能测试赛题。

  “我们通过邮件、GitHub网站等方式收到大量反馈,这些反馈不仅帮助我们修订算法软件中的漏洞,还给我们带来新的想法和思路。换个角度来讲,现在发表的论文已经经历了3年多的‘公众审稿’,感谢多年来参与和关注wtdbg开发的同行。”阮珏说。

  邱强认为,wtdbg算法不仅相对于更早的falcon、canu等算法具有效率和准确性的优势,相比此后出现的flye等组装算法也具有更好的可靠性。“这一研究成果代表我国在基因组算法领域具有不输于国际甚至引领国际的实力,也代表了我国科技发展的软实力”。

  现在,科学家们可以使用全基因组组装的方式,对大群体开展研究了。

相关文章

迄今最大全基因组测序数据公布!产业链受益上市公司梳理

经过历时5年、超35万小时的基因组测序以及超2亿英镑的投资,英国生物银行30日发布了迄今为止世界上最大的全基因组测序数据。英国生物银行首席研究员罗里·柯林斯表示,对于从事健康研究的科学家来说,这是名副......

迄今最大全基因组测序数据公布有望带来新的诊断方法

经过历时5年、超35万小时的基因组测序以及超2亿英镑的投资,英国生物银行30日发布了迄今为止世界上最大的全基因组测序数据,完成了这一有史以来最受瞩目的同类项目。英国生物银行首席研究员罗里·柯林斯表示,......

合成生物学再获瞩目!聚树生物完成上亿元PreA轮融资

近日,聚树生物宣布成功筹集上亿元人民币的Pre-A轮融资。本轮融资由滨湖国投、锡创投、中肃资本等联合领投,老股东成为资本与本草资本也追加投资,以支持公司在合成生物学领域的进一步发展和应用落地。作为全球......

科学家绘制细胞游离DNA单分子全基因组突变图谱

体细胞突变是肿瘤发生的标志,可用于癌症的无创诊断。美国约翰·霍普金斯大学医学院绘制细胞游离DNA单分子全基因组突变图谱,用于癌症无创检测。该研究成果于近日发表在《NatureGenetics》杂志上,......

我国学者完成山刺番荔枝全基因组测序

近日,华南农业大学林学与风景园林学院副教授唐光大与福建农林大学教授刘仲健团队合作完成了山刺番荔枝的全基因组测序。相关成果发表于OrnamentalPlantResearch。山刺番荔枝花和果实图。研究......

研究新发现|TaSPL17基因竟能控制小麦籽粒数目和大小

小麦是重要的粮食作物。穗部性状是决定小麦产量的关键因素,增加籽粒同化物的分配对提高小麦产量具有重要的影响。籽粒和其他穗部结构(穗糠)之间遗传关系是决定籽粒同化物分配的重要因素。然而,同化物在小麦籽粒和......

全基因组分析方法创新,人类百万年前的群体秘密被发现!

9月1日,《科学》(Science)在线发表了中国科学院上海营养与健康研究所李海鹏研究组与华东师范大学脑功能基因组学研究所潘逸萱研究组合作撰写的题为Genomicinferenceofasevereh......

研究新进展解开水稻生殖隔离之谜

中国农业科学院作物科学研究所万建民院士团队历时13年系统鉴定了引起籼稻和粳稻杂种花粉不育的遗传调控位点,并对其中的一个主效位点进行了基因克隆和分子机制的深入解析,解开了水稻生殖隔离之谜,同时揭示了目标......

研究确定IgA肾病30个独立显著的风险位点

IgA肾病(IgAN)是一种常见的原发性肾小球疾病,由IgA免疫球蛋白在肾小球异常沉积而得名。美国哥伦比亚大学研究团队通过全基因组关联分析,揭示IgAN的致病信号通路和潜在药物靶点。该研究成果于近日发......

单例成本降至100美元!华大智造发布全球通量最高测序仪

导语:华大智造发布全球通量最高测序仪,单次通量为常规超高通量测序仪的4.5至7倍。每年可完成高达5万例人全基因组测序,单例成本100美元以内。20年将人全基因组测序测序成本从30多亿美元降至100美元......