10年前,Illumina基因组测序技术进入市场时,前所未有的庞大数据量淘汰了较早开发的测序分析工具。
历史总是重演。如今,第三代测序技术已经达到低成本群体测序规模的临界点。
12月10日,《自然—方法学》在线发表了第一个能够跟上基因组测序产生速度的组装算法。
论文作者、中国农业科学院农业基因组研究所博士阮珏与美国哈佛大学医学院博士李恒,将这个新的第三代测序数据组装算法称为Wtdbg。
20年前,破译人类遗传密码还是极具挑战的大科学工程,当时的人类基因组测序计划与曼哈顿原子弹计划、阿波罗计划并称为三大科学计划。
如今,完成一个人的全基因组测序已经是普通实验室甚至家庭都可以负担起费用的“平常事”。用第三代测序技术完成个体全基因组测序仅需一天,费用也已经低于5万元。
2011年,PacBio公司正式宣布第三代单分子测序开始商业化。
相比于第二代测序每个序列的几百碱基对测序读长,第三代测序的平均读长达到了几万碱基对,最长可以达到数百万碱基对。
西北工业大学生态环境学院教授邱强告诉《中国科学报》,这一技术出现时,科研人员期待利用它填补基因组序列中高重复高杂合的区域,挑战高难度的基因组。
然而,人们迅速发现,这一新技术的普及和应用遇到了很大的困难。
“主要有两个原因:第三代测序的成本在初期要远高于第二代测序;由于第三代测序错误率较高,此前用于第二代基因组测序的组装方法纷纷失效,缺乏有效率的组装工具,特别是PacBio官方推出的falcon方法,消耗资源极多。”邱强介绍,数年后,Ont公司推出纳米孔测序技术,市场竞争逐渐拉低了第三代测序的成本。
而在基因组组装方面,尽管已经出现了canu、marvel等多个组装软件,“但组装仍然是一个十分费时费力的过程,一个哺乳动物基因组的组装时间要数周”。
以人类基因组组装为例,在2014年需要消耗50万个CPU小时,只能在超大计算机集群上进行。
“这种情况下,同时对大量个体进行组装分析是难以想象的。”但现实是,“以全基因组组装方式对群体进行测序分析已经成为生物医学研究的趋势。”阮珏说。
“wtdbg和即将推出的工具可能会从根本上改变当前测序数据分析的实践。”阮珏在接受《中国科学报》采访时说。
此前,“数据产出速度远高于数据分析速度。”因此,近年来,生物信息学领域的科学家群体致力于改变这种尴尬状况,不断开发出更高效的组装分析算法。
例如,继falcon、canu等算法之后,2019年4月,美国加利福尼亚大学圣迭戈分校NIH计算质谱中心主任Pavel A. Pevzner在《自然—生物技术》上发表了Flye算法,其速度远高于falcon、canu。
而阮珏和李恒正式发表的第三代测序数据组装算法wtdbg,比之Flye算法,分析速度提升了5倍,也首次让数据分析时间少于产出时间。
西北工业大学生态环境学院的科学家已经用wtdbg组装了十多个哺乳动物基因组。
西北工业大学教授陈垒在接受《中国科学报》采访时说:“我们用过falcon和canu等组装方法,相比较而言,wtdbg组装运算时间最快,占用资源少,能节省大量时间。组装出的基因组连续性很高,组装质量均符合现在主流的基因组评估。”
特别是,对超大型基因组的组装,wtdbg应该是目前为数不多的可以高效使用的组装软件。
“对于人类基因组数据,wtdbg比已发布的工具快几十倍,同时实现了相当的连续性和准确性。它代表了算法上的重大进步,并为将来群体规模的组装分析铺平道路。”阮珏说。
上世纪90年代,Pavel A. Pevzner将德布鲁因图引入了基因组组装领域。德布鲁因图是一个展示符号序列之间重叠关系的有方向的图。
阮珏介绍,由于第二代测序错误率低,大部分短串(k-mer)是正确的,相同的短串间可以利用德布鲁因图的原理合并起来构成组装图。
但第三代测序数据的错误率非常高,如果还是使用短串k-mer的话,大部分短串带有测序错误,不可以合并起来。因此,德布鲁因图从未成功应用在第三代测序数据。
突破性的方法基于突破性的理论基础。
2013年开始,阮珏和李恒着手解决第三代测序组装的问题,分别开发的SMARTdenovo和Miniasm在领域内均有较好的表现。
随后在德布鲁因图基础上,设计出一个新的组装图理论——模糊布鲁因图。
他们重新定义了“短串”,将测序数据切分为固定长度的新型短串k-bin,k-bin比k-mer的长度更长。
“新设计的模糊布鲁因图能够容忍高噪声数据,并随后对生成组装图与恢复基因组序列做了大量相应的重构,使其兼具高效率和高容错的优点。”阮珏说。
“一般软件组装第三代测序数据的思路是,先对测序数据进行比对纠错,再进行基因组序列的构建。”邱强说,wtdbg则直接进行基因组组装,避免了需要提前纠错的耗时步骤,直接得到一个相对可靠的组装结果。
“组装费时费力这一问题的真正改善,正是从阮珏和李恒研发的wtdbg算法开始。”邱强说。
在他们的课题组中,wtdbg算法得到了广泛使用,极大提高了工作效率。不仅如此,他们还与阮珏进行了深入沟通,对超大基因组组装进行了优化,“我们得以获取40G左右的高质量基因组序列”。
2016年,为了让基因组测序领域可以及时使用新技术,阮珏和李恒将wtdbg研究成果免费开放。
3年来,wtdbg不仅被几十篇学术论文引用,还被国内多家基因组测序分析公司作为主要组装分析工具,并且在2019年世界大学生超算竞赛中作为性能测试赛题。
“我们通过邮件、GitHub网站等方式收到大量反馈,这些反馈不仅帮助我们修订算法软件中的漏洞,还带来了新的想法和思路。换个角度来讲,现在发表的论文已经经历了3年多的‘公众审稿’,感谢多年来参与和关注wtdbg开发的同行。”阮珏说。
邱强认为,wtdbg算法不仅相对于更早的falcon、canu等算法具有效率和准确性的优势,相比此后出现的flye等组装算法也更可靠。“这一研究成果表明我国在基因组算法领域具有了引领国际的实力,也代表了我国科技发展的软实力。”
现在,科学家们可以使用全基因组组装的方式,对大群体开展研究了。
10月16日,记者从中信湘雅生殖与遗传专科医院获悉,该院研究员林戈、副研究员郑伟团队,联合山东大学、上海交通大学医学院等单位的科研团队开展合作攻关,系统揭示了卵子与早期胚胎质量问题导致女性反复“试管”......
衰老对身体产生的可见影响有时与基因活动的无形变化有关。DNA甲基化的表观遗传过程会随着年龄增长而变得不再精确,造成基因表达的变化。而这种变化与随着年龄增长而出现的器官功能衰退和疾病易感性增加有关。如今......
有些人比同龄人更显年轻,而有些人看着更显老;有些人年逾九旬仍身心康健,而另一些人早在数十年前就饱受糖尿病、阿尔茨海默病或行动障碍的困扰;有些人能轻松应对严重摔伤或流感侵袭,而有些人一旦住院就再难康复。......
近日,西北农林科技大学玉米生物学与遗传育种团队联合华中农业大学玉米团队在《植物生理学研究》发表论文。研究初步揭示了ZmGBF1-ZmATG8c模块通过自噬途径调控玉米耐热性的分子机制。随着全球气温持续......
记者21日从国家乳业技术创新中心获悉,该中心技术研发团队成功研制出奶牛种用胚胎基因组遗传评估芯片和“高产、抗病、长生产期”功能强化基因组预测芯片。该系列基因芯片具有完全自主知识产权,填补了我国基因芯片......
记者21日从国家乳业技术创新中心获悉,该中心技术研发团队成功研制出奶牛种用胚胎基因组遗传评估芯片和“高产、抗病、长生产期”功能强化基因组预测芯片。该系列基因芯片具有完全自主知识产权,填补了我国基因芯片......
国际期刊《内分泌学前沿》日前刊登的一项新研究揭示,一种特殊基因对肠道吸收维生素D及其后续代谢过程至关重要,阻断或抑制该基因能够选择性抑制癌细胞生长。这一发现在癌症治疗等精准医学领域具有广阔应用前景。维......
记者从安徽农业大学获悉,该校王晓波教授团队联合中国农业科学院作物科学研究所邱丽娟、李英慧研究员团队,解析了关键基因对大豆种子油脂和蛋白比例(油蛋比)的调控机制,为高油或高蛋白大豆品种选育提供了新方向。......
茶树是以收获新梢为主的叶用经济作物,茶芽大小不仅直接影响鲜叶的产量和品质,还与茶类适制性密切相关。解析茶树芽大小的遗传调控机制,有助于改良茶树品种、提高茶叶产量。近日,中国农业科学院茶叶研究所种质资源......
玉米作为全球重要的粮食、饲料和工业原料作物,其高产对保障粮食安全至关重要。近日,东北农业大玉米遗传育种团队完成的研究在《农业科学学报(英文)》(JournalofIntegrativeAgricult......