发布时间:2014-10-17 10:36 原文链接: 三代基因测序组装算法和软件研发获突破

  DNA基因测序技术从上世纪70年代起,历经三代技术后,目前已发展成为一项相对成熟的生物产业。测序技术的应用也扩展到了生物、医学、制药、健康、农林、园艺、花卉、环保、法医等许多领域,并成为一项与我们衣食住行密切相关的高技术产业。据最新统计,2012年全球基因测序市场的产值已超过百亿,按最近几年增长速度,预计2017年市场产值将加倍。在测序产业占世界市场份额第一的正是总部设在深圳的我国华大基因研究院。因此可以说,基因测序在我国生物科技领域具有非常重要的战略意义。

  “第三代测序技术”的研发已有近十年时间,商业化的第三代测序仪上市也有三年。但目前测序市场仍为二代测序技术所垄断(我国顶级科研机构和商业公司所拥有的三代测序仪可能仅有数十台)。三代测序技术产生的读段更长,测序成本更低,其取代二代技术是测序技术发展的必然趋势。然而由于三代测序技术错误率高,现有的组装软件多是对第二代测序数据组装软件的“修补”而并没有充分考虑到三代测序技术的数据特征。事实上,基因组装算法问题被广泛认为是计算生物学和生物信息学领域最复杂的计算难题之一,也是目前阻碍基因测序产业从二代技术升级到三代技术最大的技术障碍。

  最近,美国马里兰大学 Chengxi Ye, James A. Yorke, Aleksey Zimin 等与中国科学院昆明动物研究所遗传资源与进化国家重点实验室马占山研究员在这一领域的合作研发取得新突破。该研究团队在一篇题为DBG2OLC: Efficient Assembly of Large Genomes Using the Compressed Overlap Graph 的文章中引入了一种新的针对三代测序技术的基因组装算法,并开发出一款软件(DBG2OLC)。另外作者(Ye et al. 2011, 2012)于2011年发布的SparseAssembler曾经比当时主流的基因组装软件节省90%的内存空间,而其计算时间和组装质量却毫不逊色。著名的SOAPdenovo的升级版,也是目前最广泛应用的基因组装软件SOAPdenovo2即采用了SparseAssembler算法。

  多组测序数据的测试表明:与目前用于三代测序最优秀的一些基因组装软件(例如PacBio2CA, HGAP, ECTools)相比,DBG2OLC在计算时间和内存空间的消耗通常仅为其它算法的1/10。理论上,DBG2OLC 在时间和空间的使用上相对其它同类软件可减少达1000倍。例如组装关键步骤之一的“两两比对”计算,采用一组由 PacBio提供的人类基因组数据,DBG2OLC 使用一台普通PC仅用了6小时完成。而同样计算,Pacific Biosciences所报道的时间为 405000 CPU小时,而且是在Google的计算集群上完成。因此,DBG2OLC 算法基本解决了目前三代测序技术所面临的计算技术挑战,从而为推进基因测序技术的产业升级奠定了良好的技术基础。

相关文章

又一灭绝物种全基因组数据解析

日前,吉林大学考古学院蔡大伟教授团队与西北农林科技大学动物科技学院姜雨教授团队在马属动物古DNA研究领域取得重要进展。该研究在国际上首次成功获取已灭绝马属动物奥氏马的高质量全基因组数据,重建了马属动物......

王克剑:让杂交稻优良基因代代相传

“最近,我们团队正在整理刚从海南南繁基地收回来的杂交稻种,准备这几天播种下去,以查看无融合生殖水稻的综合性状。实验人员会对稻种进行实验室育苗监测,跟踪其生长情况……”刚见到记者,中国水稻研究所研究员王......

猴痘基因组研究公布:14种序列皆来源这里

对来自正在进行的全球爆发的猴痘病毒(MPXV)基因组的分析发现,这些样本聚集在一起,表明它们的来源单一。根据世界卫生组织的数据,从今年年初到6月中旬,已有2100多例经实验室确诊的猴痘病例,其中大部分......

大脑发育关键基因之谜解开

英国巴斯大学研究人员近日在《公共科学图书馆·遗传学》发表论文称,他们揭开了长链非编码RNA(lncRNA)子集基因与邻近基因相互作用的机制,这一机制可调节必需的神经细胞发育及功能。lncRNA基因与其......

综合组学分析中发现的肾脏疾病靶点

宾夕法尼亚大学领导的一个团队已经确定了数百个肾脏疾病风险位点,引入了额外的表观遗传、基因表达、单细胞和功能数据,以挖掘遗传关联背后的一些基因、途径和细胞类型。“我们报告了对人类肾功能的遗传决定因素的全......

华南农业大学团队研究揭示作物中杀虫剂转运蛋白基因

近日,华南农业大学亚热带农业生物资源与利用国家重点实验室、天然农药与化学生物学教育部重点实验室徐汉虹与林菲课题组首次研究报道了作物中杀虫剂转运蛋白基因。他们克隆了噻虫嗪高效利用吸收转运蛋白基因OsAT......

ACMG将另外五个基因添加到二级发现列表中

美国医学遗传学和基因组学学院在其列表中添加了五个基因,它建议临床实验室在进行临床外显子组或基因组测序时报告二次发现。ACMG于2013年首次发布此类列表。当时,它建议临床实验室除了报告与个体进行测序分......

家猫研究追踪遗传多样性,跨品种的疾病风险

来自美国和芬兰的一个团队对数十种家猫品种内部和之间的遗传特征进行了表征,统计了猫科动物中发现的遗传多样性,同时调查了先前与一系列猫科疾病或特征有关的变异的流行情况。“这项研究首次提供了许多疾病相关变异......

大海捞针——小麦12万基因中寻觅抗赤霉病

芒种过后,正是麦收时节。山东泰安,翻滚的麦浪诉说着丰收的喜悦。早上7点刚过,金灿灿的麦田里,已有一群年轻人在辛勤地劳作。收割,捆扎,分类,标记,一套动作流畅娴熟。脸被烈日晒得黝黑,手被麦芒扎得粗糙。这......

UltimaGenomics联合英伟达挑战基因测序巨头

测序技术新人UltimaGenomics近日表示,它已与英伟达合作以加速基因组分析。总部位于加利福尼亚州纽瓦克的Ultima一周前从隐身模式中脱颖而出,获得了6亿美元的资金支持,并表示计划在明年初推出......