发布时间:2015-07-09 17:16 原文链接: 二倍体人类基因组的首次全面分析

  2003年人类基因组测序的完成可谓生命科学史上的一个里程碑。然而,这个项目并非没有缺陷。最终组装好的序列,也就是人们所说的参考基因组,是由单倍体序列组成,但是人类基因组却是二倍体的。

  近日,美国的一组研究人员首次对二倍体的人类基因组进行了全面分析,并将其结果发表在《Nature Methods》上。这项工作由西奈山伊坎研究所领导,对DNA样品直接进行人类全基因组测序,而无需将DNA克隆到细菌中。

  这项工作涉及到两种技术:Pacific Biosciences的SMRT测序仪,以及BioNano开发的Irys仪器。PacBio用户之前证明,SMRT测序无需参考基因组的指导,也能实现人类全基因组的组装,这要归功于它的读长能够跨越结构上复杂的区域。同时,结合Irys的数据,研究人员能够将基因组组装成更大的片段。Irys不能以单碱基分辨率读取DNA,但在DNA分子上添加荧光标记,从而提供了大的结构元件的排列信息。

  这两种技术都能产生长距离的序列信息。PacBio测序的读长达到10,000 bp或以上,而Irys也能产生数十万个碱基的光学图谱。过去,为了让这么长一段序列保持完整,需要将DNA克隆到粘粒或BAC中。不过,这个过程费时费力,还可能引入偏向。

  这篇文章的通讯作者,伊坎研究所的Ali Bashir表示:“目前还没有开展这类分析的方案。”尽管Bashir的团队使用公开的组装算法来处理PacBio的数据,并使用BioNano的算法来创建Irys基因组图谱,但融合这两种类型的数据需要自定义的脚本。

  他们的研究产生了更长的连续DNA序列。PacBio数据将基因组分成20,000多个contig,而N50长度在900 kb,而Irys光学图谱也大约长了五倍。这些片段的结合产生了仅有200个scaffold的全基因组,而N50长度接近30 Mb,最长的scaffold达到80 Mb。这些数字标志着它们所产生的基因组是有史以来最连贯组装的基因组之一。

  由于PacBio和BioNano技术都直接处理天然DNA,而不是PCR所产生的DNA拷贝,故新的基因组组装几乎是通过单分子分析而构建的。

  复杂的结构变异

  这个项目的主要目标之一是获得基因组中结构最复杂的区域的信息。“结构变异往往深藏在非常复杂的区域内,”BioNano的CEO Erik Holmlin谈道。“科学家已经被训练成远离它,就像一个坏邻居。”

  研究中所使用的细胞系,NA12878,也许是世界上了解最透彻的人类基因组。不过,Bashir及其同事还是发现了一些之前从未捕获到的结构事件,有一些跨越了参考基因组上的缺口。他们还发现,人类参考基因组低估了短串联重复序列的扩增。

  这次新的组装还发现,许多结构事件都来源于一些复合的突变。特别是,超过一半的倒位都至少与一种结构事件共同发生,如插入、确实或重复,这样就产生了复杂的混合DNA结构。

  在黑暗中摸索

  所有这些结果都强调,如果只使用短读取技术,将会丢失许多基因组变异。正如Bashir所说的,几乎可以肯定我们对基因组功能的了解有很大的意义。

  “结构变异产生功能影响的机会比SNP要大得多,”他说,但大多数遗传学家充其量只能预测人类基因组中可能存在哪些结构变异。“许多文献一直集中在推断变异。我们希望的是,当你潜得越深,你就能直接观察到基因组的样子。”

  自项目开展这两年来,PacBio改善了它的读长、定价和通量,而BioNano也升级了Irys。这些趋势都使得未来类似的组装更加容易。利用伊坎研究所开发的计算流程,Bashir预测中等规模的测序中心也能在短短几个月内重复这项工作,而他已经开始着手了。

  “我们希望,新的基因组项目将有着更低的活化能,”他说。“千人基因组计划、瓶中基因组计划等都打算使用这个。”对于结构变异在其中发挥很大作用的特定疾病领域,包括癌症和遗传疾病,Bashir也希望研究小组能够开展这种类型的组装。即使是少数精选的组装,这也会对研究产生重大的影响。

  然而,与目前主流的短读取方案相比,高度连续的基因组组装仍然相当困难,也相当昂贵。在这类项目中验证新的发现也是件困难的事,因为几乎没有其他读取方法能以相同的分辨率了解复杂的结构事件。 “我们拿着手电筒在黑暗中摸索,而我们的确看到了很有趣的东西,”Holmlin谈道。“我们与伊坎的合作者,以及整个社区的人们所做的,是让其他人也有手电筒,从而继续这方面的研究。”

相关文章

中科院生物物理研究所团队研究揭示染色质结构和折叠机制

中国科学院生物物理研究所朱平研究组和李国红研究组合作,揭示了连接组蛋白H5介导的核小体结合和染色质折叠和高级结构形成机制。相关论文近期发表于《细胞研究》。在真核生物中,基因组DNA被分层包装到细胞核内......

致密核物质性质理论研究新进展

近期,中国科学院近代物理研究所核物理中心研究员雍高产在核物质相结构与中子星“超子谜团”研究方面取得进展。相关研究成果发表在《物理快报B》(PhysicsLettersB)上。核物质相结构的探测研究是当......

科学家测序动物界最大基因组

科技日报北京8月15日电(记者张佳欣)据最新一期《自然》杂志报道,德国康斯坦茨大学和维尔茨堡大学领导的国际研究团队,对动物界最大基因组的拥有者——肺鱼进行了基因组测序。肺鱼基因组约为人类基因组大小的3......

910亿,美洲肺鱼拥有最大基因组

在南美洲发现的一种肺鱼是迄今测序的拥有最大基因组的动物。8月14日,一项发表于《自然》的研究显示,美洲肺鱼的DNA包含了惊人的910亿个化学碱基,是人类基因组的30倍。然而,这910亿个碱基只包含与人......

中国热科院在木豆农家种基因组组装及种子百粒重遗传基础解析方面取得新进展

 近日,中国热科院品资所牧草团队在木豆农家种高质量基因组组装及种子百粒重遗传基础解析方面取得新进展,该研究绘制了一个我国的木豆农家种D30高质量参考基因组,并通过全基因组关联分析(GWAS)......

生物最后的共同祖先生活在42亿年前

不同微生物的基因组指向了一个初级免疫系统的早期进化所有生物共有的最后一个祖先是一种生活在42亿年前的微生物,其基因组相当庞大,编码约2600种蛋白质,以氢气和二氧化碳为食,并拥有一个抵御病毒入侵的基本......

“蚕姑娘”性染色体基因组密码破解

7月8日,记者从西南大学获悉,该校教授代方银团队首次获得了家蚕W染色体完整基因组序列,并揭示了鳞翅目昆虫W染色体起源与进化新机制。相关研究成果近日发表于期刊《科学进展》。家蚕性别的决定机制一直受到科学......

全球首个血橙高质量基因组发布

5月19日,重庆市农科院发布消息,该院果树所柑橘创新团队杨蕾、洪林、王敏、李霜等研究人员发布了国际首个血橙高质量基因组。相关研究成果以学术论文近日在国际期刊《科学数据》发表。杨蕾介绍,血橙是一种极具特......

全球首个血橙高质量基因组发布

5月19日,重庆市农科院发布消息,该院果树所柑橘创新团队杨蕾、洪林、王敏、李霜等研究人员发布了国际首个血橙高质量基因组。相关研究成果以学术论文近日在国际期刊《科学数据》发表。杨蕾介绍,血橙是一种极具特......

叶下珠科药用植物基因组研究获新进展

近日,我国科学家在叶下珠科药用植物基因组研究方面取得新进展,研究揭示了多次杂交与多倍化事件共同塑造了叶下珠科复杂的物种形成历史。相关成果发表于《植物学杂志》(ThePlantJournal)。叶下珠科......