发布时间:2015-07-09 17:16 原文链接: 二倍体人类基因组的首次全面分析

  2003年人类基因组测序的完成可谓生命科学史上的一个里程碑。然而,这个项目并非没有缺陷。最终组装好的序列,也就是人们所说的参考基因组,是由单倍体序列组成,但是人类基因组却是二倍体的。

  近日,美国的一组研究人员首次对二倍体的人类基因组进行了全面分析,并将其结果发表在《Nature Methods》上。这项工作由西奈山伊坎研究所领导,对DNA样品直接进行人类全基因组测序,而无需将DNA克隆到细菌中。

  这项工作涉及到两种技术:Pacific Biosciences的SMRT测序仪,以及BioNano开发的Irys仪器。PacBio用户之前证明,SMRT测序无需参考基因组的指导,也能实现人类全基因组的组装,这要归功于它的读长能够跨越结构上复杂的区域。同时,结合Irys的数据,研究人员能够将基因组组装成更大的片段。Irys不能以单碱基分辨率读取DNA,但在DNA分子上添加荧光标记,从而提供了大的结构元件的排列信息。

  这两种技术都能产生长距离的序列信息。PacBio测序的读长达到10,000 bp或以上,而Irys也能产生数十万个碱基的光学图谱。过去,为了让这么长一段序列保持完整,需要将DNA克隆到粘粒或BAC中。不过,这个过程费时费力,还可能引入偏向。

  这篇文章的通讯作者,伊坎研究所的Ali Bashir表示:“目前还没有开展这类分析的方案。”尽管Bashir的团队使用公开的组装算法来处理PacBio的数据,并使用BioNano的算法来创建Irys基因组图谱,但融合这两种类型的数据需要自定义的脚本。

  他们的研究产生了更长的连续DNA序列。PacBio数据将基因组分成20,000多个contig,而N50长度在900 kb,而Irys光学图谱也大约长了五倍。这些片段的结合产生了仅有200个scaffold的全基因组,而N50长度接近30 Mb,最长的scaffold达到80 Mb。这些数字标志着它们所产生的基因组是有史以来最连贯组装的基因组之一。

  由于PacBio和BioNano技术都直接处理天然DNA,而不是PCR所产生的DNA拷贝,故新的基因组组装几乎是通过单分子分析而构建的。

  复杂的结构变异

  这个项目的主要目标之一是获得基因组中结构最复杂的区域的信息。“结构变异往往深藏在非常复杂的区域内,”BioNano的CEO Erik Holmlin谈道。“科学家已经被训练成远离它,就像一个坏邻居。”

  研究中所使用的细胞系,NA12878,也许是世界上了解最透彻的人类基因组。不过,Bashir及其同事还是发现了一些之前从未捕获到的结构事件,有一些跨越了参考基因组上的缺口。他们还发现,人类参考基因组低估了短串联重复序列的扩增。

  这次新的组装还发现,许多结构事件都来源于一些复合的突变。特别是,超过一半的倒位都至少与一种结构事件共同发生,如插入、确实或重复,这样就产生了复杂的混合DNA结构。

  在黑暗中摸索

  所有这些结果都强调,如果只使用短读取技术,将会丢失许多基因组变异。正如Bashir所说的,几乎可以肯定我们对基因组功能的了解有很大的意义。

  “结构变异产生功能影响的机会比SNP要大得多,”他说,但大多数遗传学家充其量只能预测人类基因组中可能存在哪些结构变异。“许多文献一直集中在推断变异。我们希望的是,当你潜得越深,你就能直接观察到基因组的样子。”

  自项目开展这两年来,PacBio改善了它的读长、定价和通量,而BioNano也升级了Irys。这些趋势都使得未来类似的组装更加容易。利用伊坎研究所开发的计算流程,Bashir预测中等规模的测序中心也能在短短几个月内重复这项工作,而他已经开始着手了。

  “我们希望,新的基因组项目将有着更低的活化能,”他说。“千人基因组计划、瓶中基因组计划等都打算使用这个。”对于结构变异在其中发挥很大作用的特定疾病领域,包括癌症和遗传疾病,Bashir也希望研究小组能够开展这种类型的组装。即使是少数精选的组装,这也会对研究产生重大的影响。

  然而,与目前主流的短读取方案相比,高度连续的基因组组装仍然相当困难,也相当昂贵。在这类项目中验证新的发现也是件困难的事,因为几乎没有其他读取方法能以相同的分辨率了解复杂的结构事件。 “我们拿着手电筒在黑暗中摸索,而我们的确看到了很有趣的东西,”Holmlin谈道。“我们与伊坎的合作者,以及整个社区的人们所做的,是让其他人也有手电筒,从而继续这方面的研究。”

相关文章

研究揭示:基因组中复杂结构变异对藏绵羊适应高原有重要贡献

日前,记者从西北农林科技大学获悉,该校近期联合西藏农牧科学院等多家科研机构,在藏绵羊基因组中发现了一个包含β-珠蛋白(HBB)的受选择位点。科研人员进一步分析,该位点包含一段较为复杂的结构变异。这一发......

首个对叶榕完整基因组发布

本报北京4月9日电(记者杨舒)对叶榕是一种广泛分布于我国南方的植物。近日,中国农业科学院深圳农业基因组研究所农业基因组学技术研发与应用创新团队发布首个对叶榕的完整基因组,修正了此前学界对其基因组测序绘......

海鸥与丹顶鹤居然是近亲?浙大研究将改写教科书

海鸥与丹顶鹤、老鹰与猫头鹰,这几组看似“风马牛不相及”的鸟类,不久前刚认上亲。浙江大学生命演化研究中心张国捷教授联合国内外学者,正在组织收集世界上现生一万多种鸟类的基因组及形态信息,旨在构建起鸟类物种......

科学家揭示番茄闭花授粉形成机制

福建农林大学教授吴双团队首次解析了番茄通过形成特殊表皮毛,改变花的结构,进而改变授粉方式的分子机制。该研究为未来改造植物授粉方式,增加结实率和提高植物的逆境适应力,以及未来转基因作物的安全控制提供了重......

响应设备更新政策|半导体制造工艺、结构与表征解决方案

半导体制造工艺电动汽车等高新技术领域对高效动力转换的需求与日俱增,碳化硅与氮化镓材料扮演关键性角色,有效降低能耗并提升动力转换效率。牛津通过原子层沉积(ALD)与原子层刻蚀(ALE)技术优化了器件工艺......

“女娲”基因组计划发布第五项成果

近日,“女娲”基因组团队重点阐释了适应性选择下非编码调控元件对表型演化的影响,相关研究发表于《分子生物学与进化》。这项工作是中国科学院生物物理研究所徐涛院士、何顺民研究员牵头的“女娲”(NyuWa)中......

一生中患病的几率或可预测,十种慢性病遗传风险估算更接近临床

通过分析基因组中数百万个微小的遗传差异,就可预测一个人一生中患某种疾病的几率。在过去的10年中,研究人员为数十种疾病制定了风险评分,希望有一天患者能利用这些信息来降低患病风险。在《自然·医学》杂志最新......

揭秘基因组“暗物质”

记国家自然科学基金重大研究计划“基因信息传递过程中非编码RNA的调控作用机制”在人类遗传信息传递过程中,非编码RNA不参与编码蛋白质,占全部RNA的98%,如同宇宙中神秘的“暗物质”,是生命活动调控的......

构建水稻基因组倒位变异图谱

近日,中国农业科学院深圳农业基因组研究所联合国内多家单位发布了迄今为止最大的水稻群体水平倒位变异图谱,并挖掘获得了新的水稻耐热优异等位基因,该研究对水稻育种改良具有重要意义。相关研究成果发表在《科学通......

基因组精确注释新方法:增强子鉴定新技术

近日,中国农业科学院深圳农业基因组研究所动物功能基因组学创新团队研发出增强子鉴定新技术。该技术与传统技术相比,平均分辨率提高了约10倍,为基因组的精确注释提供了新方法。相关研究成果发表在《核酸研究》(......