发布时间:2021-12-21 17:47 原文链接: Science:一种发现人类基因组中结构变异的新方法

  自从20多年前首次对人类基因组进行测序以来,对人类基因组的研究几乎完全依赖于单一的参考基因组,并与其他基因组进行比较,以确定遗传变异。科学家们早就认识到,单一参考基因组不能代表人类的多样性,而且使用它给这些研究带来普遍的偏差。如今,在一项新的研究中,来自美国加州大学圣克鲁兹分校和田纳西大学等研究机构的研究人员终于有了一个实用的替代方案。相关研究结果发表在2021年12月17日的Science期刊上,论文标题为“Pangenomics enables genotyping of known structural variants in 5202 diverse genomes”。

  在这篇论文中,这些作者介绍了一种称为Giraffe的新工具,它可以有效地将新的基因组序列映射到代表许多不同人类基因组序列的“泛基因组(pangenome)”。他们表明,这种方法可以更全面地描述遗传变异的特征,并可以改善众多研究人员和临床医生所使用的基因组分析。

  论文通讯作者、加州大学圣克鲁兹分校生物分子工程副教授Benedict Paten说,“我们多年来一直朝着这个方向努力,如今我们第一次有了一些实用的东西,它可以快速工作,而且比单一参考基因组的效果更好。对于生物医学的未来来说,基因组学平等地帮助每个人是很重要的,所以我们需要考虑到人类群体的多样性并且不存在偏差的工具。”

  所有的人都有相同的基因,但在这些基因的确切序列以及在蛋白质编码基因之外的大部分基因组序列中存在许多变化。基因组中单个碱基的差异称为单核苷酸变异(SNV),而短序列的插入或缺失被统称为indel。

  最复杂的变异是涉及大片段序列(50个或更多碱基)重新排列的结构变异。使用单一参考基因组尤其难以发现这些变异,但它们可以产生重大影响,并且已知在一些疾病中发挥重要作用。普通人有数以百万计的SNV和indel以及数以万计的更大的结构变异,而且总体上,结构变异实际上比其他类型的变异涉及更多的碱基序列。

  Paten说,“基因组学研究一直聚焦于SNV和indel,因为结构变异一直被隐藏起来。泛基因组学正在使结构变异变得可见,因此我们可以像研究SNV和indel一样研究它们。有很多结构变异,它们可以产生很大的影响,所以这对疾病的遗传研究的未来至关重要。”

  作为参考的泛基因组可以从多个基因组序列中创建,使用数学图形结构来表示不同序列之间的关系。在这篇新论文中,这些作者利用公开的数据建立了两个人类基因组参考图。这些可被用来评估新工具Giraffe,其中Giraffe是一组用于将新的序列数据映射到参考泛基因组的算法。

  论文共同第一作者、加州大学圣克鲁兹分校基因组学研究所研究员Jouni Sirén开创了Giraffe的许多关键算法创新。Giraffe能够准确地将新的序列数据映射到嵌入参考泛基因组中的数千个基因组上,就像现有工具映射到单个参考基因组一样迅速。该研究还显示,使用Giraffe减少了映射偏差,即错误地映射与参考基因组不同的序列的倾向。

  论文共同第一作者、加州大学圣克鲁兹分校基因组学研究所博士后研究员Jean Monlong说,“它不仅分析结果更好,而且与目前使用线性参考基因组的方法一样快。”

  廉价的短读测序(short-read sequencing)是现代基因组学的主流,产生的序列片段必须映射到参考基因组上才能理解。映射显示每个片段属于人类23条染色体中的哪一条,并确定个人基因组中每个位置存在的变异,这一过程被称为基因分型。

  实验概述:来自基于长读测序的和大规模测序研究的变体调用被用来构建泛基因组参考图(顶部)。Giraffe(和竞争的映射程序)将读取序列映射到泛基因组参考图或线性参考基因组上,并对映射的准确性、等位基因覆盖平衡和速度进行评估(中间)。然后,映射的读取序列被用于变异调用,并对变异调用的准确性进行了评估(底部)。结构变异调用与表达数据一起进行分析,以确定eQTL和群体频率估计。图片来自Science, 2021, doi:10.1126/science.abg8871。

  这些作者发现,Google Health的深度学习变体调用器DeepVariant,使用Giraffe针对泛基因组的比对,比使用针对单一参考基因组的比对能更准确地识别SNV和 indel。

  Monlong说,他对使用泛基因组学来研究结构变异感到最兴奋。他说,“最近使用长读测序(long-read sequencing)发现了很多结构变异。有了泛基因组,我们可以在短读测序的大型数据集中寻找这些结构变异。这很令人兴奋,因为这将使我们能够在许多人中研究这些新的结构变异,并提出有关其功能影响、与疾病的关联或在进化中的作用的问题。”

  这些作者用Giraffe对来自5202人的不同群体的读取序列进行了映射,并确定了16.7万个最近发现的结构变异的基因型。这使他们能够估计这些结构变异的不同版本在整个人类群体和不同亚群中的频率。他们发现,一些结构变异的频率在不同的亚群之间有很大的差异,如果仅在欧洲血统的人群中分析,它们可能会被误解,因为该人群中的特定结构变异频率很低。

  单一的参考基因组必须选择任何变异的一个版本来代表,而使其他的版本没有得到代表。通过使更具广泛代表性的参考泛基因组成为现实,Giraffe可以使基因组学更具包容性。

  Paten和加州大学圣克鲁兹分校基因组学研究所的其他人参与了一项由美国国家人类基因组研究中心资助的重大努力,以便建立全面的人类参考泛基因组,他们预计将在明年发布它,作为科学界的一个资源。

相关文章

一生中患病的几率或可预测,十种慢性病遗传风险估算更接近临床

通过分析基因组中数百万个微小的遗传差异,就可预测一个人一生中患某种疾病的几率。在过去的10年中,研究人员为数十种疾病制定了风险评分,希望有一天患者能利用这些信息来降低患病风险。在《自然·医学》杂志最新......

揭秘基因组“暗物质”

记国家自然科学基金重大研究计划“基因信息传递过程中非编码RNA的调控作用机制”在人类遗传信息传递过程中,非编码RNA不参与编码蛋白质,占全部RNA的98%,如同宇宙中神秘的“暗物质”,是生命活动调控的......

构建水稻基因组倒位变异图谱

近日,中国农业科学院深圳农业基因组研究所联合国内多家单位发布了迄今为止最大的水稻群体水平倒位变异图谱,并挖掘获得了新的水稻耐热优异等位基因,该研究对水稻育种改良具有重要意义。相关研究成果发表在《科学通......

基因组精确注释新方法:增强子鉴定新技术

近日,中国农业科学院深圳农业基因组研究所动物功能基因组学创新团队研发出增强子鉴定新技术。该技术与传统技术相比,平均分辨率提高了约10倍,为基因组的精确注释提供了新方法。相关研究成果发表在《核酸研究》(......

迈向CRISPR2.0,下一代基因编辑技术方兴未艾

美国食品药品监督管理局(FDA)本月稍早时间宣布,批准CRISPR/Cas9基因编辑疗法Casgevy上市,用于治疗12岁及以上镰状细胞贫血病患者。这是FDA批准的首款CRISPR基因编辑疗法。而11......

瑞孚迪:改变千万新生命——全基因组测序在新生儿筛查中的应用

导读:这项技术可以及早发现那些可能对患儿生命产生重大影响的罕见疾病。     瑞孚迪的这项首创研究证明了全基因组测序在对看似健康的新生儿的筛查中存在重......

科学家解析百余“神奇蘑菇”基因组以培育新品种

科学家收集了几十种“神奇蘑菇”的基因组数据,以了解驯化和培养是如何改变它们的,从而培育新品种蘑菇。相关研究近日发表于《当代生物学》。裸盖菇的商业品种缺乏遗传多样性,因为它们被驯化为人类使用。而澳大利亚......

万种原生生物基因组计划取得阶段性进展

原生生物(Protist)是一大类单细胞真核生物的集合,包括单细胞真核藻类和原生动物等,组成了原生生物界。原生生物具有高度多样性,广泛分布于各类水环境中,在生态平衡、物质和能量循环、环境健康、动植物疾......

俄罗斯科学家参与创建基因组数据统一平台

来自俄罗斯、美国、土耳其和欧洲的科学家开发了一个Shambhala平台,可将大量基因活性水平的大数据结合起来。该数据库的创建将使科学家能够将不同实验中兼容性较差的数据结合起来。此项成果发表于《分子生物......

中国科研团队研发出精准检测评估基因组组装新工具

近年来,随着基因测序技术和算法不断发展,大量物种基因组被陆续测序和组装,为相关研究和应用提供重要遗传信息。因此,如何精准检测评估基因组组装质量高低、避免组装错误等非常关键,也备受关注。记者19日从中国......