发布时间:2021-11-17 15:59 原文链接: 生物物理所女娲基因组资源研究取得进展

  遗传变异图谱是研究人群演化史、医学遗传学、基因型-表型关联的基础。此前,大多数全基因组测序相关研究主要集中在欧洲血统人群。已有研究表明,罕见和低频的变异往往特定于人群或样本,尤其是与疾病相关的变异。针对特定人群的基因组数据可以为全基因组关联研究、区域适应性研究、用药指导等提供更准确的参考。

  单倍型参考面板可基于大型人群队列中已知的单倍型信息,对来源于相对稀疏的基因变异芯片或低覆盖率测序样本中缺失的基因型进行推演,是促进全基因组关联研究 (genome-wide association study, GWAS) 有意义且具有成本效益的方法。此前缺乏中国人群特异的参考面板,其他参考面板对中国人群特异的变异推演效果较差,从而导致GWAS中遗漏潜在的表型相关变异。

  中国人群全基因组测序资源和单倍型参考面板的缺乏阻碍了世界上最大人群的遗传学与精准医学研究。为此,中国科学院院士、中科院生物物理研究所研究员徐涛团队,研究员何顺民团队合作,在Cell Reports上在线发表了题为NyuWa Genome Resource: A Deep Whole Genome Sequencing-Based Variation Profile and Reference Panel for the Chinese Population的文章,介绍该团队关于"女娲"(NyuWa)中国人群基因组资源库(http://bigdata.ibp.ac.cn/NyuWa/)的工作,提供针对中国人群的遗传变异图谱与参考面板基因型推演服务,旨在促进中国人群的遗传学与医学研究。

  研究团队分析了2,999个中国人的全基因组深度测序数据(26.2X),并以“女娲”命名。基于NyuWa数据资源,研究构建了包含7106万SNPs和819万InDels的中国人群遗传变异图谱(图1),并对其进行全面注释。相比其它人群队列,NyuWa数据集包含2501万新变异,其中包括14.9万非同义变异、10.1万有害变异、11493个编码和非编码基因的功能丧失变异、636个癌症相关基因的蛋白截短变异。大量新变异表明,在以往遗传研究中,中国人群的变异代表性不足,NyuWa基因组资源则填补了这一空缺。此外,根据临床相关数据库的注释,研究在NyuWa中发现了1,140个致病变异,以及药物基因组学相关位点(图2A)和癌症风险位点(图2B)上中国人群与世界其他人群的变异频率差异。这些发现有助于中国人群精准医学研究,可能促进新的遗传学和医学进展。

  为汉族人群构建一个完整的、大队列的、高质量的参考面板,对汉族的遗传学与医学研究具有参考价值。基于NyuWa数据资源,科研人员构建了包含5804个单倍型和1926万变异的单倍型参考面板,其中325万变异未包含在其它参考面板中,这些NyuWa参考面板特有变异可能会在未来关联研究中带来新发现,是首个数千人级别公开可用的中国人群特异的单倍型参考面板。为评估NyuWa参考面板的基因型推演性能,科研人员使用来自人类基因组多样性计划(the Human Genome Diversity Project, HGDP)的亚洲各个人群芯片基因分型数据和高覆盖率WGS数据作为测试数据集。与其他参考面板相比,NyuWa参考面板将汉族人群基因型推演的错误率降低了30%-51%,在大多数其他东亚和东北亚人群中也有优异表现(图3A-D)。研究进一步比较了不同等位基因频率的推算结果和实际基因型之间的相关性,NyuWa参考面板性能在汉族的所有等位基因频率区间中均具有绝对优势(图3E)。此外,NyuWa参考面板与千人基因组(1KGP3)面板的结合进一步提高了亚洲人群的基因型推演效果。考虑到南北方汉族遗传差异,科研人员将NyuWa参考面板中的样本分为北方和南方子集,使用子集样本分别构建北方和南方汉族的参考面板,通过基因型推演的模拟测试,证明以NyuWa的人群规模,一个南北整合的参考面板对中国北方人和南方人均适用(图4)。

  综上,基于中国人群的大型队列深度WGS数据,研究构建了中国人群的遗传变异图谱和首个数千人级别公开可用的中国人群单倍型参考面板,将所有结果整合为中国人群基因组资源库NyuWa(图5),有助于中国和亚洲人群的遗传学和精准医学研究。当前有关医学基因组学的知识和指南主要来自以欧洲人群为主的遗传和基因组资源,可能遗漏有关非欧洲人群的遗传信息。亚洲人群起源、迁徙和融合历史悠久而复杂,使得其遗传多样性研究面临挑战和机遇。针对中国人群的全基因组测序工作,对于扩充世界人群遗传资源多样性、提高中国人群医学研究准确性十分必要,有助于深入了解亚洲人群结构与人群历史,并对寻找复杂疾病遗传因素的研究设计以及人口健康指导具有参考价值。

  研究工作得到中科院战略性先导科技专项、国家自然科学基金、国家重点研发计划、中科院“十三五”信息化专项、国家基因组科学数据中心的支持。

  论文链接:https://www.sciencedirect.com/science/article/pii/S2211124721014996

图1.NyuWa全基因组测序资源的变异数量

图2.NyuWa中的药物基因组学位点(A)与癌症风险基因座(B)变异

图3.NyuWa参考面板对汉族基因型推演具有最佳性能

图4.南北方汉族测试数据集的基因型推演错误率

图5.NyuWa资源库


相关文章

研究揭示:基因组中复杂结构变异对藏绵羊适应高原有重要贡献

日前,记者从西北农林科技大学获悉,该校近期联合西藏农牧科学院等多家科研机构,在藏绵羊基因组中发现了一个包含β-珠蛋白(HBB)的受选择位点。科研人员进一步分析,该位点包含一段较为复杂的结构变异。这一发......

首个对叶榕完整基因组发布

本报北京4月9日电(记者杨舒)对叶榕是一种广泛分布于我国南方的植物。近日,中国农业科学院深圳农业基因组研究所农业基因组学技术研发与应用创新团队发布首个对叶榕的完整基因组,修正了此前学界对其基因组测序绘......

海鸥与丹顶鹤居然是近亲?浙大研究将改写教科书

海鸥与丹顶鹤、老鹰与猫头鹰,这几组看似“风马牛不相及”的鸟类,不久前刚认上亲。浙江大学生命演化研究中心张国捷教授联合国内外学者,正在组织收集世界上现生一万多种鸟类的基因组及形态信息,旨在构建起鸟类物种......

“左撇子”形成与啥因素相关?研究发现罕见遗传变异

中新网北京4月3日电(记者孙自法)施普林格·自然旗下学术期刊《自然-通讯》最新发表一篇遗传学论文认为,罕见的会引起蛋白质改变的遗传变异和微管蛋白基因,可能与人类俗称“左撇子”的左利手的形成有关。这项研......

“女娲”基因组计划发布第五项成果

近日,“女娲”基因组团队重点阐释了适应性选择下非编码调控元件对表型演化的影响,相关研究发表于《分子生物学与进化》。这项工作是中国科学院生物物理研究所徐涛院士、何顺民研究员牵头的“女娲”(NyuWa)中......

一生中患病的几率或可预测,十种慢性病遗传风险估算更接近临床

通过分析基因组中数百万个微小的遗传差异,就可预测一个人一生中患某种疾病的几率。在过去的10年中,研究人员为数十种疾病制定了风险评分,希望有一天患者能利用这些信息来降低患病风险。在《自然·医学》杂志最新......

揭秘基因组“暗物质”

记国家自然科学基金重大研究计划“基因信息传递过程中非编码RNA的调控作用机制”在人类遗传信息传递过程中,非编码RNA不参与编码蛋白质,占全部RNA的98%,如同宇宙中神秘的“暗物质”,是生命活动调控的......

构建水稻基因组倒位变异图谱

近日,中国农业科学院深圳农业基因组研究所联合国内多家单位发布了迄今为止最大的水稻群体水平倒位变异图谱,并挖掘获得了新的水稻耐热优异等位基因,该研究对水稻育种改良具有重要意义。相关研究成果发表在《科学通......

基因组精确注释新方法:增强子鉴定新技术

近日,中国农业科学院深圳农业基因组研究所动物功能基因组学创新团队研发出增强子鉴定新技术。该技术与传统技术相比,平均分辨率提高了约10倍,为基因组的精确注释提供了新方法。相关研究成果发表在《核酸研究》(......

迈向CRISPR2.0,下一代基因编辑技术方兴未艾

美国食品药品监督管理局(FDA)本月稍早时间宣布,批准CRISPR/Cas9基因编辑疗法Casgevy上市,用于治疗12岁及以上镰状细胞贫血病患者。这是FDA批准的首款CRISPR基因编辑疗法。而11......