发布时间:2019-11-04 15:48 原文链接: 研究人员发布全基因组单核苷酸变异数据库

图片.png

  10月22日,国际学术期刊Genome Biology 以PGG.SNV: understanding the evolutionary and medical implications of human single nucleotide variations in diverse populations 为题,在线发表了中国科学院上海营养与健康研究所/马普计算生物学研究所徐书华团队基于20万人基因组的单核苷酸变异数据库——PGG.SNV(https://www.pggsnv.org)。PGG.SNV收录的基因组数据涵盖了800多个现存人类族群和来源于古DNA研究的100多个已消亡人类族群,总共超过20万个基因组;因而在代表性人群数量和样本量上均超过目前被广泛使用的由西方学者主导的gnomAD数据库。PGG.SNV更显着的科学价值在于提供了人群、个体、基因和变异多个层面的种群遗传多样性和进化参数的估计,有助于更深入地解析人类基因组变异的功能和表型效应以及理解其进化和医学意义。

  该研究通过全基因组深度测序技术新产生并收集、整合公共人类基因组数据获得2.5亿以上人类单核苷酸变异(SNV),并进行了变异频率、基因多样性、群体分化、功能效应、进化保守性、自然选择信号、连锁不平衡等多方面的解析和注释。通过对人类孟德尔遗传疾病关联变异的频率分析,该研究发现7%的此前报道的罕见病风险变异在很多人群中处于高频状态,提示疾病分析中突变的稀有性不是确定该变异与疾病关联的金标准;孟德尔疾病突变在不同族群中频率存在差别,表明不同族群的遗传负荷存在差异,因而用西方族群的基因组来研究或预测其他族群的突变功能和疾病风险可能会导致误判。

  即便是对于大多数出于医学诊断或研究目的或其他兴趣仅仅需要简单查询基因变异频率信息的人来讲,PGG.SNV数据库也具备独特的优势。在医学遗传学领域的实践中,人们往往通过突变位点的频率比较分析来筛选并判别突变是否可能致病。其潜在假设是孟德尔疾病相关的致病突变在自然人群中是稀有的。比较广泛使用的查询突变频率的数据资源为基于全基因组信息的千人基因组数据集和gnomAD数据库以及基于外显子测序的ExAC数据库。但是以它们为唯一参考来研究突变的频率可能存在以下问题:首先,以上基因组数据资源均未能很好地覆盖代表人类族群的多样性;其次,gnomAD和ExAC中将近一半的基因组来自西方人群,而遗传多样性最高的非洲人群的基因组仅仅占9%,东亚人基因组所占比例则更少,因此此库存在显着的西方白人族源偏向性;再次,gnomAD数据库主要以大洲对人群进行分类,而缺少基因组对应的族群信息。举例来讲,由于缺乏代表性亚洲人群的数据,gnomAD将亚洲人群分为“韩国人”、“日本人”和“其他东亚人(other East Asian)”,因此它不能精确反馈给用户每个族群的突变频率信息。尤其是当研究对象为特定的亚洲人群时,gnomAD和ExAC并不是合适的参照数据集,对于亚太地区的研究者来讲实际应用价值存在较大的局限性。

  实际上,亚洲人群的人口数量和族群多样性远高于欧洲人群。PGG.SNV数据库更好地覆盖了目前西方学者主导的数据库所缺乏的东亚和东南亚人群的基因组数据。除了广泛收集和收录了800多个现代人族群和100多个古人族群组成的20万人以上基因组突变以外,PGG.SNV数据库还包括了新测得的来自东亚和东南亚的16个族群共1009个全基因组测序的突变信息。这些信息在我国以及周边国家的实际应用中更具有参考价值。因此PGG.SNV数据库的发布对于我国及周边国家人群的进化遗传和医学研究具有迫切性和必要性。

  为了方便微信用户通过智能手机查询特定的变异信息,PGG.SNV数据库同时开通了配套的微信公众号“PGGbase”,公众号内提供搜索服务,实时获取变异位点在各群体中的频率信息,并在线生成频率分布地图,为手机用户提供一个简便快捷的查询途径。

  考虑到全球人类基因组数据资源发展不平衡以及我国和周边国家的人类遗传资源管理政策变化,未来PGG.SNV基因组变异数据库的发展将通过广泛合作、重点收录和整合我国和亚洲的人类基因组数据,从(1)持续增加样本量和数据质量、(2)提高样本的族源多样性、(3)重视和加强亚洲人群代表性、(4)提升查询和分析功能以及信息共享等四个方面进一步完善和维护。


相关文章

研究新发现|TaSPL17基因竟能控制小麦籽粒数目和大小

小麦是重要的粮食作物。穗部性状是决定小麦产量的关键因素,增加籽粒同化物的分配对提高小麦产量具有重要的影响。籽粒和其他穗部结构(穗糠)之间遗传关系是决定籽粒同化物分配的重要因素。然而,同化物在小麦籽粒和......

全基因组分析方法创新,人类百万年前的群体秘密被发现!

9月1日,《科学》(Science)在线发表了中国科学院上海营养与健康研究所李海鹏研究组与华东师范大学脑功能基因组学研究所潘逸萱研究组合作撰写的题为Genomicinferenceofasevereh......

研究新进展解开水稻生殖隔离之谜

中国农业科学院作物科学研究所万建民院士团队历时13年系统鉴定了引起籼稻和粳稻杂种花粉不育的遗传调控位点,并对其中的一个主效位点进行了基因克隆和分子机制的深入解析,解开了水稻生殖隔离之谜,同时揭示了目标......

研究确定IgA肾病30个独立显著的风险位点

IgA肾病(IgAN)是一种常见的原发性肾小球疾病,由IgA免疫球蛋白在肾小球异常沉积而得名。美国哥伦比亚大学研究团队通过全基因组关联分析,揭示IgAN的致病信号通路和潜在药物靶点。该研究成果于近日发......

单例成本降至100美元!华大智造发布全球通量最高测序仪

导语:华大智造发布全球通量最高测序仪,单次通量为常规超高通量测序仪的4.5至7倍。每年可完成高达5万例人全基因组测序,单例成本100美元以内。20年将人全基因组测序测序成本从30多亿美元降至100美元......

华南植物园研究预测森林树种对气候变化响应

近日,中科院华南植物园研究员王宝生课题组以我国广泛分布的壳斗科栎属物种麻栎为研究对象,利用生态基因组学方法预测森林树种对气候变化的响应。相关研究发表于《分子生态学》。全球气候的快速变化是生物多样性面临......

研究揭示多物种全基因组6mA分布及可能来源

近日,中山大学生命科学学院教授骆观正团队研究揭示多物种全基因组N6-deoxyadenosine(6mA)分布及可能来源。相关研究发表于CellDiscovery。陈丽倩博士(现为广东省人民医院博士后......

药典委|微生物全基因组测序技术指导原则标准草案公示

近日,国家药典委员会拟定微生物全基因组测序技术指导原则标准草案并公示。其中提到实验室需具备高通量核酸测序仪、核酸扩增仪、片段分析仪、核酸定量仪、生物安全柜、混匀器、高速离心机、水浴或加热模块、冰箱、微......

基于碱基编辑的全基因组扰动文库构建与筛选技术

通过全基因组规模扰动文库的构建与筛选,从宏观基因组层面系统研究基因型与表型的对应关系,是微生物功能基因组学研究的重要方法。相较于单个基因扰动文库的构建与筛选,混合文库的构建与筛选可通过一次实验实现特定......

我国科学家成功获取奥氏马全基因组数据

日前,吉林大学考古学院蔡大伟教授团队与西北农林科技大学动物科技学院姜雨教授团队在马属动物古DNA研究领域取得重要进展。该研究在国际上首次成功获取已灭绝马属动物奥氏马的高质量全基因组数据,重建了马属动物......