发布时间:2021-10-14 13:46 原文链接: 科学家开发高性能大片段插入删除变异鉴定工具

  10月13日,华中农业大学生物信息团队杨庆勇课题组联合新加坡国立大学Sung Wing-Kin(宋永健)课题组在《核酸研究》(Nucleic Acids Research)在线发表论文,开发出高性能的大片段插入删除变异(InDel)鉴定工具IndelEnsembler,使大片段InDel鉴定准确性由45%提高到84%。

  鉴定准确性提高

  遗传变异是指一个群体中个体之间DNA序列的差异,主要包括点突变(SNP/单核苷酸多态性)、小片段InDel和结构变异(包括大片段InDel、染色体倒位、易位和拷贝数变异)。基因组上的遗传变异是人类遗传病产生的根源,也是动植物形态、表型多样性的遗传基础。因此,SNP被广泛应用于群体遗传学研究和疾病相关基因的研究。但越来越多的研究表明,SNP并不能解释所有的表型差异,在人类中有超过1000种疾病由结构变异导致,其中不乏人们常常耳闻的渐冻症、精神分裂症以及自闭症等。近年来,随着二代测序技术的蓬勃发展,越来越多的研究开始关注结构变异。

  在植物中,大量遗传学和分子生物学证据表明,大片段InDel在解释影响一系列重要农作物的表型变异中起主要作用。例如,黄瓜基因组上一个大片段DNA序列拷贝数变化可以决定黄瓜性别,包含该变异的黄瓜产量约为普通黄瓜的15倍。蟠桃因其果形独特、味甜多汁而受到人们喜爱,研究发现蟠桃基因组中含有一个1.67 Mb的倒位,而普通桃中则没有。但是,目前鉴定到的表型相关的大片段InDel的数量远远小于SNP,其主要原因是现有的方法不能精确鉴定基因组上的大片段InDel。

  论文通讯作者杨庆勇介绍,该研究通过整合4个已发表的方法,开发出高性能的大片段InDel鉴定工具IndelEnsembler,并将其应用于由1047个拟南芥品系构成的自然群体中,通过全基因组关联分析(GWAS)鉴定到与重要性状相关的、新的大片段InDel。

  相比于目前鉴定InDel性能最佳的两个软件GRIDSS和Manta,IndelEnsembler在不同物种及不同测序深度下均有很好的性能。相比于拟南芥中已开发的工具AthCNV,IndelEnsembler在鉴定缺失变异(DEL)和重复变异(DUP)时准确性分别提高1倍和30%。

  提供重要资源

  大片段InDel在拟南芥基因组上的分布不均匀且与转座子的分布呈现极显著正相关,80%~96%的染色体着丝粒区域被InDel覆盖。大片段InDel倾向于分布在基因间区以及非编码基因上。拟南芥基因组上有13102个基因受到大片段InDel的影响,但这些基因主要是未知功能的基因,说明大片段InDel影响的基因大部分为非核心基因。现有研究表明,非核心基因与水稻、玉米等重要农作物的适应性、品质和驯化等性状密切相关。此外,大片段InDel影响的基因更多的分布在基因组上的串联重复区域,说明基因组上的串联重复区域为不稳定区域会积累更多的变异。

  有48.91%的DEL与周围的SNP具有低连锁不平衡,说明IndelEnsembler鉴定到了大量新的基因组变异,为挖掘影响拟南芥性状相关的基因组变异提供了重要资源。

  例如,该研究鉴定到的一段377 bp的DEL造成开花期相关基因FRI第一个外显子上65 bp的缺失,含有该缺失的材料开花期提前。另外该研究还鉴定到AT1G11520基因上的一段182 bp缺失,含有该缺失的材料开花期推迟。值得注意的是,上述两段缺失不能在同一个材料中出现,而且所有北瑞典地区的材料AT1G11520基因上均含有该182 bp的缺失。

  这些结果说明,拟南芥中仍然存在不少未知的基因组变异,IndelEnsembler鉴定到的大片段InDel可以作为拟南芥中表型相关的基因组变异数据集的一个补充。

  相关论文信息:https://doi.org/10.1093/nar/gkab904


相关文章

写在DNA双螺旋结构发现七十周年之际

再过几天就是DNA双螺旋模型发现70周年。70年前,1953年2月28日,25岁的美国生物学博士沃森和正在攻读物理学博士学位的37岁英国学者克里克跨界合作,优势互补,在伦敦卡文迪许实验室里用铁板、铁棍......

RedoxBiology:糖尿病内皮细胞的糖酵解依赖DNA修复缺陷

糖尿病心血管疾病和微血管并发症,如糖尿病视网膜病变(DR),是糖尿病患者发病和死亡的主要原因,糖尿病血管并发症的患病率正在迅速增加。糖尿病血管并发症的一个关键事件是血管通透性增加,内皮细胞(ECs)丢......

研究发现驯化选择水稻DNA寒害损伤修复机制及优异模块

农作物应对全球气候变化引起的异常温度需要具备优异耐受模块,品种设计需依赖细胞寒害感知防御“信号网络”“修复机制”的原理。 在前期研究中,中国科学院院士、中科院植物研究所研究员种康研究组在水稻......

科学家揭示基因转录终止机制

DNA是遗传信息的载体,遗传信息通过转录从DNA传递到RNA,随后通过翻译解码成蛋白质。基因是DNA遗传信息的编码单元,基因的正确解码需要执行基因转录的RNA聚合酶严谨识别基因的的起始序列(启动子)和......

狗拿耗子为哪般

你观察过狗狗的一些行为吗?它会被随风飘摇的塑料袋吓坏吗?会在陌生人来到家门时吠叫、躲藏或寻找你吗?会追着松鼠跑吗?作为人类最亲密的伙伴,狗的行为密码就蕴藏在基因中。一项近日发表于《细胞》的研究,通过解......

新软件用DNA创建3D纳米结构

据最新一期《科学进展》杂志报道,美国杜克大学和亚利桑那州立大学研究人员新开发的开源软件程序可让用户绘制圆形的图纸或数字模型,并将它们转化为由DNA构成的3D结构,每个3D结构就是一个微小的空心体,其直......

这个遗传变异与严重儿童肥胖相关

科学家报道了与严重儿童肥胖有关的一种新的遗传机制。这是一个与饥饿控制有关的基因异常表达导致的基因重排,而大多数肥胖的常规基因检测无法检测到。相关研究近日发表于《自然—代谢》。黑素皮质素受体4(MC4R......

模拟深空条件下首次合成DNA关键组分

美国研究人员在最新一期《美国国家科学院院刊》上发表论文称,他们首次在实验室模拟的深空环境——太空冷分子云内冰冻的星际纳米颗粒内合成出了DNA和RNA的关键组成部分二胺基甲烷,有望为生命起源提供重要见解......

模拟深空条件下首次合成DNA关键组分

科技日报北京12月15日电(记者刘霞)美国研究人员在最新一期《美国国家科学院院刊》上发表论文称,他们首次在实验室模拟的深空环境——太空冷分子云内冰冻的星际纳米颗粒内合成出了DNA和RNA的关键组成部分......

《自然》:近4千种遗传变异与吸烟或饮酒有关

中新网北京12月8日电(记者孙自法)国际著名学术期刊《自然》最新发表一项篇遗传学研究论文称,在一项涉及近340万人的多血统全基因组关联研究(GWAS)中,研究人员发现了近4000个与吸烟和饮酒行为的遗......