一种功能类似于谷歌搜索的计算工具已经证明了它的前景——可以廉价且容易地搜索生物序列数据。开发该工具的瑞士团队表示,在一项原理验证研究中,他们利用该工具成功索引了10%世界已知DNA、RNA和蛋白质序列,同样的方法也可以用于完成其余部分。
日前,该进展在预印本平台bioRxiv上公布。这款名为MetaGraph的计算工具,可以将公开的序列数据组织并压缩为可搜索的格式,就像互联网搜索引擎对网页及其内容所做的那样。由此产生的索引可供下载,也可通过门户网站获得,用户可以扫描包含数万亿对碱基对和数十亿个氨基酸的序列。
没有参与该工作的美国马里兰大学的计算生物学家Rob Patro说,这项研究“是一项巨大成就,是对所有公开的测序数据进行索引这一重大挑战的里程碑。”这样的资源可以助力无数领域的研究,从鉴定新病毒到揭示与疾病相关的RNA序列。虽然MetaGraph并不是唯一一个旨在实现这一目标的项目,但该团队已经创建了迄今最大的索引,并且使用成本相对较低。
Patro指出,目前,存储DNA、RNA和蛋白质序列数据的存储库呈指数级增长。序列读取档案(SRA)是一个由美国国立卫生研究院国家生物技术信息中心(NCBI)及其合作者运营的基因数据库,包含了来自人类和其他动物、植物和细菌等生物体的超过5万亿个碱基对(50 PB碱基)。
目前的生物信息学工具无法同时扫描这么多数据,尤其是对于那些尚未组装成基因组的序列,研究人员必须缩小序列集合的范围。一些研究小组希望通过将较大数据库中的序列压缩成更有组织的数据结构或索引来解决这个问题,以便在可下载文件或在线门户中轻松搜索。
2020年,瑞士苏黎世联邦理工学院的生物信息学家AndréKahles和计算机科学家Gunnar R?tsch及其同事展示了MetaGraph的早期版本。该团队使用称为德布鲁因图的数学结构表示序列之间的重叠,从SRA中索引了100多万条记录,总计约3 PB。
现在,该团队利用MetaGraph的改进版本索引来自SRA和其他数据库的5个pb碱基,包括来自微生物、真菌、植物、人类和人类肠道微生物组的序列。新发布的工具可以将几十太字节的数据压缩到大约10gb——小到足以在一台个人电脑上运行。构建初始索引是很困难且昂贵的,所有SRA都要花费数十万美元,但现在用户可以比现有技术更便宜地查询数据集。
英国诺丁汉特伦特大学的生物信息学家和微生物学家Lesley Hoyles说,这项工作“非常令人兴奋”。随着数据存储库的规模不断膨胀,“任何可以减少计算存储和能源成本的东西……对全世界的研究人员来说都是一个巨大优势。”Hoyles说,这种方法可以减少低收入和中等收入国家的科学家进行基因组研究的障碍。“工作可以在便宜的笔记本电脑上轻松完成。”
无独有偶,其他研究小组也在取得进展。去年,法国巴斯德研究所从欧洲研究委员会获得了200万欧元,启动了IndexThePlanet项目,对SRA中的所有数据进行编目。NCBI的研究人员正在开发索引工具Pebblescout。“目前这是一个非常活跃的领域。”英国巴斯大学的计算生物学家Zamin Iqbal说。他曾参与“所有细菌”项目,该项目旨在收集细菌序列数据,使其更容易搜索。
Patro认为,由于受MetaGraph索引大小的限制,其在一些特别大的任务上可能比其他工具慢,比如同时从一个样本中查找数百万个序列。他补充说,目前还不清楚如何最好地用新的序列数据更新索引。还有一个挑战是为项目提供资金,以及随之而来的所有计算成本。事实上,该工具最终是否被广泛采用,将部分取决于“如何解决社会和行政方面的问题,即如何使用如此大量的资源”。
Kahles和R?tsch对此表示赞同,他们希望这项工作能激励其他团体,以及NCBI或SRA等更大的组织的参与,并帮助索引剩余90%的序列数据,供研究人员使用。
近日,西北农林科技大学玉米生物学与遗传育种团队联合华中农业大学玉米团队在《植物生理学研究》发表论文。研究初步揭示了ZmGBF1-ZmATG8c模块通过自噬途径调控玉米耐热性的分子机制。随着全球气温持续......
记者21日从国家乳业技术创新中心获悉,该中心技术研发团队成功研制出奶牛种用胚胎基因组遗传评估芯片和“高产、抗病、长生产期”功能强化基因组预测芯片。该系列基因芯片具有完全自主知识产权,填补了我国基因芯片......
国际期刊《内分泌学前沿》日前刊登的一项新研究揭示,一种特殊基因对肠道吸收维生素D及其后续代谢过程至关重要,阻断或抑制该基因能够选择性抑制癌细胞生长。这一发现在癌症治疗等精准医学领域具有广阔应用前景。维......
记者从安徽农业大学获悉,该校王晓波教授团队联合中国农业科学院作物科学研究所邱丽娟、李英慧研究员团队,解析了关键基因对大豆种子油脂和蛋白比例(油蛋比)的调控机制,为高油或高蛋白大豆品种选育提供了新方向。......
茶树是以收获新梢为主的叶用经济作物,茶芽大小不仅直接影响鲜叶的产量和品质,还与茶类适制性密切相关。解析茶树芽大小的遗传调控机制,有助于改良茶树品种、提高茶叶产量。近日,中国农业科学院茶叶研究所种质资源......
玉米作为全球重要的粮食、饲料和工业原料作物,其高产对保障粮食安全至关重要。近日,东北农业大玉米遗传育种团队完成的研究在《农业科学学报(英文)》(JournalofIntegrativeAgricult......
水稻作为起源于热带或亚热带的粮食作物,其生长发育对低温胁迫敏感。伴随全球气候变化加剧,极端低温事件发生频率显著上升,发掘耐冷基因并解析分子机制,有利于水稻高产稳产遗传改良。目前,利用自然群体挖掘的水稻......
东南亚人群基因组计划概念图。受访者供图东南亚是全球最重要的人类演化区域之一。该地区人群拥有极高的遗传多样性,但基因组学研究却长期缺失,制约了人类环境适应性进化与疾病遗传机制的深度解析,因而被称为全球人......
近日,中国农业科学院油料所(以下简称油料所)油料基因工程与转基因安全评价创新团队发布了油菜害虫西北斑芫菁染色体水平高质量基因组数据,明确该害虫含10条染色体和11687个蛋白编码基因,为研发害虫绿色防......
经过20多年的努力,科研人员成功地对6种现存猿类的基因组进行了完整测序,为研究人类进化提供了近距离视角,这被英国《自然》杂志称为“遗传学的一个里程碑”。123名来自多个国家和地区的科研人员组成的团队9......