发布时间:2022-11-02 20:04 原文链接: Meta公司AI预测6亿蛋白质结构

ESM宏基因组图谱数据库包含6.17亿个蛋白质的结构预测。图片来源:ESM宏基因组图谱

谷歌旗下人工智能(AI)公司Deep Mind今年公布了2.2亿个蛋白质的预测结构,几乎涵盖了DNA数据库中已知生物的所有蛋白质。现在,另一个科技巨头正在填补蛋白质宇宙中的暗物质。

Meta公司(前身为Facebook)的研究人员使用人工智能预测了约6亿个蛋白质的结构,这些蛋白质来自细菌、病毒和其他尚未被表征的微生物。相关研究11月1日发表于预印本网站BioRxiv。

“这些是非常神秘的蛋白质,为深入了解生物学提供了可能性。”Meta人工智能蛋白质团队研究负责人Alexander Rives说。

该团队使用“大型语言模型”生成了这些预测。“大型语言模型”是一种人工智能,可作为通过几个字母或单词预测文本的工具的基础。

通常语言模型是在大量文本的基础上进行训练的。为了将其应用于蛋白质,Rives团队将已知蛋白质序列“喂”给它们,这些蛋白质可以由20个不同的氨基酸链表示,每个氨基酸链由一个字母表示。然后,该模型学会了在氨基酸比例模糊的情况下“自动补全”蛋白质。

Rives说,这种训练使模型对蛋白质序列有了直观的理解,蛋白质序列包含了蛋白质形状的信息。

第二步,受DeepMind开创性蛋白质结构人工智能算法AlphaFold的启发,模型将这种洞察力与已知蛋白质结构和序列之间关系的信息相结合,从蛋白质序列中生成预测结构。

今年夏天早些时候,Rives团队报告称,其模型算法名为ESMFold,虽准确性不如AlphaFold,但在预测结构方面要快60倍左右。“这意味着我们可以将结构预测扩展到更大的数据库中。”Rives说。

作为一个测试案例,研究团队决定将模型应用于大规模测序的“宏基因组”DNA数据库,这些DNA来自于环境,包括土壤、海水、人类肠道、皮肤和其他微生物栖息地。绝大多数编码潜在蛋白质的DNA条目来自从未被培养过的生物,也不为科学家所知。

Meta团队总共预测了超过6.17亿个蛋白质的结构,这项工作只花了两周时间。Rives表示,预测是免费的,任何人都可以使用,就像模型的底层代码一样。

在这6.17亿个预测中,该模型认为超过1/3的预测是高质量的,因此研究人员可以确信蛋白质的整体形状是正确的,在某些情况下,模型可以识别更精细的原子级细节。值得一提的是,其中数以百万计的结构都是全新的,与实验确定的蛋白质结构数据库,或从已知生物体预测的AlphaFold数据库中的结构都不同。

AlphaFold数据库的很大一部分是由彼此几乎相同的结构组成的,而宏基因组数据库则应该涵盖以前从未见过的蛋白质宇宙的很大一部分。

美国哈佛大学进化生物学家Sergey Ovchinnikov对ESMFold做出的数亿个预测表示怀疑。他认为,有些蛋白质可能缺乏确定的结构,而另一些可能是非编码DNA,被误认为是蛋白质编码材料。

德国慕尼黑工业大学计算生物学家Burkhard Rost对Meta公司模型的速度和准确性的结合印象深刻。但他质疑,从宏基因组数据库预测蛋白质是否真的比AlphaFold的精确度更高。基于语言模型的预测方法,更适合快速确定突变如何改变蛋白质结构,这是AlphaFold无法做到的。

据DeepMind的一位代表说,该公司目前没有计划在其数据库中进行宏基因组结构预测,但不排除在未来这样做的可能性。

韩国首尔国立大学计算生物学家Martin Steinegger认为,这类工具的下一步显然是研究生物学中的暗物质。“我们很快就会在这些宏基因组结构的分析方面出现爆炸式增长。”

相关文章

OpenAI内斗结束!奥特曼回归,AI+如何助力生命科学?

最近,OpenAI现(前)CEO山姆·奥特曼(SamAltman)被董事会罢免一事登上热搜。短短几日上演一场宫斗,现终宣告结束。值得注意的是,宫斗前,奥特曼刚刚回应支持一家生物技术研究公司开发无创测血......

OpenAI内斗结束!奥特曼回归,AI+如何助力生命科学?

最近,OpenAI现(前)CEO山姆·奥特曼(SamAltman)被董事会罢免一事登上热搜。短短几日上演一场宫斗,现终宣告结束。值得注意的是,宫斗前,奥特曼刚刚回应支持一家生物技术研究公司开发无创测血......

梦幻联动!基因泰克与英伟达合作促进AI新药研发

罗氏旗下基因泰克(Genentech)公司宣布,与英伟达(NVIDIA)建立多年战略研究合作关系。此合作将基因泰克在人工智能(AI)、广泛的生物学和分子数据以及研发专长与英伟达在加速计算和AI方面的领......

梦幻联动!基因泰克与英伟达合作促进AI新药研发

罗氏旗下基因泰克(Genentech)公司宣布,与英伟达(NVIDIA)建立多年战略研究合作关系。此合作将基因泰克在人工智能(AI)、广泛的生物学和分子数据以及研发专长与英伟达在加速计算和AI方面的领......

NatureMedicine:达摩院医疗AI攻克胰腺癌早筛难题

胰腺导管腺癌(PDAC)是最致命的实体恶性肿瘤,通常在晚期和不能手术的阶段被发现。早期或偶然发现与延长生存期有关,但由于低患病率和假阳性的潜在危害,使用单一检测筛查无症状的PDAC个体仍然是不可行的。......

NatureMedicine:达摩院医疗AI攻克胰腺癌早筛难题

胰腺导管腺癌(PDAC)是最致命的实体恶性肿瘤,通常在晚期和不能手术的阶段被发现。早期或偶然发现与延长生存期有关,但由于低患病率和假阳性的潜在危害,使用单一检测筛查无症状的PDAC个体仍然是不可行的。......

最新消息!英伟达计划推出针对中国市场的AI芯片

11月9日,有消息称英伟达将推出三款针对中国市场的AI芯片,以应对美国最新的芯片限售令。近日网上流传的一份文件中,也显示了英伟达即将向中国客户推出产品的详细规格和推出日期,新产品分别名为HGXH20、......

最新消息!英伟达计划推出针对中国市场的AI芯片

11月9日,有消息称英伟达将推出三款针对中国市场的AI芯片,以应对美国最新的芯片限售令。近日网上流传的一份文件中,也显示了英伟达即将向中国客户推出产品的详细规格和推出日期,新产品分别名为HGXH20、......

学者同聚北师大,Urimarker2023共讨新发展

——第三届尿液生物标志物学术研讨会(Urimarker2023)顺利召开11月4日-11月5日,第三届尿液生物标志物学术研讨会(Urimarker2023)于北京师范大学圆满落幕。本次研讨会采用线上线......

美国这项对华政策,让英伟达丢了50亿美元AI芯片订单?

据华尔街日报消息,美国新的出口管制规定可能迫使AI芯片巨头英伟达取消明年数十亿美元的对华先进制程芯片订单,此举可能令中国科技公司无法获得关键的AI资源。据知情人士透露,此前,英伟达今年对中国的先进制程......