发布时间:2023-02-03 17:34 原文链接: Nature子刊:AI像造句一样设计人工蛋白质

  近年来,人工智能(AI)已在医学、生物学及制药领域中展示出广阔的发展前景。特别是在蛋白质设计和工程领域,基于 AI 技术创建人工的蛋白质序列已经成为现实,并可能被用于治疗各种疾病。

  日前,来自 AI 研究企业 Salesforce Research 、合成生物学公司 Tierra Biosciences 和加州大学旧金山分校的一组研究人员合作开展研究,创建了一个能够从头开始生成人造酶的人工智能系统——ProGen。

  ProGen 系统基于 AI 语言模型发展而来,其能够以类似“遣词造句”的方式生成跨多个蛋白质家族、且功能可预测的蛋白质序列。经检测,该系统生成的酶与自然界中发现的酶同样有效,即使这些人工生成的氨基酸序列与已知的天然蛋白质之间存在显著差异。

  该研究以:Large language models generate functional protein sequences across diverse families 为题,于2023年1月26日发表于 Nature Biotechnology 期刊。

  研究团队表示,该技术可能超越获得诺贝尔奖的蛋白质定向进化技术,因为其几乎可以用于加速所有种类新蛋白质的开发工作,无论是药物开发还是塑料降解酶的制备。

  “人工设计的性能比受进化过程启发的设计要好得多”,论文的作者之一,来自加州大学旧金山分校药学院的 James Fraser 表示,“当前的人工智能模型能够通过学习蛋白质进化的过程从而实现创新,但其与正常的进化过程不同,人们能够调整结构以获得特定的功能。例如,让一种酶具有超乎想象的热稳定性或耐酸性等。”

  为了开发 ProGen 系统,研究团队将来自于 19000 个家族的 2.8 亿种不同蛋白质的氨基酸序列输入机器学习模型中,同时提供相关蛋白质特性作为控制标签,然后让系统花费数周时间来“消化”这些信息。

  “对于蛋白质研究领域而言,最重要的信息包括蛋白质家族、生物过程和分子功能等属性。”研究人员介绍道,通过调节这些控制标签,ProGen 能够根据所需属性生成特定的蛋白质序列,并且具备前所未有的进化序列多样性。随着输入氨基酸序列和条件标签的增多,研究者能够实现对于产生蛋白质的功能控制。

  在此之后,研究者向模型提供来自五个溶菌酶家族的 56000 个序列以及相关信息,从而对模型进行微调。基于上述现有的“学习材料”,AI 模型迅速生成了一百万个序列。根据这些序列与天然蛋白质序列的相似程度及其氨基酸序列构成的自然程度,研究团队从中选择了 100 个序列展开研究。

  “来自五个溶菌酶家族的所有人工蛋白质均显示出活性,并且在这些人工制造的溶菌酶中,有 73% 被发现具有抗菌功能,而在天然蛋白质中仅有 59% 具备功能性。”研究人员对此表示。

  在第一批进行体外筛选的 100 种蛋白质中,研究团队选择了其中五种人工蛋白质在大肠杆菌中进行重组表达,并将它们的活性与鸡蛋清溶菌酶(HEWL)进行比较。后者主要存在于鸡蛋白、以及人类的眼泪、唾液和牛奶中,具有抵御细菌和真菌的作用。

  比较数据表明,五种人工蛋白质中有两种能够以相当于 HEWL 的活性分解细菌的细胞壁,尽管它们之间仅有约 18% 的序列是相同的。另一方面,存在于自然界中的已知蛋白质与这两个序列的相似度分别为 90% 和 70% 左右。

  “这一结果证实,ProGen 系统不仅能够学习生成结构稳定且‘合理’的氨基酸序列,并且其产生的序列已被证实能够在现实世界中执行其预期功能。”研究人员进一步介绍道,ProGen 生成的人工蛋白质不仅可以正确表达,并且展示出与天然折叠相类似的结构。

  在另一轮筛选中,研究团队发现,即使只有 31.4% 的序列与目前已知的天然蛋白质相似,这些由 AI 生成的酶类依然显示出活性。与之相比,天然蛋白质中发生任何一个突变就有可能让其停止工作。

  “这项工作表明,蛋白质可以被理解为是一种由氨基酸组成的‘语言’。就像单词一个接一个地串在一起形成句子一样,氨基酸一个接一个地串在一起形成蛋白质。”研究人员对此表示,当前的人工智能技术已经可以通过研究原始序列数据来了解酶应该如何形成,在此之后,通过 X 射线晶体学测量发现,这些人造蛋白质的原子结构完全符合其设计预期,尽管这些序列此前并不存在。

  在生物学领域中,按需制造蛋白质可说是其中最复杂也最具影响力的工作之一。在过去几十年间,尽管蛋白质工程研究领域经过不断发展,取得了一系列举世瞩目的成就。然而,此前的蛋白质工程实验技术仍然依赖于启发式和随机突变的方式,从而选择出可用的初始序列。

  2020 年,来自硅谷的 AI 技术企业 Salesforce Research 开发了 ProGen 系统,该系统基于一种用于生成英语文本的自然语言编程发展而来,以便将自然语言处理(NLP)方法应用至蛋白质属性分类,进一步研究并生成新的蛋白质。

  “当前结果证实,自然语言处理技术虽然是为读写语言文本而开发的,但其也可以用于学习一些生物学的基本原理。”研究团队认为,就像 AI 生成图片或文本的方式一样。有了足够的信息,人工智能生成的内容就可以变得类似于自然界中天然存在的事物,从而难以区分。

  而对于蛋白质领域而言,其体现在设计上的广度就更加庞大。仅以溶菌酶为例,其长度最多约为 300 个氨基酸左右,但是考虑到有 20 种天然氨基酸作为制造“单元”,那么制造一个溶菌酶就存在大约 20300 种搭配。考虑到这种近乎于无限的制造可行性,使用 AI 技术轻松、快速地推动蛋白质设计工作就显得迫在眉睫。

  “当你使用大量数据训练 AI 模型时,它们对于结构和制造规则方面表现出十分强大的学习能力,”Salesforce Research 的人工智能研究总监、该论文的通讯作者 Nikhil Naik 对此介绍道,“人工智能了解哪些‘单词’可以同时出现,以及它们组合在一起的可行性。”

  该研究的通讯作者之一、基于 AI 技术的蛋白质设计公司 Profluent Bio 创始人 Ali Madani 博士此前曾在 Salesforce Research 担任研究科学家。任职期间,他领导了该公司的机器学习研究计划,并且担任 ProGen moonshot 的架构师,从而推进了蛋白质设计的生成建模项目。2022 年,他与加州大学旧金山分校教授 James Fraser 等人合作创立了 Profluent Bio,以跨学科合作的方式推动 AI 设计蛋白质工作的研究进展。

  Ali Madani 认为,“这种开箱即用、从头开始生成功能性蛋白质的能力表明人们正在进入蛋白质设计的新时代。其为蛋白质开发工程师提供了一种多功能的新工具,我们期待看到该技术在各种疾病治疗应用领域中的下一步发展。”

  总体而言,该研究突出了人工智能语言模型在蛋白质设计和工程中的潜力,使用深度学习语言模型对蛋白质进行精确的从头设计将在生物学、医学和环境问题中展示出发展前景。不过,研究人员同时指出,在使用 AI 语言模型进行蛋白质设计和制造时,必须考虑伦理影响。

相关文章

未来AI或在社会中自行学习成长,能迅速模仿人类专家的智能体出现

据《自然·通讯》28日发表的一篇论文,谷歌“深度思维”报道了一个人工智能(AI)体,在3D模拟中,该智能体能在第一次见到的任务中极迅速地模仿人类专家,实时可靠地获取来自人类搭档的知识。这一研究结果是对......

未来AI或在社会中自行学习成长,能迅速模仿人类专家的智能体出现

据《自然·通讯》28日发表的一篇论文,谷歌“深度思维”报道了一个人工智能(AI)体,在3D模拟中,该智能体能在第一次见到的任务中极迅速地模仿人类专家,实时可靠地获取来自人类搭档的知识。这一研究结果是对......

OpenAI内斗结束!奥特曼回归,AI+如何助力生命科学?

最近,OpenAI现(前)CEO山姆·奥特曼(SamAltman)被董事会罢免一事登上热搜。短短几日上演一场宫斗,现终宣告结束。值得注意的是,宫斗前,奥特曼刚刚回应支持一家生物技术研究公司开发无创测血......

OpenAI内斗结束!奥特曼回归,AI+如何助力生命科学?

最近,OpenAI现(前)CEO山姆·奥特曼(SamAltman)被董事会罢免一事登上热搜。短短几日上演一场宫斗,现终宣告结束。值得注意的是,宫斗前,奥特曼刚刚回应支持一家生物技术研究公司开发无创测血......

打破领域瓶颈!张锋再发Science

微生物系统是包括CRISPR在内的许多生物技术的基础,但是序列数据库的指数级增长使得很难找到以前未识别的系统。2023年11月23日,博德研究所张锋及美国国立卫生研究院EugeneV.Koonin共同......

探索蛋白质组学新境界——第一届AI蛋白质组学技术研讨会召开

2023年11月17日,上海易算生物科技有限公司与复旦大学生物医学研究院联合举办第一届AI蛋白质组学技术研讨会-暨易算生物第一代易肽蛋白质组学质谱前处理机器人发布研讨会。研讨会邀请了多位业内专家、学者......

梦幻联动!基因泰克与英伟达合作促进AI新药研发

罗氏旗下基因泰克(Genentech)公司宣布,与英伟达(NVIDIA)建立多年战略研究合作关系。此合作将基因泰克在人工智能(AI)、广泛的生物学和分子数据以及研发专长与英伟达在加速计算和AI方面的领......

梦幻联动!基因泰克与英伟达合作促进AI新药研发

罗氏旗下基因泰克(Genentech)公司宣布,与英伟达(NVIDIA)建立多年战略研究合作关系。此合作将基因泰克在人工智能(AI)、广泛的生物学和分子数据以及研发专长与英伟达在加速计算和AI方面的领......

NatureMedicine:达摩院医疗AI攻克胰腺癌早筛难题

胰腺导管腺癌(PDAC)是最致命的实体恶性肿瘤,通常在晚期和不能手术的阶段被发现。早期或偶然发现与延长生存期有关,但由于低患病率和假阳性的潜在危害,使用单一检测筛查无症状的PDAC个体仍然是不可行的。......

NatureMedicine:达摩院医疗AI攻克胰腺癌早筛难题

胰腺导管腺癌(PDAC)是最致命的实体恶性肿瘤,通常在晚期和不能手术的阶段被发现。早期或偶然发现与延长生存期有关,但由于低患病率和假阳性的潜在危害,使用单一检测筛查无症状的PDAC个体仍然是不可行的。......