发布时间:2023-08-25 23:22 原文链接: 上海药物所提出机器学习辅助定向进化新方法

定向进化是模拟自然进化机制,利用现代分子生物学方法创造大量的突变基因文库,采用灵敏的定向筛选策略,创造出自然界不存在的或改良特性的蛋白质等生物分子的一种方法。定向进化已广泛应用于蛋白质的分子改造和优化,被认为是生产具有改良或全新特性的蛋白质的高效方法,对于酶工程、多肽和大分子药物设计都具有重要意义。传统的定向进化实验流程包括筛选测试大量突变序列的功能,将得到的最优序列作为亲本序列进行下一轮的突变和筛选,实行多轮突变筛选以得到功能优化的蛋白序列。然而,传统的定向进化方式容易陷入局部最优,且实验所得的突变序列空间受限。

近年来,机器学习辅助定向进化得到越来越多的关注,通过计算机模型模拟实验筛选过程,可以显著减少实验筛选负担、提高筛选效率。机器学习方法最重要的是建立模型学习目标蛋白的序列突变体-功能的函数映射关系。这种映射关系被称为蛋白质适应度图景(protein fitness landscape),其中适应度(fitness)是一个抽象概念,可定量刻画特定蛋白质序列具有的某种生物学功能(如蛋白的热稳定性、与其他蛋白质的相互作用强弱、催化特定酶促反应的效率等)。由于蛋白质功能不同,适应度图景本身的内涵各不相同。此外,蛋白质突变效应数据难以获得、实验费时费力、蛋白质适应度图景较为复杂。因此,如何使用有限的实验数据学习蛋白质适应度图景以指导定向进化实验成为难题之一。

中国科学院上海药物研究所郑明月课题组、廖苍松课题组,提出了新的深度神经网络模型GVP-MSA。该模型基于已有的不同类型的蛋白质适应度图景,通过迁移学习的方式构建新的目标蛋白的适应度图景。8月16日,相关研究成果以Learning protein fitness landscapes with deep mutational scanning data from multiple sources为题,在线发表在《细胞系统》(Cell Systems)上。

研究从蛋白质热稳定性、上位性效应和序列保守性等多个方面,探讨了适应度图景的共同机制。蛋白质发挥功能的基础是能够折叠和维持稳定的三维结构。研究对不同蛋白的计算结果发现,突变导致适应度的变化和热稳定性变化的数值上有相关性。上位性效应在不同蛋白的适应度图景中也隐含有相似机制。上位性效应表示残基在蛋白质中存在相互作用,导致多点突变效应并不等于其组成的单点突变效应的加和。研究发现,在不同蛋白适应度图景中,具有正向上位效应的双点突变的两个氨基酸的位置在三维结构上更加接近。此外,突变效应与同源序列的隐含分布之间的关系具有共性。这些共性是适应度图景迁移学习的基础(图1)。

该研究建立了一种新型的深度神经网络模型GVP-MSA,利用预训练的蛋白质语言模型处理目标蛋白的同源序列比对(MSA,multiple sequence alignment)信息,利用E-(3)等变图神经网络提取蛋白质三维结构信息,使用多任务学习的方式有效地学习整合不同维度、不同功能的蛋白质数据,从而泛化到新的目标蛋白体系。

此外,该团队设计了多种测试场景:单点突变效应的随机和按位置外推、对新蛋白质突变效应的零样本预测以及由单点突变效应预测多点突变效应(图2)。这些场景模拟了在定向进化实验中不同阶段的实际需求。GVP-MSA在这三种测试情景中均有良好的表现,验证了适应度图景迁移学习的有效性。该工作为机器学习辅助定向进化提供了新思路,有助于更加高效地探索蛋白质序列突变空间、快速设计具有改良或全新特性的蛋白质序列。

研究工作得到国家自然科学基金、临港实验室、国家重点研发计划、中国科学院青年创新促进会、上海市自然科学基金以及上海药物所与上海中医药大学中医药创新团队联合研究项目的支持。   

论文链接

相关文章

科学家基于机器学习研发超高饱和磁感铁基非晶/纳米晶软磁材料

随着高频大功率器件快速发展,系统能耗问题成为制约行业发展的瓶颈。若将电子控制系统比作人体,芯片如同大脑承担核心控制功能,负责数据处理、信号控制和逻辑运算等任务;而电感、变压器等磁性元器件则相当于执行各......

人工智能和机器学习解决方案将如何加速细胞和基因治疗领域创新

引言:“大鹏一日同风起,扶摇直上九万里。”细胞和基因治疗(CGT)领域在过去几年中取得了显著进步,其管线和批准产品的数量急剧增加。然而CGT市场仍然面临许多挑战,这些挑战阻碍了其增长并延迟了这些疗法的......

诺贝尔物理学奖:推动机器学习技术“爆炸式”发展

还记得那个横空出世即一路“狂飙”的ChatGPT吗?2023年以来,人工智能(AI)“百模大战”从硝烟燃起到全面打响,让人应接不暇。而AI模型背后的关键技术,正是机器学习。10月8日,瑞典皇家科学院宣......

诺贝尔物理学奖为何授予机器学习?

·辛顿开发的玻尔兹曼机成为了生成模型的早期例子。玻尔兹曼机常被用作一个大网络的一部分,可以用来根据观众的喜好推荐电影或电视剧。·机器学习与传统软件不同,传统软件的工作方式就像一种配方。传统软件接收数据......

科研人员利用机器学习方法解码原子核壳演化

近日,中国科学院近代物理研究所核物理中心吕冰锋副研究员和湖州师范学院王永佳教授等利用机器学习方法研究原子核低位激发态的能量和电磁跃迁几率,在探索原子核壳演化研究中取得重要进展。相关成果于9月10发表在......

运用可解释机器学习成功破解催化结构敏感性难题

李微雪教授结合物理启发的可解释机器学习算法与第一性原理计算,解决了一个多相催化研究中长期存在的关于催化结构敏感性难题。研究成果近日发表于《美国化学会》期刊。催化反应活性位及其结构敏感性是多相催化研究中......

美国开发出可加速材料创新的机器学习模型

美国罗切斯特大学科研人员开发出一个机器学习模型,可对X射线衍射(XRD)实验产生的大量数据进行分析以加速材料创新。科研人员利用涵盖了不同实验条件和晶体特性的无机材料实验数据来训练该模型,并根据布拉格定......

文章论述机器学习高精度化学反应势能面构建

近日,中国科学院大连化学物理研究所研究员傅碧娜和张东辉院士受邀发表了机器学习高精度化学反应势能面构建的综述文章,系统介绍了团队近几年在基本不变量-神经网络高精度势能面构建方法方面的发展和应用,探讨了该......

新进展!开发出寻找新型磁性材料的新方法

美国艾姆斯国家实验室(AmesNationalLaboratory)的科研人员开发出一个新的机器学习模型,该模型可预测新材料组合的居里温度(材料保持磁性的最高温度),用于寻找不含关键元素的永磁材料。科......

大连化物所发展出基于机器学习的苦味肽筛选新方法

近日,中国科学院大连化学物理研究所能源技术研究平台研究员靳艳团队与大连工业大学、内蒙古伊利实业集团有限公司合作,发展了一种基于机器学习的苦味肽筛选新方法。科研人员利用该方法在超高温处理(UltraHi......