中国科学院上海药物研究所研究员郑明月团队,报道了一种名为ReactSeq反应描述语言,该语言可以编码化学反应中的分子编辑操作,使自然语言处理模型(NLP)在逆合成预测、反应表征检索、交互问答等方面表现得更为出色。5月13日,相关研究发表于《自然-机器智能》。
以大语言模型为代表的人工智能(AI)技术在自然语言处理方面取得了前所未有的突破,正在深刻改变科学研究的范式。近年来,在化学与药物研发领域,处理化学分子与反应的化学语言模型(CLMs)逐渐兴起。由于化学分子缺乏固有的顺序表示,CLM利用化学家定义的分子线性编码来学习和生成分子结构,目前最常用的分子线性编码是简化分子输入线输入系统(SMILES)。
为了提升CLMs在特定任务中的表现,学界设计了一些新的分子线性编码语言,用于描述化学分子的静态结构。然而,这些语言无法明确描述化学反应过程中分子中原子和键的变化过程,严重限制了语言模型在化学反应预测和表示中的应用。
为了克服上述挑战,研究团队设计了一种新的化学反应描述语言ReactSeq。ReactSeq定义了从产物结构出发,将其转化为反应物分子所需的一系列分子编辑操作(MEO),包括化学键的断裂和变化、原子电荷的改变以及离去基团的附着。在基于ReactSeq的逆合成模型中,反应物通过这些MEO从产物分子转化而来,确保了预测反应物和产物之间的精确原子映射,增强了模型的可解释性。
利用ReactSeq,在不改变基本变换器(Transformer)架构的情况下便能在逆合成预测中实现最先进的性能。同时,ReactSeq具有表示MEO的显式令牌,可以对人类指令进行编码和上下文提示。测试结果表明,人类专家的提示可以显著提高模型的性能,甚至指导语言模型探索新的反应,这些MEO令牌也有利于提取反应表示,且可以产生更加精准且具有内在化学意义的反应表示。
基于该策略并结合自监督学习,研究团队构建了一种通用且可靠的反应表示方法,能够自然地区分反应类型并评估其相似性,从而提升相似反应检索、实验流程推荐以及反应收率预测等一系列下游任务上的表现。
研究团队表示,这项研究为垂直领域的大语言模型赋予了多项涌现的新能力,显著提升了自然语言处理模型应对复杂化学问题的能力,为化学领域的人工智能基础模型开发提供了新的思路。
在终年不见阳光的海洋深处,无法进行光合作用的生命体如何获得能量?中国科学院深海科学与工程研究所(深海所)科研人员领衔的国际合作团队最新在太平洋西北部最深9533米处的海沟底部,发现能从化学反应中获得能......
中国科学院上海药物研究所研究员郑明月团队,报道了一种名为ReactSeq反应描述语言,该语言可以编码化学反应中的分子编辑操作,使自然语言处理模型(NLP)在逆合成预测、反应表征检索、交互问答等方面表现......
中国科学院上海药物研究所研究员郑明月团队,报道了一种名为ReactSeq反应描述语言,该语言可以编码化学反应中的分子编辑操作,使自然语言处理模型(NLP)在逆合成预测、反应表征检索、交互问答等方面表现......
生命起源是科学界迄今无法破解的谜团。其中一个关键问题是,地球上生命的历史有多少被“遗忘”了?某个物种通过生化反应逐渐消失很常见,如果这种情况发生很多物种中,那么生命化学史上可能会充斥着缺失的反应。现在......
生命起源是科学界迄今无法破解的谜团。其中一个关键问题是,地球上生命的历史有多少被“遗忘”了?某个物种通过生化反应逐渐消失很常见,如果这种情况发生很多物种中,那么生命化学史上可能会充斥着缺失的反应。现在......
美国麻省理工学院科研团队开发出一种基于机器学习的方法,可以更快的计算化学反应过程中的过渡态,帮助化学家设计新的化学反应和催化剂。新计算方法使用“扩散模型”来表示两种相对于彼此任意方向的反应物,该模型可......
激光粒度仪行业正经历着快速的发展。随着科技的进步,激光粒度仪在各个领域的应用越来越广泛,下面一起来看看吧!随着医药行业的快速发展,药物粒子的粒径和粒度分布对药物的疗效和安全性有着至关重要的影响。激光粒......
据28日《自然·化学》杂志报道,澳大利亚悉尼大学的科学家首次使用量子计算机直接观察到一个对化学反应至关重要的过程,实现这一突破的关键是将原过程速度从飞秒尺度减慢至毫秒尺度。研究人员表示,了解分子内部和......
化学反应无处不在。如何精确调控化学反应是化学科学研究的核心目标之一。在化工生产过程中,工程师通过添加催化剂、改变化学过程的温度与压力等宏观参数,可以在一定程度上控制化学反应,得到所需的化学反应产物。随......
太阳对应化学反应产物的微分截面,白色海鸥组成的图形对应实验数据中的处在微分截面前向的马蹄铁形结构,而山峦对应模拟计算的反应势能曲面。插画作者:陈磊、梁琰近日,中科院大连化学物理研究所(以下简称大连化物......