发布时间:2024-11-28 16:55 原文链接: AI模型“Evo”:揭开基因组“密码全书”新篇章

《科学》杂志15日发布了一项突破性研究成果:美国斯坦福大学Arc研究所团队利用人工智能(AI),开发出一种大规模基因组基础模型“Evo”,翻开了生命的“密码全书”。该模型采用先进架构,能够以前所未有的精度,解析和设计从分子层面到整个基因组级别的DNA、RNA及蛋白质序列。其不仅能够预测突变对细胞内部各个调控层级的影响,还能设计出用于操控细胞功能的DNA序列,这或将彻底改变合成生物学的发展路径。

研究发表于本期科学封面。图片来源:《科学》网站

科学家一直试图借鉴大型语言模型的成功经验,让AI技术将DNA视为一种“语言”来建模,但现有模型捕捉广泛基因组交互作用的能力有限。

此次,研究团队开发了具备70亿参数的Evo模型,能够生成覆盖整个基因组的DNA序列。该模型利用270万来自进化多样性微生物的基因组数据集进行了训练,并首次报告了DNA领域的缩放定律,这项发现与语言和视觉领域已知的现象相呼应。实验结果显示,Evo在预测性和生成性的生物学任务中均表现优异,无论是预测突变对细菌蛋白质和RNA的影响,还是在模拟基因调控机制方面,都展现出了极高的准确性。

此外,Evo还能够处理编码序列与非编码序列之间的复杂共进化关系,支持设计包括功能性CRISPR-Cas复合体和转座子在内的复杂生物体系。这是首次实现蛋白质-RNA和蛋白质-DNA结构与语言模型协同设计的例子。在全基因组尺度上,Evo能够生成超过100万碱基对的序列,其预测和生成能力涵盖了从分子到基因组的多层次复杂度,极大推进了人们对生物学本质的认识和操控能力。

团队认为,后续模型将进一步扩展至人类及其他真核生物的基因组数据学习,通过增加上下文长度来更好地捕捉大基因组间的远程相互作用。这将为生物学研究开辟新的视野,推动生命科学领域的持续发展。

基因组序列的变化,其实有助于生物体适应不断改变的环境条件,进而驱动物种进化。随着DNA测序技术的飞跃进步,科学家已能够在全基因组范围内绘制出基因组变异图谱。再结合创新的AI算法,使得构建一个能深入理解DNA、RNA和蛋白质功能及其相互作用的综合模型成为可能。换句话说,现在,人们拥有了一个解码生命指令的基因组基础模型。

相关文章

AI模型10秒内检出脑肿瘤残留

美国密歇根大学和加利福尼亚大学旧金山分校领导的研究人员开发出一款名为FastGlioma的人工智能(AI)模型。在脑手术中,该模型仅用10秒就判断出是否还有残留的癌性肿瘤。在识别肿瘤残留方面,Fast......

AI模型“Evo”:揭开基因组“密码全书”新篇章

《科学》杂志15日发布了一项突破性研究成果:美国斯坦福大学Arc研究所团队利用人工智能(AI),开发出一种大规模基因组基础模型“Evo”,翻开了生命的“密码全书”。该模型采用先进架构,能够以前所未有的......

AI模型“Evo”:揭开基因组“密码全书”新篇章

《科学》杂志15日发布了一项突破性研究成果:美国斯坦福大学Arc研究所团队利用人工智能(AI),开发出一种大规模基因组基础模型“Evo”,翻开了生命的“密码全书”。该模型采用先进架构,能够以前所未有的......

AI模型“Evo”:揭开基因组“密码全书”新篇章

《科学》杂志15日发布了一项突破性研究成果:美国斯坦福大学Arc研究所团队利用人工智能(AI),开发出一种大规模基因组基础模型“Evo”,翻开了生命的“密码全书”。该模型采用先进架构,能够以前所未有的......

中科院动物所携手华大等机构构建全球首份多器官衰老时空图谱

11月5日凌晨,中国科学院动物研究所携手华大生命科学研究院、北京基因组研究所(国家生物信息中心),在全球顶尖学术期刊《细胞》(Cell)上发表了最新研究成果,利用华大自主研发的“超广角百亿像素生命照相......

百图生科:融资超14亿元、订单超142亿元,下一步要做生命科学AI模型提供商

百图生科联合创始人、CEO刘维2024年诺贝尔化学奖颁给谷歌DeepMind丹米斯·哈萨比斯(DemisHassabis)和约翰·乔普(JohnM.Jumper),表彰AI大模型实现蛋白质结构预测,从......

新AI模型可大幅提高化合物蛋白质相互作用预测可靠性

中国科学院上海药物研究所研究员郑明月,副研究员张素林、李叙潼,提出了基于知识图谱的人工智能计算模型PertKGE,并以数据驱动的形式从微扰转录组数据中解耦出化合物-蛋白质相互作用(CPI)。9月19日......

OpenAI推出具备推理能力新AI模型

据ChatGPT制造者美国开放人工智能公司(OpenAI)官网12日报道,该公司已经成功研发出一系列具备推理能力的人工智能(AI)模型,并命名为“OpenAIo1”。这些模型的独特之处在于,其会花更长......

昆明植物所解析九倍体木本竹基因组

竹子即竹亚科是禾本科的重要分支,广泛分布于亚洲、非洲和拉丁美洲,约有1,700种。作为一类生长快、多年生、可再生的森林资源,木本竹子越来越多被用作木材的替代品,具有重要的经济价值和生态价值。有研究发现......

学者发布无机材料AI模型,推理能力到达新高度

松山湖材料实验室研究员孟胜/刘淼团队在国家自然科学基金等项目的支持下,研发了一种基于深度学习图结构的通用预训练力场(graph-basedpre-trainedtransformerforcefiel......