发布时间:2024-11-28 16:55 原文链接: AI模型“Evo”:揭开基因组“密码全书”新篇章

《科学》杂志15日发布了一项突破性研究成果:美国斯坦福大学Arc研究所团队利用人工智能(AI),开发出一种大规模基因组基础模型“Evo”,翻开了生命的“密码全书”。该模型采用先进架构,能够以前所未有的精度,解析和设计从分子层面到整个基因组级别的DNA、RNA及蛋白质序列。其不仅能够预测突变对细胞内部各个调控层级的影响,还能设计出用于操控细胞功能的DNA序列,这或将彻底改变合成生物学的发展路径。

研究发表于本期科学封面。图片来源:《科学》网站

科学家一直试图借鉴大型语言模型的成功经验,让AI技术将DNA视为一种“语言”来建模,但现有模型捕捉广泛基因组交互作用的能力有限。

此次,研究团队开发了具备70亿参数的Evo模型,能够生成覆盖整个基因组的DNA序列。该模型利用270万来自进化多样性微生物的基因组数据集进行了训练,并首次报告了DNA领域的缩放定律,这项发现与语言和视觉领域已知的现象相呼应。实验结果显示,Evo在预测性和生成性的生物学任务中均表现优异,无论是预测突变对细菌蛋白质和RNA的影响,还是在模拟基因调控机制方面,都展现出了极高的准确性。

此外,Evo还能够处理编码序列与非编码序列之间的复杂共进化关系,支持设计包括功能性CRISPR-Cas复合体和转座子在内的复杂生物体系。这是首次实现蛋白质-RNA和蛋白质-DNA结构与语言模型协同设计的例子。在全基因组尺度上,Evo能够生成超过100万碱基对的序列,其预测和生成能力涵盖了从分子到基因组的多层次复杂度,极大推进了人们对生物学本质的认识和操控能力。

团队认为,后续模型将进一步扩展至人类及其他真核生物的基因组数据学习,通过增加上下文长度来更好地捕捉大基因组间的远程相互作用。这将为生物学研究开辟新的视野,推动生命科学领域的持续发展。

基因组序列的变化,其实有助于生物体适应不断改变的环境条件,进而驱动物种进化。随着DNA测序技术的飞跃进步,科学家已能够在全基因组范围内绘制出基因组变异图谱。再结合创新的AI算法,使得构建一个能深入理解DNA、RNA和蛋白质功能及其相互作用的综合模型成为可能。换句话说,现在,人们拥有了一个解码生命指令的基因组基础模型。

相关文章

高精度完整基因组助橡胶育种驶入“快车道”

橡胶树是天然橡胶的主要来源。“橡胶树育种面临的主要困难在于周期长和效率低,通过常规育种方法将多抗、高产性状聚合往往需要30~40年。”中国热带农业科学院橡胶研究所研究员程汉告诉《中国科学报》。然而,目......

小麦野生近缘种基因组“密码”被破解

记者宋喜群、冯帆从山东农业大学获悉,该校农学院教授孔令让研究团队首次组装了小麦远缘杂交常用物种中间偃麦草和鹅观草染色体水平的高质量基因组序列,解析了二者基因组结构差异与独立多倍化演化路径,对两者携带的......

烟草分枝发育的“开关基因”被发现

近日,中国农业科学院烟草研究所烟草功能基因组创新团队发现烟草分枝发育“开关基因”,预示着未来作物株型调控有了新靶点。相关研究成果发表在《植物生物技术》(PlantBiotechnologyJourna......

NASA和IBM联手打造可预测太阳耀斑的AI模型

近日,美国国家航空航天局(NASA)和IBM欧洲研究院合作,基于NASA卫星图像训练出一个人工智能(AI)模型,可预测未来几小时的太阳外观,甚至可以预测太阳耀斑的出现。“我更愿意把这个模型看作一架AI......

新研究破译薇甘菊入侵基因密码

薇甘菊作为全球十大最具危害的恶性入侵杂草之一,以其惊人的繁殖速度和强大的环境适应性,在亚洲、太平洋地区及中国华南地区造成严重生态破坏。然而,其基因组层面的适应性进化机制长期未被系统解析,制约了科学防控......

研究开发出酵母泛基因组数字模型与代谢网络分析方法

近日,中国科学院大连化学物理研究所研究员周雍进团队与上海交通大学副教授鲁洪中合作,在酵母系统生物学研究中取得新进展。研究团队通过整合分析全球1807株酿酒酵母菌株的基因组与生态位数据,构建了高覆盖度的......

基因组大数据还原野猪横跨欧亚的百万年迁徙历程

近日,中国农业科学院农业基因组研究所农业基因编辑技术创新团队深入解析了中亚野猪种群在跨越欧亚大陆百万年的迁徙历程中适应环境的独特遗传密码,为理解大型哺乳动物如何应对环境变化提供了全新视角。相关研究成果......

新AI模型可预测系列任务中人类的决定

近日,一项发表于《自然》的研究报道了创新人工智能(AI)系统——Centaur。它可以预测人们在各种情况下做出的决定,并且优于利用心理学经典理论所做的推测。不同于谷歌Deepmind的AlphaGo等......

上海交大团队将AI模型引入热辐射超材料设计

“我们引入AI(人工智能)模型,仅用3个月就可以筛选出5万多组数据,如果用常规方法,那么需要的时间难以估量。”上海交通大学材料科学与工程学院教授周涵3日在上海接受采访时说。北京时间7月2日深夜,上海交......

基因组密码被解锁:深度学习模型破解非编码区奥秘

人类基因组中超98%的遗传变异位于非编码区,这些变异通过调控染色质可及性、三维构象、剪接加工等多种分子机制影响基因表达,最终导致疾病发生。由于调控机制的复杂性和细胞类型特异性,目前解读非编码变异的分子......