6月19日消息,国际顶级期刊《Nature Machine Intelligence》发表了阿里云AI for Science的研究成果LucaOne。这是业界首个联合DNA、RNA、蛋白质的生物大模型。该大模型学习了超16万个物种的12亿条核酸序列及6亿条蛋白序列数据,不仅可以挖掘核酸、蛋白质的内部特征,还可识别核酸与蛋白质之间的联系,帮助研究人员探索更多生物系统的内在逻辑与规则。

image.png

  Nature Machine Intelligence(以下简称NMI)是Nature于2019年创立的期刊,收录方向覆盖计算生物学、模式识别和计算机视觉等多个领域,期刊影响因子一直位居行业前列,是业界公认的人工智能和机器学习领域的国际顶级期刊。

  据介绍,阿里云研究团队首次基于DNA、RNA和蛋白质等生命科学领域最主要的数据进行混合训练,涵盖12亿条核酸序列和6亿条蛋白序列,同时引入生物领域内基础的标签信息,让模型学习到丰富的生物信息。在模型结构上,研究团队采用Transformer-Encoder架构,在自监督学习的基础上,设计了8个不同级别的半监督学习任务,有效增强模型的学习能力。

image.png

  LucaOne技术框架

  实验结果显示,在中心法则验证(CentralDogma)、物种Genus分类(GenusTax)、蛋白质位置(ProtLoc)、蛋白质稳定性(ProtStab)、非编码RNA的类型(ncRNAFam)、流感病毒预测(InfA)等8个下游任务验证中,LucaOne的表现均领先于现有的生物大模型。

  NMI表示:该研究展示了对分子生物学中心法则的全新理解,极大地增强了研究人员对生物信息学分析的能力,可以帮助人类探索分子生物学的未知领域。

  据介绍,LucaOne的模型代码、训练代码、推理代码等已全面开源,科研人员可基于该模型进行二次训练、垂直领域生物模型构建、Embedding推理、Embedding-based分析、Embedding-based下游模型构建等。目前全球已有10多家公司和团队使用该模型。

  过去几年,阿里云积极与国内高校和研究机构展开合作,在生命科学领域已发表核酸和蛋白质统一基础模型-LucaOne(NMI 2025)、RNA病毒发现-LucaProt(Cell 2024)、磷循环蛋白家族识别-LucaPCycle(NC 2025)等研究成果。

  (注:此文属于央广网登载的第三方信息,文章内容不代表本网观点,仅供参考。)


相关文章

阿里云生物基础大模型登上Nature子刊可挖掘核酸、蛋白质之间的内在联系

6月19日消息,国际顶级期刊《NatureMachineIntelligence》发表了阿里云AIforScience的研究成果LucaOne。这是业界首个联合DNA、RNA、蛋白质的生物大模型。该大......

阿里云生物基础大模型登上Nature子刊可挖掘核酸、蛋白质之间的内在联系

6月19日消息,国际顶级期刊《NatureMachineIntelligence》发表了阿里云AIforScience的研究成果LucaOne。这是业界首个联合DNA、RNA、蛋白质的生物大模型。该大......

阿里云生物基础大模型登上Nature子刊可挖掘核酸、蛋白质之间的内在联系

6月19日消息,国际顶级期刊《NatureMachineIntelligence》发表了阿里云AIforScience的研究成果LucaOne。这是业界首个联合DNA、RNA、蛋白质的生物大模型。该大......

植物减数分裂过程中染色体精准分离调控获揭示

近日,华南农业大学教授王应祥团队在国家自然科学基金等项目的资助下,研究揭示了模式植物拟南芥泛素连接酶后期促进复合物/细胞周期体(APC/C)调控减数分裂染色体正确分离的分子机制。该研究丰富了蛋白质泛素......

科学团队创制荧光探针实现蛋白质成簇/解聚活细胞监测

华东理工大学化学与分子工程学院、费林加诺贝尔奖科学家联合研究中心教授郭志前团队,创制了激活型化学遗传学荧光探针,首次在活细胞中监测蛋白质成簇/解聚的精确状态。相关研究近日作为VIP(VeryImpor......

mRNA“戴帽”后能多产两百倍蛋白质

日本名古屋大学研究团队在最新一期《自然·生物技术》杂志上发表了一项名为“内部帽启动翻译”(ICIT)机制的创新研究。该机制下的仿佛戴着帽子的mRNA可产生200倍以上的蛋白质,为治疗癌症和蛋白质合成异......

科学家从蛋白质动态层面解答早期胚胎发育失败原因

中国科学院脑科学与智能技术卓越创新中心/上海脑科学与类脑研究中心研究员刘真、孙怡迪,博士后朱文成团队,与复旦大学附属中山医院生殖医学中心主治医师木良善团队、上海交通大学医学院研究员李辰团队合作,描绘了......

我国学者在蛋白质酪氨酸泛素化方面取得进展

图FUSEP化学生物学技术用于系统研究赖氨酸和非赖氨酸泛素化的位点信息在国家自然科学基金项目(22137004、22307062)资助下,清华大学药学院尹航教授团队在蛋白质泛素化研究领域取得新进展,开......

专家学者盘点近两年AI发展——加速应用落地变革科研范式

当前人工智能技术和产业有哪些热点?我国人工智能产业发展呈现怎样的特点?12月12日举行的中国科学院人工智能产学研创新联盟2024年会,为这些问题提供了答案。本次年会以“人工智能助力科研范式变革(AIf......

植入式传感器可持续监测炎症水平

受大自然启发,美国西北大学生物工程师团队开发出一种植入皮下的传感器,可实时跟踪活体动物蛋白质水平的波动,测量炎症标志物的变化。相关论文发表在《科学》杂志上,标志着医学检测领域的一个重要里程碑。为了检测......