发布时间:2024-08-07 15:58 原文链接: 人工智能新模型可解码DNA隐藏“语言”

DNA包含了维持生命所需的基础信息。理解这些信息是如何存储和组织的,一直是20世纪最大的科学挑战之一。现在,借助GROVER这一基于人类DNA训练的新型大型语言模型,研究人员有望解码基因组中隐藏的复杂信息。GROVER由德国德累斯顿工业大学生物技术中心开发,它将人类DNA视为文本,通过学习其规则和上下文来提取DNA序列的功能信息。这一新工具有望彻底改变基因组学并加速个性化医疗的发展。相关研究论文发表在新一期《自然·机器智能》杂志上。

基于DNA序列训练的大型语言模型

大型语言模型通过文本训练,发展出了在多种语境下使用语言的能力。研究人员设想将生命代码DNA当作一种语言,训练了一个大型语言模型——GROVER。

在语言方面,人们谈论的是语法、句法和语义。而对于DNA来说,这意味着学习核苷酸的序列等。就像GPT模型学习人类语言一样,GROVER基本上学会了DNA“语言”。

研究表明,GROVER不仅能准确地预测接下来的DNA序列,还可用来提取具有生物学意义的上下文信息,例如识别DNA上的基因启动子或蛋白质结合位点。此外,GROVER还学习了“表观遗传”过程,即在DNA序列不发生改变的情况下,基因表达的可遗传变化。

GROVER有望解锁DNA中蕴含着关于人类本质、疾病易感性以及对治疗反应的关键信息。研究人员相信,通过语言模型理解DNA的规则,将有助于揭示隐藏在DNA中的生物意义,从而推动基因组学和个性化医学发展。

相关文章

人工智能新模型可解码DNA隐藏“语言”

DNA包含了维持生命所需的基础信息。理解这些信息是如何存储和组织的,一直是20世纪最大的科学挑战之一。现在,借助GROVER这一基于人类DNA训练的新型大型语言模型,研究人员有望解码基因组中隐藏的复杂......

人工智能新模型可解码DNA隐藏“语言”

DNA包含了维持生命所需的基础信息。理解这些信息是如何存储和组织的,一直是20世纪最大的科学挑战之一。现在,借助GROVER这一基于人类DNA训练的新型大型语言模型,研究人员有望解码基因组中隐藏的复杂......

人工智能首次在奥运会上留下印记

当来自约200个国家的1万多名运动员齐聚法国巴黎参加2024年夏季奥运会时,他们将有一个全新、友好但不露面的声音来迎接和引导他们巴黎奥运会将有多个AI元素,包括一款指导运动员的应用程序。图片来源:Ch......

15所高校入选人工智能领域“101计划”建设委员会

2024年7月27日,教育部高教司组织的人工智能领域“101计划”工作推进会暨指导委员会第二次工作会议在西安召开。教育部高教司高东锋副司长、理工处郝杰处长,西安交通大学郑南宁院士、北京航空航天大学赵沁......

15所高校入选人工智能领域“101计划”建设委员会

2024年7月27日,教育部高教司组织的人工智能领域“101计划”工作推进会暨指导委员会第二次工作会议在西安召开。教育部高教司高东锋副司长、理工处郝杰处长,西安交通大学郑南宁院士、北京航空航天大学赵沁......

OpenAI推出人工智能搜索引擎,和多家新闻出版商合作

人工智能开发机构OpenAI终于进入搜索引擎市场,正在推出由AI驱动的搜索引擎SearchGPT的测试版,可实时访问互联网上的信息。该产品引用的信息来源将包括新闻集团、美联社、《大西洋》月刊和VoxM......

用AI生成数据训练AI或导致模型崩溃

科技日报北京7月25日电 (记者张梦然)《自然》24日正式发表的一篇研究论文指出了一个人工智能(AI)严重问题:用AI生成的数据集训练未来几代机器学习模型,可能会严重“污染”它们的输出,这被......

朱松纯:20年探索,为我国迈向通用人工智能时代赢得先机

“目前我国大模型的成就已经‘登顶珠峰’,但通用人工智能还在探索中。”7月22日,在鄂州市莲花山举办的莲花山研究院二十周年学术思想研讨会上,北京大学人工智能研究院和智能学院院长,北京通用人工智能研究院院......

北京门头沟区打造人工智能领域人才高地

日前,2024中关村论坛系列活动——北京人工智能产业创新发展人才论坛在京举行。论坛以“智汇·拥抱AI新未来”为主题,以人工智能赋能新质生产力发展,构建全市首个涵盖“引育用留”全生命周期人工智能人才生态......

马斯克计划年底训练出“世界最强AI”

马斯克称将在今年年底训练出全球最强AI。当地时间7月22日,特斯拉CEO埃隆·马斯克在旗下社交平台X上表示,xAI团队、X团队、英伟达及其他支持公司已经于当地时间凌晨4时20分开始在“孟菲斯超级集群(......