国产千卡集群训练优化技术AdaPipe发布
近日,在美国圣迭戈市举行的计算机体系结构重要国际会议ASPLOS上,由鹏城实验室智能计算研究部、清华大学计算机系教授陈文光团队自主研发的国产千卡集群训练优化技术AdaPipe正式发布。 近年来,大规模语言模型在对话、问答和文本总结等多种应用场景中展现出卓越性能,受到了学术界和工业界的广泛关注。然而,随着大规模语言模型逐渐朝着更多的参数量和更长的文本进行演化,对计算设备的存储和处理能力也提出了更高要求。 当前,传统的流水线并行训练方法在处理百、千亿参数的模型时会产生存储和计算负载不均衡的现象,直接影响了资源利用率和整体训练效率;同时,由于现有国产算力卡存在高速内存容量和通信能力不足的情况,使得这一问题显得更加突出。 为解决上述问题,陈文光团队开发了AdaPipe技术,该技术根据具体的模型和硬件参数,通过细化重计算的粒度来优化重计算策略,并考虑到训练各阶段计算量的差异,进一步对重计算和流水线切分策略进行优化。该技术不仅将存......阅读全文
日本发布大规模语言模型
科技日报讯 (记者李杨)东京工业大学、日本理化学研究所及富士通公司等近日宣布,利用超级计算机“富岳”,他们开发的大规模语言模型“Fugaku-LLM”正式发布。“Fugaku-LLM”是首个完全由日本国产技术构建的AI语言模型,其在处理日语及相关文化内容上表现卓越。模型特别擅长基于日语敬语进行自然对
日本发布大规模语言模型
东京工业大学、日本理化学研究所及富士通公司等近日宣布,利用超级计算机“富岳”,他们开发的大规模语言模型“Fugaku-LLM”正式发布。 “Fugaku-LLM”是首个完全由日本国产技术构建的AI语言模型,其在处理日语及相关文化内容上表现卓越。模型特别擅长基于日语敬语进行自然对话,并展现出在人
国产千卡集群训练优化技术AdaPipe发布
近日,在美国圣迭戈市举行的计算机体系结构重要国际会议ASPLOS上,由鹏城实验室智能计算研究部、清华大学计算机系教授陈文光团队自主研发的国产千卡集群训练优化技术AdaPipe正式发布。 近年来,大规模语言模型在对话、问答和文本总结等多种应用场景中展现出卓越性能,受到了学术界和工业界的广泛关注。
国产千卡集群训练优化技术AdaPipe发布
近日,在美国圣迭戈市举行的计算机体系结构重要国际会议ASPLOS上,由鹏城实验室智能计算研究部、清华大学计算机系教授陈文光团队自主研发的国产千卡集群训练优化技术AdaPipe正式发布。近年来,大规模语言模型在对话、问答和文本总结等多种应用场景中展现出卓越性能,受到了学术界和工业界的广泛关注。然而,随
AI语言模型“提速”药物发现
原文地址:http://news.sciencenet.cn/htmlnews/2023/6/502762.shtm美国麻省理工学院和塔夫茨大学研究人员设计出一种基于大型语言模型(如ChatGPT)的人工智能算法,这种称为ConPLex的新模型可将目标蛋白与潜在的药物分子相匹配,而无需执行计算分子结
压缩算法为大语言模型“瘦身”
据美国科学促进会旗下网站19日报道,美国普林斯顿大学和斯坦福大学团队开发出一种新压缩算法CALDERA,能精简大型语言模型(LLM)的海量数据,为LLM“瘦身”。这项算法不仅有助保护数据隐私、节约能源、降低成本,还能推动LLM在手机和笔记本电脑上高效使用。团队举例称,当人们使用ChatGPT时,请求
首个种业大语言模型“丰登”发布
4月28日,中国农业大学生物学院教授王喜庆团队联合上海人工智能实验室、崖州湾国家实验室发布首个种业大语言模型“丰登”(SeedLLM)。种业大语言模型“丰登”。中国农业大学供图“丰登”集成了先进的人工智能技术(书生·浦语2.0)与大数据分析,通过深入学习我国迄今发布的科研文献、科技书籍、种企报告和历
神经机器模型能翻译200种语言
自然》5日发表的一篇论文报道了一个Meta人工智能(AI)模型的底层技术。该模型能翻译200种不同语言,增加了机器翻译的语言数量。神经机器翻译模型利用人工神经网络翻译各种语言。这些模型通常需要大量可在线获取的数据加以训练,但并非所有语言数据都是公开、低成本或是普遍可及的,这类语言被称为低资源语言。一
ChatGPT进入课堂:语言模型如何改变教育
最近,教育心理学家罗纳德·贝格托(Ronald Beghetto)以一种引人注目的方式引领一群研究生和教育专业人员,与一系列以创造力为中心的聊天机器人进行了交流。这些聊天机器人由贝格托设计,即将托管在亚利桑那州立大学(ASU)设立的平台上。这些机器人使用与ChatGPT相同的人工智能(AI)技术,目
神经机器模型能翻译200种语言
科技日报北京6月5日电 (记者张梦然)《自然》5日发表的一篇论文报道了一个Meta人工智能(AI)模型的底层技术。该模型能翻译200种不同语言,增加了机器翻译的语言数量。神经机器翻译模型利用人工神经网络翻译各种语言。这些模型通常需要大量可在线获取的数据加以训练,但并非所有语言数据都是公开、低成本或是
8个小技巧“用好”大语言模型
用大语言模型,还需要技巧?在人们的印象中,这是个极其简单的操作:只需输入一个问题,立刻就能得到回答。但实际上,如何有效地与这些人工智能模型互动,发挥出它们的最大潜力,却是一个经常被忽视的话题。中国科学技术大学心理学系特任研究员林志成关注到这一话题,并在他最近的评论文章中提供了一系列的策略和指导,希望
科研人员开发出RNA基础语言模型
在真核生物中,RNA转录、剪接、翻译和降解等生物学过程受到顺式调控元件、RNA结构和反式作用因子的调控。解析RNA多层次调控,对研究基因表达分子机制和设计RNA药物具有重要意义。但是,由于调控复杂和数据量不足,构建RNA调控的预测模型面临挑战。 近日,中国科学院上海营养与健康研究所研究员张国庆
人工智能新模型可解码DNA隐藏“语言”
DNA包含了维持生命所需的基础信息。理解这些信息是如何存储和组织的,一直是20世纪最大的科学挑战之一。现在,借助GROVER这一基于人类DNA训练的新型大型语言模型,研究人员有望解码基因组中隐藏的复杂信息。GROVER由德国德累斯顿工业大学生物技术中心开发,它将人类DNA视为文本,通过学习其规则
人工智能新模型可解码DNA隐藏“语言”
科技日报北京8月6日电 (记者张佳欣)DNA包含了维持生命所需的基础信息。理解这些信息是如何存储和组织的,一直是20世纪最大的科学挑战之一。现在,借助GROVER这一基于人类DNA训练的新型大型语言模型,研究人员有望解码基因组中隐藏的复杂信息。GROVER由德国德累斯顿工业大学生物技术中心开发,它将
新引擎实现大语言模型推理速度显著提升
原文地址:http://news.sciencenet.cn/htmlnews/2023/11/511841.shtm
人工智能新模型可解码DNA隐藏“语言”
DNA包含了维持生命所需的基础信息。理解这些信息是如何存储和组织的,一直是20世纪最大的科学挑战之一。现在,借助GROVER这一基于人类DNA训练的新型大型语言模型,研究人员有望解码基因组中隐藏的复杂信息。GROVER由德国德累斯顿工业大学生物技术中心开发,它将人类DNA视为文本,通过学习其规则和上
我国学者提出用好大语言模型实用策略
当前,大语言模型的应用日益广泛,覆盖从文本生成到复杂问题解决等多个领域,如何更好利用AI工具?记者10日从中国科学技术大学获悉,该校心理学系林志成特任研究员近日在其评论文章中研究提出一项实用策略,帮助更好理解和利用先进的人工智能工具,有效发挥人工智能模型交互的最大潜力。在《自然人类行为》(Natur
人工智能新模型可解码DNA隐藏“语言”
DNA包含了维持生命所需的基础信息。理解这些信息是如何存储和组织的,一直是20世纪最大的科学挑战之一。现在,借助GROVER这一基于人类DNA训练的新型大型语言模型,研究人员有望解码基因组中隐藏的复杂信息。GROVER由德国德累斯顿工业大学生物技术中心开发,它将人类DNA视为文本,通过学习其规则和上
我国学者提出用好大语言模型实用策略
中新网合肥5月10日电 (记者 吴兰)当前,大语言模型的应用日益广泛,覆盖从文本生成到复杂问题解决等多个领域,如何更好利用AI工具?记者10日从中国科学技术大学获悉,该校心理学系林志成特任研究员近日在其评论文章中研究提出一项实用策略,帮助更好理解和利用先进的人工智能工具,有效发挥人工智能模型交互的最
人工智能新模型可解码DNA隐藏“语言”
DNA包含了维持生命所需的基础信息。理解这些信息是如何存储和组织的,一直是20世纪最大的科学挑战之一。现在,借助GROVER这一基于人类DNA训练的新型大型语言模型,研究人员有望解码基因组中隐藏的复杂信息。GROVER由德国德累斯顿工业大学生物技术中心开发,它将人类DNA视为文本,通过学习其规则和上
新型AI芯片将大语言模型能耗减半
美国俄勒冈州立大学科研团队研发出一种新型AI芯片,成功将大语言模型的能耗降低50%。这项成果于近期在波士顿举行的IEEE定制集成电路会议上发布,是半导体领域的重大突破,有望成为解决大语言模型高能耗问题的“绿色钥匙”。 当前,以谷歌“双子座”和OpenAI的GPT-4为代表的大语言模型,因海量参
大语言模型在线辩论说服力超人类
实验设计示意图。图片来源:英国《自然·人类行为》在线版《自然·人类行为》19日发表的一项人工智能(AI)研究发现,在线辩论中,GPT-4一类的大语言模型(LLM)如能根据对手的个性化信息调整它们的论据,其说服力比人类辩手高出64%。研究结果显示了GPT-4生成有针对性和说服力论据的能力,揭示出AI工
文斐:研究解决大型语言模型的存储瓶颈问题
原文地址:http://news.sciencenet.cn/htmlnews/2023/4/497858.shtm“由于半导体器件的物理限制,摩尔定律已经难以为继;今后计算机芯片的效率提升将主要来源于体系架构的创新。”华南理工大学计算机科学与工程学院原院长、广东省计算机学会理事长韩国强对《中国科学
国际最大规模多模态同步语言神经影像数据集发布
大脑在加工语言时,需要实时调动多个脑区的神经元进行协同工作。构建高时空分辨率的神经影像数据可以帮助我们更好地了解各个脑区以及脑区之间的协同合作,对于研究大脑的语言加工机制至关重要。当前已有的开源数据主要针对英文采集,只包括单一模态的神经影像数据,如高空间分辨率的功能核磁共振或高时间分辨率的脑磁图,并
“AI+教育”,复旦推出大语言模型助力新生报到
8月25日,是复旦大学本科生新生报到的日子。来自全国各地和全球40多个国家的4300余名2024级本科新生,开启了在复旦的求学生涯。新生报道现场。为帮助来自世界各地的新同学尽快融入复旦大学,学校基于大语言模型,推出“复旦迎新助手”智能Agent。作为新生的贴心小帮手,大语言模型为新同学在迎新阶段提供
MOFormer:无需3D结构、基于Transformer的预测语言模型
金属有机框架(MOF)是具有高比表面积、高孔隙率和结构可设计的结晶性多孔材料,可用于气体吸附、气体储存、气体分离、催化剂等领域。 然而,MOF 的化学空间非常巨大。发现适合特定应用的最佳 MOF 需要对无数潜在候选材料进行高效、准确的搜索。快速且低成本地为特定任务选择性能最佳的 MOF 一直具有挑
计算机模型解开塑料的“基因密码”
人们的生活离不开塑料。但迄今为止,工业上还是先开发出一种塑料,然后才去发现它的用途,或试验几百种不同的“配置”看看哪种管用,既费时又费钱。据美国物理学家组织网9月30日(北京时间)报道,最近,英国利兹大学和杜伦大学解决了这一难题,他们开发出一种计算机模型,能在化学水平预测各种高分子成型时的形状,
计算机模型高估全球安全捕鱼量
近些年来,针对过度捕捞问题,科学家和资源管理者绞尽了脑汁,通过估算鱼类种群数量,制定各种政策措施,以在商业利益与生态健康和可持续性之间取得平衡。近日,一项发表于《科学》的研究对全球230个海洋渔场1980年至2018年的实际捕鱼数据及计算机模型预测值进行分析后发现,计算机模型往往高估了鱼类种群规模,
DNA计算机模型检测神秘面纱揭开
DNA计算机的研制是各国竞争的一个科技制高点。17日,记者从郑州大学信息工程学院获悉,该校朱维军副教授、周清雷教授开发出一系列算法,初步解决“DNA模型检测”这一困扰国际DNA计算机学界多年的核心技术难题。 与其他计算工具相比,计算机的本质优点在于通用性,而通用性归根结底在于千变万化的具体
Nature:计算机模型预测学术成功
电脑模型预测论文数量、任职机构及性别关乎学术成就 在发表同等数量文章的情况下,和男性生物学家相比,女性生物学家成为学术带头人的可能性更低。 最近,研究者用电脑模型证明:对事业起步期的科学家来说,“不发表就发臭”是一条黄金准则。根据计算公式,对于年轻科学家来说,以第一作者身份在知名期刊上发表的论文