新引擎实现大语言模型推理速度显著提升
原文地址:http://news.sciencenet.cn/htmlnews/2023/11/511841.shtm......阅读全文
新引擎实现大语言模型推理速度显著提升
原文地址:http://news.sciencenet.cn/htmlnews/2023/11/511841.shtm
OpenAI-发布新一代大模型,更擅长推理也更贵
传说中的“草莓”现身,9月12日晚间,OpenAI正式对外发布一款名为o1的新模型,这款模型为该公司下一代 “推理” 模型中的第一个,o为“Orion(猎户座)”,这款模型可以比人类更快地回答更复杂的问题。与以前的模型相比,在编写代码和解决多步骤问题方面做得更好。但它也比此前发布的GPT-4o更贵,
大模型加速改变云计算行业规则
原文地址:http://news.sciencenet.cn/htmlnews/2023/4/498365.shtm
我国科学家提出高效推理策略-可避免大模型“过度思考”
随着人工智能大模型的不断发展,如何让其在“难”的问题上深入思考,而不是对所有问题“想个不停”?记者5月29日从中国科学院自动化研究所获悉,该所联合鹏城实验室提出了一种高效推理策略AutoThink,可让大模型实现自主切换思考模式,避免“过度思考”。 “当前,越来越多的大模型开始具备‘深度思考能
OpenAI推出具备推理能力新AI模型
据ChatGPT制造者美国开放人工智能公司(OpenAI)官网12日报道,该公司已经成功研发出一系列具备推理能力的人工智能(AI)模型,并命名为“OpenAI o1”。这些模型的独特之处在于,其会花更长时间思考问题,再做出响应,就像人类一样。因此,这些模型能对复杂任务进行推理,解决以前模型很难解决的
OpenAI推出具备推理能力新AI模型
据ChatGPT制造者美国开放人工智能公司(OpenAI)官网12日报道,该公司已经成功研发出一系列具备推理能力的人工智能(AI)模型,并命名为“OpenAI o1”。这些模型的独特之处在于,其会花更长时间思考问题,再做出响应,就像人类一样。因此,这些模型能对复杂任务进行推理,解决以前模型很难解决的
智谱发布推理模型初代版本
12月31日,国内明星大模型创业公司北京智谱华章科技有限公司推出基于扩展强化学习技术训练的推理模型GLM-Zero-Preview,擅长处理数理逻辑、代码和需要深度推理的复杂问题。GLM-Zero-Preview是GLM-Zero的初代版本。智谱表示,目前的GLM-Zero-Preview与Open
OpenAI最新模型o3展现强大推理能力
12月20日,美国开放人工智能研究中心(OpenAI)介绍了其最新的人工智能(AI)推理模型——o3及其轻量版o3-mini。该公司宣称,o3具备更先进、近似人类的推理能力,在代码编写、数学竞赛和掌握人类博士级别的科学知识等方面,均超越了其“前辈”o1。 不过,英国《新科学家》网站在12月22
手机就能跑!腾讯推出4款可端侧部署的开源模型
8月4日,腾讯混元宣布开源4款小尺寸模型,参数规模分别为0.5B、1.8B、4B、7B,消费级显卡即可运行,适用于笔记本电脑、手机、智能座舱、智能家居等低功耗端侧场景,且支持垂直领域低成本微调。据介绍,新开源的4个模型属于融合推理模型,具备推理速度快、性价比高的特点,用户可根据使用场景灵活选择模型思
ChatGPT如何“思考”
北京时间5月14日凌晨,美国开放人工智能研究中心(OpenAI)发布了其下一代大型语言模型GPT-4o,人工智能(AI)领域再起硝烟。尽管AI一词已很普及,但其内部运作方式仍像黑箱操作一样,是一个谜。因为AI依赖机器学习算法,而先进的机器学习算法使用模拟人脑结构的神经网络,信息在不同神经元间传递,以
AI心理推断能力或与人类相当,但不意味它们有情商
新一期《自然·人类行为》发表论文显示,在测试追踪他人心理状态能力——也称心智理论(Theory of Mind)的任务中,两类大语言模型(LLM)在特定情况下的表现与人类相似,甚至更好。研究团队对热门LLM展开测试。心智理论对人类社交互动十分重要,是人类沟通交流和产生共鸣的关键。之前的研究表明,LL
AI心理推断能力或与人类相当,但不意味它们有情商
新一期《自然·人类行为》发表论文显示,在测试追踪他人心理状态能力——也称心智理论(Theory of Mind)的任务中,两类大语言模型(LLM)在特定情况下的表现与人类相似,甚至更好。 研究团队对热门LLM展开测试。图片来源:《自然·人类行为》 心智理论对人类社交互动十分重要,是人类沟通交
清华大学等发布超长时长、高性价比的Sora级视频生成大模型
近日,北京极佳视界科技有限公司联合清华大学自动化系正式发布我国首个超长时长、高性价比的Sora级视频生成大模型“视界一粟 YiSu”。据介绍,“视界一粟 YiSu”可生成1分钟以上的视频,并拥有超大运动、超强表现力等优势;此外,该模型成本更低、速度更快,有望更快实现长视频生成的大规模产品应用。清华大
AI心理推断能力或与人类相当,但不意味它们有情商
新一期《自然·人类行为》发表论文显示,在测试追踪他人心理状态能力——也称心智理论(Theory of Mind)的任务中,两类大语言模型(LLM)在特定情况下的表现与人类相似,甚至更好。研究团队对热门LLM展开测试。图片来源:《自然·人类行为》心智理论对人类社交互动十分重要,是人类沟通交流和产生共鸣
学者发布无机材料AI模型,推理能力到达新高度
松山湖材料实验室研究员孟胜/刘淼团队在国家自然科学基金等项目的支持下,研发了一种基于深度学习图结构的通用预训练力场(graph-based pre-trained transformer force field,简称GPTFF)。相关成果近日发表于《科学通报(英文版)》(Science Bullet
阿里云:CPU为中心的计算体系也可加速AI推理
原文地址:http://news.sciencenet.cn/htmlnews/2024/1/515906.shtm
青年科学家:尺度定律不能显著提高模型因果推理能力
幻觉和泛化是模型落地绕不开的话题。模型的幻觉带来错误回答,使得人们在一些关键的认知上产生疑虑,一定程度上会阻碍大模型落地。由于过分注重尺度定律,人力、算力等大量资源资源投入到尺度定律,导致基层研究人员没有足够多的计算资源研究新的模型路线,挤压创新空间。青年科学家共同探讨大模型技术架构的未来可能性人工
GPT4驱动的机器人化学家登Nature:自主设计反应,挑战复杂实验
基于 Transformer 的大语言模型(LLM)在自然语言处理、生物、化学和计算机编程等各个领域取得了重大进展。 但对于在实验室工作的研究人员或那些不熟悉计算机代码的人来说,人工智能方法并不那么容易理解。 近日,卡内基梅隆大学的研究团队找到了如何让人工智能系统自学化学的方法。提出了一种基
“征服”数学,AI是否有能力“回答世界”
最近,专门为人工智能(AI)设立的AI国际奥林匹克数学竞赛(IMO)即将进入尾声,其结果将随今年7月于英国巴斯举行的65届IMO大会同步揭晓。这项赛事的目的是推动发展大语言模型的数学推理能力,训练出更高数学水平的新AI模型。 纯数学领域中的重大发现是推理和创造力的灵感结晶,往往意味着人类智慧
讯飞联手华为攻克全国产算力下推理模型训练难关
1月15日,科大讯飞发布了我国“全国产”算力平台第一个深度推理大模型——讯飞星火X1。据公开测试,该模型中文数学能力表现突出,目前已应用于教育、医疗等场景。在大模型研发领域,讯飞星火坚持走全国产化路线。据科大讯飞研究院副院长殷兵介绍,尽管在全国产算力平台上训练深度推理模型遭遇了诸多挑战,但科大讯飞携
科大讯飞全国产深度推理模型星火X1实现升级
3月3日,记者从科大讯飞获悉,其自主研发的全国产深度推理大模型“星火X1”完成全面升级,并在医疗、教育等领域推出系列创新应用。科大讯飞表示,此次升级“充分证明基于国产算力训练的全栈自主可控大模型具备登顶业界最高水平的强大实力和持续创新的巨大潜力”。 在升级后的星火X1加持下,科大讯飞旗下讯飞晓
日本发布大规模语言模型
科技日报讯 (记者李杨)东京工业大学、日本理化学研究所及富士通公司等近日宣布,利用超级计算机“富岳”,他们开发的大规模语言模型“Fugaku-LLM”正式发布。“Fugaku-LLM”是首个完全由日本国产技术构建的AI语言模型,其在处理日语及相关文化内容上表现卓越。模型特别擅长基于日语敬语进行自然对
日本发布大规模语言模型
东京工业大学、日本理化学研究所及富士通公司等近日宣布,利用超级计算机“富岳”,他们开发的大规模语言模型“Fugaku-LLM”正式发布。 “Fugaku-LLM”是首个完全由日本国产技术构建的AI语言模型,其在处理日语及相关文化内容上表现卓越。模型特别擅长基于日语敬语进行自然对话,并展现出在人
面对大模型应用门槛高-如何大模型发挥更大价值?
原文地址:http://news.sciencenet.cn/htmlnews/2022/9/485510.shtm 人工智能预训练大模型的研发,面临着数据规模大、数据质量参差不齐、模型体积大、训练难度高、算力需求大等一系列挑战。在这样的背景下,如何加速大模型的产业落地,让大模型发挥更大价值?
2023人工智能算力性能500排行榜出炉
原文地址:http://news.sciencenet.cn/htmlnews/2023/11/512087.shtm在11月10日举行的第5届中国超级算力大会(ChinaSC 2023)上,由中科院计算技术研究所研究员张云泉、清华大学教授陈文光、美国阿贡国家实验室Pavan Balaji研究员和瑞
硬刚“GPT4”,谷歌重磅推出最强杀手锏“Gemini”
12月6日,谷歌宣布推出其认为规模最大、功能最强大的人工智能模型Gemini。Gemini将包括三种不同的套件:Gemini Ultra,Gemini Pro和Gemini Nano。官方宣文中,概括出这三种套件的突出特性: Gemini Ultra——参数量最大,能力最强,适用于高度复杂的任
合合信息大模型“加速器”亮相2024世界人工智能大会
7月4日至7日,2024世界人工智能大会在上海开幕。合合信息在大会上展示了其大模型“加速器”解决方案。据了解,在大模型训练的上游阶段,“加速器”中的文档解析引擎将助力大模型突破在书籍、论文、研报等文档中的版面解析障碍,从源头为模型训练与应用输送纯净的“燃料”,助力大模型跑得更快;“加速器”还加载了行
科学家设置数学测试新基准,难倒AI
下棋、写诗、绘画……人工智能(AI)似乎越来越“多才多艺”,就连数学似乎都难不倒它。大语言模型(LLM),如OpenAI的ChatGPT,几乎在每一次数学测试中都表现良好。不过,此前AI几乎没有触及数学领域的前沿研究,并不能反映其真正的数学能力。近日,一项在预印本平台公布的研究中,美国技术研究机构E
“以毒攻毒”!识别大模型“一本正经胡说八道”
6月18日,《自然》发表的一项研究报道了一种能检测大语言模型(LLM)幻觉(hallucination)的方法,该方法能检测生成回答的含义的不确定性,或能用于提升LLM输出的可靠性。LLM(如ChatGPT和Gemini)是能阅读和生成人类自然语言的人工智能系统。不过,这类系统很容易产生幻觉,生成不
Cell子刊:加速老化,助力iPS疾病模型
将干细胞诱导成为疾病模型,可以帮助人们理解和治疗多种疾病,不过目前干细胞还难以准确模拟与年龄增长有关的疾病。日前,科学家们开发了一个新技术,可以将iPSC(诱导多功能干细胞)转化成为老化的神经细胞,这一技术可以用来建立帕金森症的疾病模型。文章于十二月五日发表在Cell Stem Cell杂志