IDC、智源最新一期大模型评测结果出炉

发布时间：2024-06-19 08:40 原文链接： IDC、智源最新一期大模型评测结果出炉

6月17日记者获悉，由北京智源研究院（以下简称智源）打造的FlagEval天秤大模型评测平台实现了全面升级，并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示，百度文心大模型、字节跳动“云雀”和“豆包”大模型的综合评分在闭源对话模型中位列前三，GPT-4o、百川、零一万物、kimi等紧随其后。

智源FlagEval榜单截图。来源：智源

据了解，FlagEval天秤大模型评测平台是北京智源研究院推出的开放的大模型评测体系，自2023年发布以来，该评测平台已从主要面向语言模型扩展到视频、语音、多模态模型，实现多领域全覆盖，目前已评测国内外 300 余个开源和商业闭源的语言及多模态大模型。资料显示，FlagEval大语言模型评测体系当前包含6大评测任务，近30个评测数据集，超10万道评测题目。6月的评测结果显示，在中文语境下，文心大模型等国内头部语言模型的综合表现出色。

就在上周，国际数据公司（IDC）发布的《中国大模型市场主流产品评估，2024》中，百度文心一言、阿里通义千问和OpenAI GPT-4等也位于第一梯队，其中，百度是唯一一家在问答理解类、推理类、创作表达类、数学类、代码类的基础能力，toC通用场景类、toB特定行业类的应用能力等7个维度上均为“优势厂商”的企业。阿里获6项优势维度，OpenAI GPT-4和商汤分获5项。

截图自IDC《中国大模型市场主流产品评估，2024》。

其他网友还关注过

更多与 IDC、智源最新一期大模型评测结果出炉相关的新闻

天平管理器,工业分析在线计算器气象站静液压试验机建筑门窗综合物理性能试验机杭州汇尔 SW-CJ-1D 微生物实验室设备清单热变形维卡软化点检测仪单人单面超净工作台SW-CJ-1FD垂直流全自动一体化蒸馏电子粉质仪形态分析仪

实验室

国家环境保护大气复合污染来源与控制重点实验室国家生物医学分析中心

IDC、智源最新一期大模型评测结果出炉

其他网友还关注过

我所发展细胞膜缓冲荧光探针实现活细胞质膜形态动力学的超分辨荧光成像

自动驾驶和人类驾驶谁更安全？

闪电规则脉冲爆发序列的通道发展和电参数特征研究获新进展

遨游太空的五星红旗在国家空间科学中心接续传递

兰州化物所编著的《摩擦起电科学与技术》出版发行

“公众科学与健康自由”研究报告发布

“科技伦理的新地平线”工作坊举办

欧洲绿党败选，气候行动能否持续

2024世界物联网500强峰会将在北京召开

我所提出卤代有机污染物的再利用新策略