发布时间:2024-06-19 08:40 原文链接: IDC、智源最新一期大模型评测结果出炉

6月17日记者获悉,由北京智源研究院(以下简称智源)打造的FlagEval天秤大模型评测平台实现了全面升级,并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示,百度文心大模型、字节跳动“云雀”和“豆包”大模型的综合评分在闭源对话模型中位列前三,GPT-4o、百川、零一万物、kimi等紧随其后。

智源FlagEval榜单截图。 来源:智源

据了解,FlagEval天秤大模型评测平台是北京智源研究院推出的开放的大模型评测体系,自2023年发布以来,该评测平台已从主要面向语言模型扩展到视频、语音、多模态模型,实现多领域全覆盖,目前已评测国内外 300 余个开源和商业闭源的语言及多模态大模型。资料显示,FlagEval大语言模型评测体系当前包含6大评测任务,近30个评测数据集,超10万道评测题目。6月的评测结果显示,在中文语境下,文心大模型等国内头部语言模型的综合表现出色。

就在上周,国际数据公司(IDC)发布的《中国大模型市场主流产品评估,2024》中,百度文心一言、阿里通义千问和OpenAI GPT-4等也位于第一梯队,其中,百度是唯一一家在问答理解类、推理类、创作表达类、数学类、代码类的基础能力,toC通用场景类、toB特定行业类的应用能力等7个维度上均为“优势厂商”的企业。阿里获6项优势维度,OpenAI GPT-4和商汤分获5项。


截图自IDC《中国大模型市场主流产品评估,2024》。

 


相关文章

我所发展细胞膜缓冲荧光探针实现活细胞质膜形态动力学的超分辨荧光成像

近日,我所生物技术研究部分子探针与荧光成像研究组(1818组)乔庆龙副研究员和徐兆超研究员团队发展了组装介导的细胞膜缓冲荧光探针,实现了对细胞质膜的长时间稳定标记和超分辨动态荧光成像,观察到了质膜丝状......

自动驾驶和人类驾驶谁更安全?

根据《自然-通讯》6月18日发表的一项研究,自动驾驶车辆在大多数场景下比人类驾驶车辆的事故更少。这一研究支持了自动驾驶技术有助于改善道路安全的观点,并指出了一些有待改进的具体领域。自动驾驶车辆有精密的......

闪电规则脉冲爆发序列的通道发展和电参数特征研究获新进展

近日,中国科学院西北生态环境资源研究院范祥鹏团队在闪电研究领域取得重大突破,揭示了闪电规则脉冲爆发(RPBs)的通道发展和电学参数特征。这项研究成果不仅深化了人类对闪电复杂物理过程的理解,也为未来雷电......

遨游太空的五星红旗在国家空间科学中心接续传递

6月17日上午,由全国少工委联合中国载人航天工程新闻宣传办公室共同举办的“红领巾爱祖国——我心中的五星红旗”国旗传递活动地面传递第6站,在中国科学院国家空间科学中心举行,中国科学院国家空间科学中心的科......

兰州化物所编著的《摩擦起电科学与技术》出版发行

近日,由中国科学院兰州化学物理研究所润滑材料重点实验室摩擦物理与传感课题组王道爱研究员、周峰研究员等编著的《摩擦起电科学与技术》一书由科学出版社出版发行。本书系统地阐述了界面摩擦起电行为的研究历史、影......

“公众科学与健康自由”研究报告发布

由教育部人文社会科学研究基金资助的《“公众科学与健康自由”报告》(以下简称《报告》)6月15日在北京大学“科技伦理的新地平线”工作坊期间发布。《报告》从“做自己健康的第一责任人”、健康自由的哲学基础、......

“科技伦理的新地平线”工作坊举办

近年来,伴随着我国科技的高速发展,一系列全新的社会和伦理问题逐渐凸显,呼唤学术界产生新思想以应对新形势。6月15日,北京大学哲学系、中国科学学与科技政策研究会科学文化专委会、中国发展战略学研究会创新战......

欧洲绿党败选,气候行动能否持续

根据临时选举结果,欧洲绿党在欧洲议会选举中遭受了重大损失,而极右翼政党则取得了巨大进展。据《自然》报道,尽管气候变化对整个欧盟的选民来说是一个不那么重要的问题,但研究人员表示,新议会不太可能废除关键的......

2024世界物联网500强峰会将在北京召开

2024世界物联网500强峰会将于7月19日在北京召开,世界物联网500强排行榜也将在会上发布。世界物联网大会是联合国经社理事会登记的物联网数字经济国际组织,世界物联网500强峰会是世界物联网大会举办......

我所提出卤代有机污染物的再利用新策略

近日,我所仿生催化合成研究组(211组)陈庆安研究员团队在卤代有机污染物的再利用方面取得新进展,发展了一种溴化物催化的氯转移反应,该反应能够利用卤代有机污染物作为卤源,从而实现不同卤代有机污染物的再利......