实测得分超ChatGPT！百度文心大模型3.5版内测应用

发布时间：2023-06-20 21:50 原文链接：实测得分超ChatGPT！百度文心大模型3.5版内测应用

原文地址：http://news.sciencenet.cn/htmlnews/2023/6/503256.shtm

6月20日消息，据内部人士透露，百度文心大模型3.5版本已内测可用。早在5月末中关村论坛上，百度创始人、董事长兼CEO李彦宏透露，百度大模型产品“文心一言”的“母本”将迎来3.5版本，距今时隔不到一个月。最新版本文心大模型达到了怎样的实力？在公开测试集上进行的基础模型少样本（Few-Shot）评测显示，文心大模型3.5(ERNIE 3.5)在多个测试集的得分已超过ChatGPT。

三大评测基准综合评估

上万道考题“统考”主流大模型

为验证主流大模型的各项综合能力，评测在AGIEval、C-Eval和MMLU三个权威评测基准上进行综合评估。 AGIEval评测基准是微软研究院发布的、专门用于评估模型在“以人为本”的标准化考试中表现水平的测试集。该基准选取20种面向普通人类考生的官方、公开、高标准的资格考试，包括普通大学入学考试（如中国的高考和美国的SAT考试）、司法考试、数学竞赛、律师资格考试、国家公务员考试以及美国的GRE、GMAT等。 C-Eval评测基准是由上海交通大学、清华大学以及爱丁堡大学联合创制和发布的中文基础模型评测集。它包含13948个多项选择题、涵盖52个不同的学科，设置了四个难度级别，是面向中文语言模型的综合考试评测集。 MMLU是伯克利大学、哥伦比亚大学、伊利诺伊大学厄巴纳-香槟分校和芝加哥大学联合发布的一种大规模多任务语言理解的基准测试，用于衡量模型的英文跨学科专业能力。该测试包含57个科目，涵盖STEM、人文、社会科学等。

除了文心大模型3.5，评测的模型还有ChatGPT、GPT-4、ChatGLM、LLaMa系列大模型。评测可以看出大模型在能力上的优劣，同时对模型的迭代发展也有着很强的指导作用。

评测结果：

文心大模型3.5中文能力超GPT-4，综合能力超ChatGPT

在AGIEval、C-Eval等中英文权威测试集和MMLU英文权威测试集中，国产文心大模型3.5取得了超过ChatGPT和LLaMa、ChatGLM等其他大模型的分数表现，在中文评测项中超越了GPT-4。

在中文AGIEval评测中，文心大模型3.5得分64.37，远超ChatGLM-6B、LLaMa-7B、LLaMa-13B、LLaMa-65B，同时还超过了 ChatGPT的40.27分和 GPT-4的56.96分，位居第一。AGIEval评测英文部分中，GPT-4得分65.55居于首位，文心大模型3.5得分录得 50.59分，仅次于GPT-4。紧随其后的是ChatGPT录得48.75分。在中文C-Eval评测中，文心大模型3.5测出71.93的最高得分，不仅高于ChatGPT的51.70分，还略高于GPT-4的68.57分，领先于LLaMa-65B、LLaMa-7B、ChatGLM-6B的得分。在英文MMLU测试中，GPT-4和ChatGPT的表现较好，分别以82.47分和68.85分领先于其他大模型。文心大模型3.5得分65.10紧随其后，优于LLaMa-65B、LLaMa-13B、LLaMa-7B、ChatGLM-6B等模型分数。从上述评测得分来看，文心大模型3.5版中文能力突出，甚至有超出 GPT-4 的表现；综合能力稍逊于GPT-4，但已经在评测中超过了 ChatGPT，远远领先于其他开源大模型。

国产大模型中文能力优势突出

综合能力加速缩小差距

尽管市面上有多个大模型横空出世，但大模型研发门槛高、难度大、投入高，依赖算力、数据等综合支撑的现实不容忽视。在推动大模型产业化的路上，中国企业如何在大模型发展过程中发挥所长优势，加速缩小差距？中国工程院院士邬贺铨曾在接受采访时表示，中国企业在获得中文语料和对中国文化的理解方面比外国企业有天然的优势，中国制造业门类最全，具有面向实体产业训练产业AIGC的有利条件。同时，在算力方面中国已具有较好的基础。以百度文心大模型3.5为例，与3.0版本相比，通过各项算法和数据的优化，尤其是百度首创的知识增强和检索增强技术的优化，新版本文心大模型在各项能力上均有明显提升。据了解，百度人工智能四层架构的端到端优化，尤其是框架和模型层的协同优化，让文心大模型训练速度、模型效果加速提升。创新工场董事长兼CEO李开复也曾公开表示“中国拥有丰富的中文语料和庞大的市场，通过发展AI大模型，中国可以推动创新产业的发展，实现科技与经济的双重红利。而且中国拥有庞大基数的年轻工程师和最坚韧的企业家，为发展AI大模型提供了强大的人才支持，技术领先、策略灵活、市场反应快、能打硬仗、落地执行力强，将是中国大模型公司的成功关键。”

其他网友还关注过

更多与实测得分超ChatGPT！百度文心大模型3.5版内测应用相关的新闻

天平管理器,工业分析在线计算器气象站静液压试验机建筑门窗综合物理性能试验机杭州汇尔 SW-CJ-1D 微生物实验室设备清单热变形维卡软化点检测仪单人单面超净工作台SW-CJ-1FD垂直流全自动一体化蒸馏电子粉质仪生物发酵分析系统

实验室

国家环境保护大气复合污染来源与控制重点实验室国家生物医学分析中心

实测得分超ChatGPT！百度文心大模型3.5版内测应用

其他网友还关注过

内燃机行业四大创新平台在天津成立

直播预告|香港城市大学副教授于欣格主旨报告

直播预告|2024年中国医学发展大会

关于批准江苏星河阀门有限公司变更民用核安全设备设计和制造许可活动范围的通知

关于颁发《江苏徐圩核能供热厂一期工程场址选择审查意见书》的通知

关于公开征求国家生态环境标准《机场周围航空噪声监测技术规范（征求意见稿）》意见的通知

第三届中国腐蚀控制技术与产业发展论坛即将举行

广东省科学院与广州医科大学签署战略合作协议

“动批”变身金融科技中心，北京营造创新生态

医疗影像国家新一代人工智能开放创新平台建成