发布时间:2023-06-20 21:50 原文链接: 实测得分超ChatGPT!百度文心大模型3.5版内测应用

原文地址:http://news.sciencenet.cn/htmlnews/2023/6/503256.shtm

6月20日消息,据内部人士透露,百度文心大模型3.5版本已内测可用。早在5月末中关村论坛上,百度创始人、董事长兼CEO李彦宏透露,百度大模型产品“文心一言”的“母本”将迎来3.5版本,距今时隔不到一个月。 最新版本文心大模型达到了怎样的实力?在公开测试集上进行的基础模型少样本(Few-Shot)评测显示,文心大模型3.5(ERNIE 3.5)在多个测试集的得分已超过ChatGPT。

三大评测基准综合评估 

上万道考题“统考”主流大模型 

为验证主流大模型的各项综合能力,评测在AGIEval、C-Eval和MMLU三个权威评测基准上进行综合评估。 AGIEval评测基准是微软研究院发布的、专门用于评估模型在“以人为本”的标准化考试中表现水平的测试集。该基准选取20种面向普通人类考生的官方、公开、高标准的资格考试,包括普通大学入学考试(如中国的高考和美国的SAT考试)、司法考试、数学竞赛、律师资格考试、国家公务员考试以及美国的GRE、GMAT等。 C-Eval评测基准是由上海交通大学、清华大学以及爱丁堡大学联合创制和发布的中文基础模型评测集。它包含13948个多项选择题、涵盖52个不同的学科,设置了四个难度级别,是面向中文语言模型的综合考试评测集。 MMLU是伯克利大学、哥伦比亚大学、伊利诺伊大学厄巴纳-香槟分校和芝加哥大学联合发布的一种大规模多任务语言理解的基准测试,用于衡量模型的英文跨学科专业能力。该测试包含57个科目,涵盖STEM、人文、社会科学等。

除了文心大模型3.5,评测的模型还有ChatGPT、GPT-4、ChatGLM、LLaMa系列大模型。评测可以看出大模型在能力上的优劣,同时对模型的迭代发展也有着很强的指导作用。

评测结果:

文心大模型3.5中文能力超GPT-4,综合能力超ChatGPT

在AGIEval、C-Eval等中英文权威测试集和MMLU英文权威测试集中,国产文心大模型3.5取得了超过ChatGPT和LLaMa、ChatGLM等其他大模型的分数表现,在中文评测项中超越了GPT-4。

在中文AGIEval评测中,文心大模型3.5得分64.37,远超ChatGLM-6B、LLaMa-7B、LLaMa-13B、LLaMa-65B,同时还超过了 ChatGPT的40.27分和 GPT-4的56.96分,位居第一。AGIEval评测英文部分中,GPT-4得分65.55居于首位,文心大模型3.5得分录得 50.59分,仅次于GPT-4。紧随其后的是ChatGPT录得48.75分。 在中文C-Eval评测中,文心大模型3.5测出71.93的最高得分,不仅高于ChatGPT的51.70分,还略高于GPT-4的68.57分,领先于LLaMa-65B、LLaMa-7B、ChatGLM-6B的得分。 在英文MMLU测试中,GPT-4和ChatGPT的表现较好,分别以82.47分和68.85分领先于其他大模型。文心大模型3.5得分65.10紧随其后,优于LLaMa-65B、LLaMa-13B、LLaMa-7B、ChatGLM-6B等模型分数。 从上述评测得分来看,文心大模型3.5版中文能力突出,甚至有超出 GPT-4 的表现;综合能力稍逊于GPT-4,但已经在评测中超过了 ChatGPT,远远领先于其他开源大模型。

国产大模型中文能力优势突出 

综合能力加速缩小差距

尽管市面上有多个大模型横空出世,但大模型研发门槛高、难度大、投入高,依赖算力、数据等综合支撑的现实不容忽视。在推动大模型产业化的路上,中国企业如何在大模型发展过程中发挥所长优势,加速缩小差距? 中国工程院院士邬贺铨曾在接受采访时表示,中国企业在获得中文语料和对中国文化的理解方面比外国企业有天然的优势,中国制造业门类最全,具有面向实体产业训练产业AIGC的有利条件。同时,在算力方面中国已具有较好的基础。 以百度文心大模型3.5为例,与3.0版本相比,通过各项算法和数据的优化,尤其是百度首创的知识增强和检索增强技术的优化,新版本文心大模型在各项能力上均有明显提升。据了解,百度人工智能四层架构的端到端优化,尤其是框架和模型层的协同优化,让文心大模型训练速度、模型效果加速提升。 创新工场董事长兼CEO李开复也曾公开表示“中国拥有丰富的中文语料和庞大的市场,通过发展AI大模型,中国可以推动创新产业的发展,实现科技与经济的双重红利。而且中国拥有庞大基数的年轻工程师和最坚韧的企业家,为发展AI大模型提供了强大的人才支持,技术领先、策略灵活、市场反应快、能打硬仗、落地执行力强,将是中国大模型公司的成功关键。”

相关文章

内燃机行业四大创新平台在天津成立

4月19日,内燃动力全国重点实验室联盟、中国内燃机学会京博吉大联合实验室、中国内燃机学会氨发动机创新联合体、中国内燃机学会氢发动机创新联合体的揭牌仪式在天津举行,这是中国内燃机产学研融合协同发展的重要......

直播预告|香港城市大学副教授于欣格主旨报告

直播时间:2024年4月19日(周五)20:00-21:30直播平台:科学网APP(科学网微博直播间链接)科学网微博科学网视频号北京时间2024年4月19日晚八点,iCANXTalks第182期邀请到......

直播预告|2024年中国医学发展大会

直播时间:2024年4月20日(周六)10:00——12:00直播平台:科学网APP(科学网微博直播间链接)科学网微博科学网视频号【直播简介】......

关于批准江苏星河阀门有限公司变更民用核安全设备设计和制造许可活动范围的通知

名称关于批准江苏星河阀门有限公司变更民用核安全设备设计和制造许可活动范围的通知索引号000014672/2024-00158分类核设施安全监管发布机关国家核安全局生成日期2024-04-09文号国核安......

关于颁发《江苏徐圩核能供热厂一期工程场址选择审查意见书》的通知

名称关于颁发《江苏徐圩核能供热厂一期工程场址选择审查意见书》的通知索引号000014672/2024-00159分类核电厂安全监管发布机关国家核安全局生成日期2024-04-17文号国核安发〔2024......

关于公开征求国家生态环境标准《机场周围航空噪声监测技术规范(征求意见稿)》意见的通知

名称关于公开征求国家生态环境标准《机场周围航空噪声监测技术规范(征求意见稿)》意见的通知索引号000014672/2024-00160分类大气环境管理发布机关生态环境部办公厅生成日期2024-04-1......

第三届中国腐蚀控制技术与产业发展论坛即将举行

记者获悉,以“腐蚀控制助力高质量发展”为主题的第三届中国腐蚀控制技术与产业发展论坛暨世界腐蚀日(中国区)活动将于4月23日至26日在广州举行。届时,相关院士专家、学者将齐聚一堂,共话腐蚀控制技术发展前......

广东省科学院与广州医科大学签署战略合作协议

近日,广东省科学院与广州医科大学签署战略合作协议,并共同为“粤港澳大湾区战略研究院卫生健康及诊疗政策研究中心”“广州医科大学 广东省科学院研究生联合培养基地”揭牌。签约现场。广东省科学院供图......

“动批”变身金融科技中心,北京营造创新生态

曾经熙熙攘攘的批发市场,如今改造成8个金融科技主题楼宇。位于北京市西城区的动物园批发市场(以下简称“动批”)不仅完成“腾笼换鸟”,还成功实现高质量发展。位于北京市海淀区清华大学东南门的斜对面,有一座不......

医疗影像国家新一代人工智能开放创新平台建成

记者获悉,历时3年建设的“医疗影像国家新一代人工智能开放创新平台”,日前正式通过科技部高技术研究发展中心的综合绩效评价,标志着我国医疗影像AI实现了从“实验室”科研到“医院”临床应用的全链路贯通。这项......