发布时间:2023-06-26 11:06 原文链接: 商汤大模型多个评测表现超ChatGPT

本报讯 (记者沈湫莎)商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示,“商量”在这三个测试集中的表现均领先ChatGPT,实现了我国语言大模型研究的突破。      全球三大权威语言模型测评基准分别为由美国加州大学伯克利分校等高校构建的多任务考试评测集MMLU、由微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等),以及由上海交通大学、清华大学和英国爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval。      截至6月,全球范围内正式发布的大语言模型已超过40款,其中由中国厂商、高校、科研院所等发布的大语言模型近20款。在MMLU测评中,“商量2.0”综合得分为68.6,超ChatGPT(67.3分),仅落后于GPT-4(86.4分)位居第二;在AGIEval测评中,“商量2.0”得分49.9分,超ChatGPT(42.9分),仅次于GPT-4的56.4分。在C-Eval测评中,“商量2.0”得分66.1分,在参评的18个大模型中,仅次于GPT-4(68.7分)。      4月,商汤发布“日日新”大模型体系以及中文语言大模型“商量”。目前,“商量”已在众多行业和场景中落地应用,已有近千家企业客户通过申请,应用和体验“商量2.0”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力。在服务客户过程中,“商量2.0”持续迭代和提升,并实现知识的实时更新。

相关文章

OpenAI再出王炸,视频生成大模型Sora备受关注

人工智能(AI)领域的巨头OpenAI再次引发关注,其最新推出的视频生成大模型Sora因其出色的逼真度和想象力广受赞誉。相较于传统视频生成领域的平均4秒长度,Sora能够生成长达60秒的视频,这一创新......

哈佛校长辞职引发学界“抄袭”争议,人工智能将抄袭检测规则?

抄袭是最古老、也是最普遍的学术违规行为之一。但近日,美国哈佛大学校长ClaudineGay因抄袭指控而辞职一事引发了一场新的网上大辩论:在论文中引用多少他人的内容才应被认定为抄袭?一些学者主张采用更宽......

新进展!开发出寻找新型磁性材料的新方法

美国艾姆斯国家实验室(AmesNationalLaboratory)的科研人员开发出一个新的机器学习模型,该模型可预测新材料组合的居里温度(材料保持磁性的最高温度),用于寻找不含关键元素的永磁材料。科......

百度CTO王海峰:通用人工智能曙光已现

“过去一段时间,以大语言模型为代表的人工智能技术取得了令人震撼的成绩,而这些已经让我们看到了通用人工智能的曙光。”近日,在由深度学习技术及应用国家工程研究中心主办的WAVESUMMIT深度学习开发者大......

商汤大模型多个评测表现超ChatGPT

本报讯(记者沈湫莎)商汤科技近日公布了自研中文语言大模型“商量SenseChat2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示,“商量”在这三个测试集中的表......

商汤大模型多个评测表现超ChatGPT

本报讯(记者沈湫莎)商汤科技近日公布了自研中文语言大模型“商量SenseChat2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示,“商量”在这三个测试集中的表......

商汤大模型多个评测表现超ChatGPT

本报讯(记者沈湫莎)商汤科技近日公布了自研中文语言大模型“商量SenseChat2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示,“商量”在这三个测试集中的表......

港科大(广州)面向全校上线GPT服务

记者从香港科技大学(广州)获悉,该校GPT服务已经完成联调测试,并于6月5日正式上线,服务全校教职工及学生。此前,香港科技大学宣布,自6月1日起为全校教职工及学生提供ChatGPT3.5服务。港科大(......

BrainX:3D打印全尺寸人脑模型及临床应用前景

目前,手术仍然是治疗脑部肿瘤以及多种原因造成脑外伤的有效手段之一。但由于人类大脑的复杂结构,极大提高了手术过程的难度。因此,根据患者病情而定制的术前大脑模型能够帮助外科医生精准分析病灶和提高手术熟练度......

北大教授刘宏:GPT技术正处在从“玩具”向工具快速发展

IT之家4月9日消息,据财联社报道,今日在杭州萧山举行的“GPT4技术创新带来的产业发展机遇及挑战”专题论坛上,北京大学教授、CAAI副理事长刘宏表示,目前GPT技术正处在从“玩具”向工具的快速发展过......