发布时间:2023-06-07 17:26 原文链接: 上海发布“书生·浦语”大模型:评测表现优秀

“书生·浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集,对“书生·浦语”、清华大学的GLM-130B、Meta的LLaMA-65B、OpenAI的ChatGPT和GPT-4进行了全面测试。

6月7日,上海人工智能实验室(上海AI实验室)、商汤科技联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM),具有1040亿参数,在多项中文考试中取得超越ChatGPT的成绩,在数学考试中成绩明显领先于谷歌、Meta的大模型。

“书生·浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集:由伯克利加州大学等高校构建的多任务考试评测集MMLU;微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE 和 GMAT等),AGIEval的19个评测大项中有9个大项是中国高考,通常也列为一个重要的评测子集AGIEval(GK);由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;以及由复旦大学研究团队构建的高考题目评测集Gaokao。

实验室联合团队对“书生·浦语”、清华大学的GLM-130B、Meta的LLaMA-65B、OpenAI的ChatGPT和GPT-4进行了全面测试,针对上述四个评测集的成绩对比如下(满分100分)。

“书生·浦语”、GLM-130B、LLaMA-65B、ChatGPT和GPT-4的测试结果。

据上海人工智能实验室消息,“书生·浦语”全面评测结果显示,其在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,在综合性考试中表现突出,在多项中文考试中取得超越ChatGPT的成绩,其中就包括中国高考各科目的数据集(GaoKao),在以美国考试为主的MMLU上和ChatGPT基本持平。

为了避免“偏科”,研究人员通过多个学术评测集,对“书生·浦语”等语言模型的分项能力进行了评测对比。结果显示,“书生·浦语”不仅在中英文的阅读理解方面表现突出,并且在数学推理、编程能力等评测中也取得了较好的成绩。

  分项能力的评测对比。

在英语阅读理解方面,“书生·浦语”明显领先于LLaMA-65B和ChatGPT,“书生·浦语”在初中和高中英语阅读理解中得分为92.7和88.9,?ChatGPT得分为85.6和81.2,LLaMA-65B则更低。在数学推理方面,“书生·浦语”在GSM8K和MATH这两项被广泛用于评测的数学考试中,分别取得62.9和14.9的得分,明显领先于谷歌的PaLM-540B(得分为56.5和8.8)与LLaMA-65B(得分为50.9和10.9)。

但在测评中也可以看到,大语言模型仍然存在能力局限。“书生·浦语” 受限于2K的语境窗口长度(GPT-4的语境窗口长度为32K),在长文理解、复杂推理、撰写代码以及数理逻辑演绎等方面还存在明显局限。另外,在实际对话中,大语言模型还普遍存在幻觉、概念混淆等问题。这些局限使得大语言模型在开放场景中的使用还有很长的路要走。

(原标题:上海AI实验室发布“书生·浦语”大模型:在高考等评测中表现优秀)


相关文章

两款“坤元”大模型发布

7月29日,第三届海岸带大会在山东烟台召开。中国科学院地理科学与资源研究所研究员、“坤元”大模型首席科学家苏奋振发布了两款自主研发的大模型——“坤元·感东南”与“坤元·拟千海”。两款大模型分别针对陆和......

国内首个船海学科教育专有大模型上线

近日,由哈尔滨工程大学研发的国内首个船海学科教育专有大模型——“兴海”大模型,在国家高教智慧教育平台正式上线。“兴海”教育专有大模型以DeepSeek、文心一言、Kimi三大模型作为支撑。大模型由哈工......

全国首个慢性肾脏病综合管理大模型发布

5月18日,由国家肾脏病临床医学研究中心(南方医科大学南方医院)牵头研发的“慢性肾脏病综合管理大模型——智肾”在南方医科大学南方医院正式发布。同时宣布将赠送“智肾”大模型给贵州省人民医院、新疆医科大学......

《中医药大模型评测标准》发布

近日,中医药交叉学科和智能科学大会在中国中医科学院举办,大会主题为“AI创新中医发展、数智均衡医疗资源”。国家中医药管理局副局长、中国中医科学院院长、中国工程院院士黄璐琦表示,中医药传承数千年,积累了......

大模型激活经济发展新动能

今年的政府工作报告提出,支持大模型广泛应用,并将其作为激发数字经济创新活力的核心举措之一。此举体现了我国对人工智能技术和数字经济发展的前瞻性布局,大模型成为带动千行百业生产力提升的新工具,更有望成为推......

国际首个符合国人特点的罕见病大模型进入临床

2月16日,北京协和医院与中国科学院自动化研究所共同研发的“协和·太初”罕见病大模型正式进入临床应用阶段。据悉,该模型基于我国罕见病知识库的多年积累和中国人群基因检测数据支撑,是国际首个符合中国人群特......

广东医科大学成功部署DeepSeekGDMU大模型

近日,广东医科大学健康医疗大数据工程中心携手华为技术团队共同打造的“DeepSeek-GDMU”大模型正式落地。记者获悉,“DeepSeek-GDMU”大模型是国内首个基于昇腾人工智能(AI)生态的医......

大模型安全治理:国际合作共筑AI发展新框架

“当前,人工智能技术以惊人的速度发展,如近期DeepSeek引领了低成本开发使用大模型的革新,这既为驱动新的创新提供了更多可能,也带来了诸多风险挑战,而在互联互通时代,加强国际合作至关重要。”2月11......

国产AI大模型DeepSeek升级,性能对标OpenAIo1正式版

1月20日,国产AI大模型DeepSeek正式发布新版本DeepSeek-R1,并同步开源模型权重。开发者表示,DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,......

中国高校推出“元古大模型”助力地球科学研究

中新社武汉12月7日电(马芙蓉孙彦钦)由中国地质大学(武汉)与相关企业联合开发的“元古大模型”7日在武汉发布。该模型支持图生文、文生图、文生文等场景生成模式,验证了利用多模态大模型技术解决地球科学领域......