谁是最会做题大模型?“高考评测”来了

2024年全国高考的“硝烟”刚刚散去不久,“大模型考生”就被抓回来重新“做题”了。市面上涌现出的大模型产品让人眼花缭乱,围绕“大模型技术哪家强”的讨论不绝于耳,各色名目的大模型评测应运而生。作为国内最权威的考试之一,高考覆盖各类学科及题型,同时在开考前属于“绝密”,非常适合用来作为考查大模型智能水平的评测工具,堪称大模型综合能力的“试金石”。连日来,一些专业机构纷纷下场,使用市面上常见的大模型产品如通义千问、字节豆包、讯飞星火、文心一言、腾讯元宝、Kimi等作为“考生”,围绕“大模型高考测试”得出了一系列结果,为人们更好地了解大模型产品的性能和特点提供了参考样本。AI高考数学全不及格?换个打开方式试试近期,一则“AI高考测试出分,数学全不及格”的消息登上“热搜”。消息出自上海人工智能实验室旗下司南评测体系OpenCompass对7个开源大模型进行的高考“语数外”全卷能力测试。据OpenCompass于6月19日发布的评测结果,大......阅读全文

谁是最会做题大模型?“高考评测”来了

2024年全国高考的“硝烟”刚刚散去不久,“大模型考生”就被抓回来重新“做题”了。市面上涌现出的大模型产品让人眼花缭乱,围绕“大模型技术哪家强”的讨论不绝于耳,各色名目的大模型评测应运而生。作为国内最权威的考试之一,高考覆盖各类学科及题型,同时在开考前属于“绝密”,非常适合用来作为考查大模型智能水平

商汤大模型多个评测表现超ChatGPT

本报讯 (记者沈湫莎)商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示,“商量”在这三个测试集中的表现均领先ChatGPT,实现了我国语言大模型研究的突破。      全球三大权威语言模型测评基准

商汤大模型“商量”多个评测表现超ChatGPT

原文地址:http://news.sciencenet.cn/htmlnews/2023/6/503362.shtm

上海发布“书生·浦语”大模型:评测表现优秀

“书生·浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集,对“书生·浦语”、清华大学的GLM-130B、Meta的LLaMA-65B、OpenAI的ChatGPT和GPT-4进行了全面测试。6月7日,上海人工智能实验室(上海AI实验室)、商汤科技联合香港中文

AI参加高考,为何偏科严重

大模型参加高考,能考多少分?近日,科技创新交流平台极客公园发布高考新课标Ⅰ卷大模型评测报告,在参试大模型中,GPT-4o以562分的成绩排名文科第一。参加评测的8款国产大模型中,字节跳动旗下的豆包成绩是542.5分,其后依次是百度文心一言4.0的537.5分和百川智能“百小应”的521分。本次大模型

国内首批大模型标准评测结果公布,4家通过

原文地址:http://news.sciencenet.cn/htmlnews/2023/12/514789.shtm12月22日,在全国信息技术标准化技术委员会人工智能分委会全体会议上,国内首个官方“大模型标准符合性评测”结果公布。结果显示,首批有四家公司的大模型产品通过该评测,分别为百度文心一言

评测成绩比肩GPT4,商汤日日新大模型再升级

原文地址:http://news.sciencenet.cn/htmlnews/2024/2/517164.shtm近日,商汤科技发布“日日新SenseNova 4.0”,多维度升级了大模型体系。据介绍,日日新SenseNova 4.0 具备更广泛的知识覆盖、更稳定的推理能力、更优秀的长文本理解力、

IDC、智源最新一期大模型评测结果出炉

6月17日记者获悉,由北京智源研究院(以下简称智源)打造的FlagEval天秤大模型评测平台实现了全面升级,并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示,百度文心大模型、字节跳动“云雀”和“豆包”大模型的综合评分在闭源对话模型中位列前三,GPT-4o、百川、零一万物、kim

IDC、智源最新一期大模型评测结果出炉

  6月17日记者获悉,由北京智源研究院(以下简称智源)打造的FlagEval天秤大模型评测平台实现了全面升级,并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示,百度文心大模型、字节跳动“云雀”和“豆包”大模型的综合评分在闭源对话模型中位列前三,GPT-4o、百川、零一万物、k

讯飞星火在一项评测中获评“最聪明”国产大模型

原文地址:http://news.sciencenet.cn/htmlnews/2023/8/506755.shtm

数学家试图借数学模型揭示肥胖之谜

  肥胖研究似乎不属于数学范畴,但美国俄亥俄州立大学数学研究人员侯赛因·焦什昆不这样认为。他带领一个研究团队,试图借数学模型揭示脂肪细胞形成的过程并解开肥胖之谜。筛选  焦什昆阅读大量与前脂肪细胞转变为脂肪细胞相关的学术文章后,找出16种在这个转变过程中看起来最活跃的蛋白质,从中

第一!医渡科技大模型登顶上海AI实验室权威评测榜

  5月9日,面向中文医疗大语言模型的开放评测平台MedBench更新评测榜单,医渡科技大模型(评测名:HH-YIDU-Med)以综合得分61.3分的出色成绩登顶榜首,成为榜单中首个综合评分超过60的医疗大模型。MedBench评测榜单节选  MedBench是由上海AI实验室和上海市数字医学创新中

直播预告|中国科大博士挑战高考真题(数学篇)

直播时间:2024年6月7日(周五)19:00直播平台:科学网APPhttps://weibo.com/l/wblive/p/show/1022:2321325042659310829601(科学网微博直播间链接)科学网微博【内容介绍】6月7日-6月9日,每晚19:00锁定中国科学报社直播间,不容错

百度文心大模型3.5已内测应用,实测得分超ChatGPT

原文地址:http://news.sciencenet.cn/htmlnews/2023/6/503251.shtm 6月20日消息,据内部人士透露,百度文心大模型3.5版本已内测可用。早在5月末中关村论坛上,百度创始人、董事长兼CEO李彦宏透露,百度大模型产品“文心一言”的“母本”将迎来3.5

实测得分超ChatGPT!百度文心大模型3.5版内测应用

原文地址:http://news.sciencenet.cn/htmlnews/2023/6/503256.shtm 6月20日消息,据内部人士透露,百度文心大模型3.5版本已内测可用。早在5月末中关村论坛上,百度创始人、董事长兼CEO李彦宏透露,百度大模型产品“文心一言”的“母本”将迎来3.5

构建生长育肥猪常用能量饲料营养价值评测模型

原文地址:http://news.sciencenet.cn/htmlnews/2023/2/494455.shtm记者2月23日从中国科学院亚热带农业生态研究所获悉,由中国工程院院士、该所首席研究员印遇龙科研团队黄瑞林研究员主持的“生长育肥猪常用能量饲料原料营养价值评定与预测方程建立”项目,已先后

构建新数学模型解析复杂疾病

原文地址:http://news.sciencenet.cn/htmlnews/2023/10/510702.shtm

花椰菜类几何图案数学模型出炉

  据物理学家组织网近日报道,最近,一个由西班牙卡米亚斯大主教大学(UPCO)、马德里卡洛斯三世大学(UC3M)的科学家组成的研究小组,首次开发出一种表现普适机制的数学模型,能描述某些复杂自然花纹形成的规则,比如花椰菜的表面图案。相关论文发表在最近出版的《新物理学》杂志上。   该研究属于分形几何

数学模型如何助力人类疾病研究?

  在科学研究的道路上,科学家们常常会开发多种模型来帮助研究,其中数学模型就是研究者们经常使用的一种模型,随着近年来研究的不断深入,就有研究人员开发出新型的数学模型来解析中和抗体和HIV-1之间相互作用的机制,当然除此之外,科学家们还利用数学模型对其它疾病进行了大量研究,本文中,小编盘点了近年来多篇

数学模型如何助力人类疾病研究?

  在科学研究的道路上,科学家们常常会开发多种模型来帮助研究,其中数学模型就是研究者们经常使用的一种模型,随着近年来研究的不断深入,就有研究人员开发出新型的数学模型来解析中和抗体和HIV-1之间相互作用的机制,当然除此之外,科学家们还利用数学模型对其它疾病进行了大量研究,本文中,小编盘点了近年来多篇

高考倒计时百天--“百廿南大”校长送高考祝福

2022年5月20日,南京大学将迎来建校120周年华诞。2月26日,正值高考倒计时100天,中国科学院院士、南京大学校长吕建如约送来“百廿南大”专属祝福,为高考生加油鼓劲:“虎力全开,圆梦高考!”百廿南大,群星璀璨硕果累累吕建校长与高中生亲切“对话”——“今年,南京大学将迎来建校120周年华诞,这个

讯飞星火认知大模型V1.5发布,综合能力实现三大升级

6月9日,讯飞星火认知大模型V1.5正式发布。仅仅时隔一月,讯飞星火认知大模型不仅各项能力持续提升,且在综合能力上实现三大升级:开放式知识问答取得突破,多轮对话、逻辑和数学能力再升级。星火App同步发布,面向生活、工作等用户高频使用场景上线200多个小助手,用户创作中心还支持持续共创和分享,将打造大

新数学模型RSIT助力地震前兆预警

原文地址:http://news.sciencenet.cn/htmlnews/2023/9/508419.shtm

如何选择适合指示生物监测的数学模型?

选择适合指示生物监测的数学模型可以考虑以下几个关键因素:数据特征:分析所收集的数据类型(连续型、离散型、分类数据等)、数据量大小、变量之间的关系(线性或非线性)以及数据的分布情况。研究目的:明确监测的具体目标,是预测生物的数量变化、评估生物的健康状况、还是研究环境因素对生物的综合影响等。环境复杂性:

科学家构建肿瘤生长趋势数学模型

  据美国物理学家组织网8月2日报道,美国迈阿密大学和德国海德堡大学的研究人员日前开发出了一种能够帮助人们理解和预测肿瘤生长趋势的数学模型。研究人员希望该模型能够帮助医生为患者制定出高度个性化的治疗方案。相关论文发表在《自然》杂志旗下的新刊《科学报告》杂志网络版上。   从宏观角度来

面对大模型应用门槛高-如何大模型发挥更大价值?

原文地址:http://news.sciencenet.cn/htmlnews/2022/9/485510.shtm 人工智能预训练大模型的研发,面临着数据规模大、数据质量参差不齐、模型体积大、训练难度高、算力需求大等一系列挑战。在这样的背景下,如何加速大模型的产业落地,让大模型发挥更大价值?

高考时节谈高考

在6月,整个中国教育界甚至全社会都在关注高考,从高考前的总动员到6月7日、8日的高考,从高考评卷到高考分数的查询,从官方禁止公布高考状元到媒体还是照样炒作“高考最高分”,从高考分数线的公布到高考志愿的填报,再到第一批高校的录取……高考是全年一贯的热点话题,6月更是成为焦点话题。 为什么高考

数学高考题被泄露-教育部考试院:已接到举报

6月7日,高考第一天结束,有网友在网上爆料称,疑似全国乙卷的数学题遭他人拍照上传至QQ群寻求解答,而从网友曝出的截图来看,此事发生在7日下午4时左右,尚在高考数学考试期间。 7日晚8时19分,教育部教育考试院一位工作人员告诉澎湃新闻(www.thepaper.cn

数学高考题被泄露-教育部考试院:已接到举报

6月7日,高考第一天结束,有网友在网上爆料称,疑似全国乙卷的数学题遭他人拍照上传至QQ群寻求解答,而从网友曝出的截图来看,此事发生在7日下午4时左右,尚在高考数学考试期间。 7日晚8时19分,教育部教育考试院一位工作人员告诉澎湃新闻(www.thepaper.cn

高考前焦虑?三脚凳模型帮你调整心态

  心理学中,身体冷静、思维自信、精神专注共同构建的三脚凳模型适用于所有的考试。  夏日的熏风不仅送来了花香与蝉鸣,也送来了高考冲刺的号角,高三学生正在争分夺秒地备考。考生期望自己能够胸有成竹地踏入考场,但考前难免焦虑。如何应对考前焦虑,调整好心态,在高考中发挥出应有水平呢?  以往的国内研究发现,