谁是最会做题大模型？“高考评测”来了

2024年全国高考的“硝烟”刚刚散去不久，“大模型考生”就被抓回来重新“做题”了。市面上涌现出的大模型产品让人眼花缭乱，围绕“大模型技术哪家强”的讨论不绝于耳，各色名目的大模型评测应运而生。作为国内最权威的考试之一，高考覆盖各类学科及题型，同时在开考前属于“绝密”，非常适合用来作为考查大模型智能水平的评测工具，堪称大模型综合能力的“试金石”。连日来，一些专业机构纷纷下场，使用市面上常见的大模型产品如通义千问、字节豆包、讯飞星火、文心一言、腾讯元宝、Kimi等作为“考生”，围绕“大模型高考测试”得出了一系列结果，为人们更好地了解大模型产品的性能和特点提供了参考样本。AI高考数学全不及格？换个打开方式试试近期，一则“AI高考测试出分，数学全不及格”的消息登上“热搜”。消息出自上海人工智能实验室旗下司南评测体系OpenCompass对7个开源大模型进行的高考“语数外”全卷能力测试。据OpenCompass于6月19日发布的评测结果，大......阅读全文

谁是最会做题大模型？“高考评测”来了

2024年全国高考的“硝烟”刚刚散去不久，“大模型考生”就被抓回来重新“做题”了。市面上涌现出的大模型产品让人眼花缭乱，围绕“大模型技术哪家强”的讨论不绝于耳，各色名目的大模型评测应运而生。作为国内最权威的考试之一，高考覆盖各类学科及题型，同时在开考前属于“绝密”，非常适合用来作为考查大模型智能水平

2024-06-24 17:50 News WIKI 相关搜索

商汤大模型多个评测表现超ChatGPT

本报讯（记者沈湫莎）商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示，“商量”在这三个测试集中的表现均领先ChatGPT，实现了我国语言大模型研究的突破。全球三大权威语言模型测评基准

2023-06-26 11:06 News WIKI 相关搜索

《中医药大模型评测标准》发布

近日，中医药交叉学科和智能科学大会在中国中医科学院举办，大会主题为“AI创新中医发展、数智均衡医疗资源”。国家中医药管理局副局长、中国中医科学院院长、中国工程院院士黄璐琦表示，中医药传承数千年，积累了海量的中医诊疗医案、处方等数据，但由于中医药名词术语与一般文本差别较大，挖掘其隐藏的知识、规律和经验

2025-05-19 17:47 News WIKI 相关搜索

商汤大模型“商量”多个评测表现超ChatGPT

原文地址：http://news.sciencenet.cn/htmlnews/2023/6/503362.shtm

2023-06-23 08:09 News WIKI 相关搜索

上海发布“书生·浦语”大模型：评测表现优秀

“书生·浦语”联合团队选取了20余项评测对其进行检验，其中包含全球最具影响力的四个综合性考试评测集，对“书生·浦语”、清华大学的GLM-130B、Meta的LLaMA-65B、OpenAI的ChatGPT和GPT-4进行了全面测试。6月7日，上海人工智能实验室（上海AI实验室）、商汤科技联合香港中文

2023-06-07 17:26 News WIKI 相关搜索

AI参加高考，为何偏科严重

大模型参加高考，能考多少分？近日，科技创新交流平台极客公园发布高考新课标Ⅰ卷大模型评测报告，在参试大模型中，GPT-4o以562分的成绩排名文科第一。参加评测的8款国产大模型中，字节跳动旗下的豆包成绩是542.5分，其后依次是百度文心一言4.0的537.5分和百川智能“百小应”的521分。本次大模型

2024-07-04 07:35 News WIKI 相关搜索

国内首批大模型标准评测结果公布，4家通过

原文地址：http://news.sciencenet.cn/htmlnews/2023/12/514789.shtm12月22日，在全国信息技术标准化技术委员会人工智能分委会全体会议上，国内首个官方“大模型标准符合性评测”结果公布。结果显示，首批有四家公司的大模型产品通过该评测，分别为百度文心一言

2023-12-24 11:15 News WIKI 相关搜索

IDC、智源最新一期大模型评测结果出炉

6月17日记者获悉，由北京智源研究院（以下简称智源）打造的FlagEval天秤大模型评测平台实现了全面升级，并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示，百度文心大模型、字节跳动“云雀”和“豆包”大模型的综合评分在闭源对话模型中位列前三，GPT-4o、百川、零一万物、kim

2024-06-19 08:40 News WIKI 相关搜索

IDC、智源最新一期大模型评测结果出炉

　　6月17日记者获悉，由北京智源研究院（以下简称智源）打造的FlagEval天秤大模型评测平台实现了全面升级，并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示，百度文心大模型、字节跳动“云雀”和“豆包”大模型的综合评分在闭源对话模型中位列前三，GPT-4o、百川、零一万物、k

2024-06-19 17:00 News WIKI 相关搜索

评测成绩比肩GPT4，商汤日日新大模型再升级

原文地址：http://news.sciencenet.cn/htmlnews/2024/2/517164.shtm近日，商汤科技发布“日日新SenseNova 4.0”，多维度升级了大模型体系。据介绍，日日新SenseNova 4.0 具备更广泛的知识覆盖、更稳定的推理能力、更优秀的长文本理解力、

2024-02-03 18:55 News WIKI 相关搜索

讯飞星火在一项评测中获评“最聪明”国产大模型

原文地址：http://news.sciencenet.cn/htmlnews/2023/8/506755.shtm

2023-08-18 15:51 News WIKI 相关搜索

数学家试图借数学模型揭示肥胖之谜

　　肥胖研究似乎不属于数学范畴，但美国俄亥俄州立大学数学研究人员侯赛因·焦什昆不这样认为。他带领一个研究团队，试图借数学模型揭示脂肪细胞形成的过程并解开肥胖之谜。筛选　　焦什昆阅读大量与前脂肪细胞转变为脂肪细胞相关的学术文章后，找出16种在这个转变过程中看起来最活跃的蛋白质，从中

2010-08-26 14:16 News WIKI 相关搜索

第一！医渡科技大模型登顶上海AI实验室权威评测榜

　　5月9日,面向中文医疗大语言模型的开放评测平台MedBench更新评测榜单,医渡科技大模型(评测名:HH-YIDU-Med)以综合得分61.3分的出色成绩登顶榜首,成为榜单中首个综合评分超过60的医疗大模型。MedBench评测榜单节选　　MedBench是由上海AI实验室和上海市数字医学创新中

2024-05-11 11:21 News WIKI 相关搜索

直播预告｜中国科大博士挑战高考真题（数学篇）

直播时间：2024年6月7日（周五）19:00直播平台：科学网APPhttps://weibo.com/l/wblive/p/show/1022:2321325042659310829601（科学网微博直播间链接）科学网微博【内容介绍】6月7日-6月9日，每晚19:00锁定中国科学报社直播间，不容错

2024-06-07 17:20 News WIKI 相关搜索

实测得分超ChatGPT！百度文心大模型3.5版内测应用

原文地址：http://news.sciencenet.cn/htmlnews/2023/6/503256.shtm 6月20日消息，据内部人士透露，百度文心大模型3.5版本已内测可用。早在5月末中关村论坛上，百度创始人、董事长兼CEO李彦宏透露，百度大模型产品“文心一言”的“母本”将迎来3.5

2023-06-20 21:50 News WIKI 相关搜索

百度文心大模型3.5已内测应用，实测得分超ChatGPT

原文地址：http://news.sciencenet.cn/htmlnews/2023/6/503251.shtm 6月20日消息，据内部人士透露，百度文心大模型3.5版本已内测可用。早在5月末中关村论坛上，百度创始人、董事长兼CEO李彦宏透露，百度大模型产品“文心一言”的“母本”将迎来3.5

2023-06-20 21:09 News WIKI 相关搜索

构建生长育肥猪常用能量饲料营养价值评测模型

原文地址：http://news.sciencenet.cn/htmlnews/2023/2/494455.shtm记者2月23日从中国科学院亚热带农业生态研究所获悉，由中国工程院院士、该所首席研究员印遇龙科研团队黄瑞林研究员主持的“生长育肥猪常用能量饲料原料营养价值评定与预测方程建立”项目，已先后

2023-02-23 17:34 News WIKI 相关搜索

构建新数学模型解析复杂疾病

原文地址：http://news.sciencenet.cn/htmlnews/2023/10/510702.shtm

2023-10-21 22:25 News WIKI 相关搜索

数学模型如何助力人类疾病研究？

　　在科学研究的道路上，科学家们常常会开发多种模型来帮助研究，其中数学模型就是研究者们经常使用的一种模型，随着近年来研究的不断深入，就有研究人员开发出新型的数学模型来解析中和抗体和HIV-1之间相互作用的机制，当然除此之外，科学家们还利用数学模型对其它疾病进行了大量研究，本文中，小编盘点了近年来多篇

2017-06-22 16:17 News WIKI 相关搜索

数学模型如何助力人类疾病研究？

2017-06-22 11:16 News WIKI 相关搜索

科学家构建花序发育数学模型

近日，北京大学现代农业研究院教授焦雨铃团队等建立了一个具有普适性的花序发育数学模型，用以解释小麦、玉米、水稻及大麦等作物的穗部发育过程。相关成果发表在在《自然-植物》。花序结构决定了植物的花和种子数目，在作物中则直接影响穗粒数，是影响产量的核心要素。禾本科包含小麦、玉米、水稻等主要粮食作物，也是最大

2026-03-20 18:31 News WIKI 相关搜索

花椰菜类几何图案数学模型出炉

　　据物理学家组织网近日报道，最近，一个由西班牙卡米亚斯大主教大学(UPCO)、马德里卡洛斯三世大学(UC3M)的科学家组成的研究小组，首次开发出一种表现普适机制的数学模型，能描述某些复杂自然花纹形成的规则，比如花椰菜的表面图案。相关论文发表在最近出版的《新物理学》杂志上。　　该研究属于分形几何

2012-12-25 11:35 News WIKI 相关搜索

高考倒计时百天－－“百廿南大”校长送高考祝福

2022年5月20日，南京大学将迎来建校120周年华诞。2月26日，正值高考倒计时100天，中国科学院院士、南京大学校长吕建如约送来“百廿南大”专属祝福，为高考生加油鼓劲：“虎力全开，圆梦高考！”百廿南大，群星璀璨硕果累累吕建校长与高中生亲切“对话”——“今年，南京大学将迎来建校120周年华诞，这个

2022-02-27 13:26 News WIKI 相关搜索

如何选择适合指示生物监测的数学模型？

选择适合指示生物监测的数学模型可以考虑以下几个关键因素：数据特征：分析所收集的数据类型（连续型、离散型、分类数据等）、数据量大小、变量之间的关系（线性或非线性）以及数据的分布情况。研究目的：明确监测的具体目标，是预测生物的数量变化、评估生物的健康状况、还是研究环境因素对生物的综合影响等。环境复杂性：

2024-07-31 14:04 News WIKI 相关搜索

新数学模型RSIT助力地震前兆预警

原文地址：http://news.sciencenet.cn/htmlnews/2023/9/508419.shtm

2023-09-13 18:16 News WIKI 相关搜索

科学家构建肿瘤生长趋势数学模型

　　据美国物理学家组织网8月2日报道，美国迈阿密大学和德国海德堡大学的研究人员日前开发出了一种能够帮助人们理解和预测肿瘤生长趋势的数学模型。研究人员希望该模型能够帮助医生为患者制定出高度个性化的治疗方案。相关论文发表在《自然》杂志旗下的新刊《科学报告》杂志网络版上。　　从宏观角度来

2011-08-03 17:02 News WIKI 相关搜索

讯飞星火认知大模型V1.5发布，综合能力实现三大升级

6月9日，讯飞星火认知大模型V1.5正式发布。仅仅时隔一月，讯飞星火认知大模型不仅各项能力持续提升，且在综合能力上实现三大升级：开放式知识问答取得突破，多轮对话、逻辑和数学能力再升级。星火App同步发布，面向生活、工作等用户高频使用场景上线200多个小助手，用户创作中心还支持持续共创和分享，将打造大

2023-06-11 21:04 News WIKI 相关搜索

面对大模型应用门槛高－如何大模型发挥更大价值？

原文地址：http://news.sciencenet.cn/htmlnews/2022/9/485510.shtm 人工智能预训练大模型的研发，面临着数据规模大、数据质量参差不齐、模型体积大、训练难度高、算力需求大等一系列挑战。在这样的背景下，如何加速大模型的产业落地，让大模型发挥更大价值？

2022-09-02 12:50 News WIKI 相关搜索

数学高考题被泄露－教育部考试院：已接到举报

6月7日，高考第一天结束，有网友在网上爆料称，疑似全国乙卷的数学题遭他人拍照上传至QQ群寻求解答，而从网友曝出的截图来看，此事发生在7日下午4时左右，尚在高考数学考试期间。 7日晚8时19分，教育部教育考试院一位工作人员告诉澎湃新闻（www.thepaper.cn

2022-06-08 17:09 News WIKI 相关搜索

数学高考题被泄露－教育部考试院：已接到举报

2022-06-07 21:25 News WIKI 相关搜索