发布时间:2024-12-05 03:13 原文链接: 科学家设置数学测试新基准,难倒AI

下棋、写诗、绘画……人工智能(AI)似乎越来越“多才多艺”,就连数学似乎都难不倒它。大语言模型(LLM),如OpenAI的ChatGPT,几乎在每一次数学测试中都表现良好。不过,此前AI几乎没有触及数学领域的前沿研究,并不能反映其真正的数学能力。

近日,一项在预印本平台公布的研究中,美国技术研究机构Epoch AI召集60位顶尖数学家提出了原创的具有挑战性的数学难题,建立了基准更高的大模型数学测试数据库,结果发现大语言模型答题正确率不到2%。这表明距离AI打乱该领域还很远。
“AI在数学界造成的影响还很小,但可以看到它的潜力。”英国帝国理工学院数学家Kevin Buzzard说,如果有一个模型能从这个数据库的测试中脱颖而出,那么数学家们的游戏就结束了。
利用互联网以及其他来源的大量人工生成文本进行训练,LLM能够根据提示识别预测最可能的单词、数字或符号序列。这使其能够回答问题、创作故事或解决数学问题。
以前AI解决数学问题的正确率不理想,而最近,一些先进的模型已经跨越了这一障碍。比如,7月,谷歌DeepMind的一个以数学为侧重点的AI模型达到了国际数学奥林匹克竞赛(世界顶尖的高中数学竞赛)银牌标准;OpenAI于9月发布的o1模型则在之前的AI数学基准测试中获得90以上的分数。
但专家指出,这些结果可能夸大AI模型数学推理能力在公众的印象。一方面,目前AI数学测试的基准大多相当于高中或本科水平,与数学届研究领域的水平相去甚远,达到这一水平的数学家通常致力于解决几个世纪以来悬而未决的问题。另一方面,这样的测试不具备公平性,因为这些AI模型利用互联网数据进行大量培训,能“看到”类似问题的解决方案,即存在数据污染。
为了解决上述问题,Epoch AI向60位顶尖数学家支付报酬,请他们提出极其困难的原创问题,以建立新的数学测试基准。Epoch AI数学家Elliot Glazer说,其中有些问题人类专家也要几天时间才能解答。
此外,为了防止数据污染,数学家们只在加密的服务器上讨论、编写试题,并避免使用在线文本编辑器。
Epoch AI团队选择了约150个问题,对6个顶级LLM进行了测试,包括OpenAI和DeepMind最新版本的模型。每个问题设置的回答时间为20秒至1分钟。结果,没有一个模型在测试中得分超过2分。这些模型经常提供错误的答案,而不是承认失败。
AI距离能够解决这些极具挑战性的数学问题还有很长的路要走。尽管如此,专家们认为AI模型迟早会追平新基准。对此,一些人乐观地认为,AI更多地将作为帮手而不是竞争对手存在,即使AI能够写出人类无法企及的证明过程,数学家在理解这些答案方面仍将发挥至关重要的作用。

而也有专家担心AI在数学领域会产生不好的影响。“在AI开始超越人类前,数学家必须考虑清除谁可以使用这些工具、该花多大的能量训练它们,以及我们到底希望它们做什么。”加拿大渥太华大学数学家和计算机科学家Maia Fraser说。

相关论文信息:https://doi.org/10.48550/arXiv.2411.04872

 


相关文章

周忠和:科学家形象不应“脸谱化”,否则未来没人愿意当科学家

过去的几个月,中国科学院院士、中国科学院古脊椎动物与古人类研究所(以下简称古脊椎所)研究员周忠和来上海的次数多了。10月27日,他刚刚在前一天晚上领取“2025未来科学大奖-生命科学奖”奖杯和证书,又......

安捷伦荣获两项科学家选择奖

2025年6月4日,北京——安捷伦科技公司宣布荣获两项科学家选择奖:公司凭借所举办的《为未来而生的HPLC:隆重推出全新AgilentInfinityIII液相色谱系列》荣获“2024年度在线研讨会”......

科学家身份被冒用进行虚假同行评审

今年5月,瑞典农业科学大学的行为生态学家和生态毒理学家MichaelBertram收到了一则令人不安的消息——他的身份被人冒用,进行了数十次虚假的同行评审,涉及提交给《整体环境科学》期刊的多篇论文。该......

科学家设置数学测试新基准,难倒AI

下棋、写诗、绘画……人工智能(AI)似乎越来越“多才多艺”,就连数学似乎都难不倒它。大语言模型(LLM),如OpenAI的ChatGPT,几乎在每一次数学测试中都表现良好。不过,此前AI几乎没有触及数......

中科院308人次荣登榜首2024“全球高被引科学家”名单出炉

近日,科睿唯安发布了2024年度“全球高被引科学家”名单,遴选全球高校、研究机构和商业组织中对所在研究领域具有重大且广泛影响的顶尖科研人才。来自全球59个国家和地区1200多家机构的6636名科学家入......

王乃彦:以“中国式”科学家的标准要求自己

北京西南郊区,有一个名叫“新镇”的地方。中国核工业的“摇篮”——中国原子能科学研究院坐落于此。在中国核工业领域,这是个富有历史感的地方——国家表彰的23位“两弹一星”功勋奖章获得者中,有7位曾在这里创......

护卫我心中的国致敬“两弹一星”功勋科学家

2024年是“两弹一星”功勋奖章授勋25周年。1964年,随着一声惊雷般的巨响,巨大的蘑菇云冲破滚滚浓烟,中国的第一颗原子弹试爆成功!在这朵蘑菇云的背后,是无数干着惊天动地事,却做着隐姓埋名人的科学家......

科学家回信|任玲:304不锈钢并非等同于食品级不锈钢

编者按:2023年5月起,“学习强国”学习平台与中国科学报社联合发起“科学家回信”活动,邀请广大读者向自己心中向往尊敬的科学家、科技工作者提问、留言。活动启动后,“学习强国”“科学网App”收到了读者......

OpenAI前首席科学家新公司获10亿美元融资

成立不到3个月,伊尔亚的新公司获得了10亿美元的融资。当地时间9月4日,OpenAI联合创始人、前首席科学家伊尔亚·苏茨克维(IlyaSutskever)成立的新公司SSI(safesuperinte......

什么样的科学家更容易成为教育家

近日,《中共中央国务院关于弘扬教育家精神加强新时代高素质专业化教师队伍建设的意见》(以下简称《意见》)发布。其核心主旨是把加强教师队伍建设作为切实推进教育强国目标的抓手。考虑到教育家人才的稀缺性,《意......