科学家设置数学测试新基准，难倒AI

发布时间：2024-12-05 03:13 原文链接：科学家设置数学测试新基准，难倒AI

下棋、写诗、绘画……人工智能（AI）似乎越来越“多才多艺”，就连数学似乎都难不倒它。大语言模型（LLM），如OpenAI的ChatGPT，几乎在每一次数学测试中都表现良好。不过，此前AI几乎没有触及数学领域的前沿研究，并不能反映其真正的数学能力。

近日，一项在预印本平台公布的研究中，美国技术研究机构Epoch AI召集60位顶尖数学家提出了原创的具有挑战性的数学难题，建立了基准更高的大模型数学测试数据库，结果发现大语言模型答题正确率不到2%。这表明距离AI打乱该领域还很远。

“AI在数学界造成的影响还很小，但可以看到它的潜力。”英国帝国理工学院数学家Kevin Buzzard说，如果有一个模型能从这个数据库的测试中脱颖而出，那么数学家们的游戏就结束了。

利用互联网以及其他来源的大量人工生成文本进行训练，LLM能够根据提示识别预测最可能的单词、数字或符号序列。这使其能够回答问题、创作故事或解决数学问题。

以前AI解决数学问题的正确率不理想，而最近，一些先进的模型已经跨越了这一障碍。比如，7月，谷歌DeepMind的一个以数学为侧重点的AI模型达到了国际数学奥林匹克竞赛（世界顶尖的高中数学竞赛）银牌标准；OpenAI于9月发布的o1模型则在之前的AI数学基准测试中获得90以上的分数。

但专家指出，这些结果可能夸大AI模型数学推理能力在公众的印象。一方面，目前AI数学测试的基准大多相当于高中或本科水平，与数学届研究领域的水平相去甚远，达到这一水平的数学家通常致力于解决几个世纪以来悬而未决的问题。另一方面，这样的测试不具备公平性，因为这些AI模型利用互联网数据进行大量培训，能“看到”类似问题的解决方案，即存在数据污染。

为了解决上述问题，Epoch AI向60位顶尖数学家支付报酬，请他们提出极其困难的原创问题，以建立新的数学测试基准。Epoch AI数学家Elliot Glazer说，其中有些问题人类专家也要几天时间才能解答。

此外，为了防止数据污染，数学家们只在加密的服务器上讨论、编写试题，并避免使用在线文本编辑器。

Epoch AI团队选择了约150个问题，对6个顶级LLM进行了测试，包括OpenAI和DeepMind最新版本的模型。每个问题设置的回答时间为20秒至1分钟。结果，没有一个模型在测试中得分超过2分。这些模型经常提供错误的答案，而不是承认失败。

AI距离能够解决这些极具挑战性的数学问题还有很长的路要走。尽管如此，专家们认为AI模型迟早会追平新基准。对此，一些人乐观地认为，AI更多地将作为帮手而不是竞争对手存在，即使AI能够写出人类无法企及的证明过程，数学家在理解这些答案方面仍将发挥至关重要的作用。

而也有专家担心AI在数学领域会产生不好的影响。“在AI开始超越人类前，数学家必须考虑清除谁可以使用这些工具、该花多大的能量训练它们，以及我们到底希望它们做什么。”加拿大渥太华大学数学家和计算机科学家Maia Fraser说。

相关论文信息：https://doi.org/10.48550/arXiv.2411.04872

其他网友还关注过

更多与科学家设置数学测试新基准，难倒AI 相关的新闻

汇像AI机器人科学家奥林巴斯_手持式矿石分析仪_光谱仪奥林巴斯_手持式光谱仪_矿石分析仪极低温mK级纳米精度位移台超微量蛋白核酸分析仪-柏触（Ultra low volume spectrometer）默克密理博Milli-Q Integral纯水/超纯水一体化系统 Marianas LightSheet-多模式双光片显微镜 TOFWERK靠‘谱’大气VOCs走航监测车 Maestro MEA高通量微电极阵列电生理+光遗传系统 Picarro L2140-i液态水/水汽同位素分析仪

实验室

吉林大学集成光电子国家重点联合实验室淡水生态与生物技术国家重点实验室上海生命科学研究院-美国加州大学（伯克利）分子生命科学研究中心强场激光物理国家重点实验室北京大学湍流与复杂系统国家重点实验室中国科学院上海生命科学研究院计算生物学研究所中科院量子光学重点实验室分子生物学国家重点实验室北京大学生命科学联合中心中科院上海药物研究所药物发现与设计中心

科学家设置数学测试新基准，难倒AI

其他网友还关注过

周忠和：科学家形象不应“脸谱化”，否则未来没人愿意当科学家

安捷伦荣获两项科学家选择奖

科学家身份被冒用进行虚假同行评审

科学家设置数学测试新基准，难倒AI

中科院308人次荣登榜首2024“全球高被引科学家”名单出炉

王乃彦：以“中国式”科学家的标准要求自己

护卫我心中的国致敬“两弹一星”功勋科学家

科学家回信|任玲：304不锈钢并非等同于食品级不锈钢

OpenAI前首席科学家新公司获10亿美元融资

什么样的科学家更容易成为教育家