发布时间:2024-04-17 13:34 原文链接: 人工智能在多项任务中击败人类

一名女子与中国香港SenseTime公司开发的AI机器人下围棋。

本报讯4月15日,美国斯坦福大学人工智能研究所发布《2024年人工智能指数报告》,描绘了过去10年机器学习系统的飞速发展。

报告显示,聊天机器人ChatGPT等人工智能(AI)系统在阅读理解、图像分类和竞赛级数学等任务上的表现,已接近甚至超过人类。AI系统的快速发展意味着,许多用于评估它们的通用基准和测试很快就会过时。

报告特别指出,推出评估AI的新方法越来越有必要,如评估其在抽象和推理等复杂任务上的表现。斯坦福大学社会科学家Nestor Maslej表示,10年前,基准可以为社会服务5至10年,而现在,它们往往在短短几年内就变得无关紧要了。“增长的速度快得惊人。”

斯坦福大学的年度人工智能指数于2017年首次发布。该指数由学术和行业专家编制,旨在评估AI领域的技术能力、成本、道德等,从而为研究人员、政策制定者和公众提供信息。今年这份长达400多页的报告指出,美国对与AI相关的监管正在升级。但是,由于缺乏对负责任地使用AI的标准化评估,因此很难根据系统构成的风险对它们进行比较。

新报告还首次用整个章节专门介绍AI的科学应用,包括谷歌DeepMind的一个旨在帮助化学家发现新材料的图形网络材料探索(GNoME)项目,以及DeepMind的另一个工具GraphCast,它可以进行快速天气预报。

当前的AI热潮建立在神经网络和机器学习算法之上,这可以追溯到2010年代早期。此后,这一领域迅速发展壮大。例如,代码共享平台GitHub上的AI编码项目数量从2011年的约800个增加到去年的180万个。报告称,在此期间,关于AI的期刊出版物大约增加了两倍。

AI的大部分前沿工作都在工业领域内进行。去年,该领域产生了51个著名的机器学习系统,其中学术研究人员贡献了15个。美国得克萨斯大学奥斯汀分校人工智能实验室主任Raymond Mooney表示:“学术工作正在转向分析企业推出的模型,深入研究它们的弱点。”

这包括开发更严格的测试,以评估大型语言模型(LLM)的视觉、数学甚至道德推理能力,这些能力为聊天机器人提供了动力。最新的测试之一是研究生级谷歌验证问答基准测试(GPQA),去年由包括美国纽约大学机器学习研究员David Rein在内的团队开发。

GPQA由400多个选择题组成,难度很大,博士水平的学者回答其所在领域问题的正确率为65%。而当他们试图回答其专业领域以外的问题时,尽管在测试期间可以上网,但正确率只有34%。

随着AI性能的飙升,成本也在飙升。据报道,OpenAI公司2023年3月发布的GPT-4的培训成本为7800万美元。谷歌的聊天机器人Gemini Ultra于2023年12月推出,耗资1.91亿美元。许多人担心这些系统的能源使用,以及冷却运行这些系统的数据中心所需的水量。

报告指出,在美国,监管急剧升级。2016年,美国只有一项法规提到了AI,去年则增加到25项。Maslej表示,2022年之后,政策制定者提出的AI相关法案数量大幅增加。

监管行动越来越侧重于促进负责任的AI使用。Maslej说,尽管出现了可以对AI工具的真实性、偏见等指标进行评分的基准,但并不是每个人都在使用相同的模型,这使得交叉比较变得困难。


相关文章

人工智能在多项任务中击败人类

一名女子与中国香港SenseTime公司开发的AI机器人下围棋。本报讯4月15日,美国斯坦福大学人工智能研究所发布《2024年人工智能指数报告》,描绘了过去10年机器学习系统的飞速发展。报告显示,聊天......

人工智能如何赋能科学研究?他们这样说

4月12日上午,中国科学院深圳先进技术研究院(简称“深圳先进院”)举办“探Sora真相,论AI未来”人工智能沙龙讲座。本次活动邀请到人工智能领域的专家学者围绕人工智能领域前沿技术进行了深入探讨和分析,......

政校企院共建,四川省人工智能学院揭牌成立

4月11日,由政校企院四方共建的“四川省人工智能学院”正式获批成立,揭牌仪式在电子科技大学举行。据介绍,四川省人工智能学院采取“1+N”政校企院共建模式,以电子科技大学为牵头单位,四川省教育厅、经济和......

AI大举进军医疗与生命科学:革新之路畅通无阻?

人工智能正在改变各个行业的运作模式,如同一个深深嵌入的齿轮。马斯克的脑机接口成功彰显了人工智能与生物技术融合的巨大潜力,与此同时,英伟达与强生等企业的强强联手,正强有力地驱动AI在医疗领域的深层次变革......

推动人工智能产业快速发展 要把保障数据安全放在突出位置

美国人工智能公司OpenAI推出GPTStore,掀起AI应用新潮流;谷歌遭遇裁员风波,聚焦AI战略调整;特斯拉创始人埃隆·马斯克起诉OpenAI,指控其背离了初衷,将人工智能用于盈利而非为人类福祉服......

“共情”AI出现了,你会与之共情吗

情感智能包括从行为中推断意图和偏好的能力,因此在某种意义上,情感智能才是AI界面最重要的功能。图片来源:VentureBeat网站当我们想到有情感的人工智能(AI)时,素材其实都来源于科幻作品,其中的......

浪潮海若大模型业务战略正式发布

在人工智能技术飞速发展的当下,行业大模型将如何提升城市治理与服务、赋能千行百业?浪潮云给出了自己的答卷。4月2日,由中共山东省委网络安全和信息化委员会办公室指导、青岛市大数据局支持、浪潮云主办的“云端......

“人工智能时代的高等教育”研讨会举行

3月28日,“人工智能时代的高等教育”研讨会在上海举行。会议由北京大学未来教育管理研究中心主办,上海创智组织管理数字技术研究院协办,来自教育界、企业届和专家学者近200人进行了热烈的讨论。北京大学未来......

人工智能开启气象预测新纪元

10多年前,当美国加州理工学院气候科学家塔佩奥·施奈德首次对云如何形成进行建模时,需要煞费苦心地调整描述水滴、气流和温度如何相互作用的方程。但2017年,机器学习等人工智能(AI)技术成为他的“左膀右......

美国利用人工智能技术实时预测聚变堆等离子体不稳定性

美国普林斯顿大学和普林斯顿等离子体物理实验室的研究人员研发出一个人工智能模型,能够实时预测被称为“撕裂模不稳定性”的聚变堆等离子体不稳定性。聚变能商业应用目前面临着许多重大技术和工程挑战,其中一个是等......