
一名女子与中国香港SenseTime公司开发的AI机器人下围棋。
本报讯4月15日,美国斯坦福大学人工智能研究所发布《2024年人工智能指数报告》,描绘了过去10年机器学习系统的飞速发展。
报告显示,聊天机器人ChatGPT等人工智能(AI)系统在阅读理解、图像分类和竞赛级数学等任务上的表现,已接近甚至超过人类。AI系统的快速发展意味着,许多用于评估它们的通用基准和测试很快就会过时。
报告特别指出,推出评估AI的新方法越来越有必要,如评估其在抽象和推理等复杂任务上的表现。斯坦福大学社会科学家Nestor Maslej表示,10年前,基准可以为社会服务5至10年,而现在,它们往往在短短几年内就变得无关紧要了。“增长的速度快得惊人。”
斯坦福大学的年度人工智能指数于2017年首次发布。该指数由学术和行业专家编制,旨在评估AI领域的技术能力、成本、道德等,从而为研究人员、政策制定者和公众提供信息。今年这份长达400多页的报告指出,美国对与AI相关的监管正在升级。但是,由于缺乏对负责任地使用AI的标准化评估,因此很难根据系统构成的风险对它们进行比较。
新报告还首次用整个章节专门介绍AI的科学应用,包括谷歌DeepMind的一个旨在帮助化学家发现新材料的图形网络材料探索(GNoME)项目,以及DeepMind的另一个工具GraphCast,它可以进行快速天气预报。
当前的AI热潮建立在神经网络和机器学习算法之上,这可以追溯到2010年代早期。此后,这一领域迅速发展壮大。例如,代码共享平台GitHub上的AI编码项目数量从2011年的约800个增加到去年的180万个。报告称,在此期间,关于AI的期刊出版物大约增加了两倍。
AI的大部分前沿工作都在工业领域内进行。去年,该领域产生了51个著名的机器学习系统,其中学术研究人员贡献了15个。美国得克萨斯大学奥斯汀分校人工智能实验室主任Raymond Mooney表示:“学术工作正在转向分析企业推出的模型,深入研究它们的弱点。”
这包括开发更严格的测试,以评估大型语言模型(LLM)的视觉、数学甚至道德推理能力,这些能力为聊天机器人提供了动力。最新的测试之一是研究生级谷歌验证问答基准测试(GPQA),去年由包括美国纽约大学机器学习研究员David Rein在内的团队开发。
GPQA由400多个选择题组成,难度很大,博士水平的学者回答其所在领域问题的正确率为65%。而当他们试图回答其专业领域以外的问题时,尽管在测试期间可以上网,但正确率只有34%。
随着AI性能的飙升,成本也在飙升。据报道,OpenAI公司2023年3月发布的GPT-4的培训成本为7800万美元。谷歌的聊天机器人Gemini Ultra于2023年12月推出,耗资1.91亿美元。许多人担心这些系统的能源使用,以及冷却运行这些系统的数据中心所需的水量。
报告指出,在美国,监管急剧升级。2016年,美国只有一项法规提到了AI,去年则增加到25项。Maslej表示,2022年之后,政策制定者提出的AI相关法案数量大幅增加。
监管行动越来越侧重于促进负责任的AI使用。Maslej说,尽管出现了可以对AI工具的真实性、偏见等指标进行评分的基准,但并不是每个人都在使用相同的模型,这使得交叉比较变得困难。
化学是一门研究物质组成、结构、性质与变化规律的学科,其发展史是人类突破自然表象、揭示物质本质的历史。从古代炼金术士对“点石成金”的痴迷,到现代科学家操控原子合成新物质,在好奇心的驱动下,人类正不断向着......
一、文件制订背景近年来,党中央、国务院高度重视人工智能发展,2025年8月国务院印发《关于深入实施“人工智能+”行动的意见》(国发〔2025〕11号),要求探索推广人人可享的高水平居民健康助手,有序推......
国家卫生健康委办公厅、国家发展改革委办公厅等五部门发布关于促进和规范“人工智能+医疗卫生”应用发展的实施意见通知。国卫办规划发〔2025〕30号各省、自治区、直辖市及新疆生产建设兵团卫生健康委、发展改......
10月31日,中国科学院第四届职工技能大赛人工智能领域比赛决赛在中国科学院自动化研究所成功举办。院直属机关党委常务副书记、院工会主席房自正,院直属机关党委副书记、院工会常务副主席杨旭,自动化研究所所长......
工业和信息化部党组书记、部长李乐成在《党建》杂志发表署名文章《加快推进人工智能赋能新型工业化》。文章指出,“面对新一代人工智能技术快速演进的新形势,要充分发挥新型举国体制优势,坚持自立自强,突出应用导......
2025年世界科技与发展论坛虽已落下帷幕,“人工智能促进科技与发展”的主题仍在全球科技界激荡回响。在业界看来,这场论坛不仅展现了中国智造的技术硬实力,更清晰传递出一个核心信号:“开放合作”的包容姿态与......
近日,由中国科学技术协会主办的2025年世界科技与发展论坛在北京举行。作为中国科协“开放合作月”重要活动之一,本届论坛以“人工智能促进科技与发展”为主题,围绕人工智能与未来产业、开放科学与全球合作等四......
近日,记者从清华大学丘成桐数学科学中心获悉,该中心副教授周源与清华大学智能产业研究院、电子工程系副教授马剑竹合作,提出了一个可从观测数据中自动推导出空间物理规律的神经符号模型——PhyE2E(Phys......
关于发布新一代人工智能国家科技重大专项2025年度第一批项目申报指南的通知各有关单位:为加快实施新一代人工智能国家科技重大专项(以下简称“重大专项”),根据重大专项阶段性实施计划部署,现将2025年度......
近日,一项公布于预印本平台arXiv的研究发现,人工智能(AI)模型的谄媚程度比人类高50%。该研究测试了11个广泛使用的大型语言模型对1.15多万个咨询请求的响应情况,其中不乏涉及不当行为或有害行为......