《自然》7月24日发表的一篇论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”(model collapse)。该研究显示,原始内容会在数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。
生成式AI工具越来越受欢迎,如大语言模型(LLM)等,这类工具主要用人类生成的数据进行训练。不过,随着这些AI模型在互联网不断壮大,计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。
英国牛津大学的Ilia Shumailov和同事用数学模型演示了AI模型可能会如何出现模型崩溃。研究人员证明了一个AI可能会忽略训练数据中的某些输出(如不太常见的文本),导致其只用一部分数据集进行自我训练。
Shumailov和同事还研究了AI模型会如何应对主要用人工智能生成的训练数据集。他们发现,给模型输入AI生成的数据会减弱今后几代模型的学习能力,最终导致模型崩溃。他们测试的几乎所有递归训练语言模型都容易出现重复短语。比如,一个用中世纪建筑文本作为原始输入的测试到第九代的输出已经是一串野兔的名字。
研究人员指出,对于使用前几代生成的训练数据集的AI模型来说,模型崩溃是一个不可避免的结局。为了让AI成功使用其自身输出进行训练,Shumailov和同事认为用AI生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。与此同时,依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。
两年前,谷歌旗下深度思维公司宣布,借深度学习技术发现220万种新型晶体材料。今年初,微软宣称其AI模型MatterGen能从零生成无机材料,有望颠覆无机材料设计范式。人工智能(AI)推动材料研究的新时......
两年前,谷歌旗下深度思维公司宣布,借深度学习技术发现220万种新型晶体材料。今年初,微软宣称其AI模型MatterGen能从零生成无机材料,有望颠覆无机材料设计范式。人工智能(AI)推动材料研究的新时......
海军军医大学第二附属医院(上海长征医院)泌尿外科教授任善成团队联合国内多家单位,构建了一种基于人工智能(AI)的前列腺癌影像—病理基础模型,可从磁共振影像中无创预测肿瘤侵袭性,且诊断性能显著优于现有临......
海军军医大学第二附属医院(上海长征医院)泌尿外科教授任善成团队联合国内多家单位,构建了一种基于人工智能(AI)的前列腺癌影像—病理基础模型,可从磁共振影像中无创预测肿瘤侵袭性,且诊断性能显著优于现有临......
8月26日国发〔2025〕11号颁布了《国务院关于深入实施“人工智能+”行动的意见》这一重要文件,其中特别强调“人机协同、跨界融合、共创分享的智能经济和智能社会新形态”,其核心就是要积极构建“人、机(......
8月26日国发〔2025〕11号颁布了《国务院关于深入实施“人工智能+”行动的意见》这一重要文件,其中特别强调“人机协同、跨界融合、共创分享的智能经济和智能社会新形态”,其核心就是要积极构建“人、机(......
一项研究报告称,一名局部瘫痪男子借助一款部分由人工智能(AI)控制的非侵入性脑部设备,成功实现了对机械臂的操控。此外,在执行屏幕端任务时,该AI辅助设备的表现比患者单独使用设备好4倍。脑机接口能够捕捉......
一项研究报告称,一名局部瘫痪男子借助一款部分由人工智能(AI)控制的非侵入性脑部设备,成功实现了对机械臂的操控。此外,在执行屏幕端任务时,该AI辅助设备的表现比患者单独使用设备好4倍。脑机接口能够捕捉......
近日,中国科学院海洋研究所研究员王凡团队联合南京信息工程大学教授张荣华、崂山实验室研究员蔡文炬等,在《自然·通讯》发表研究论文。该研究借助观测数据约束的深度学习方法,大幅降低了对全球关键气候现象厄尔尼......
近日,中国科学院海洋研究所研究员王凡团队联合南京信息工程大学教授张荣华、崂山实验室研究员蔡文炬等,在《自然·通讯》发表研究论文。该研究借助观测数据约束的深度学习方法,大幅降低了对全球关键气候现象厄尔尼......