《自然》7月24日发表的一篇论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”(model collapse)。该研究显示,原始内容会在数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。
生成式AI工具越来越受欢迎,如大语言模型(LLM)等,这类工具主要用人类生成的数据进行训练。不过,随着这些AI模型在互联网不断壮大,计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。
英国牛津大学的Ilia Shumailov和同事用数学模型演示了AI模型可能会如何出现模型崩溃。研究人员证明了一个AI可能会忽略训练数据中的某些输出(如不太常见的文本),导致其只用一部分数据集进行自我训练。
Shumailov和同事还研究了AI模型会如何应对主要用人工智能生成的训练数据集。他们发现,给模型输入AI生成的数据会减弱今后几代模型的学习能力,最终导致模型崩溃。他们测试的几乎所有递归训练语言模型都容易出现重复短语。比如,一个用中世纪建筑文本作为原始输入的测试到第九代的输出已经是一串野兔的名字。
研究人员指出,对于使用前几代生成的训练数据集的AI模型来说,模型崩溃是一个不可避免的结局。为了让AI成功使用其自身输出进行训练,Shumailov和同事认为用AI生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。与此同时,依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。
4月25日,中国科学技术大学在安徽合肥举行AI物质创制生态大会。安徽省委书记梁言顺、国家自然科学基金委员会主任窦贤康出席会议并致辞。中国科学院副院长、党组成员汪克强出席会议,并为科学智能物质创制中心和......
4月25日,中国科学技术大学在安徽合肥举行AI物质创制生态大会。安徽省委书记梁言顺、国家自然科学基金委员会主任窦贤康出席会议并致辞。中国科学院副院长、党组成员汪克强出席会议,并为科学智能物质创制中心和......
2026年4月24日,工信部办公厅、国家数据局综合司联合印发通知(工信厅联科函〔2026〕193号),正式实施2026年“模数共振”行动,推动AI模型与数据资源协同互促,助力人工智能高水平赋能新型工业......
2026年4月24日,工信部办公厅、国家数据局综合司联合印发通知(工信厅联科函〔2026〕193号),正式实施2026年“模数共振”行动,推动AI模型与数据资源协同互促,助力人工智能高水平赋能新型工业......
高端科学仪器是国之重器,当前“人工智能(AI)+”正在推动科学仪器实现智能化、精准化发展。在4月23日—24日召开的第十九届中国科学仪器发展年会上,科研探索对于仪器的智能化需求成为研讨热点。“过去科学......
高端科学仪器是国之重器,当前“人工智能(AI)+”正在推动科学仪器实现智能化、精准化发展。在4月23日—24日召开的第十九届中国科学仪器发展年会上,科研探索对于仪器的智能化需求成为研讨热点。“过去科学......
2026年4月25日,由北京理化分析测试技术学会质谱专业委员会主办、北京质谱中心协办的“2026年度北京质谱年会”在北京圆满召开。本次年会以“AI赋能质谱及相关组学”为主题,旨在全面回顾2025年度质......
2026年4月25日,由北京理化分析测试技术学会质谱专业委员会主办、北京质谱中心协办的“2026年度北京质谱年会”在北京圆满召开。本次年会以“AI赋能质谱及相关组学”为主题,旨在全面回顾2025年度质......
近期,AI“投毒”隐蔽产业链被曝光,引发社会广泛关注。这种通过恶意数据污染AI模型的行为,不仅扰乱商业秩序、影响信息传播,更会危害国家安全。人工智能在赋能千行百业的同时,其安全风险也不容忽视。推动AI......
近期,AI“投毒”隐蔽产业链被曝光,引发社会广泛关注。这种通过恶意数据污染AI模型的行为,不仅扰乱商业秩序、影响信息传播,更会危害国家安全。人工智能在赋能千行百业的同时,其安全风险也不容忽视。推动AI......