发布时间:2024-07-30 16:53 原文链接: 《自然》封面:以AI生成数据训练AI,模型变傻?

  大模型有许多“崩”的时候,但有一种崩溃叫做“自毁前程”——

  近日,《自然》发表在封面的一篇论文指出,用AI生成的数据集训练未来几代机器学习模型,可能会“污染”它们的输出。这项由英国牛津大学、剑桥大学、帝国理工学院、加拿大多伦多大学等多所高校联合开展的研究显示,原始内容会在数代内变成不相关的“胡言乱语”,彰显出使用可靠数据训练AI模型的重要性。

  该论文被放在《自然》封面介绍,配图为“Garbage Out”(垃圾出)。图源:Nature

  研究团队给出一个例子。他们测试了Meta的OPT-125m模型,询问了关于中世纪建筑的相关信息,并且每一次微调都是由上一次生成的数据来训练。结果,前面几轮的回答还算过关,但随着生成内容的迭代,模型逐渐语无伦次;到第九次,模型居然开始“胡说八道”,回答从讨论建筑跳跃到一串“野兔”的名字……

  该论文主要作者表示,他们曾考虑过合成数据可能对大模型造成误差,但未曾预料到模型的恶化速度会如此迅速。

  对此,研究团队专门定义了“模型崩溃”:模型崩溃是一个退化过程,模型生成的内容会污染下一代的训练数据集。而在被污染的数据上训练之后,新一代模型就容易误解现实。同时,研究团队还分析了导致大模型同原始模型发生偏离的三个误差原因。

  经过理论分析,研究人员指出,对于使用前几代生成的训练数据集的AI模型来说,模型崩溃似乎是一个不可避免的结局。作者团队认为,用AI生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。与此同时,依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。

  这一研究给AI训练敲响了警钟。当下,大语言模型等生成式AI工具越来越受欢迎,这些模型工具主要使用人类生成的数据进行训练。然而,随着这些AI模型工具被大量使用,它们生成的内容会逐渐充斥于互联网,未来计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。

  不过,也有业内人士认为,这项研究的逻辑有些问题,毕竟“训练一个失败的模型要比训练成功一个模型要容易得多”。该观点指出,训练AI模型过程中除了对数据的选择之外,还有强化学习、模型精调等必要方法;即便是使用AI合成数据,基本上也都有各种生成方式的设计和严格的筛选。

  “要训练好AI不容易,但要让它崩溃,那我有一万种办法。”该观点指出。

  无独有偶,美国斯坦福大学也有人工智能研究人员发表论文中研究了模型崩溃的问题。在这项工作的研究者看来,将合成数据添加到现实世界数据中而不是替换它,并不会引起任何重大问题。但该作者补充道:“所有关于模型崩溃的研究都得出一个结论,那就是高质量且多样化的训练数据至关重要。”


相关文章

AI物质创制生态大会举行

4月25日,中国科学技术大学在安徽合肥举行AI物质创制生态大会。安徽省委书记梁言顺、国家自然科学基金委员会主任窦贤康出席会议并致辞。中国科学院副院长、党组成员汪克强出席会议,并为科学智能物质创制中心和......

AI物质创制生态大会举行

4月25日,中国科学技术大学在安徽合肥举行AI物质创制生态大会。安徽省委书记梁言顺、国家自然科学基金委员会主任窦贤康出席会议并致辞。中国科学院副院长、党组成员汪克强出席会议,并为科学智能物质创制中心和......

面向石化化工、医疗装备、医药等行业2026年“模数共振”行动实施

2026年4月24日,工信部办公厅、国家数据局综合司联合印发通知(工信厅联科函〔2026〕193号),正式实施2026年“模数共振”行动,推动AI模型与数据资源协同互促,助力人工智能高水平赋能新型工业......

面向石化化工、医疗装备、医药等行业2026年“模数共振”行动实施

2026年4月24日,工信部办公厅、国家数据局综合司联合印发通知(工信厅联科函〔2026〕193号),正式实施2026年“模数共振”行动,推动AI模型与数据资源协同互促,助力人工智能高水平赋能新型工业......

AI与科学仪器融合已到关键节点

高端科学仪器是国之重器,当前“人工智能(AI)+”正在推动科学仪器实现智能化、精准化发展。在4月23日—24日召开的第十九届中国科学仪器发展年会上,科研探索对于仪器的智能化需求成为研讨热点。“过去科学......

AI与科学仪器融合已到关键节点

高端科学仪器是国之重器,当前“人工智能(AI)+”正在推动科学仪器实现智能化、精准化发展。在4月23日—24日召开的第十九届中国科学仪器发展年会上,科研探索对于仪器的智能化需求成为研讨热点。“过去科学......

AI赋能质谱创新薪火相传共启新程——2026年度北京质谱年会圆满召开

2026年4月25日,由北京理化分析测试技术学会质谱专业委员会主办、北京质谱中心协办的“2026年度北京质谱年会”在北京圆满召开。本次年会以“AI赋能质谱及相关组学”为主题,旨在全面回顾2025年度质......

AI赋能质谱创新薪火相传共启新程——2026年度北京质谱年会圆满召开

2026年4月25日,由北京理化分析测试技术学会质谱专业委员会主办、北京质谱中心协办的“2026年度北京质谱年会”在北京圆满召开。本次年会以“AI赋能质谱及相关组学”为主题,旨在全面回顾2025年度质......

警惕AI“投毒”:隐蔽产业链已形成,危害不容小觑

近期,AI“投毒”隐蔽产业链被曝光,引发社会广泛关注。这种通过恶意数据污染AI模型的行为,不仅扰乱商业秩序、影响信息传播,更会危害国家安全。人工智能在赋能千行百业的同时,其安全风险也不容忽视。推动AI......

警惕AI“投毒”:隐蔽产业链已形成,危害不容小觑

近期,AI“投毒”隐蔽产业链被曝光,引发社会广泛关注。这种通过恶意数据污染AI模型的行为,不仅扰乱商业秩序、影响信息传播,更会危害国家安全。人工智能在赋能千行百业的同时,其安全风险也不容忽视。推动AI......