发布时间:2024-07-30 16:53 原文链接: 《自然》封面:以AI生成数据训练AI,模型变傻?

  大模型有许多“崩”的时候,但有一种崩溃叫做“自毁前程”——

  近日,《自然》发表在封面的一篇论文指出,用AI生成的数据集训练未来几代机器学习模型,可能会“污染”它们的输出。这项由英国牛津大学、剑桥大学、帝国理工学院、加拿大多伦多大学等多所高校联合开展的研究显示,原始内容会在数代内变成不相关的“胡言乱语”,彰显出使用可靠数据训练AI模型的重要性。

  该论文被放在《自然》封面介绍,配图为“Garbage Out”(垃圾出)。图源:Nature

  研究团队给出一个例子。他们测试了Meta的OPT-125m模型,询问了关于中世纪建筑的相关信息,并且每一次微调都是由上一次生成的数据来训练。结果,前面几轮的回答还算过关,但随着生成内容的迭代,模型逐渐语无伦次;到第九次,模型居然开始“胡说八道”,回答从讨论建筑跳跃到一串“野兔”的名字……

  该论文主要作者表示,他们曾考虑过合成数据可能对大模型造成误差,但未曾预料到模型的恶化速度会如此迅速。

  对此,研究团队专门定义了“模型崩溃”:模型崩溃是一个退化过程,模型生成的内容会污染下一代的训练数据集。而在被污染的数据上训练之后,新一代模型就容易误解现实。同时,研究团队还分析了导致大模型同原始模型发生偏离的三个误差原因。

  经过理论分析,研究人员指出,对于使用前几代生成的训练数据集的AI模型来说,模型崩溃似乎是一个不可避免的结局。作者团队认为,用AI生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。与此同时,依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。

  这一研究给AI训练敲响了警钟。当下,大语言模型等生成式AI工具越来越受欢迎,这些模型工具主要使用人类生成的数据进行训练。然而,随着这些AI模型工具被大量使用,它们生成的内容会逐渐充斥于互联网,未来计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。

  不过,也有业内人士认为,这项研究的逻辑有些问题,毕竟“训练一个失败的模型要比训练成功一个模型要容易得多”。该观点指出,训练AI模型过程中除了对数据的选择之外,还有强化学习、模型精调等必要方法;即便是使用AI合成数据,基本上也都有各种生成方式的设计和严格的筛选。

  “要训练好AI不容易,但要让它崩溃,那我有一万种办法。”该观点指出。

  无独有偶,美国斯坦福大学也有人工智能研究人员发表论文中研究了模型崩溃的问题。在这项工作的研究者看来,将合成数据添加到现实世界数据中而不是替换它,并不会引起任何重大问题。但该作者补充道:“所有关于模型崩溃的研究都得出一个结论,那就是高质量且多样化的训练数据至关重要。”


相关文章

AI生成的科学假说在接受检验时不如人类

全球范围内,人工智能(AI)正在推动科学研究加速发展,部分原因在于它使一项曾被认为是人类独有的创造活动——假说的生成自动化了。但当研究人员在现实世界对这些假说进行测试并让人类评估人员对结果进行比较后发......

AI生成的科学假说在接受检验时不如人类

全球范围内,人工智能(AI)正在推动科学研究加速发展,部分原因在于它使一项曾被认为是人类独有的创造活动——假说的生成自动化了。但当研究人员在现实世界对这些假说进行测试并让人类评估人员对结果进行比较后发......

杨善林院士:强化基础研究,夯实AI“领跑”根基

杨善林,管理科学与信息系统工程专家、中国工程院院士,长期从事决策科学与智能系统技术领域的科学研究和人才培养工作。获国家科技进步奖二等奖2项、教育部自然科学奖一等奖1项、教育部人文社会科学奖一等奖1项、......

杨善林院士:强化基础研究,夯实AI“领跑”根基

杨善林,管理科学与信息系统工程专家、中国工程院院士,长期从事决策科学与智能系统技术领域的科学研究和人才培养工作。获国家科技进步奖二等奖2项、教育部自然科学奖一等奖1项、教育部人文社会科学奖一等奖1项、......

孙凝晖:“AI赋能科学发现”最大作用是突破人类认知极限

近日,由中国计算机学会主办的第21届全国高性能计算学术大会在内蒙古鄂尔多斯召开。大会上,中国工程院院士、中国计算机学会理事长孙凝晖在题为《AI(人工智能)赋能科学发现》报告中,分享了对这一备受关注话题......

孙凝晖:“AI赋能科学发现”最大作用是突破人类认知极限

近日,由中国计算机学会主办的第21届全国高性能计算学术大会在内蒙古鄂尔多斯召开。大会上,中国工程院院士、中国计算机学会理事长孙凝晖在题为《AI(人工智能)赋能科学发现》报告中,分享了对这一备受关注话题......

扫描件秒变数据库,AI让数码多功能机“读懂”文档

在办公领域,随着人工智能(AI)技术加速渗透,各行业正迎来智能化转型的关键节点。近日,在于上海召开的“富士胶片商业创新(中国)有限公司成立三十周年庆祝仪式”上,多位专家共同探讨AI新浪潮下的业务转型之......

扫描件秒变数据库,AI让数码多功能机“读懂”文档

在办公领域,随着人工智能(AI)技术加速渗透,各行业正迎来智能化转型的关键节点。近日,在于上海召开的“富士胶片商业创新(中国)有限公司成立三十周年庆祝仪式”上,多位专家共同探讨AI新浪潮下的业务转型之......

数据“中毒”会让AI“自己学坏”

在一个繁忙的火车站,监控摄像头正全方位追踪站台的情况,乘客流量、轨道占用、卫生状况……所有信息实时传输给中央人工智能(AI)系统。这个系统的任务是帮助调度列车,让它们安全准点进站。然而,一旦有人恶意干......

数据“中毒”会让AI“自己学坏”

在一个繁忙的火车站,监控摄像头正全方位追踪站台的情况,乘客流量、轨道占用、卫生状况……所有信息实时传输给中央人工智能(AI)系统。这个系统的任务是帮助调度列车,让它们安全准点进站。然而,一旦有人恶意干......