发布时间:2024-04-17 10:56 原文链接: 美AI巨头被控秘密“侵吞”数据

人工智能(AI)迅速发展离不开对模型的训练。然而,高质量数据短缺以及部分领域封闭式的数据生态似乎成为AI发展的掣肘。

据多家外媒报道,OpenAI、谷歌和Meta等公司正寻求在线信息来训练最新的AI系统。但他们无视既定政策,蓄意改变规则,并试图规避版权法。

收集数据“走捷径”

英国《泰晤士报》近日刊文指出,科技巨头一直在“走捷径”为其AI系统收集训练数据。OpenAI开发了一款名为Whisper的语音识别工具,可将YouTube视频中的音频文件转录为纯文本文档,从而创建一个口语对话数据源,帮助训练其下一代基于文本的GPT-4算法。

美国《商业内幕》网报道称,YouTube在其官网明令禁止“独立”于其之外的应用程序使用其视频内容。而OpenAI的数据并非意外收集的。

实际上,OpenAI员工知道这样做会涉足法律灰色地带。OpenAI总裁格雷格·布罗克曼甚至亲自参与了所使用视频的收集。但OpenAI依然认为这是合理的,最终获得了超过100万小时的转录视频。

最大的谜团在于,OpenAI如何访问足够多的YouTube视频来完成这项工作。

当OpenAI首席技术官米拉·穆拉蒂被问及该公司是否使用YouTube视频来训练Sora时,她表示并不确定。当再次被问及训练数据的来源时,她表示不会透露细节。

《纽约时报》称,与OpenAI一样,谷歌也转录了YouTube视频,为其AI模型收集文本,这可能侵犯了视频创作者的版权。去年,谷歌还更改了其服务条款。此番动机意图明显,即允许AI对来自谷歌文档中公开可用文档的数据以及上传到谷歌地图的餐馆评论等其他材料进行训练。

面临“数据瓶颈”

对于科技公司来说,庞大的数据“肥料”是生成式AI的核心养分,也是大模型发展的必争之地。唯有足够的数据才能指导技术即时生成与人类创作相似的文本、图像、声音和视频,实现系统创新。

但随着AI发展,现有互联网信息量的不足、高质量文本数据的匮乏以及科技巨头优质数据的垄断,都可能导致AI“养分不足”。即便谷歌和Meta拥有数十亿用户,每天都会产生搜索查询和社交媒体帖子,但这些数据在很大程度上受到隐私法和自身政策的限制,无法让AI利用这些内容。

这些科技公司的处境似乎十分窘迫。据人工智能研究机构Epoch称,科技公司最快将于2026年耗尽互联网上的高质量数据。这些公司使用数据的速度超过了产生数据的速度。

Meta同样也遇到了训练数据可用性限制。该公司打算采取一些措施,例如支付图书许可费用,甚至直接收购一家大型出版商。Meta也曾作出以隐私为中心的变革,因此它使用消费者数据的方式显然也受到了限制。

在人类数据告急的情况下,不少公司甚至试图用AI“喂”AI。包括微软、OpenAI在内的公司正在把大模型生成的结果,也就是所谓的“合成数据”,“喂”给参数更小的模型。但有研究认为,合成数据最终将让AI“自食其果”。

因版权被多方状告

《纽约时报》去年起诉OpenAI和微软,称其在未经许可的情况下使用受版权保护的新闻文章来训练AI聊天机器人。OpenAI和微软回应称,这属于“合理使用”,或者说是版权法允许的,因为他们为了不同的目的而改造了这些作品。

去年,超过1万个贸易团体、作者、公司和其他人士向美国版权局提交了有关AI模型使用创意作品的意见。

生成式AI的迅速兴起引发了一场全球性的高质量数据竞赛。然而,在这个新领域中,关于什么是合法的、道德的,没有明确规定。

《商业内幕》网称,目前,谷歌、OpenAI和其他科技公司正在辩解,认为将受版权保护的内容用于AI模型训练是合法的,但监管机构及法院尚未对此作出裁决。

美国电影制作人、前演员及作家贾斯汀·贝特曼告诉版权局,AI模型在未经许可或付费的情况下获取了其作品内容。她称,“这是美国最大的盗窃案”。

 


相关文章

北京市2025“中央引导地方”人工智能专项立项公示

北京市科学技术委员会、中关村科技园区管理委员会关于发布2025年度“中央引导地方”专项人工智能领域部分方向拟立项课题公示的通知根据《中央引导地方科技发展资金管理办法》等文件要求,现将2025年度“中央......

重庆“人工智能+科学技术”计划项目申报通知发布

关于申报2025年“人工智能+科学技术”计划项目的通知各有关单位:为深入贯彻落实《国务院关于深入实施“人工智能+”行动的意见》(国发〔2025〕11号),市科技局启动实施2025年度“人工智能+科学技......

AI重塑商业逻辑,高校教育如何迎头赶上?

“当人工智能(AI)重构商业逻辑,当可持续发展成为全球命题,商学教育该如何重塑其DNA?学术界与产业界又该构建怎样的共生生态?”9月5日,北师香港浸会大学校长陈致在首届粤港澳大湾区未来商业论坛上致辞时......

未来智能社会什么样?从AI到AI+

8月26日国发〔2025〕11号颁布了《国务院关于深入实施“人工智能+”行动的意见》这一重要文件,其中特别强调“人机协同、跨界融合、共创分享的智能经济和智能社会新形态”,其核心就是要积极构建“人、机(......

AI“副驾”增强脑机接口操控力

美国科学家研究发现,一个由人工智能(AI)担任副驾的脑机接口或能让瘫痪人士更好地完成任务。该技术能让瘫痪受试者在移动计算机光标或操作机械臂这类任务中的表现提升为原先的近4倍。相关研究9月1日发表于《自......

OpenAI发布语音模型GPTrealtime

8月28日,美国人工智能公司OpenAI发布了其所谓“最先进的语音到语音模型”GPT-realtime,以及配套的Realtime API(实时应用程序接口)。据OpenAI公司介绍,该模型......

人工智能与先进计算融合创新学术会议在沪召开

8月30日,“人工智能与先进计算融合创新学术会议”在复旦大学举行,400余位专家学者参会,共同探讨如何实现人工智能(AI)与先进计算的融合创新,让AI真正走出“工具”窠臼,迈向“自主智能”新纪元。会议......

OpenAI发布语音模型GPTrealtime

8月28日,美国人工智能公司OpenAI发布了其所谓“最先进的语音到语音模型”GPT-realtime,以及配套的Realtime API(实时应用程序接口)。据OpenAI公司介绍,该模型......

研究人员提出生成式人工智能预报洪水新方法

近日,南方科技大学环境科学与工程学院教授郑一团队与中国科学院大气物理研究所等多家单位合作,在《地球物理研究快报》发表最新研究成果,他们提出了生成式人工智能预报洪水的新防范,不仅为洪水预报技术带来了新思......

人工智能助力化学家研发高韧性塑料

麻省理工学院(MIT)与杜克大学的研究人员通过引入机器学习模型识别的应力响应分子,成功研制出抗撕裂性更强的聚合物材料。这项强化聚合物材料的新策略有望催生更耐用的塑料,从而减少塑料废弃物。研究团队利用机......