发布时间:2024-08-16 14:08 原文链接: 学术论文正被高价出售给大模型训练,作者却零收入

·越来越多的学术出版商正将研究论文卖给科技公司用以训练人工智能(AI)模型,而作者收入为零。

大语言模型(LLM)因训练数据问题再次引发争议。日前,国际著名期刊《自然》(《Nature》)杂志编辑伊丽莎白·吉普尼(Elizabeth Gibney)发布一篇题为《你的论文被用来训练人工智能模型了吗?几乎可以肯定》一文。文中作者表示,当前有越来越多的学术出版商正在将研究论文授权给科技公司,用于训练人工智能(AI)模型。有学术出版商借此赚取了2300万美元,而作者却收入为零。这些交易在很多情况下并未征求作者的意见,引发了部分研究人员的强烈不满。

“如果你的论文还没有被用作AI训练数据,很可能很快就会成为训练的一部分。”伊丽莎白·吉普尼在文中指出,当前学术论文作者在面对出版商出售其版权作品时几乎无权干涉。对于公开发表的文章,也没有现成机制来确认这些内容是否被用作AI训练数据。在大语言模型使用中,如何建立更加公平的机制保护创作者的权益,值得学术界和版权界广泛讨论。

大语言模型(LLM)通常依赖从互联网上抓取的大量数据进行训练。这些数据包括数十亿片段的语言信息(称为“标记”),通过分析这些标记之间的模式,模型得以生成流畅的文本。学术论文因其内容丰富、信息密度高,相比大量普通数据更有价值,是AI训练中的重要数据来源。数据分析师斯特凡·巴克(Stefan Baack)来自全球非营利组织Mozilla基金会,他分析指出,科学论文对大语言模型的训练有很大帮助,尤其是在科学主题上的推理能力方面。正是由于数据的高价值,各大科技公司纷纷斥巨资购买数据集。

该文指出,今年《金融时报》与OpenAI达成协议,将其内容授权给后者;被称为“美国贴吧”的Reddit也与谷歌签署了类似的交易。这些交易体现出版商试图通过合法授权避免自己的内容被AI模型无偿抓取。

文章透露,上月英国的学术出版商Taylor & Francis与微软签署了一项价值1000万美元的协议,允许微软访问其数据以改进AI系统。而在6月,美国出版商Wiley通过向某家公司提供内容用于AI训练,收入高达2300万美元。而这些巨额收入与论文作者没有任何关系。

当前,研究人员正尝试用技术手段帮助作者识别其作品是否被用于AI模型训练。西雅图华盛顿大学的人工智能研究员露西·卢·王( Lucy Lu Wang) 称,如果一篇论文已经被用作模型的训练数据,在模型训练完成后就无法将这篇论文移除。

不过,即便能证明论文被用于AI训练,但在法律层面仍然面临争议。文中指出,出版商认为,使用未经授权的受版权保护内容进行训练是侵权行为;而另一种法律观点则认为,大语言模型并未直接复制内容,而是通过学习来生成新文本。

值得注意的是,并非所有研究者都反对将他们的作品用于AI训练。斯特凡·巴克表示,他很乐于看到自己的研究成果被用来提高AI的准确性,并且不介意AI“模仿”自己的写作风格。然而,他也承认,并非所有人都能轻松应对这一问题,尤其是那些面临AI竞争压力的职业,如艺术家和作家。

事实上,关于使用受版权保护的知识作品来训练 AI 模型的诉讼案件此前已引起过广泛关注。

8月14日,《华盛顿邮报》报道,美国多名视觉艺术家和插画家对AI图像生成工具的集体诉讼案取得突破进展。他们曾指控Midjourney和Stability AI等初创公司在未经同意的情况下使用作品来训练AI模型。这起案件在本周取得了关键性进展。美国地区法官威廉·奥里克允许该案的关键部分继续推进,这意味着法庭已经决定某些指控有足够的法律证据,可以继续审理下去,接下来随着法律审理的过程,可能会披露这些公司在开发AI工具时的内部交流情况。

 


相关文章

2025年底实现开放获取?美国正推动这一目标实现

两年前,美国总统拜登领导的政府呼吁,在2025年底前美国联邦政府资助的研究项目所发表的学术论文实现免费获取,从而撼动了科学出版业。截至目前,美国国立卫生研究院(NIH)和能源部(DOE)已基于这一目标......

学术论文正被高价出售给大模型训练,作者却零收入

·越来越多的学术出版商正将研究论文卖给科技公司用以训练人工智能(AI)模型,而作者收入为零。大语言模型(LLM)因训练数据问题再次引发争议。日前,国际著名期刊《自然》(《Nature》)杂志编辑伊丽莎......

学术论文正被高价出售给大模型训练,作者却零收入

·越来越多的学术出版商正将研究论文卖给科技公司用以训练人工智能(AI)模型,而作者收入为零。大语言模型(LLM)因训练数据问题再次引发争议。日前,国际著名期刊《自然》(《Nature》)杂志编辑伊丽莎......

“论文工厂”要倒闭?国内首个学术论文诚信监测系统上线

近年来,科研论文的学术不端广受大家关注。近日,国内知名科研工具箱平台——科研者之家(HomeforResearchers)发布了国内首个学术论文诚信监测系统,包括Crosscheck文字查重,Figc......

中国林科院获评中国百篇最具影响国内学术论文

近日,中国科技论文统计报告发布会在京举行,会上公布了2022年度中国百篇最具影响国际学术论文和中国百篇最具影响国内学术论文。其中,中国林科院原院长刘世荣研究员为第一作者和通讯作者发表在《生态学报》上的......

科技部:已开发智能工具监测近年发表的学术论文

12月1日,科技部网站发布对近期查处的论文造假有关情况的通报。根据通报,近期有119篇造假论文被查处,共有293名责任人被处理。其中,撤销学位的9人;撤销职称的20人;取消一定年限晋升职务、职称资格的......

地理资源领域高质量科技期刊分级目录(406种)

中国地理学会发布了2020年度地理资源领域高质量科技期刊分级目录。自然地理学领域T1(共44种期刊)、T2(共34种期刊)、T3(共30种期刊);人文地理学领域T1(共42种期刊)、T2(共31种期刊......

能源电力领域高质量科技期刊分级目录(121种)

中国电机工程学会遵照同行评议、价值导向、等效应用原则,完成了科技工作者推荐、专家评议、结果公示等规定程序,形成了《能源电力领域高质量科技期刊分级目录》。该《目录》涵盖“能源与电力综合”、“能源与发电技......

能源电力领域高质量科技期刊分级目录(121种)

中国电机工程学会遵照同行评议、价值导向、等效应用原则,完成了科技工作者推荐、专家评议、结果公示等规定程序,形成了《能源电力领域高质量科技期刊分级目录》。该《目录》涵盖“能源与电力综合”、“能源与发电技......

临床医学领域高质量科技期刊分级目录(547种)

遵照同行评议、价值导向、等效应用原则,中华医学会通过科技工作者推荐、专家评议、结果公示等规定程序,于2019年9月公布了第一批我国高质量科技期刊分级目录(临床医学领域科技期刊分级目录涵盖心血管病学、内......