发布时间:2022-07-20 10:48 原文链接: 涉清华北大等多单位合作的文章被指抄袭调查结果出炉

  随着深度学习的快速发展,为多个下游任务训练大模型(BM)成为一种流行的范式。研究人员在BMs的构建和BM在多个领域的应用方面取得了多方面的成果。目前缺乏梳理BMs整体进展并指导后续研究的研究工作。

  2022年3月26日,清华大学、东北大学、纽约大学、北京大学、哥伦比亚大学、哈尔滨工业大学、北京航空航天大学、上海交通大学、蒙特利尔大学等多单位合作,唐杰等100多为作者在预印版平台arXiv 在线发表题为“A Roadmap for Big Model”的综述文章,该综述不仅涵盖了 BM 技术本身,还涵盖了 BM 培训和应用 BM 的先决条件,将 BM 审查分为四个部分:资源、模型、关键技术和应用。该综述在这四个部分中介绍了 16 个具体的 BM 相关主题,它们是数据、知识、计算系统、并行训练系统、语言模型、视觉模型、多模态模型、理论与可解释性、常识推理、可靠性与安全性、治理、评估、机器翻译、文本生成、对话和蛋白质研究。在每个主题中,清楚地总结了当前的研究并提出了一些未来的研究方向。在本文的最后,以更一般的观点总结了 BM 的进一步发展。

  但是,近期该文章涉嫌抄袭Katherine Lee等人先前发表的文章,arXiv也在该文章做了文章重叠的警示。

  2022年4月13日14:18,该文章的第一作者单位北京智源人工智能研究院发布说明称,已展开调查,对学术不端零容忍。

  2022年4月13日21:53,北京智源人工智能研究院分布了初步的调查结果,指出该文章部分章节抄袭Katherine Lee等人发表的文章,北京智源人工智能研究院决定立即从报告中删除相应内容,报告修订版4月13日将提交arXiv进行更新。目前已通知所有文章的作者对所有内容进行全面审查,后续经严格审核后再发布新版本。另外,对这一情况,研究院立即组织内部调查,确认部分文章存在问题后,已启动邀请第三方专家开展独立审查,并进行相关追责

  2022年7月15日,北京智源人工智能研究院发布了关于“A Roadmap for Big Model”综述报告问题调查和处理的通报,指出鉴于抄袭和组织失察责任人均为智源研究院大模型研究中心人员,智源研究院决定重组该部门,上述相关责任人均已主动离职。

  2021年7月14日,Katherine Lee等人在预印版平台arXiv 在线发表题为“Deduplicating Training Data Makes Language Models Better”的研究文章,该研究开发了两种工具,允许研究人员对训练数据集进行重复数据删除——例如,从 C4 中删除重复超过 60,000 次的单个 61 个单词的英语句子。重复数据删除使研究人员能够训练发出记忆文本的频率降低十倍的模型,并且需要更少的训练步骤来达到相同或更好的准确性。 该研究还可以减少训练测试重叠,这会影响超过 4% 的标准数据集验证集,从而可以进行更准确的评估。

  2022年3月26日,清华大学、东北大学、纽约大学、北京大学、哥伦比亚大学、哈尔滨工业大学、北京航空航天大学、上海交通大学、蒙特利尔大学等多单位合作,唐杰等100多为作者在预印版平台arXiv 在线发表题为“A Roadmap for Big Model”的综述文章,该综述不仅涵盖了 BM 技术本身,还涵盖了 BM 培训和应用 BM 的先决条件,将 BM 审查分为四个部分:资源、模型、关键技术和应用。

  但是,近期Katherine Lee爆料,唐杰等人发表的文章与Katherine Lee等人先前发表的“Deduplicating Training Data Makes Language Models Better”文章存在大量重叠。

  由于Katherine Lee的爆料,arXiv也在唐杰等人发表的文章做了文章重叠的警示。

  该文章的第一作者单位北京智源人工智能研究院发布说明称,已展开调查,对学术不端零容忍。

  2022年4月13日,北京智源人工智能研究院分布了初步研究调查报告:

  今天我们从互联网上获悉,智源研究院在预印本网站arXiv发布的综述报告“A Roadmap for Big Model”(大模型路线图)涉嫌抄袭。对这一情况,研究院立即组织内部调查,确认部分文章存在问题后,已启动邀请第三方专家开展独立审查,并进行相关追责。

  对于这一问题的发生,我们深感愧疚。智源研究院作为一家科研机构,高度重视学术规范,鼓励学术创新和学术交流,对学术不端零容忍。在此,我们向相关原文作者和学术界、产业界的同仁和朋友表示诚挚的道歉。

  2022年7月15日,北京智源人工智能研究院发布了关于“A Roadmap for Big Model”综述报告问题调查和处理的通报,指出鉴于抄袭和组织失察责任人均为智源研究院大模型研究中心人员,智源研究院决定重组该部门,上述相关责任人均已主动离职。

相关文章

直接复制粘贴?超5000人举报该校网红姐妹学术造假

宾夕法尼亚大学(UniversityofPennsylvania),简称宾大(UPenn),位于宾夕法尼亚州最大城市费城,是一所全球顶尖的私立研究型大学,著名的八所常春藤盟校之一,美国大学协会14所创......

涉嫌图片问题,诺奖得主数十篇论文遭调查

2019年诺贝尔生理学或医学奖获得者格雷格·塞门扎参与合著的几篇研究论文如今正在接受出版商的调查。此前,互联网上已对其论文图像的完整性产生了质疑。据《自然》报道,塞门扎任职于美国约翰斯·霍普金斯大学,......

直博北大研究生被告抄袭,声称自己也是受害者

据了解,四川大学研究生小李(化名)在个人社交平台上发文称,自己在2019年发表的论文被人抄袭,且涉嫌抄袭论文的南开大学学生小王(化名),目前已被北京大学物理学院拟录取为免试博士研究生。在接受媒体采访时......

刚刚,又一大学宣布:认定抄袭,撤销学位!

综合台湾“中央社”、《联合报》报道,新竹市前市长林智坚台大硕士论文涉抄袭被撤销学位后,中华大学也审查他于2008年的硕士论文是否抄袭,并于今日(24日)公布审议结果,认定其论文确实存在抄袭情事且情节重......

硕士论文抄袭、导师“自杀式挡枪”,当事人:我是受害者

8月9日,台湾大学学术伦理审定委员会审定,前新竹市长林智坚在台大的硕士论文,抄袭学长余正煌的硕士论文,且情节严重,建议撤销其硕士学位。自7月6日台大教务处接获检举信起,此论文审查风波已历时一月有余。台......

涉清华北大等多单位合作的文章被指抄袭调查结果出炉

随着深度学习的快速发展,为多个下游任务训练大模型(BM)成为一种流行的范式。研究人员在BMs的构建和BM在多个领域的应用方面取得了多方面的成果。目前缺乏梳理BMs整体进展并指导后续研究的研究工作。20......

涉清华北大等多单位合作的文章被指抄袭调查结果出炉

随着深度学习的快速发展,为多个下游任务训练大模型(BM)成为一种流行的范式。研究人员在BMs的构建和BM在多个领域的应用方面取得了多方面的成果。目前缺乏梳理BMs整体进展并指导后续研究的研究工作。20......

涉清华北大等多单位合作的文章被指抄袭调查结果出炉

随着深度学习的快速发展,为多个下游任务训练大模型(BM)成为一种流行的范式。研究人员在BMs的构建和BM在多个领域的应用方面取得了多方面的成果。目前缺乏梳理BMs整体进展并指导后续研究的研究工作。20......

涉清华北大等多单位合作的文章被指抄袭调查结果出炉

随着深度学习的快速发展,为多个下游任务训练大模型(BM)成为一种流行的范式。研究人员在BMs的构建和BM在多个领域的应用方面取得了多方面的成果。目前缺乏梳理BMs整体进展并指导后续研究的研究工作。20......

韩国AI团队抄袭震动学界!1个导师带51个学生,抄袭惯犯

今年CVPR,着实有点魔幻了!先是韩国首尔大学AI团队的Oral,即前4%的优秀论文,被曝出涉嫌抄袭10篇论文。有的地方,连一个单词都没有变。事发当日即登上韩国头条,国内外网友震惊:搞到CVPR上也太......