发布时间:2022-10-12 16:00 原文链接: 《自然》:知名数据库中超34万篇论文涉嫌造假

说起PubMed,很多小伙伴都非常熟悉,这应该算是国内最常用的生物医学相关SCI文献检索数据库,实验室的小白们一开始用的基本都是它。

最近,Nature的一篇报道文章称,就是这样一个广受好评的文献检索集大成者,被一款名为Papermill Alarm的软件工具查出,至少有1%的论文可能出自论文工厂。

1%是个什么概念呢?根据PubMed官网显示,该数据库收录了超过3400万篇生物医学文献,“至少1%”就意味着有超过34万篇论文可能涉嫌造假。

“这个数据太高了,令人担忧。”学术打假人Smut Clyde感叹道,“这些垃圾论文确实会被引用,人们利用它们来支持自己没有出路的研究项目。”

另一位学术打假人Elisabeth Bik则认为,PubMed上出自论文工厂的文章真实数量可能更高,“这些论文会损害科学的声誉和我们对研究论文的信任。”

近年来,被期刊撤销的论文数量不断增加,这些撤稿数据背后,论文工厂扮演了重要角色。日渐规模化、工业化的学术作假手段正在侵袭科学界,打击论文工厂迫在眉睫。

与“论文工厂”的持久战

有学术造假行为,就有打假人的出现。他们与论文工厂之间展开了一场持久战。

多年来,Clyde一直在追踪学术不端行为的证据。与其他学术打假人一起,他标记了数百篇可能是论文工厂生产的文章。这些论文工厂大量生产假学术论文,然后卖给有需要的研究人员。

出版商已经撤回了许多可疑论文,并采取措施阻止期刊接收论文工厂生产的投稿。但问题仍然存在。

Clyde只是从事这种打假工作的众多研究人员中的一员。他们通常是把学术打假作为主要工作之外的一种消遣,所以喜欢用化名进行打假。而有些人则不同,比如Bik和分子肿瘤学家Jennifer Byrne,他们选择实名打假。

今年4月,Clyde的电子邮件地址出现在Research Square服务器上的一篇预印文章中,文章描述了一家论文工厂。这篇文章的作者名叫David Bimler,他是一名退休的心理学家,曾在新西兰梅西大学工作。

在确认Clyde和Bimler是同一个人后,Nature采访了此人,谈论关于论文工厂等问题。

这篇发表在预印本的文章引起了轩然大波。Bimler在文中指出,从2015年到2022年间,有800多篇可疑的化学领域的论文出自同一家论文工厂,这些论文有图像重复、奇怪的措辞、可疑的电邮地址、无意义的引用等特点,并且都声称金属有机框架材料具有杀灭癌细胞或抑制炎症等作用。

“我很惊讶,居然有那么多论文都是关于高级化学和医学应用交叉的。”Bimler表示,金属有机框架确实有一些奇妙的物理特性,所以人们才会对它们如此热衷。但是,认为它们可能具有医学特性的想法是极其牵强的,而这些期刊却接收了数百篇关于它们的论文。

近年来,大规模学术造假事件正在影响着出版商。

比如2021年初,Royal Society of Chemistry Advance期刊撤回了69篇涉嫌学术造假的论文,这些论文都没有共同的作者或机构,但是文中的图标和标题却惊人地相似。官方声明表示,该期刊也是这场“规模学术造假”骗局中的受害者。

该期刊执行主编Laura Fisher意识到,一些论文工厂正在大量生产伪科学文章。

Nature的一项分析发现,自2020年1月以来,各大期刊已经撤回了至少370篇与论文工厂有关的论文,预计未来还会有更多的论文被撤回。

之所以出现这种文献清理行动,很大程度上是因为学术打假人公开标记了他们认为来自论文工厂的可疑论文。

编辑们非常重视这一问题。以至于2020年9月,伦敦的出版伦理委员会(COPE)举办了一个论坛,专门讨论关于“论文工厂系统性地操纵出版过程”这一话题。

Bik是论坛主讲嘉宾,她曾在美国斯坦福大学医学院工作了15年,后来成了一名职业学术打假人,专门调查各类论文图像重复问题以及可能存在的学术不端行为。Bik认为,在文献中还有数千篇这样的论文。“这么多论文都是假的,太令人叹息了。”

根据Nature的统计,到2021年3月,被这些学术打假人列为可疑论文的名单加起来总共有1300多篇。大概约有26%的文章已被撤回或贴上了密切关注的标签,还有许多依然在被调查中。

医学是论文代写的重灾区

在大多数撤回的论文中,医学领域是重灾区。

Nature统计,2020年1月以来,被学术打假人声称出自论文工厂的370多篇撤稿,其作者都来自医院。

2021年7月,Journal of Cellular Biochemistry撤回了129篇来自中国的论文,甚至还专门出了一期增刊Supplement Retraction Issue——一本撤稿论文的合集。尤其令人震惊的是,这里面的所有论文都来自医院群体。

该期刊主编、德国美因茨大学教授Christian Behl甚至还特意写了一篇社论,来解释这次的增刊行为,并对论文工厂表示谴责。“最近,论文工厂成了热议话题,出版商、编辑、评审人等都对这个话题非常关注。论文工厂已对科研诚信造成巨大的威胁。”

美国布拉德利大学的图书管理员Xiaotian Chen说,医生是一个特殊的目标市场,因为他们通常需要发表研究论文来获得晋升,但他们在医院太忙了,真的没有太多时间做科学研究和写文章。

这也是为什么医学领域成了论文造假的重灾区。

问题论文的普遍存在,导致一些期刊编辑怀疑中国医学研究人员提交的论文。2021年2月,Molecular Therapy的一篇社论说,“这种‘问题论文’的数量不断增加,正在严重破坏中国学者从事科研的可信度,并日益使人们对该地区的科学规范性产生怀疑。”

全球最大的科学出版商Elsevier出版服务部门负责人Catriona Fennell指出,出版行业有组织的造假问题并不新鲜,也不仅仅局限于中国。

她对Nature说,“我们在其他几个国家也发现了工业化造假的证据,包括伊朗和俄罗斯。这已经是一个全球性的问题。”

造假“克星”来了

出版商一直在与学术造假作斗争。许多出版商也会使用软件和其他方法来帮助检测欺诈行为和发现造假论文。例如,用一些手稿处理系统就可以检测并标记出来自同一台计算机的许多投稿。

Papermill Alarm的开发者、英国伦敦学术数据服务公司Clear Skies的主管Adam Day则表示,“它分析文本的方法是最新的。”

Papermill Alarm可以海量分析科学论文的标题和摘要,并检测出与造假文章中相似的文本内容,简直就是造假“克星”。

该工具使用一种深度学习算法,将所投文章标题和摘要中使用的语言与已知来自论文工厂的文章进行比较。这一比较是基于由Bik和Bimler(也以化名Smut Clyde闻名)等研究科研诚信的人汇编的论文工厂文章列表。该工具使用交通信号灯模式,给与已知论文工厂文章有很多相似之处的论文分配红色旗,给那些有个别相似之处的论文分配橙色旗,给那些没有相似之处的论文分配绿色旗。

“它不是钓鱼竿,而是像一张渔网。”Day如此评价这款文本分析工具。

其出色功能引起了一些出版商的注意。目前有六家出版商表示,有兴趣使用Papermill Alarm来筛选提交的投稿,其中就包括知名独立学术出版公司SAGE,Day在那里担任数据科学家。

轻松将潜在的造假论文“一网打尽”正在变成现实。这样一款论文检测工具的确让期刊编辑受益,但要说明的是,该软件并不能明确指出一篇论文是否造假,但能够筛选出需要进一步调查的有问题的文章。

参考链接:

https://www.nature.com/articles/d41586-022-02997-x

https://www.nature.com/articles/d41586-022-02099-8

https://www.nature.com/articles/d41586-021-00733-5


相关文章

关于印发《数据库政府采购需求标准(2023年版)》的通知

财库〔2023〕35号党中央有关部门,国务院各部委、各直属机构,全国人大常委会办公厅,全国政协办公厅,最高人民法院,最高人民检察院,各民主党派中央,有关人民团体,各省、自治区、直辖市、计划单列市财政厅......

关于印发《一体式计算机政府采购需求标准(2023年版)》的通知

关于印发《一体式计算机政府采购需求标准(2023年版)》的通知财库〔2023〕31号党中央有关部门,国务院各部委、各直属机构,全国人大常委会办公厅,全国政协办公厅,最高人民法院,最高人民检察院,各民主......

高校教授举报两任院长学术不端,动用职权修改女儿成绩,校方回应!

近日,上海应用技术大学艺术与设计学院教授任晓军发布实名举报视频,称学院原院长及现任院长均存在学术不端行为,前院长李某虎还曾利用职权修改女儿成绩。根据举报视频显示,举报人任晓军是上海应用技术大学艺术与设......

金融机构批量迁移,国产数据库“东风”起

数据库、操作系统和芯片,被视为现代信息技术领域的三大核心,是基础软件“皇冠上的明珠”。随着我国自研数据库能力不断提升,持续经受考验,从银行到保险公司,从到制造企业到新零售行业,越来越多的企业开始将核心......

123页材料举报导师学术造假后续:导师又一篇稿件被期刊撤下

近三年前,一位退学硕士研究生以长达123页的材料实名举报时任天津大学化工学院教授张裕卿学术不端,如今这一事件又迎来了后续进展。 有人注意到,本月稍早前,原张裕卿团队于2019年2月8日在期刊......

三个途径解决生成式人工智能知识产权难题

我国目前的生成式人工智能技术创新还处在初级阶段,法律法规的制定应当给科技创新留有一定的发展空间,对产品在研发阶段的数据合法性要求,应当根据数据类型和基本伦理要求,采取开放包容的规范原则。解决生成式人工......

星际富勒烯红外谱数据库的构建与可靠预测取得进展

富勒烯C60的发现起源于人们对星际碳物质的探索,获得1996年诺贝尔化学奖的Kroto教授曾于1980年代末期提出猜想:星际空间中,富勒烯可与其他星际分子/离子通过离子-分子或分子-分子反应形成富勒烯......

多所高校提出“彻底清理学术不端问题论文存量”

近期,全国多所高校提出“彻底清理学术不端问题论文存量”。科技部办公厅此前已于4月27日印发“关于开展论文学术不端自查和挂名现象清理工作的通知”。据北京建筑大学科学技术发展研究院网站6月7日消息,按照北......

研究发布大豆多维组学数据库SoyOmics

大豆(Glycinemax(L.)Merr.)是重要的粮油作物之一,其产量提升、品质改进关乎全球人口的需求和利益。高通量测序技术的发展促使大豆组学研究不断深入。实现大豆多维组学数据的整合分析,将会为大......

应急管理部:建设乡村灾害风险隐患数据库

国务院新闻办公室15日举行新闻发布会。国务院第一次全国自然灾害综合风险普查领导小组办公室副主任、应急管理部风险监测和综合减灾司司长陈胜介绍,下一步,在普查成果转化为乡村自然灾害防治能力的提升上下功夫。......