发布时间:2021-01-16 18:02 原文链接: 《中国科学数据》:从根源唤醒沉睡的数据

  近年来,因“原始数据丢失,工作无法重复”造成的撤稿事件屡见不鲜。

2020年1月,2018年诺贝尔化学奖得主Frances H. Arnold撤掉了2019年5月发表在《科学》上的一篇论文,原因是缺失了关键的原始数据,致使研究成果无法重复。

“只发表论文不公开研究数据,可能会导致科学研究成果无法复现,不仅会降低论文的可信度,还可能衍生学术不端等行为。但如何让科学家自愿分享科研数据是长期以来难解的问题。”《中国科学数据(中英文网络版)》(以下简称《中国科学数据》)常务副主编、中国科学院计算机网络信息中心(以下简称网络中心)研究员黎建辉在接受《中国科学报》采访时坦言。

“科学家科研贡献和学术声望评价机制不改变,是阻碍科学数据开放共享实践的一个根本问题。”《中国科学数据》主编、中国科学院院士郭华东认为,“数据出版可使数据达到可引用和永久可访问的状态,促使数据尽快纳入科研评价体系,是科研共同体的试金石、防腐剂。”

走出“深闺”

随着信息技术的发展,数据存储和传播所面临的容量、时间和空间藩篱已被打破,科学数据共享不仅是学术界枯苗望雨之盼,更是影响国家安全和科技进步的重要战略。

作为《中国科学数据》的主办单位,多年来,网络中心积累了丰富的数据资源,开展了一系列的数据共享探索,但效果仍不理想,“一方面科学家不愿意共享数据,另一方面数据共享没有正式的渠道和规范的标准,而造成科学家将数据‘攥’在手中的根本问题就是数据权属和激励机制问题。”黎建辉意识到。

2012年,国际上数据期刊开始呈发展态势,国内科学数据开放共享领域的研究者们也逐渐意识到数据出版是我国数据共享发展的必然之路。

然而,申请刊号成为当时最难的事情。“我国对刊号的审批非常严格,数据期刊作为新事物,申请刊号更是难上加难,很多人甚至不明白数据出版究竟是什么。”黎建辉说。

2015年,国家新闻出版广电总局开展网络连续型出版物规范管理试点工作,独具网络出版特性的《中国科学数据》抓住了这一机遇,正式获批刊号,成为我国首个专门面向多学科领域的科学数据出版的在线学术期刊。

存储对数据发表工作至关重要,为此,网络中心还自主研发了一套支持数据出版的工作平台,由中国科学数据在线工作平台和科学数据存储库系统ScienceDB(科学数据银行,以下简称ScienceDB)共同构成。

海军大连舰艇学院教员郑崇伟长期致力于海洋研究,他发现,当海洋研究人员需要数据时,通常先想到的是NOAA、NASA等机构,我国海洋数据在国际上的认可度还有待提高。“我们希望将团队制作的海洋数据向国际同行分享,展示我国科研人员在海洋大数据研究方面的积极贡献,提高国际话语权。”

然而,分享之路困难重重。“在数据出版之前,国外同行通常会通过邮件等方式向我们索要数据,他们提供的数据上传网站极难登陆,而且数据没有编号,我们也无法告知其数据如何引用。”郑崇伟坦言,“《中国科学数据》及其存储平台解决了我们的烦恼,我们的数据集有了‘身份证’,不但引用规范起来,引用率也提高了很多。”

2015年,中国科学院空天信息创新研究院副研究员邱玉宝刚结束在地球观测组织(GEO)的任职,他开始对此前的课题成果数据进行梳理,“一方面,希望数据有存储地方,节省查找时间,也便于分享,另一方面,我们想紧跟国际数据公开共享的发展趋势。”

在了解到网络中心开展数据出版并筹建了ScienceDB后,邱玉宝便借助这个平台公开数据,让他没想到的是,数据公开后得到多个平台的转载,《青藏高原MODIS逐日无云积雪面积数据集》(以下简称积雪数据集)是目前通过ScienceDB平台下载量最多的数据集,还被科技部成立的多个国家级数据中心转储。

“问渠哪得清如许,为有源头活水来。为唤醒沉睡的数据,《中国科学数据》希望为科研共同体输送源头活水,承载数据,问路未来。”郭华东表示。

不止是“期刊”

期刊名字加不加“中国”?办英文的还是中文的?做专业领域还是多学科领域……

实际上,在刊号管控严格的背景下,如果期刊名称加上“中国”二字,则意味着刊号批复更加困难,“必须加‘中国’,这是我们的责任和使命。我们要将中国优质的数据推出去,但并不意味着我们只局限于中国的数据。”《中国科学数据》编辑部主任孔丽华掷地有声地说。

“中国需要一个本土的期刊,所以我们摒弃了纯英文期刊的想法,创办了中英文双语期刊。”黎建辉说,“不仅如此,我们还希望推动多学科的数据共享,不仅局限于某个领域。”

为了更好的展现“中国”力量,网络中心自主研发了ScienceDB和中国科学数据在线工作平台,“国外也有现成的出版平台,但中国应该有自己的核心技术,而且国外的平台未必就完全适合国内出版情景。”黎建辉表示,“我们希望建立一个能为多种期刊服务,适用于多种不同审稿流程的平台,而实现这种灵活性具有很大难度。”

经过团队两年之久的攻艰,数据出版平台终于搭建成功,解决了众多数据集的共享之困。“磨刀不误砍柴工,好的系统可以帮助我们做很多事情,后期我们可以省很多力。”黎建辉说。

从2015年完成第一套数据集公开后,邱玉宝就开始陆续通过此平台共享科学数据,其中积雪数据集至今已被20多个国内外单位引用,不仅在气候变化等领域被应用,还在其他工程领域得到很好的应用,还有学者基于这套数据完成了博士论文的核心章节,“作为一名科研人员和数据生产者,这是我没有预想到的,也促使我后续发表更多的数据。”

“数据不仅要公开,还要高质量的公开,只有高质量的数据才更具有传播性和应用性。”在荣获“ScienceDB科学数据奖”个人成就奖后,邱玉宝感慨道,“数据共享让数据不再停留在硬盘里面,而是实实在在的走向了应用,走完了数据生命周期的完整价值链,真正被他人在不同的领域应用起来了。”

在郑崇伟看来,如何从体量大、信息密度低的原始数据中提取有用信息,并形成数据集,是高效开展海洋建设,实现我国海洋数据弯道超车的关键。“但有些数据期刊发表论文后,需要作者寻找平台存储数据集,《中国科学数据》一站式解决了论文发表和数据存储的问题,我们研制的首套《“海上丝绸之路”·海洋环境与新能源数据集》发表后,得到国际同行的广泛应用和高度评价。”

在黎建辉看来,《中国科学数据》不止是一本期刊。“它只是一个按照期刊模式推动数据共享的平台,期刊只是演进的第一步,未来将借助大数据等特点,将数据跟科研活动融合得更加紧密。”

“两条腿”走路

数据论文应该是什么样?数据论文和数据集怎么审、审什么?数据期刊的标准怎么定……

“论文出版有悠久的历史,形成了成熟的出版体系,而数据出版不同,作为一个新事物,我们必须建立一套新的数据出版流程。”黎建辉回忆道。

为更好地盘活数据,推动数据共享,提高数据出版速度,《中国科学数据》制订了两个审核阶段,第一阶段是预出版,第二阶段是同行评议。

“预出版阶段属于技术审核,对于提交的数据论文和数据集,首先由编辑部的数据审核员和论文审核员分别审核,通过初审的论文和数据集会直接在网上公布,通常只需三天左右。”孔丽华说,“预出版不仅可以让数据集得以快速公布和引用,学者还能对其开放讨论,并提出问题和建议。”

“同行评议阶段属于专家审核,通过初审的数据论文和数据集会送至既有学科背景,又了解数据的审稿专家,一般45天左右就能完成审稿。”孔丽华进一步解释道。

“数据期刊的发展要‘两条腿’走路,从数据共享的初心角度,不能仅把它看成刊物,要做更多盘活数据的事情;从办刊的角度,又要重视刊物的载体,努力追求优质的数据和更好的传播力。”孔丽华说。

因此,编辑部会围绕国家重大战略和国际前沿等问题主动组稿和约稿,“对于自由来稿,我们不会只看被引率而轻易拒稿,数据好不好用,最终还要用户说了算。”孔丽华说。

实际上,创刊初期,为了获得好稿源,黎建辉时常要带着大家四处“化缘”,“我国有丰富的数据资源,与学术论文紧密关联的数据集都隐藏在冰山之下,但当时大家对数据出版没有意识,当理念疏通后也就水到渠成了。”

截至2020年12月底,《中国科学数据》已经正式出版了专题特色数据集17期,期刊出版与论文发布合计约335篇,数据总量达到762.86GB。

“像战友一样”

随着期刊的发展和办刊理念的进步,投稿体验成为期刊越来越关注的方面,这也成为期刊扩大稿源,维系作者的“软实力”。

数据出版流程不同于论文出版被作者所熟知,郑崇伟回忆说:“第一次向《中国科学数据》投稿时,数据描述、标准格式上传等都是第一次接触,编辑非常细心地提供数据论文的模板,并分享经验、主动提供帮助。”

“整个投稿过程‘如沐春风’”,郑崇伟评价道,“一方面这支队伍严谨负责,另一方面他们就像靠背作战的‘战友’一样,不但不会加压,还会时常询问我们的进度,主动为我们解决各种问题,对于已出版的数据集,他们还积极帮我们宣传,本身很苦的活儿一下有了‘温度’。”

实际上,在作者“如沐春风”的体验之后,是编辑团队不知疲倦地付出。“从跟踪研究项目、策划主题、跑专题、联系专家、确认组稿,到收稿审核、同行评议、主编终审,再到编辑排版、最终出版,乃至出刊后的宣传推广等,实际上,期刊编辑的工作非常繁琐。”孔丽华说。

但让孔丽华欣慰的是,这支编辑队伍虽小但“精”,“所有人都任劳任怨,用心做事,希望能为我国数据共享和数据出版贡献自己的力量。”

对于期刊未来的发展,黎建辉表示:“第一是要继续扩大稿源,丰富稿源的学科类型;第二是要站位更加高远,围绕国家重大战略和国际前沿开展数据共享推动工作;第三是推动数据引用的分析和统计工作,这是促进科学家共享数据的有效激励机制。”

期刊简介:

相关文章

国家统计局发布重磅数据

国家统计局4月27日发布数据显示,1-3月份,全国规模以上工业企业实现利润总额15055.3亿元,同比增长4.3%。“总体看,一季度规上工业企业利润保持增长态势。”国家统计局工业司统计师于卫宁表示,“......

生成式AI时代,大模型数据安全如何保障?

在生成式AI(人工智能)时代,数据安全的出路可能会是“用魔法打败魔法”,知识产权保护也可能要提前到token(字符串)层面。4月26日,在2024中关村论坛上,人工智能企业与学者就AI大模型的数据安全......

智能网联数据应用创新联合体在津成立

3月31日,智能网联数据应用创新联合体成立大会暨首届智能网联数据要素生态创新会议在天津大学举行。联合体在现场发布了天津市智能网联数矿体系,公布了首批智能网联数据产品供需意向清单。随后,首批智能网联数据......

2024年全国数据工作会议在京召开健全数据基础制度数字化赋能高质量发展

4月1日至2日,2024年全国数据工作会议在北京召开,这是国家数据局正式挂牌后的首次全国数据工作会议。会议从着力健全基础制度、释放要素潜能、加快转型赋能、促进科技创新、完善基础设施、强化安全保障、推进......

全国政协委员宋树立:建议医院检查结果互认互通,四步走

聚焦两会,我们也十分关注建议提案。全国政协委员宋树立建议医院检查结果互认互通。宋树立表示医院检查结果是指对超声X光、核医学等等这些检查所形成的数据或者图像,以及像对血液等其他的一些样本,通过血液学、细......

财政部:进一步提高政府采购信息查询使用便利度

28日,财政部发布关于进一步提高政府采购信息查询使用便利度的通知。财办库〔2024〕30号各省、自治区、直辖市、计划单列市财政厅(局),新疆生产建设兵团财政局:为加强全国政府采购数据共享共用,进一步提......

《数据与情报科学学报(英文)》:致力加深社会对科研生态的理解

正如联合国教科文组织所说,科学是人类最伟大的集体事业。公众、科学家和政府都是科学事业的直接或间接参与者。他们对科学的理解和认知共同影响着科学能否有效地回应社会现实。例如,在流行病期间,保持社交距离等社......

第二批国家计量数据建设应用基地拟批准筹建

为加强计量数据建设和应用,充分挖掘释放计量数据效能,促进计量数据向现实生产力转化,按照《“十四五”市场监管现代化规划》(国发〔2021〕30号)、《计量发展规划(2021—2035年)》(国发〔202......

厚植新质生产力释放更强动力本市十大高精尖产业均破千亿级

北京高精尖产业结构更显“含金量”。记者日前从2024年全市经济和信息化工作会上获悉,去年,本市十大高精尖产业全部突破千亿级,新一代信息技术集群产值更是突破三万亿。今年将释放更强动力,规模以上工业增加值......

国家数据局:多措并举推进“数据要素×”行动落地

1月7日,国家数据局局长刘烈宏在出席主题为“增长动能中国探索”的第二十五届北大光华新年论坛时表示,将数据作为生产要素,是我国首次提出的重大理论创新。国家数据局正在推进的重点工作之一,就是充分发挥数据的......