发布时间:2013-11-01 13:04 原文链接: 科技文献引用现状及趋势解读

  2012年5月,当Heather Piwowar开始着手调查研究数据公开是否能提高论文引用率时,她从来没有预料到会遭遇困难。作为总部设在温哥华的加拿大开放指标服务 ImpactStory的联合创始人,那时的Piwowar还是美国北卡罗来纳州杜克大学的一名博士后。由于缺乏从机构层面进入Elsevier SCOPUS数据库的途径,Piwowar只有通过和加拿大国家科学图书馆的一份研究协议方才获得了使用权。但是由于她生活在美国,对方要求 Piwowar提供自己的指纹作为证明。“我浪费好几天时间在获取研究所需的引文数据上。这太荒谬了。” Piwowar需要分析10,000多篇文章的引用次数,但是时下很多主要的引文来源,诸如汤森路透科学网,并不支持使用PubMed文献服务系统独特数字标识符的查询。Piwowar说:“要是有公开的引文数据,我早就可以写自己的文章了!”

  Steven Greenberg是美国马萨诸塞州波士顿市哈佛大学医学院的神经病学家,他在通过对重复引用的统计,研究假说是如何被转变为“事实”的时候,也遇到了类似的障碍。Greenberg构建和分析了一个与某个特定的假说相关引文网络,包括242篇论文、675份引文、553个截然不同的引文路径。可是研究的开展非常困难,如果这些引文数据能够轻易在网上获取,那将能使Greenberg少费许多周折。

  在这个开放访问的时代,学者不能免费使用期刊论文上的参考文献进行学术交流,这着实是一桩不可思议的丑事。

  为了改善这种情况,数据应该被视为公共资源的一部分,放置在一个开放的信息库里。为此,自2010年以来,英国信息技术研究与开发资金组织资助了价值13.2万英镑的项目,旨在建立并发展开放引文语料库(OCC)。在开放的学术引用数据方面,OCC还是一个“初出茅庐”的资源库,目前正在寻求可持续的资金,力求在将来成为数字研究基础设施,支持学术事业的基石。

  封闭的数据库

  虽然更为适合的评价指标正在摸索中,直接引用仍然是衡量产出重要性的一个重要指标。学术交流包括引用网络信息和观点的流动,以及随着时间的推移分析网络的变换,从而揭示学者间沟通模式的变换和学科的发展与消亡。这种信息对学术研究至关重要,对于制定正确的研究投资和战略、促进创新、增长和繁荣,特别是在日益国际化的研究合作中也显得越来越重要。

  目前最权威的学术引用数据来源要属汤森路透科学网,它的前身是美国科学家Eugene Garfield于1964年创建的科学文献索引,由科学信息研究所(ISI)出版。而它的主要对手Elsevier诞生于2004年。这两大巨头覆盖了主要的学术文献,但由于都不完整,它们也互为补充。

  为了使用这两大数据资源,英国的每所研究型大学每年都需要支付数万英镑,这相当于其它发达国家研究机构所能获得的款项。此外,订阅这些数据库还需要严格遵守保密协议。如此种种,严重损害了那些不在上述机构工作的群体的利益,包括大多数企业和公众。其他引文信息的重要来源,例如谷歌学术搜索和微软学术搜索,也由商业公司运营,但是无需订阅即可获取。谷歌学术搜索的资源库比同类型的资源库大,因为它不仅包括书籍、论文、预印本、技术报告等等,也包括其他非同行评议的“灰色”文献。

  所有这些资源都有许可限制,阻止对其引文数据的重新发布。基于这个原因,文献计量学论文所能公布的数据非常之少。更糟的是,可用的引用数据还是不准确的。在汤森路透科学网、斯高帕斯数据库、谷歌学术搜索和微软学术搜索上,Shotton的引用记录竟截然不同。例如,Shotton于2009年发表的一篇语义学论文,在这4家平台的引用次数分别是22、 37、88和16。我们该相信哪一个?更令人担忧的是,一篇更早的关于蛋白质结晶学的论文在汤森路透科学网上有3个独立的条目,每个条目的引用次数分别为 59、19和0。据此,汤森路透期刊影响因子的可信度也无法保证。

  解决方案

  OCC,作为一个开放的学术引文数据库也许可以改善上述情况。它的目的是提供准确的引文数据,人们可以自由地查看、引用或用作其它目的,不受到版权或数据库法规的限制。

  OCC 数据库始建于2010年年中,并在2011年年中发布了第一个版本。在这个版本中,有204,637篇文章的参考文献能够通过包含3,373,961篇独立论文所引用的 6,325,178篇参考文献的PubMed OA-PMC开放式访问。虽然目前数据量较小,这个语料库依然包含了大约20%的1950年至2010年所有生物医学文献索引,其中包括了已在 PubMed发表的每个生物医学领域的高引用频次论文。OCC的工作人员目前正在修改数据模型,提高其托管的基础设施,扩大其覆盖范围,从最初的 672,442篇,更新OA-PMC文章量超过一倍。

  理想的情况下,引用文献会直接从出版商在文章发布时获得。但是大多数出版商都将参考文献列表划归在付费订阅的类别里,因为这些文章要受到版权保护。目前OCC已经与几家主要的期刊出版商制定了合作协议,包括自然出版集团(NPG),牛津大学出版社,美国科学促进协会(科学),英国皇家学会出版,波特兰新闻,麻省理工学院出版社等。

  OCC的长期目标是汇集世界范围的学术文献,以及艺术、人文科学等学科的引文信息。当然这还需要很长的一段路要走。

  开放的时代

  理想情况下,出版商会把自己的出版书目和引用数据拿出来分享,比如自然出版集团把自己的数据发布在data.nature.com上。它是第一家也是唯一一家将数据共享的公司。

  但是,如果能够将这类数据整合在一起,势必会获得更大的收益。OCC将为用户浏览引用数据提供完整的权限,这些数据的来源非常广阔,既有传统学术出版物的数据,也有其他数据,并且所有数据都会标明来源。OCC将把文章与文章、文章与数据库、数据库与文章引用的关系清晰展现出来。此外,还将提供附加信息,例如作者、机构成员、共同的资助人、文章间语义关系,以及数据来源。

  一旦引用数据被公开,其它有益的分析服务也将开展,包括面搜索与浏览工具、建议与趋势识别服务,以及时间表可视化服务。对于这些服务,OCC目前已经开发出了其中几种的原型。OCC对统计引用指标的巨大价值也将随着其覆盖面的延伸而增加。

  除此之外,还有另外一个服务,它尤其对作者和编辑有益,那就是错误引用更正服务。出版论文的引用中有约1%存在着不同程度的错误,例如在引用标题中将“β淀粉酶”误写成“β-淀粉酶”,或者对作者名字中符号的疏忽;严重一些的包括年份、期刊号、页码或者DOI的错误。OCC已经在内部使用引用更正方法,以处理多次引用问题,或者通过外部资源获取权威书目记录来减少谬误。

  未来的道路

  接下来,OCC会有怎样的发展呢?10年前的1999年到2002年,由英国南安普顿大学、美国纽约州伊萨卡市康奈尔大学以及arXiv网站共同构建的项目也有一个具有相似目标,旨在开放引文数据的项目存在,名为开放引文计划。该项目开发了一款名为引用库的软件,能将引用信息记录下来,该软件的设计者将它描述为“开放引文计划皇冠上的珠宝”。但是,如今再点击该项目的网址,得到的提示却是:该网址没有网站链接。

  要想从一个雄心勃勃计划项目过渡到现实的全球性服务并将它长期维持下去是非常困难的。OCC为了避免与引用库相同的命运,使它得到全面的发展并最终向整个学术界各个学科提供令人信任的引用数据开放服务,需要拥护者、管理者、开发者以及监督者共同的努力。它也需要怀有相同目标的同道中人精诚合作、来自资助者充足持续的资金、支持者和投资者提升社会福利的决心,而不是以经济回报为导向,还需要来自出版界的鼎力支持、重要机构或国际组织的认可。

相关文章

中国新能源汽车大数据产业大会召开

3月19日,“中国新能源汽车大数据2023年产业大会”在沈阳市举办。大会由沈阳市人民政府和新能源汽车国家大数据联盟(以下简称“联盟”)共同主办。辽宁省副省长姜有为、工信部装备工业一司副司长郭守刚等共同......

中国首次获得遥感数据融合大赛举办权

近日,中国科学院空天信息创新研究院牵头,联合中科星图股份有限公司、中科星图数字地球合肥有限公司与德国慕尼黑联邦国防军大学共同申请,成功获得遥感数据融合大赛(DataFusionContest,DFC)......

如何理解数据是新型生产要素

数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各个环节,深刻改变着生产方式、生活方式和社会治理方式。我国具有数据规模和数据应用优势,积极探索推进......

“数据跟着算力跑”到“算力围着数据转”的嬗变

“摩尔定律被打破后,什么将推动超级计算机性能的发展?”12月13日,在今年的CCFHPCChina2022上,2021年度图灵奖获得者、来自美国田纳西大学和橡树岭国家实验室的杰克·唐加拉教授在演讲的最......

卫生健康信息基本数据编制标准出台,一项面临废止

现发布《集卫生健康信息基本数据编制标准》等2项推荐性卫生行业标准,编号和名称如下:WS/T370—2022卫生健康信息基本数据集编制标准(代替WS370—2012)WS/T811—2022血站信息系统......

“数据驱动的新地学”科学与技术前沿论坛在京举行

10月29至30日,中国科学院学部“数据驱动的新地学”跨学部科学与技术前沿论坛”暨ScienceBulletin第二届地球科学前沿学术沙龙在中国科学院学术会堂举行。此次论坛围绕“数据驱动的新地学”这一......

国家统计局又一数据,这个行业还不稳定

国家统计局服务业调查中心、中国物流与采购联合会10月31日发布数据,10月份,中国制造业采购经理指数(PMI)为49.2%,在调查的21个行业中,有11个位于扩张区间,制造业景气面总体稳定。国家统计局......

我国发布更新第二款全球海洋Argo网格数据集

近日,由上海海洋大学和自然资源部杭州全球海洋Argo系统野外科学观测研究站联合研制的全球海洋Argo网格数据集(简称GDCSM_Argo)在国际Argo官方网站正式发布,这是我国在国际上公开发布并定期......

研究显示:全球50岁以下人群癌症发病率上升

近几十年来,越来越多的50岁以下成年人患上癌症。美国科学家进行的一项研究显示,早发型癌症(50岁之前被诊断出的癌症,包括乳腺癌、结肠癌、食道癌、肾癌、肝癌和胰腺癌等)的发病率,从1990年开始在世界范......

打造面向开放科学的“数据共享”新未来

“对于全球科技期刊来讲,开放科学带来了学术交流模式的变革,从原来传统的学术交流模式,转向新型的学术交流模式。”8月25日,中国科学院文献情报中心副主任、研究馆员张智雄在第十七届中国科技期刊发展论坛“开......