发布时间:2016-08-16 14:09 原文链接: 免费网站“试水”数据二次发布

将来自上百万项生物学研究的知识编译到一个网络中——这是Daniel Himmelstein对Hetionet的诱人描述。Hetionet是将来自药物、基因和疾病的28个公共资源的数据聚合在一起的免费在线资源。不 过,对于一个以公共信息为基础构建的产品来说,获得法律许可异常艰难。

当身为美国宾夕法尼亚大学数据科学家的Himmelstein联系研究人员以获得公开再现其工作的许可时,很多人对于他要询问此事表示惊讶。“我从未想到这里面还存在许可问题。”奥地利科学院分子医学研究中心生物信息学家Jörg Menche说。

Menche很快表示同意,但并非每个人都这么配合。一个研究小组从未答复Himmelstein,还有3个小组给出了答复,但仍未澄清可能的法律纷争。 最终,Himmelstein在今年7月公开了Hetionet的最终版本——去掉了一个禁止再次发布的数据集,但将仍缺少再出版明确许可的3个数据集包 括了进来。Himmelstein表示,这种混乱表明,很多研究人员并不理解简单地公开发布数据集并非意味着其他人能合法地将其再次发布。

在Himmelstein看来,这种混乱会阻碍科学的发展,因为研究人员将不被鼓励把数据集整合到更加有用的资源中。同时,随着科学家在网上发布更多信息,它还会带来越来越多的问题。“科学正愈发依赖于对数据的再次利用。”Himmelstein说。

由于一条数据或者说一个事实无法受到版权保护,因此很多科学家认为,那些未设置使用细则和条款的公开发布的数据集能被再次发布,而不会出现法律问题。不过,英国诺丁汉大学知识产权法专家Estelle Derclaye表示,这种想法未必正确。

欧盟为特定数据库授予独立于版权的权利,目的是保护在编译数据库方面所作的投资。从法律上讲,这些权利会阻止诸如Himmelstein等研究人员在未经同意的情况下再次发布由欧盟各国科学家创建的数据集。

其他国家也有不同层次的法律保护。不过,在像美国这样的不存在单独权力管理数据集的国家,仍会出现混乱。爱丁堡数字监管中心就数据授权发布的指南显示,关于在任何特定情境中数据可能如何被利用的法律立场的缺失很难得到解决。

为此,数据分享的倡导者建议,正在创建公共数据库的研究人员应加上明确的许可,以解释他们想让数据如何得到再次利用和发布以及是否放弃对数据库持有的任何权利。

就Himmelstein来说,他想利用的一些数据集拥有明确的许可——其中一些禁止无限制地再次发布,其他的则没有。Himmelstein表示,他的项目中最令人沮丧的部分在于感觉很多好的数据将被浪费,因为它们的创建者并未讲清楚能否再次发布这些数据。

布里斯托大学知识产权专家Andrew Charlesworth认为,这可能是因为极少有研究人员对法律抱有足够的信心,从而给予Himmelstein明确的指导。

来自华盛顿Policy Bandwidth律师事务所的知识产权律师Jonathan Band表示,即便没有明确的许可,Himmelstein也不可能因发布Hetionet而面临法律的处罚,除非他搞错并违反了为数据集设置的细则和条 款。在网上公开发布其数据集的学者通常想让他们的成果被其他人获取到并且自由地再次发布。Band介绍说,目前还没有人因开展像Himmelstein这 样的项目而惹上麻烦。

不过,Himmelstein并不相信自己在法律上不受阻碍。同时,他感觉此类不确定性可能会阻止其他科学家再现学术数据。Himmelstein表示, 如果有研究人员推出了基于公开数据集研发的商业产品,因未获得明确许可而产生的风险便有可能增加。“我认为,这是一片未经充分测试的‘水域’。大多数学者 不愿冒险引起将有助于澄清这些问题的法律纷争。”


相关文章

数据“中毒”会让AI“自己学坏”

在一个繁忙的火车站,监控摄像头正全方位追踪站台的情况,乘客流量、轨道占用、卫生状况……所有信息实时传输给中央人工智能(AI)系统。这个系统的任务是帮助调度列车,让它们安全准点进站。然而,一旦有人恶意干......

国家数据局召开推动地方数据集团创新发展专题座谈会

为推动地方数据集团创新发展,服务全国一体化数据市场培育建设,7月23日,国家数据局组织召开座谈会。国家数据局党组书记、局长刘烈宏出席会议并讲话,局党组成员、副局长沈竹林、夏冰、余英出席会议。局党组成员......

智能化养猪助力育种领域全新探索

随着人工智能(AI)、自动化等技术的持续突破,利用传感器进行数据采集与高速传输,并通过物联网存储海量数据,正持续推进智能化养殖业发展,逐渐成为推动猪育种向精准化、高效化、智能化转型的核心驱动力。从整个......

国知办印发《知识产权数据使用手册及开放目录》

国家知识产权局办公室关于印发《知识产权数据使用手册及开放目录》的通知国知办函服字〔2025〕153号各省、自治区、直辖市和新疆生产建设兵团知识产权局,各地方有关中心:为促进知识产权数据开发利用,提高知......

研究揭示地方真实数据在全球疾病负担研究中的重要性

2月23日,记者从海南医科大学获悉,该校热带医学院杨国静教授团队近日在国际医学期刊《英国医学杂志》在线发表论文《中国被忽视热带病负担估计的差异:真实世界数据与GBD2021的比较研究(2004—202......

合成数据能否让AI模型精确可靠?

人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满......

“人民数据数融平台”上线试运行

 12月28日,由人民数据开发的“数融平台”正式上线试运营。平台整体依托区块链、人工智能和企业经营相关数据要素,实现链上信息全透明、全上链,实现数据资产情况全穿透,实时追踪一手风控数据,对潜......

五部门制定数据产业发展促进政策

随着新一轮科技革命和产业变革深入发展,数据作为关键生产要素的价值日益凸显。五部门:制定数据产业发展促进政策近日,国家数据局联合中央网信办、工业和信息化部、公安部、国务院国资委印发了《关于促进企业数据资......

基金委“数据市场制度设计与关键技术”专项项目评审会召开

2024年12月3日,自然科学基金委管理科学部、信息科学部在北京召开专项项目“数据市场制度设计与关键技术”评审会议。自然科学基金委党组成员、副主任江松院士出席会议并讲话。国家数据局政策与规划司副司长栾......

数据流通市场的基础理论与治理方法项目指南

2024年度国家自然科学基金指南引导类原创探索计划项目“数据流通市场的基础理论与治理方法”项目指南以数据要素为核心引擎推动数字经济深化发展,有利于构建新发展格局、建设现代化经济体系、构筑国家竞争新优势......