基因组数据共享将生物医学研究推向快车道,但向公共领域发布的现有数据指南一方面承认免费和无条件使用数据的重要性,另一方面还未能解决这种重要性与数据生产者首次发布数据的“权利”之间的关系。

在美国能源部联合基因组研究所负责人Nikos Kyrpides看来,这种自相矛盾导致了数据生产者和数据使用者对公共数据的使用有着不同的解释和持续的争论。
“根源在于缺乏数据使用的明确指导原则。”在接受《中国科学报》采访时,Kyrpides再次强调,公共数据应该被视为开放资源,不受限制地被用于分析、解释和发布。相关论文近日在线发表于《科学》。
时不时遇到“软障碍”
公共基因组数据使用自由是国际生命科学研究领域的传统与共识,自人类基因组计划实施以来,大量的开放共享基因组数据信息极大地促进了生物医学研究的进步。
1990年启动并有我国参与的人类基因组计划被看成科学史上的伟大工程,3年前,该计划负责人Eric Green、James Watson和Francis Collins在《自然》上撰文总结了人类基因组计划的6点经验,其中之一是数据共享最大化。
正是人类基因组计划改变了生物医学研究的数据共享原则,促成了1996年百慕大原则,即同意将超过一定规模的基因组测序数据在产生后的24小时内提交到公共数据库。
一直以来,促进数据共享仍在继续并有新的变化。2003年劳德代尔堡协定重申和扩大了百慕大原则,认为大规模基因组序列数据的预发布对科学界有巨大的益处,同时指出数据共享限定在团体资源项目。
自该协定签署以来,实现更广泛、更快速、更有效的数据共享成为学界反复讨论的主题。
在数据共享大背景下,学术论文在发表时,一般都会公开并共享相关的基因组数据。“但是政府资助的各类科研项目产出的基因组数据,数量更为广泛,在论文发表前共享程度极低。”中国科学院—马普学会计算生物学伙伴研究所研究员张国庆告诉《中国科学报》。
张国庆使用国际基因组数据时曾被要求填写申请,“但由于审核机制不透明,导致时不时地遇到‘软障碍’”。
“数据共享政策并不是一成不变的,许多资助机构已经对政策进行了微调。”Kyrpides介绍,比如2014年美国国立卫生研究院制定的基因组数据共享政策,正在创造一个更完善的数据共享生态系统,“这是以前协定所没有的”。
“这不是自相矛盾吗”
事态的发展“证明劳德代尔堡协定已过时,需要对其修订以反映科技现状”,Kyrpides认为,协定通常局限于良好的团队资源项目,但不包括所有测序项目。
在接受《中国科学报》采访时,Kyrpides还指出劳德代尔堡协定的矛盾之处。根据协定,向公共领域发布的数据是任何人都应该且能够不受任何限制地使用的,并且规定这些数据要在出版之前发布,以便让整个团体从中受益。
这些年,基因测序产生了无数的数据集,其中许多数据集在没有出版的情况下公开发布。但协定同时又提到,“想要使用未公布的公共数据的人应首先得到数据生产者的许可”,Kyrpides表示,“这不是自相矛盾吗”。
研究人员也提到了赞成限制公共基因组数据使用的人通常有两个理由,一是未验证的预发布数据可能包含错误,二是生成新的数据往往需要耗费很长时间。
在张国庆看来,数据使用受限主要原因是数据的相关权益不清晰,难以保证样品提供、数据产出、数据管理、数据分析等各方的利益。
此外,基因组数据相关的个人信息的安全管理要求不清晰也是一方面原因,比如敏感数据。
“我们承认,对于现有的敏感人类基因数据,一些限制可能是适当的。”Kyrpides也表示。
不过,研究人员发现对分享敏感数据的抵制正逐渐得到缓解。纵观整个生物医学文献,2015年至2017年,约有1/5已发表的文章共享原始数据,较前几年大幅度增加。
确定使用原则
“不受限制地使用公共数据应该与学术界的奖励制度保持一致。”Kyrpides认为,资助机构需要认识到数据共享的意义,并向生成数据的科学家授予适当的荣誉。
同样重要的是,“要确定有效的方法,为描述数据生成后,协议以及特定数据集的生成提供支持”。Kyrpides告诉记者,更要重新审视资助机构和期刊出版商的数据发布策略。
研究人员认为,期刊出版商需要重新考虑出版政策,即在手稿提交出版时数据的可用性。Kyrpides等人建议,序列数据及其相关的元数据需要在手稿提交同行评审时与详细协议一起免费提供,而不是在发表后。
“要推进基因组学领域的发展,就需要制定强有力的政策,促进开放和不受限制的数据共享,促进包容性的团体驱动的研究和培训。”Kyrpides说。
近日,西北农林科技大学玉米生物学与遗传育种团队联合华中农业大学玉米团队在《植物生理学研究》发表论文。研究初步揭示了ZmGBF1-ZmATG8c模块通过自噬途径调控玉米耐热性的分子机制。随着全球气温持续......
为推动地方数据集团创新发展,服务全国一体化数据市场培育建设,7月23日,国家数据局组织召开座谈会。国家数据局党组书记、局长刘烈宏出席会议并讲话,局党组成员、副局长沈竹林、夏冰、余英出席会议。局党组成员......
记者21日从国家乳业技术创新中心获悉,该中心技术研发团队成功研制出奶牛种用胚胎基因组遗传评估芯片和“高产、抗病、长生产期”功能强化基因组预测芯片。该系列基因芯片具有完全自主知识产权,填补了我国基因芯片......
国际期刊《内分泌学前沿》日前刊登的一项新研究揭示,一种特殊基因对肠道吸收维生素D及其后续代谢过程至关重要,阻断或抑制该基因能够选择性抑制癌细胞生长。这一发现在癌症治疗等精准医学领域具有广阔应用前景。维......
记者从安徽农业大学获悉,该校王晓波教授团队联合中国农业科学院作物科学研究所邱丽娟、李英慧研究员团队,解析了关键基因对大豆种子油脂和蛋白比例(油蛋比)的调控机制,为高油或高蛋白大豆品种选育提供了新方向。......
茶树是以收获新梢为主的叶用经济作物,茶芽大小不仅直接影响鲜叶的产量和品质,还与茶类适制性密切相关。解析茶树芽大小的遗传调控机制,有助于改良茶树品种、提高茶叶产量。近日,中国农业科学院茶叶研究所种质资源......
玉米作为全球重要的粮食、饲料和工业原料作物,其高产对保障粮食安全至关重要。近日,东北农业大玉米遗传育种团队完成的研究在《农业科学学报(英文)》(JournalofIntegrativeAgricult......
水稻作为起源于热带或亚热带的粮食作物,其生长发育对低温胁迫敏感。伴随全球气候变化加剧,极端低温事件发生频率显著上升,发掘耐冷基因并解析分子机制,有利于水稻高产稳产遗传改良。目前,利用自然群体挖掘的水稻......
随着人工智能(AI)、自动化等技术的持续突破,利用传感器进行数据采集与高速传输,并通过物联网存储海量数据,正持续推进智能化养殖业发展,逐渐成为推动猪育种向精准化、高效化、智能化转型的核心驱动力。从整个......
东南亚人群基因组计划概念图。受访者供图东南亚是全球最重要的人类演化区域之一。该地区人群拥有极高的遗传多样性,但基因组学研究却长期缺失,制约了人类环境适应性进化与疾病遗传机制的深度解析,因而被称为全球人......