发布时间:2013-07-18 10:05 原文链接: 科研数据难共享阻碍国内生物科技发展

  上海生物信息技术研究中心主任李亦学的“科研数据共享之梦”已做了13年。但在近日举行的首届金桥产业技术创新会议上,当记者向他问及相关进展时,听到的却是一声叹息。

  13年前,“大数据”尚未被任何字典收录,而今却被公认是全球生命科学研究的核心工具。李亦学告诉记者,科研数据难以共享已成为国内生命科学研究的一大障碍;而在大数据时代,其负面效应还可能被继续放大。

  李亦学透露,国内一批院士和重量级专家正在起草一份报告,建议国家借鉴美国、欧洲、日本等的做法,建立国家级生命科学数据库,从而打破共享瓶颈。作为该调研报告的参与人,李亦学表示,在技术上,共享“不存在任何障碍”,国家应尽早落子布局。

  一辈子的难题,几个月解决

  在生命科学领域引入大数据工具,将给研究带来极大便利。科学家用传统方法可能要花一辈子才能解决的难题,大数据可能只要几个月就能找到答案。

  一个典型案例是“腓骨肌萎缩症(CMT)”的研究。这是一种常见的遗传性神经系统疾病,患者最初会感到四肢无力,随后逐步恶化,最终可能终身离不开轮椅。

  CMT 早就被认为与基因突变有关,但全球科学家寻找致病基因花了20多年,始终不得要领。不过就在两三年前,美国一个小组对一位CMT病人连同他的10多位亲属进行全基因组测序,随后对所获得的数百GB的数据进行了“简单的比对分析”,很快就精确定位了那条致病基因和发生突变的位点。

  李亦学表示,能够获得和整合数据,然后再进行快速和精准的分析,已成为生命科学研究的关键。目前,中国已成为世界领先的不断产生生物学与生物医学大数据的国家。然而,中国生命科学的数据共享却与发达国家差距巨大。他判断说,国内课题组之间的数据共享一直是一个“小概率事件”。

  李亦学13年前回国,曾经的理想是建立具有国家权威的公益性的生命科学数据中心,推动国内的生命科学研究数据共享。但迄今进展不大,这让他无比遗憾。

  只给看论文,无法看数据

  美国是生命科学大数据产出和应用的领先者,不仅数据量和分析技术领先,而且在数据共享方面也是如此。

  李亦学告诉记者,美国国立生物技术信息中心(NCBI)存储了分子生物学、生物化学、遗传学领域的海量数据,一大批计算机专家和生物学家维护着这个庞大的数据库和自动分析系统。这个平台对支撑起美国在生命科学领域的地位至关重要。NCBI的数据是科学家无偿提供的。根据规定,美国科学家要想拿到政府经费,必须在申请课题时就承诺在课题完成后,将详细的研究数据提供给NCBI;如果违背承诺,这名研究者将被列入黑名单,可能再也无法得到资助。这是NCBI获得大量数据的根本保证。

  李亦学说,国内的政府科研项目一直没有强制性的数据公开和共享要求。生命科学的数据零散地掌握在各个科研单位和研究小组内部,对国家的科研投入来说,这是一种巨大的浪费。

  据了解,在我国,这样的现象时有发生:国家向某个重大研究课题投入巨资,支持其从基因组层面研究若干重要的遗传疾病。最终,虽然该研究发表了一系列高水平论文,但却从未将详细数据公开。

  李亦学认为,这样的研究本可以整体提升中国相关领域学术水平,但“只给看论文、无法看数据”的做法,极大限制了国家级课题的带动效应。

  科研数据要当成战略资源

  最近,国内一批院士和重量级专家正联名起草一份调研报告,希望能在国内也建立一个类似NCBI的国家级生命科学数据库。这份报告将在今年完成并提交。

  最让专家们揪心的,不仅是数据不共享将给国家创新体系带来损失,更在于“如果有一天,NCBI不再与中国科学家共享数据,我们怎么办?”

  NCBI向全球免费提供数据。李亦学说,目前,所有的访问量中,来自中国科学家的占了相当大的份额。一旦NCBI向中国关上大门,一些院士的判断是:“中国生命科学研究可能倒退20年。”

  在大数据时代,数据就如石油一般,是国家的战略资源。李亦学认为,正因为如此,必须由国家出面,建立科研数据共享的机制和环境。而目前,哪怕政府对所资助的课题提出数据共享的强制性要求,科学家也不知道该去哪儿共享。

  在生命科学领域,国际学术界有一个不成文的规定:要想在顶级刊物发表论文,科学家必须共享其实验数据,而且大都必须将数据递交到NCBI的数据库体系。李亦学说,因此,在NCBI的数据库,由中国科学家提供的数据占了不小比例。这种“国内数据、国外整合”的做法不合理,但也表明在国内推动数据共享存在可操作性。

  根据调研,在我国建立国家级的公益性生命科学数据平台也许需要数亿元的年度预算,以建立一个海量科学数据存储和计算服务的软硬件架构,以及维持一支高水平的研发和服务团队。但一旦建立起来,这个平台的回报以及潜在的社会经济效益,“无论怎样估计都不会过分”。

相关文章

这个实验室《自然》《科学》论文成堆,原来幕后有帮手

科学研究正在经历一场风暴。风暴源于狂飙突进的人工智能技术。“拥抱”还是“逃离”,成为摆在每位科研工作者面前的选择题。在中国科学技术大学(以下简称中国科大),一群喝着网红咖啡、野心十足的年轻人选择了“拥......

研究发布大豆多维组学数据库SoyOmics

大豆(Glycinemax(L.)Merr.)是重要的粮油作物之一,其产量提升、品质改进关乎全球人口的需求和利益。高通量测序技术的发展促使大豆组学研究不断深入。实现大豆多维组学数据的整合分析,将会为大......

一个无人踏足的重要发现!985教授发表经验

“张老师总是非常及时的给我们批阅论文,大多近乎重写。”“他经常凌晨还在看文献,一个快50岁的人了都这么拼,我们还有理由偷懒吗?”张强是北京师范大学(珠海)环境与生态前沿交叉研究院教授,他对学生的指导与......

论文打破技术空白,30岁一作即将回国就职

刚刚博士后出站的胡鸿杰,以一作身份新发了一篇《自然》论文。结果,他的“电话被打爆”了。在论文发表仅一周时,下载量就已经超过了44000次。这篇论文由胡鸿杰所在的加州大学圣地亚哥分校徐升团队完成,题目是......

中国农业科学院学位论文库正式上线服务

近日,国家农业图书馆正式上线中国农业科学院学位论文库,实现了全院学位论文特色资源本地化保存,增强了学术资源成果的可靠性与安全性,将有效促进学术交流和研究成果共享。国家农业图书馆自建的中国农业科学院学位......

光明时评:严格本科论文抽检制度值得肯定

本科毕业论文要挤干水分了。据媒体报道,浙江省教育厅日前印发《浙江省本科毕业论文(设计)抽检实施细则(试行)》,明确本科毕业论文抽检每年进行一次,抽检对象为上一学年度全省所有本科专业授予学士学位的论文(......

应急管理部:建设乡村灾害风险隐患数据库

国务院新闻办公室15日举行新闻发布会。国务院第一次全国自然灾害综合风险普查领导小组办公室副主任、应急管理部风险监测和综合减灾司司长陈胜介绍,下一步,在普查成果转化为乡村自然灾害防治能力的提升上下功夫。......

学者谈ChatGPT或带来论文造假

最近,由美国人工智能研究室OpenAI开发的全新“聊天机器人”ChatGPT风靡全球。作为一款人工智能语言模型,它不仅能和人展开互动,还能撰写邮件、论文、脚本,制定商业提案,创作诗歌、故事,甚至敲代码......

评职称,对论文、学历、奖项有新要求!

职称是专业技术人才学术技术水平和专业能力的主要标志。近期,人力资源社会保障部办公厅印发《关于进一步做好职称评审工作的通知》,持续深化职称制度改革,破解职称评审中的“一刀切”、简单化问题,进一步激发专业......

重磅|学术论文编写标准发布!

近日由北京师范大学出版社(集团)有限公司、北京卓众出版有限公司、《中国科学》杂志社有限责任公司、北京林业大学、中国科学院软件研究所、《中华医学杂志》社有限责任公司、上海大学、机械工业信息研究院、中国科......