发布时间:2020-01-19 15:04 原文链接: 贺林院士:数据“活”起来才能产生价值

  随着新一代基因测序技术飞速发展和高通量实验等技术突破,生物医学数据从以基因组为代表的数据量发展到PB 甚至 EB 量级时代。但是这些数据的来源十分分散,导致质量参差不齐,又没有标准化的管理模式,难以有效的整合与分析。此外,由于这些数据没有汇交的机制,从而导致了数据的大量流失,重要数据缺乏安全保障。具体而言,有以下几点。

中国科学院院士 贺林

  困境一,数量巨大、增长迅速。以测序仪为例,一台高通量的测序仪每天大概产生100GB的数据。人群队列研究、分子流行病学研究产生了大量长时间、广空间的数据,基因组、转录组、表观遗传组等海量生命科学组学数据呈指数级的增长。

  困境二,质量控制困难,难以标准化与结构化。随着数据规模的增加,传统的数据模型和数据组织方式,已经无法满足海量数据的结构、数量快速增长以及数据结构不断变化的管理需求,难以按照实际情况动态调整。

  困境三,临床数据分散,难以高维度多层次交汇。中小型研究团队利用自身的数据采集能力和整合能力,建立了大量的种类繁多、规模悬殊、质量参差不齐的数据库和知识库。数据维度越来越高,需要更加准确的降维方法。

  困境四,数据没有安全保障。欧美等发达国家和地区针对数据安全管理与个人隐私保护,均建立了相对成熟的法律体系与监管框架。我国至今设施建设仍未精准落地。

  困境五,数据无共享平台,难以与国际交流。未来,我们需突破传统的以主题为基础建设的数据库的局限性,实现以搜索引擎为核心的数据跨库整合,更好地满足用户一站式的数据共享需求。

  困境六,生物信息分析流程复杂,准确率低。目前生物信息流程分析缺乏规范和标准,当前的分析流程多有一定的局限性和较高的错误率,特别是在序列拼装方面,需要通过相关参数的调整或软件的升级提高分析的精度。

  在遗传咨询这一领域,正在蓬勃发展的临床决策支持系统(CDSS)通过收集各医院信息化子系统的临床数据,将疾病的表征、患者体征和治疗方式的数据存储起来,建立特定疾病的知识库,并根据数据的智能分析,制定有效的诊疗路径,以帮助医生进行决策。

  对于海量的数据,我们应该采取新的仓储式的数据仓库模式,在底层数据结构上以整合为导向,按照样本、宿主、环境等信息,形成弹性的数据结构,支持数据结构动态调整,为后期数据集成与整合工作奠定基础。在人才培养方面,可以开展校企合作等模式培养出社会需要型人才,以达到人尽其才,物尽其用的目的。

相关文章

官方发布|基因测序仪临床评价注册审查指导原则

为进一步指导基因测序仪等体外诊断产品临床评价,规范审评工作,国家药监局器审中心组织制定了《基因测序仪临床评价注册审查指导原则》《来源于人的生物样本库样本用于体外诊断试剂临床试验的指导原则》《微卫星不稳......

卫生健康信息基本数据编制标准出台,一项面临废止

现发布《集卫生健康信息基本数据编制标准》等2项推荐性卫生行业标准,编号和名称如下:WS/T370—2022卫生健康信息基本数据集编制标准(代替WS370—2012)WS/T811—2022血站信息系统......

“数据驱动的新地学”科学与技术前沿论坛在京举行

10月29至30日,中国科学院学部“数据驱动的新地学”跨学部科学与技术前沿论坛”暨ScienceBulletin第二届地球科学前沿学术沙龙在中国科学院学术会堂举行。此次论坛围绕“数据驱动的新地学”这一......

国家统计局又一数据,这个行业还不稳定

国家统计局服务业调查中心、中国物流与采购联合会10月31日发布数据,10月份,中国制造业采购经理指数(PMI)为49.2%,在调查的21个行业中,有11个位于扩张区间,制造业景气面总体稳定。国家统计局......

因美纳与阿斯利康达战略研究合作,以加速药物靶点发现

2022年10月11日,全球基因测序和芯片技术的领导者因美纳(纳斯达克股票代码:ILMN)宣布与以科学为驱动的全球生物制药公司阿斯利康(AstraZeneca)达成战略研究合作,将结合双方在基于人工智......

我国发布更新第二款全球海洋Argo网格数据集

近日,由上海海洋大学和自然资源部杭州全球海洋Argo系统野外科学观测研究站联合研制的全球海洋Argo网格数据集(简称GDCSM_Argo)在国际Argo官方网站正式发布,这是我国在国际上公开发布并定期......

275万元!龙岩市疾控中心采购高通量二代基因测序仪等

近日,福建省龙岩市疾病预防控制中心发布《福建省龙岩市疾病预防控制中心高通量二代基因测序仪及配套仪器货物类采购项目》,预计花费近275万元采购通量二代基因测序仪及配套仪器。详细信息如下:一、项目名称:福......

研究显示:全球50岁以下人群癌症发病率上升

近几十年来,越来越多的50岁以下成年人患上癌症。美国科学家进行的一项研究显示,早发型癌症(50岁之前被诊断出的癌症,包括乳腺癌、结肠癌、食道癌、肾癌、肝癌和胰腺癌等)的发病率,从1990年开始在世界范......

打造面向开放科学的“数据共享”新未来

“对于全球科技期刊来讲,开放科学带来了学术交流模式的变革,从原来传统的学术交流模式,转向新型的学术交流模式。”8月25日,中国科学院文献情报中心副主任、研究馆员张智雄在第十七届中国科技期刊发展论坛“开......

中华家系1号标准物质发布基因测序可靠性有了计量支撑

基因测序有多准确,现在有了计量标准。中国计量科学研究院(以下简称“中国计量院”)和复旦大学历时六年半,成功研制中华家系1号(同卵双胞胎家庭)人源B淋巴细胞系全基因组DNA序列和全转录组RNA标准物质,......