发布时间:2022-07-06 09:04 原文链接: 闫冬梅|搭建共享桥梁的地球大数据管家

闫冬梅 中科院空天信息创新研究院供图

科学大数据,是当今时代的战略性资源,是科技创新发展的重要基础。

2018年,中国科学院正式启动“地球大数据科学工程”先导专项,为“一带一路”“数字中国”、人类命运共同体和联合国可持续发展目标等提供科技支撑和决策支持。

海量数据汇聚于此,如何管理、解析、应用,离不开一位“数据管家”——中科院空天信息创新研究院研究员闫冬梅。

小数据 大世界

“数据”是对我们身边客观世界进行试验或者观察获得的未经加工的原始素材。数据处理的过程,就是寻找规律和逻辑的过程,也是将数据与客观世界相对应的过程。

从小就对数据格外感兴趣的闫冬梅,2000年考入了当时的中科院遥感应用研究所,攻读遥感图像处理博士研究生。其间,闫冬梅通过卫星遥感影像领略了地球之美。一张张全国遥感影像图,恰似一幅幅中国水墨丹青。

真正让闫冬梅感叹的是,卫星遥感影像不仅为我们展现了地球之美,还有更为重大的科学价值和现实意义。图中的每个像素,在自然中都是有着实际意义的数据,有了这些数据,人们不必再翻山越岭进行大量的实地勘测,只需根据数据和少量的地面实测就能绘制出专业地图,服务自然资源调查、环境监测评价、区域分析规划及全球宏观研究。

单就制作修订一幅全国地图来讲,遥感制图方法和传统勘测方法相比,效率提高了至少10倍以上。了解了“数据”的精髓后,如何提高遥感数据的处理精度和效率、提高数据的精准服务能力,成为闫冬梅此后一直奋斗的目标。

闫冬梅博士毕业后的15年间,全球和中国的数据获取能力飞速提升。随着对地观测技术的进步和对地观测卫星的密集发射,中国已经进入地球大数据时代。

大数据可以根据各数据要素之间在时间、空间上的关联关系,通过数据融合和挖掘技术来探究数据背后的本质信息,成为观察人类社会和地球的“显微镜”和“透视镜”。大数据之“大”,在于众多“小数据”的汇集。但是,由于数据采集历史和管理等各种各样的原因,在科研机构和行业应用部门中存在大量的“数据孤岛”,导致数据汇聚困难,最终无法形成大数据的合力。因此,建立数据的标准规范、推动数据共享迫在眉睫。

2018年1月,中科院启动为期5年的“地球大数据科学工程”先导科技专项,并在专项负责人郭华东院士和总体组的带领下,成立了数据共享工作组和课题组。闫冬梅任课题负责人和数据共享工作组的副组长,开始了对大数据的梳理、清洗和开放共享工作,成为了一名“数据管家”。

抽丝剥茧 厘清海量数据

作为地球大数据专项的“数据管家”,闫冬梅和同事们要面对来自国内外129家科研单位的海量、多学科的异构数据。海量数据存储、数据交互、网络传输、数据管理、质量控制等,成为闫冬梅工作中绕不开的难题。

万事开头难,建立“数据共享台账”是立项之初专项总体组下达的第一项关于数据的任务。闫冬梅和来自中科院资源、环境、生物、生态等多学科的科研人员,历时半年着手调研分析了对地观测、野外台站、生物多样性和生态安全以及大气海洋等多种数据资源现状,并进行趋势分析与预测,形成了数据共享工作的明细账,明确了专项“5年汇聚17PB数据资源”的目标,并基于台账基础,在中科院率先建立了科学数据管理年度工作计划。

闫冬梅带领团队继续迎难而上,面对问题抽丝剥茧,构建数据汇交、质量评估、共享服务等全生命周期的数据开放服务体系。她带领团队专家创新性地提出数据共享新范式,打造“大数据存储—云服务分析处理—高性能计算—数据出版共享”集成模式,实现“数据—成果”的一站式生产与共享,加快大数据环境下的多领域、多学科数据交叉融合与深度挖掘,形成地球大数据的价值链。

肩扛“国家责” 奋斗在一线

无论是在科研一线还是在管理岗位,闫冬梅一直致力于数据共享工作,兢兢业业地扮演着“数据管家”的角色。

2020年,闫冬梅组织出版了《地球大数据科学工程数据共享蓝皮书》。截至2022年6月,专项数据共享服务系统收集、整编了中国科学院多个领域的地球大数据资源,总数据量超过14PB,汇集40年卫星影像数据,其中卫星影像产品460万景、生物生态数据7.6PB、遥感数据4.8PB,在线访问量超9374万次,累计下载超102万次,用户遍布全球174个国家和地区,成为我国地学领域科学数据共享最具影响力的数据服务平台之一。

2010年青海玉树地震、2013年四川雅安地震等十余次重大灾害应急遥感监测数据和灾情评估信息的共享工作,也都由闫冬梅牵头协调完成,并为科技救灾入选“中国科学院改革开放四十年40项标志性科技成果”奠定了坚实的空间数据基础。

2010年青海玉树地震发生后,闫冬梅第一时间组织部署数据共享工作,在地震发生当日实现了航空、卫星遥感数据共享发布,并向国务院应急办、地震局等16个国家部委提供了全部共享数据。同时,在新浪网站上发布的31张灾区高分辨率航空遥感影像图,是国内首次灾害高分辨率遥感影像对公众开放,累计总浏览量逾2000万次,形成了科技救灾的良好社会反响。

相关文章

中国新能源汽车大数据产业大会召开

3月19日,“中国新能源汽车大数据2023年产业大会”在沈阳市举办。大会由沈阳市人民政府和新能源汽车国家大数据联盟(以下简称“联盟”)共同主办。辽宁省副省长姜有为、工信部装备工业一司副司长郭守刚等共同......

中国首次获得遥感数据融合大赛举办权

近日,中国科学院空天信息创新研究院牵头,联合中科星图股份有限公司、中科星图数字地球合肥有限公司与德国慕尼黑联邦国防军大学共同申请,成功获得遥感数据融合大赛(DataFusionContest,DFC)......

如何理解数据是新型生产要素

数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各个环节,深刻改变着生产方式、生活方式和社会治理方式。我国具有数据规模和数据应用优势,积极探索推进......

“数据跟着算力跑”到“算力围着数据转”的嬗变

“摩尔定律被打破后,什么将推动超级计算机性能的发展?”12月13日,在今年的CCFHPCChina2022上,2021年度图灵奖获得者、来自美国田纳西大学和橡树岭国家实验室的杰克·唐加拉教授在演讲的最......

卫生健康信息基本数据编制标准出台,一项面临废止

现发布《集卫生健康信息基本数据编制标准》等2项推荐性卫生行业标准,编号和名称如下:WS/T370—2022卫生健康信息基本数据集编制标准(代替WS370—2012)WS/T811—2022血站信息系统......

“数据驱动的新地学”科学与技术前沿论坛在京举行

10月29至30日,中国科学院学部“数据驱动的新地学”跨学部科学与技术前沿论坛”暨ScienceBulletin第二届地球科学前沿学术沙龙在中国科学院学术会堂举行。此次论坛围绕“数据驱动的新地学”这一......

国家统计局又一数据,这个行业还不稳定

国家统计局服务业调查中心、中国物流与采购联合会10月31日发布数据,10月份,中国制造业采购经理指数(PMI)为49.2%,在调查的21个行业中,有11个位于扩张区间,制造业景气面总体稳定。国家统计局......

我国发布更新第二款全球海洋Argo网格数据集

近日,由上海海洋大学和自然资源部杭州全球海洋Argo系统野外科学观测研究站联合研制的全球海洋Argo网格数据集(简称GDCSM_Argo)在国际Argo官方网站正式发布,这是我国在国际上公开发布并定期......

研究显示:全球50岁以下人群癌症发病率上升

近几十年来,越来越多的50岁以下成年人患上癌症。美国科学家进行的一项研究显示,早发型癌症(50岁之前被诊断出的癌症,包括乳腺癌、结肠癌、食道癌、肾癌、肝癌和胰腺癌等)的发病率,从1990年开始在世界范......

打造面向开放科学的“数据共享”新未来

“对于全球科技期刊来讲,开放科学带来了学术交流模式的变革,从原来传统的学术交流模式,转向新型的学术交流模式。”8月25日,中国科学院文献情报中心副主任、研究馆员张智雄在第十七届中国科技期刊发展论坛“开......