发布时间:2015-01-20 09:53 原文链接: 陈鲸院士:大数据面临的挑战复杂艰巨


陈鲸

   “未来的信息世界是‘三分技术,七分数据’,得数据者得天下。”在近日于北京召开的大数据与数据科学进展主题论坛上,中国工程院院士陈鲸表示,继实验科学、理论科学、计算机科学之后,以大数据为代表的数据密集型科学将成为人类科学研究的第四大范式。

  “大数据中蕴藏着关乎社会动向、市场变化、科技发展、国家安全的重要战略资源。”陈鲸认为,大数据会为国内处理器芯片自主研发行业提供重大机遇,也会有更多应用数据技术的新兴公司和经营模式出现。

  不过,虽然大数据的前景灿烂,但在陈鲸看来,其面临的挑战也非常复杂和艰巨。

  首先便是数据的异构性和不完备性。陈鲸解释说,大数据来源多样,且越来越多地分散在不同的管理系统中。据不完全统计,目前采集的数据85%以上是非结构化和半结构化数据,因此不能用已有的简单数据结构来描述。而传统关系数据库又无法高效处理这些复杂数据结构表示的数据。数据的不完备性主要是指所获取的大数据常常包含一些不完整信息和错误数据。因此,在进行大数据分析处理之前,必须对这种数据的不完备性进行有效处理。

  另一个严峻挑战便是大数据处理的时效性。随着时间的流逝,大数据中所蕴涵的知识价值也随之衰减,其价值与时效性密切相关。陈鲸表示,一般数据样本量越大,分析处理时间会越长,但在许多情况下,大数据用户要求立即获得数据分析结果。这就要求为复杂结构的数据建立合适的索引结构,并要求索引结构的设计简单、高效,且在数据模式发生变化时能很快进行适应性调整。

  陈鲸也提到了大数据应用中的安全与隐私保护问题。“据当前所掌握的资料分析:人们在互联网上的一言一行,基本上都掌握在互联网商家手中。例如,淘宝知道用户的购物偏好,腾讯知道用户的好友联络情况,百度知道用户的检索习惯等。而目前,中国还没有专门的法律法规来界定用户隐私。”另外,“如何在大数据环境下确保信息共享的安全性?如何为用户提供更为精细的数据共享安全控制策略?这些问题都值得深入研究”。

  高能耗则是陈鲸关注的制约大数据快速发展的另一个瓶颈。据2012年的资料显示:谷歌数据中心的年电功率约为3亿瓦,Facebook为6000万瓦左右。最令人惊讶的是,在这些巨大能耗中,实际只有6%~12%的能量是真正用于响应用户查询请求的,绝大部分电能则是被用来确保系统服务器处于正常待机状态,以应对突如其来的用户查询网络流量高峰。

  对此,陈鲸建议,可以考虑采用新型低功耗硬件以及建立计算核心与二级缓存的直通通道,从应用、编译器、体系结构等多方面协同优化,另外就是引入可再生新能源。

  陈鲸还谈到了大数据管理易用性方面的挑战,“复杂的分析过程和难以理解的分析结果会制约各行各业从大数据中获取知识的能力”。他认为,大数据分析结果的可视化呈现,将是大数据管理易用性方面要解决的重要问题。

  陈鲸同时强调,我国亟待提出适合国情的大数据发展战略和技术路线。“大数据研发计划是抢占信息技术发展制高点的重大举措,将解决数据爆炸性增长带来的管控和利用难题,同时改进对大数据的获取、管理、挖掘和利用能力,实现数据到知识、知识到决策、决策到行动的快速转化,推动人类社会进一步向智能化迈进。”

相关文章

8个大气本底站将在这8处建成

“十四五”期间,我国将在现有7个国家大气本底站和即将建成的广东新丰国家大气本底站基础上,在胶东半岛、黄淮、四川盆地等区域选址新建8个国家大气本底站,实现16个气候系统关键观测区国家大气本底站全覆盖。此......

梅雨季开启大数据揭秘我国梅雨70年演变

中国天气网讯据国家气候中心消息,我国江南和长江中下游于5月29日同时入梅。这意味着今年梅雨季正式开启,较常年偏早10天左右。说到梅雨,这可是南方人民心中的痛,雨没完没了地下,地板、墙壁“冒水”,屋里的......

第五届人工智能与大数据国际会议在成都召开

5月27日至30日,由四川省计算机学会主办的“二零二二年第五届人工智能与大数据国际会议”在成都成功召开。此次会议采取线上的形式进行。开幕式上,本届会议大会名誉主席、中国科学院院士张景中宣布第五届人工智......

超2900万!又一国家重点研发计划项目立项

据贵州大学消息,近日,由西安电子科技大学、浙江大学、武汉大学、贵州大学、中兴、腾讯等10家单位强强联合申报的“网络空间安全治理”重点专项“开放环境下大数据安全利用关键技术研究”项目近日获批立项,项目总......

“东数西算”,算力需要的西部支点

围绕着数据中心,向上下游延伸产业链,贵州有自己的“算盘”。从一开始的“东数西存”,到新赛道“东数西算”,到新场景“东数西训”,乃至最后实现“东数西营”,贵州大数据发展路径明确、目标清晰。成都智算中心上......

方滨兴:释放数据使用权将成为未来技术发展取向

进入大数据时代,一方面数据要流通,一方面个人隐私数据保护要重视,如何平衡数据要素流动与隐私保护的冲突,如何在保护数据隐私的前提下,最大限度地挖掘大数据价值是目前不少企业和机构面临的难题。近日,在CIT......

测序技术助力国家致病菌识别网对细菌性传染病的监测

近期,国家疾控传染病防控领域的专家在ChinaCDCWeekly杂志发表国家致病菌识别网(ChinaPin)专题系列文章,通过六篇分析文章和应用报告,系统介绍了国家致病菌识别网的功能和使命。其中高通量......

农科院智慧草原大数据综合监测平台建成

近日,智慧草原大数据综合监测平台正式建成。该平台由中国农业科学院草原研究所草原遥感智能感知与防灾减灾团队经过一年多的努力研发而成,为草原生态系统安全评价与畜牧业可持续生产提供了有力支撑。目前,系统平台......

陈晓红院士:跨境数据流动监管亟须加强

原文地址:http://news.sciencenet.cn/htmlnews/2022/3/474918.shtm中新网长沙3月2日电(刘曼)数字经济正在成为重组全球要素资源、重塑全球经济结构、改变......

技术:综合解析再生单元电加热器管束腐蚀开裂失效分析

1.中国石油和石化工程研究会定于2022年3月23~25号在四川成都举办“2022(第二届)中国石油化工仓储及储运罐区产业技术大会”。2.中国化工学会定于2022年5月16-18日在宁波举办“2022......