发布时间:2012-04-17 10:34 原文链接: 刘禹:大数据有大智慧

  除了“物联网”和“云计算”,IT业又出现了一个新名词——大数据。如今,大数据甚至引起了工商界和金融界的高度关注,人们认为大数据将为数据应用和决策支持提供有效帮助,成为物联网和云计算内在的灵魂和必然的发展趋势。

  大数据目前尚没有统一的定义,通常被认为是一种数据量很大、数据形式多样化的非结构化数据。

  这里我们先弄清楚几个概念,结构化数据、半结构化数据和非结构化数据。结构化数据可以在关系数据库中找到,多年来一直主导着IT应用;半结构化数据包括电子邮件、文字处理文件以及大量发布在网络上的新闻等,以内容为基础,这也是谷歌和百度存在的理由;而非结构化数据广泛存在于社交网络、物联网、电子商务之中。伴随着社交网络、移动计算和传感器等新技术不断产生,有报告称,超过85%的数据属于非结构化数据。

  很多人相信这些庞大的异构数据中蕴含着巨大财富——企业如果能在这些非结构化数据中挖掘知识并与业务融合,决策的依据将会更加全面和准确;在科学、体育、广告和公共卫生等其他领域中,也有着向数据驱动型的发现和决策方式转变的趋势。 

  大数据的推动因素主要来自于一些大型IT公司,如谷歌、亚马逊、中国移动、阿里巴巴等,他们需要以更加优化的方式存储和分析数据。此外,还有一些来自健康医疗、地理空间遥感和数字媒体等行业的大数据需求。据市场研究公司统计,未来10年里预计数字信息总量将在2009年到2020年增长44倍,全球数据使用量将达到大约35.2ZB(1ZB=10亿TB)。

  大数据呈现出“4V+1C”的特点:(1)Variety,大数据种类繁多,在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成大量的异构数据;(2)Volume,通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,PB级别将是常态;(3)Velocity,涉及到感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值;(4)Vitality,数据持续到达,并且只有在特定时间和空间中才有意义;(5)Complexity,通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求。

  Apache的Hadoop已成为大数据行业发展背后的技术推动力,Hive和Pig等技术也经常被提到。同时,旨在从非结构化数据的庞大宝藏中获得知识和洞察力的计算机工具也正在迅速发展中。这些工具的发展依赖于不断进步的人工智能技术,比如自然语言处理、模式识别和机器学习等。

  可以预见,未来一两年内,将会涌现大量能够处理大型非结构化数据的工具和平台。除了Hadoop的批量化处理方式之外,基于流数据处理的方式也将在实时数据分析应用中发挥作用。此外,大数据热潮还将对可视化的理解和需求提出新的挑战。可视化在数据工作流中将同时起到解释和探索的作用,数据科学家会将可视化作为寻求问题以及探索数据集新特性的一种方式。

  由于大数据的技术门槛较高,因此目前在该领域展开竞争的大都是在数据存储、分析等领域有着传统优势的厂商。2012年1月,Oracle正式发布Oracle大数据机。IBM在大数据领域的优势则在于全面,而机器人“沃森”在人机大战中获胜,更成为IBM为其大数据分析解决方案加分的例证。

  中国市场在这个新兴领域非常重要。中国有庞大的人口基数,IT基础设施也比较成熟,数据量是不可想象的。乐观的人已经看到了其中的机会,不论是出于应对海量数据的需要进行系统升级,还是试图从数据中挖掘价值的冲动,都有可能迎来一个充满智慧的“数据创新”时代。

  结构化数据。结构化数据可以在关系数据库中找到,多年来一直主导着IT应用;半结构化数据包括电子邮件、文字处理文件以及大量发布在网络上的新闻等,以内容为基础,这也是谷歌和百度存在的理由;而非结构化数据广泛存在于社交网络、物联网、电子商务之中。伴随着社交网络、移动计算和传感器等新技术不断产生,有报告称,超过85%的数据属于非结构化数据。

  很多人相信这些庞大的异构数据中蕴含着巨大财富——企业如果能在这些非结构化数据中挖掘知识并与业务融合,决策的依据将会更加全面和准确;在科学、体育、广告和公共卫生等其他领域中,也有着向数据驱动型的发现和决策方式转变的趋势。 

  大数据的推动因素主要来自于一些大型IT公司,如谷歌、亚马逊、中国移动、阿里巴巴等,他们需要以更加优化的方式存储和分析数据。此外,还有一些来自健康医疗、地理空间遥感和数字媒体等行业的大数据需求。据市场研究公司统计,未来10年里预计数字信息总量将在2009年到2020年增长44倍,全球数据使用量将达到大约35.2ZB(1ZB=10亿TB)。

  大数据呈现出“4V+1C”的特点:(1)Variety,大数据种类繁多,在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成大量的异构数据;(2)Volume,通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,PB级别将是常态;(3)Velocity,涉及到感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值;(4)Vitality,数据持续到达,并且只有在特定时间和空间中才有意义;(5)Complexity,通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求。

  Apache的Hadoop已成为大数据行业发展背后的技术推动力,Hive和Pig等技术也经常被提到。同时,旨在从非结构化数据的庞大宝藏中获得知识和洞察力的计算机工具也正在迅速发展中。这些工具的发展依赖于不断进步的人工智能技术,比如自然语言处理、模式识别和机器学习等。

  可以预见,未来一两年内,将会涌现大量能够处理大型非结构化数据的工具和平台。除了Hadoop的批量化处理方式之外,基于流数据处理的方式也将在实时数据分析应用中发挥作用。此外,大数据热潮还将对可视化的理解和需求提出新的挑战。可视化在数据工作流中将同时起到解释和探索的作用,数据科学家会将可视化作为寻求问题以及探索数据集新特性的一种方式。

  由于大数据的技术门槛较高,因此目前在该领域展开竞争的大都是在数据存储、分析等领域有着传统优势的厂商。2012年1月,Oracle正式发布Oracle大数据机。IBM在大数据领域的优势则在于全面,而机器人“沃森”在人机大战中获胜,更成为IBM为其大数据分析解决方案加分的例证。

  中国市场在这个新兴领域非常重要。中国有庞大的人口基数,IT基础设施也比较成熟,数据量是不可想象的。乐观的人已经看到了其中的机会,不论是出于应对海量数据的需要进行系统升级,还是试图从数据中挖掘价值的冲动,都有可能迎来一个充满智慧的“数据创新”时代。

相关文章

国家数据局召开推动地方数据集团创新发展专题座谈会

为推动地方数据集团创新发展,服务全国一体化数据市场培育建设,7月23日,国家数据局组织召开座谈会。国家数据局党组书记、局长刘烈宏出席会议并讲话,局党组成员、副局长沈竹林、夏冰、余英出席会议。局党组成员......

科学家构建出中国种子性状数据库

植物性状是表征环境适应策略与资源分配模式的关键指标,为理解物种分布、群落构建及生态系统功能提供了重要基础。近年来,全球及区域尺度的植物性状数据库不断完善,推动了宏观生态学、功能生态学及生物多样性保护等......

智能化养猪助力育种领域全新探索

随着人工智能(AI)、自动化等技术的持续突破,利用传感器进行数据采集与高速传输,并通过物联网存储海量数据,正持续推进智能化养殖业发展,逐渐成为推动猪育种向精准化、高效化、智能化转型的核心驱动力。从整个......

中国医学科学院杨啸林:“中国尿计划”推动生物医学数据生态建设

2025年4月13日,“中国尿计划”第二次学术研究会在中国医学科学院基础医学研究所召开,会议采用线上线下结合的方式,吸引了北京、上海、深圳等多地近200位业界学者参与。值此之际,分析测试百科网专访了项......

国知办印发《知识产权数据使用手册及开放目录》

国家知识产权局办公室关于印发《知识产权数据使用手册及开放目录》的通知国知办函服字〔2025〕153号各省、自治区、直辖市和新疆生产建设兵团知识产权局,各地方有关中心:为促进知识产权数据开发利用,提高知......

本周精选:2025Pittcon匹兹堡分析化学和光谱应用会议、物联网传感器

本周发表的热门文章包括一段关于近红外(NIR)光谱在食品和生物分析中作用的视频采访、对2025年匹兹堡分析化学和光谱应用会议上华莱士・H・库尔特主题演讲的回顾,以及一篇关于物联网(IoT)传感器的文章......

研究揭示地方真实数据在全球疾病负担研究中的重要性

2月23日,记者从海南医科大学获悉,该校热带医学院杨国静教授团队近日在国际医学期刊《英国医学杂志》在线发表论文《中国被忽视热带病负担估计的差异:真实世界数据与GBD2021的比较研究(2004—202......

全球最大数字微生物数据库建成

来自爱尔兰、法国和意大利的科学家携手,成功构建了全球最大的数字微生物库——“阿波罗”(APOLLO)。“阿波罗”囊括了247092个计算模型,其中包含迄今为止最全面的人体微生物组计算模型,有望增进科学......

合成数据能否让AI模型精确可靠?

人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满......

“人民数据数融平台”上线试运行

 12月28日,由人民数据开发的“数融平台”正式上线试运营。平台整体依托区块链、人工智能和企业经营相关数据要素,实现链上信息全透明、全上链,实现数据资产情况全穿透,实时追踪一手风控数据,对潜......