Velocity是指大数据往往以数据流的形式动态,快速的产生,具有很强的时效性。数据自身的状态与价值也往往随时空变化而发生演变(这些数据往往包括了空间维,时间维等多种数据)比n如,环境监测中的水质和空气质量数据,高速路卡口的四品监测数据等。
value是指数据已经成为一类新型资产,隐藏着大价值。大数据的价值密度低,需要通过专业的技术手段进行挖掘。只有对其进行正确,准确地分析,才会带来很高的价值回报。比如,电视机顶盒的频道切换数据,各大电视台分析其中的数据,从中准确判断观众的喜好,以推出更加符合观众口味的节目。
大数据并非总是说有数百个TB才算得上。根据实际使用情况,有时候数百个GB的数据也可称为大数据,这主要看他的其他维度,也就是速度或者时间维度,假如能在1秒之内分析处理300GB的数据,而通常情况下却需要花费1个小时的话,那么这种巨大变化所带来的结果就会极大地增加价值,所谓大数据技术,就是至少实现这四个判据(特征)中的几个。
;;;;;;;;;;;;;;;;;;;;;;;;;;
大数据的商用化
大数据是传统的架构,传统的技术无法解决的数据处理问题,Hadoop的出现,解决了大数据的快速存储和读取,也为我们提供了大数据分析的众多工具,但是,对于大数据商用而言,这并不够,因为大数据的名字有“大”所以很多人把重点集中在了数据的容量上,简单地认为数据量是最大的问题,实际上大数据除了数据量的问题外,还会把信息管理的各项需求都推向极致
【大数据基本问题(4v)】是大数据最基本的问题,包括大数据量,多样性,高速和低价值。解决这四个方面的问题只是大数据商用化的基础,这只是支撑起了大数据的平台。Hadoop技术很好的解决了这一层的问题。Hadoop也被认为是下一代IT架构的基础,Hadoop系统将逐步替换以关系型数据库为基础的传统系统。
【大数据访问的权限管理和控制如:敏感性分级,共享协议,数据模型】是关于访问权限的问题。数据的敏感性是一个很基础的问题。但是现有的Hadoop技术还没有对数据的敏感性提供可行的解决方案,那些提供大数据解决方案的IT企业不仅仅要关注与大数据的4v量化指标,还需要把注意力放在“数据敏感性分级”上。国内超过80%的数据在政府的系统内,如果我们的大数据解决方案没有给政府数据提供诸如敏感型分级的权限管理机制,那么,政府是很难往前迈一步的。比如公安,税务,工商等各部门的数据在一个平台上所产生的访问控制问题,共享协议是指数据将会以什么形式,通过什么样的接口实现数据交换,这是大数据的重点问题之一。数据交换的所有的方式都是以标准的协议来支持,因为在大数据的时代,数据的来源本身是多样性的,数据的格式是无法管理的,很多的数据是来自企业的外部,来自于互联网的提供商,到底如何通过这些协议和统一数据模型自动化地将数据放到大数据平台上来,这是一个很严重的问题。Hadoop本身并没有技术工具来解决这些方面的问题。
【大数据质量管理如:数据有效性,有效期限,相关性】是有关于大数据质量的管理数据本身是一种资产,资产质量怎么来衡量,我们如何确保数据的质量,这个也是我们在实施大数据商用上需要考虑的问题,质量管理是传统的数据管理里非常重要的一个方面的问题。但是我们这些问题,这就是我们下面阐述的大数据管理平台的作用。除了提供大数据质量的管理,这个管理平台上还提供上述的大数据访问的圈子安管理等功能。
- 大数据应用(分析)平台
2.大数据管理平台
3.大数据云平台
大数据建设总体架构图
大数据云平台是集约化建设的IT基础设施层,为大数据处理和应用提供统一数据采集,分析和处理等支持服务;大数据应用平台是业务应用层,为大数据在各个领域的应用提供综合服务。从逻辑结构来看,很多大数据应用需要基于大数据管理平台,而Hadoop技术只能完成大数据的底层功能,即:大数据的快速采取,存储和读取,所以Hadoop是大数据管理平台的基础。正是因为Hadoop缺少相应的数据管理技术和工具的支持,上述的一些非常基本的商用问题到现在还没有解决。这就凸显了大数据管理平台的重要性,只有提供了统一的大数据管理平台,数据的集成 尤其是跨行业,跨不同的部门,跨各种技术的集成才能成为可能,整个大数据应用的架构必然是构建在一个大数据管理平台上,这才可能实现大数据应用的大规模商用和普及,而不应该只是基于裸露的Hadoop。
大数据顾名思义数据量很大,在大数据时代,企业的数据不仅仅由传统结构化数据,结合对数据吞吐量的合理设计,将这些数据采集到大数据平台应该不会是很难的事情,比较难的十数据的转换,协调,确保不用数据元之间的一致性,检查数据的质量,这些是大数据采集中比较难实施的部分,而且在这些方面我们可用的自动化工具较少。
国内的大数据软件企业基本上都处于相对初级的阶段,he
很多新兴的公司提供Hadoop的发行版本的安装和配置。并针对Hadoop提供了一些定制化的应用。国内大数据软件产品和技术就是处于这摸一个刚刚开始的状态,数据访问,安全,隐私,归档等。对数据管理来说,一些非常重要的,甚至于可以说是非常致命的需求,到现在必须重点关注有关数据管理的问题,因为这可能是大数据商用解决方案中的一个最薄弱的一个环节。