作者按:本文写就于2014年初,一晃3年已过。大数据已经从最初的理论研究,逐渐产业化,并已服务于各行各业。
“棱镜门”事件的持续发酵,深刻揭露出科技领先大国利用信息技术的优势,有计划、有步骤地采集各国的“数字DNA”。由此可见,数据本身的重要性,已经超过了传统的信息产业、工业产业,逐步在国家安全等更高领域得以体现。
根据国外机构的测算,全世界数据总量以每两年翻一翻的速度递增,最近两年产生的数据总量,相当于人类有史以来所有数据量的总和。在这个大背景下,各个行业,无论是传统的工业行业,还是现在的互联网公司,已经意识到数据的独特价值并积极利用。
大数据(Big Data)的概念应运而生。它已成为继互联网、云计算、物联网后,又一个被市场争相传诵的热门科技概念。
究竟什么是大数据呢?
国际数据公司(IDC)在它的报告中给出了一个定义:大数据技术是新一代的技术与架构,它被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值(value)。
IDC的定义描述了大数据的三大特征,也即俗称的3V(Volumes,Velocity,Variety)。3V是对大数据最基本特征的归纳,得到大家的共识。虽然后续不断有人增加对V的理解,如Value(价值),强调大数据中的总体价值大,但是价值密度低;如Veracity(真实和准确),强调真实而准确的数据才能让对数据的管控和治理真正有意义;如有Vitality(动态性)强调数据体系的动态性等。这些都有一定的理解,但都不及开始的3V具有广泛性。
1、海量化Volumes
大数据首先是数据体量大。全球数据量正以前所未有的速度增长,遍布世界各个角落的传感器、移动设备、在线交易和社交网络每天都要生成上百万兆字节的数据。据估计,全球可统计的数据存储量在2011年约 为1.8ZB,2012年将达到2.7ZB,2015年将超过8ZB。数据容量增长的速度大大超过了硬件技术的发展速度,以至于引发了数据存储和处理的危机。
2、多样化Variety
大数据的数据类型非常多。原来的数据都可以用二维表结构存储在数据库中,称之为结构化数据。