1.1大数据时代
“大数据时代“”大数据“等名词,铺天盖地而来的时候,也就在2010年附近
2010年前后,以云计算、大数据、物联网的普及为标志迎来第三次信息化浪潮
大数据时代的到来,肯定有很多东西为其作为支撑
1.技术支撑
2.数据产生方式的变革
技术支撑:
<1>存储设备容量不断增加
<2>CPU处理能力大幅提升
<3>网络带宽不断增加
数据产生方式的变革:
第一阶段:运营式系统阶段
实例:超市购物,在数据库系统中生成购物信息,每次购物去结账,会生成一条记录,一条条的数据出入数据库
第二阶段:用户原创内容阶段
实例:博客、微博等等,让每一个网民成为自媒体,都可以随心所欲的想网络发布相关信息,这时候数据产生的速度要远远大于之前仅仅由运营式系统产生的数据,速度要比之前快得多,因为每个网民都成为了数据发布的主体
但是,这还不足以导致整个大数据时代的到来,真正让大数据时代由量变到质变,就是到了第三阶段
第三阶段:感知式系统阶段
物联网迅速发展,让大数据时代被到来
因为物联网最底层是感知层,如RFID、摄像头、传感器等,这些设备每时每刻的都在产生数据,有了这么多,物联网设备的存在,才使得数据产生的方式超出了人所能控制的
1.2 大数据的概念和影响
1.2.1 概念
到底什么是大数据?
”4v“
1.数据量大
他有自己的发展定律,遵循大数据摩尔定律,数据每年以50%的速度增长
人类在最近两年产生的数据量,相当于之前产生的全部数据量
大数据是由结构化(10%)和非结构化数据(90%)组成
结构化数据存储在关系型数据库中,大部分数据都属于非结构化数据
2.数据类型繁多
3.处理速度非常快
现在很多企业级应用都属于秒级决策,无论数据量多大,都需要去实现秒级决策
从数据的生成到消耗,实践窗口非常小,可用于生成决策的实践非常少
1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同
4.价值密度低,商业价值高
大数据数据特别多,但并不是都有价值的
比如:一些校园摄像头,每天产生这么多数据,如果没有发生刑事案件之类的情况,这些数据是没有任何意义的,如果有事情发生,那它又是有价值的,平时可能半年都用不到一次,所以价值密度非常低
1.2.2 大数据影响
数据库专家Jim Gray博士,他就认为大数据的到来,使得科学研究开始出现第四种范式
1.科学研究第一种范式:实验
如:伽利略在比萨斜塔做两个铁球同时落地的实验
2.科学研究第二种范式:理论
如:几何理论、第一定律等
3.科学研究第三种范式:计算
计算机发明以后,开始使用计算机去解决问题,进入计算时代
4.科学研究第三种范式:数据
2010年以后,进入以数据为驱动的全新科学研究时代,一开始可能不知道问题是什么,也不知道问题在哪里,完全以数据驱动,通过对大批数据的分析,可以得知出了什么问题
在这里推荐一本书《大数据时代》 维克托.迈尔-舍恩伯格(著)
在这本书中就有讲到大数据时代对人类思维方式产生的很大影响
在思维方式方面,大数据完全颠覆了传统的思维方式
全样而非抽样
之前数据太多,无法保存和分析,统计学采用抽样,只抽取一小部分
但是现在不同,我们可以对全局进行抽样,我们有足够的空间,不局限于一台机器,可以通过集群构建出一个庞大的计算网络,让众多CPU同时工作,去完成庞大的数据处理
效率而非准确
追求效率,而不是追求精确
相关而非因果
不问因果,只关心之间相互的关联
比如:在淘宝用户购买了一本书,会自动推荐相关的另一本书,他只告诉你有这种关联存在,而不告诉你为什么
1.3 大数据应用
1.4 大数据关键技术
在数据采集、数据存储与管理、数据处理与分析、数据隐私与安全这四个方面都有相应的大数据技术存在
但是在最近十年发展最为核心的技术都在:数据存储与管理以及数据处理与分析层面
归结起来两大核心技术:分布式存储和分布式处理
分布式存储:解决海量数据的存储问题(海量数据存储,单机无法存储,采用集群分布式存储)
分布式处理:解决海量数据的处理问题
大数据技术以谷歌技术为代表
不同的计算模式需要使用不同的产品
正如:“不同的锁需要使用不同的钥匙”企业中不同的应用场景属于不同的计算模式,需要使用不同的大数据技术
每个产品所应用的领域都是不同的,要对他的计算模式进行区分,典型的计算模式主要分为四种:
1.批处理计算
Mapreduce是批处理计算模式的典型代表
就是把一堆数据一起拿过来做个批量处理,不适合秒级实时计算
另外还有一个就是spark,但是他的实时性会比MapReduce更好,也解决了MapReduce中的一些缺点,可以迭代计算
2.流计算
针对流数据的实时计算(如:日志流、用户点击流等)
流数据需要实时处理,给出实时响应,否则会失去商业价值
流计算代表产品:S4+Storm+Flume
3.图计算
可以高效的处理图结构数据的处理
像MapReduce它也是可以处理,但是效率不高
图计算代表软件:Google Pregel
比如:社交网络数据、地理信息系统数据等,都是可以用图计算的软件进行处理
4.查询分析计算
交互式查询,一条指令,几秒钟就可以得到查询结果
具有非常高的实时性
代表产品:Google Dremel 、Hive、Cassandra
总结:
不同的产品服务于不同的计算问题
1.5 大数据与云计算、物联网的关系
问题:大数据、云计算和物联网之间是什么关系?
1.5.1 云计算
云计算主要就是解决了两个问题:分布式存储和分布式处理
云计算典型特征:虚拟化和多租户
定义: 是通过网络以服务的方式为用户提供非常廉价的IT资源
优势:企业不需自建IT基础设施,可以租用云端资源
云计算的三种模式:
公有云:比如百度云,面向所有公众
私有云:比如中国移动、电信,面向企业内部
混合云:部分给自己,部分给外面使用
三种云服务:
IaaS——基础设施即服务
将基础设施(计算资源和存储)作为服务出租
比如:AWS(amazon web services亚马逊)
PaaS——平台即服务
调用接口、开发部署
SaaS——软件即服务
把软件作为一个服务卖给你
目前这方面做的最好的公司就是:salesforce
云计算的关键技术:
虚拟化、分布式存储、分布式计算、多租户(满足同时为多个用户服务)
比如:VPN虚拟专用网,这也是一种虚拟化技术
还有一个非常关键的,就是:云计算数据中心
被称为“云计算的温床”
各种数据和应用,并非在“天上云端”,而是位于数据中心里
数据中心包含大量刀片服务器
全国各地大量建设数据中心,掌握了数据中心,就等于掌握了整个云平台发展的基础
云计算典型应用:
1.5.2 物联网
概念:(I0T:The Internet of Things)物联网就是物物相连的互联网,是互联网的延伸(万物相连)
物联网的关键技术:
识别技术:如二维码、条形码
感知技术:RFID无线设备识别
物联网应用
大数据技术继承自云计算
现在指的大数据:
1.数据本身
2.数据处理技术:如何存储、如何处理
也正是因为这些年,大数据技术的飞速发展,数据越来越多,数据量越来越大,才使得云计算时代积累起来的分布式存储和分布式处理技术真正有了用武之地
大数据、云计算、物联网的关系
所以说,大数据、云计算、物联网共同推动了人类发展史上第三次信息化浪潮