大数据概述
大数据时代的三种标志:大数据,云计算,物联网。
云计算:
云计算概念:通过网络以服务的方式为用户提供非常廉价的IT资源。
云计算通俗点讲就是把以前需要本地处理器计算的任务交到了远程服务器上去做。
几个云计算的应用实例:
第一是webQQ。访问webqq的时候就会发现这里面有很多像是图片处理,网页浏览,在线office处理之类的应用,这些应用无论电脑的性能如何,只要带宽允许都是可以流畅运行的,因为很多数据处理和存储都交给了云端服务器计算。
第二是网页游戏。这其实也是一种云计算应用,把以前需要在本地安装的客户端放到了网页上,通过基于网页的与计算服务把原来需要本地电脑计算的额画面放到了服务器上,虽然画面不如传统网游,但是也可以体现云计算的特性。
三种云服务:IaaS(基础设施即服务,面向网络架构师),PaaS(平台即服务,面向应用开发者),SaaS(软件即服务,面向用户,salesforce公司做的最好)
结构化/非结构化数据
结构化数据就是存储在关系数据库上的一些规范的数据
非结构化数据就是图像音频等
数据驱动
就是根本不知道什么问题,但是有数据,此时靠数据去发现解决问题,叫做以数据驱动。
大数据影响
1.全样而非抽样。
2.效率而非精确。现在大数据追求时效性,你需要在一瞬间得出结果。
3.相关而非因果。
典型计算模式
1.批处理。hadoop,实时性差。spark实时性高一些,可做迭代计算。
2.流计算。实时商业价值,必须马上对数据进行处理。
3.图计算。graphX
4.查询分析计算。实时,秒级反应。
Hadoop版本选择
1.如果是企业:CDH(cloudera企业发行版,推荐使用),hortonwork
2.学生:Apache Hadoop