1.1
大数据的定义:在一定时间范围内使用常规软件工具进行捕捉,管理好和处理数据集合
经典案例:
啤酒与尿布
谷歌与流感
大数据的范围;采集,收集,储存,共享,传输,分析和可视化。
内存:运行速度
存储:储存容量
海量数据的产生:(1)来自大人群互联网
(2)来自传感器机器
(3)科学研究及行业多结构专业数据
1887-1890年:电动器
1944年:预见大数据
1997年:用大数据描述超级计算机产生的大量信息
2003-2006年:谷歌提出大数据可重用方案
2008年:提出大数据概念
2009年:大数据逐渐走进互联网
2012年:大数据成为一种新的资产类别
2013年:大数据元年
1.2第四范式
实验——理论——计算——数据
大数据的特征:
(1)大量化 :储存量大,增量大
(2)多样化:
来源多: 搜索网络,社交网络
格式多: 结构化数据,非结构化数据
(3)快速化
(4)有价值
企业推动大数据:腾讯,华为,谷歌,ETC,数据库,阿里均使用了大数据
1.3 大数据的关键技术
(1) 大数据预处理技术
数据采集
数据存取
基础架构支持
计算结果展现
(2)大数据存储技术
存储设备能持久可靠的存储数据
提供可伸缩接口
提供高效查询,更新等操作
(3)大数据分析技术
数据处理
统计和分析
数据挖掘
模型预测
(4)大数据计算技术
1.4 大数据的典型计算架构
Hadoop——处理本地数据库
Spark——收集并更新
Storm——延迟毫秒级
云计算概述
无处不在的云计算:电子日历,地图导航,钉钉
什么是云计算?