大数据基础平台实施及运维
为什么使用大数据技术
- 海量数据需要处理
- 数据分析实时性越来越强
-
数据结果的应用越来越广泛
-
人工处理起来非常困难
什么是大数据
-
收集、整理、处理大容量数据集,并从中获得结果的技术总称
-
大数据应用领域
-
广告、电信、金融、安全、能源生物、社交游戏、电商零售
大数据处理框架
仅批处理框架
对整个数据集进行处理
- Apache Haddoop
一种以MapReduce作为默认处理引擎批处理框架
仅流处理框架
随时处理进入系统的数据,无数据边界
- Apache Storm
- Apache Samza
混合处理框架
同时批处理和流处理
- Apache Spark
- Apache Flink
hadoop历史
-
2002年 Doug Cutting 开发了 Nutch
-
2004年 Doug Cutting 实现了分布式文件存储系统名为NDFS
-
2005年 Doug Cutting 实现了MapReduce功能
-
2006年 将NDFS与MapReduce升级命名为Hadoop