大数据通过分布式解决的两个问题:
- 大量数据的存储
- 大量数据的计算
学习基础
- java SE
- linux基础
学习路线( 两个重要框架)
一、hadoop
第一阶段
- HDFS(分布式文件系统)——解决大量数据的存储的问题
- MapReduce(java程序)——解决大量数据的计算的问题
- HBase(NoSQL数据库)
第二阶段
- Hive/pig(数据分析引擎)
- Sqoop(离线)/Flume(实时)——数据采集
第三阶段
1.Web管理工具(HUE)
2. Zookeeper:实现hadoop的HA。
3. Oozie:工作流引擎等。
二. spark.
- scala语言。
- spark core(解决数据计算,离线计算)。
- spark sql(类似oracle中的sql).
- spark Streaming(进行实时计算,流式计算)。
三.
- apache storm(类似spark Streaming,实时计算).
- Redis(Nosql的一种):基于内存的数据库。