生态圈
HBase简介
- 高可靠,高性能,面向列,可伸缩,实时读写的分布式数据库
- 利用HDFS作为其文件存储系统,支持MR程序读取数据
- 存储非结构化和半结构化数据
RowKey:数据唯一标识,按字典排序
Column Family:列族,多个列的集合,最多不要超过3个
**TimeStamp时间戳:**支持多版本数据同时存在

Spark
- 基于内存的大数据并行计算框架
- Spark是MapReduce的替代方案,兼容HDFS,HIVE等数据源
- 抽象出分布式内存存储数据结构,弹性分布式数据集RDD
- 基于事件驱动,通过线程池复用线程提高性能