大数据的诞生之初是为了存储海量数据,在存储了海量数据后,就让海量数据产生价值,于是需要海量数据的计算,海量的计算有很多job,需要海量的资源,且job之间有优先级需要调度,于是需要集中的资源调度。大数据的基石 Hadoop就大概可以分为这三块。
存储 -> 计算 -> 调度。
存储: HDFS为基石,它只是个文件系统,只负责存储,但是没有组织,导致外部查找不方便。于是hive诞生了,hive的数据还是存储在hdfs上,但是它提供了组织架构,类似关系型表的组织。hive的查询引擎是MR,不够快,于是有了其他的即席查询(impala,kylin,druid等)。但是impala使用的元数据还是hive。所有存储这块,HDFS和hive是基石。
计算: 分为实时(流式)和离线(批式),离线有: MR, spark。 实时有: storm,flink。当然flink和spark是都可以做实时和离线,只是擅长的点不一样。 发展大体可以粗略概括为
离线: MR -> spark 实时: storm -> flink
流批一体的框架: spark和flink。
调度: 国内就是Yarn的天下。
学习路线1: Hadoop -> Hive -> zookeeper -> kafka
学习路线2: Hadoop -> Hive -> Impala -> hue -> zookeeper -> Hbase -> kafka
Hadoop安装文档:Hadoop的安装部署(学习使用)_zhang5324496的博客-优快云博客
Hive 安装文档:Hive安装部署_zhang5324496的博客-优快云博客
Zookeeper安装文档:Zookeeper集群搭建_zhang5324496的博客-优快云博客
Hbase 安装文档: HBase的安装部署_zhang5324496的博客-优快云博客
未完,待后续补充