大数据学习之组件安装

最新推荐文章于 2025-03-20 15:23:19 发布

原创最新推荐文章于 2025-03-20 15:23:19 发布 · 1.4k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #hadoop #Hive

大数据组件安装专栏收录该内容

7 篇文章

订阅专栏

大数据的诞生之初是为了存储海量数据，在存储了海量数据后，就让海量数据产生价值，于是需要海量数据的计算，海量的计算有很多job，需要海量的资源，且job之间有优先级需要调度，于是需要集中的资源调度。大数据的基石 Hadoop就大概可以分为这三块。

存储 -> 计算 -> 调度。

存储： HDFS为基石，它只是个文件系统，只负责存储，但是没有组织，导致外部查找不方便。于是hive诞生了，hive的数据还是存储在hdfs上，但是它提供了组织架构，类似关系型表的组织。hive的查询引擎是MR，不够快，于是有了其他的即席查询(impala，kylin，druid等)。但是impala使用的元数据还是hive。所有存储这块，HDFS和hive是基石。

计算: 分为实时(流式)和离线(批式)，离线有: MR, spark。实时有: storm，flink。当然flink和spark是都可以做实时和离线，只是擅长的点不一样。发展大体可以粗略概括为

离线: MR -> spark 实时: storm -> flink

流批一体的框架： spark和flink。

调度：国内就是Yarn的天下。

学习路线1： Hadoop -> Hive -> zookeeper -> kafka

学习路线2： Hadoop -> Hive -> Impala -> hue -> zookeeper -> Hbase -> kafka

Hadoop安装文档：Hadoop的安装部署(学习使用)_zhang5324496的博客-优快云博客

Hive 安装文档：Hive安装部署_zhang5324496的博客-优快云博客

Zookeeper安装文档：Zookeeper集群搭建_zhang5324496的博客-优快云博客

Hbase 安装文档: HBase的安装部署_zhang5324496的博客-优快云博客

未完，待后续补充

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。