Hadoop生态介绍

xfysq_

于 2023-04-07 16:38:58 发布

阅读量444

点赞数

分类专栏： Hadoop 文章标签： hadoop 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xfysq_/article/details/130015193

版权

Hadoop 专栏收录该内容

3 篇文章

订阅专栏

Hadoop生态介绍

一、Hadoop生态图解
二、Hadoop各个组件介绍
- （一）各个组件
- （二）特点

一、Hadoop生态图解

在这里插入图片描述

二、Hadoop各个组件介绍

（一）各个组件

1、hadoop是hive和hbase的基础，hive依赖hadoop，而hbase仅依赖hadoop的hdfs模块。
2、Hive：数据仓库。底层基于MapReduce，用于离线计算。
3、R：数据分析。
4、Mahoot：机器学习库，基本不用了。
5、Pig：脚本语言，类似于Hive。
6、Oozle：工作流引擎，管理作业执行顺序。
7、ZooKeeper：可以无感知的切换主节点。
8、Flume：日志收集框架。
9、Sqoop：数据交换框架。在关系型数据库（MySQL、oracle）和HDFS之间进行数据交换。
10、Hbase：分布式数据库，海量数据的查询，使用列式存储。MySQL使用行式存储。有happybase。用于实时计算。
11、Spark：基于内存的分布式计算框架。有pyspark。
（1）Spark core：对应于MapReduce。
（2）Spark sql：对应Hive。
（3）Spark streaming：准实时的流式计算，对应storm和flink。
（4）Spark ML：机器学习库。
12、Kafka：消息队列。
13、Storm：分布式的流式计算框架，不适合python操作。
14、Flink：分布式的流式计算框架。

（二）特点

2、特点：开源，社区活跃，涵盖大数据的方方面面，成熟。
3、版本选择：从Apache下载社区版，或者下载CDH版本。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。