Hadoop生态介绍

一、Hadoop生态图解

在这里插入图片描述

二、Hadoop各个组件介绍

(一)各个组件

1、hadoop是hive和hbase的基础,hive依赖hadoop,而hbase仅依赖hadoop的hdfs模块。
2、Hive:数据仓库。底层基于MapReduce,用于离线计算。
3、R:数据分析。
4、Mahoot:机器学习库,基本不用了。
5、Pig:脚本语言,类似于Hive。
6、Oozle:工作流引擎,管理作业执行顺序。
7、ZooKeeper:可以无感知的切换主节点。
8、Flume:日志收集框架。
9、Sqoop:数据交换框架。在关系型数据库(MySQL、oracle)和HDFS之间进行数据交换。
10、Hbase:分布式数据库,海量数据的查询,使用列式存储。MySQL使用行式存储。有happybase。用于实时计算。
11、Spark:基于内存的分布式计算框架。有pyspark。
(1)Spark core:对应于MapReduce。
(2)Spark sql:对应Hive。
(3)Spark streaming:准实时的流式计算,对应storm和flink。
(4)Spark ML:机器学习库。
12、Kafka:消息队列。
13、Storm:分布式的流式计算框架,不适合python操作。
14、Flink:分布式的流式计算框架。

(二)特点

2、特点:开源,社区活跃,涵盖大数据的方方面面,成熟。
3、版本选择:从Apache下载社区版,或者下载CDH版本。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值