hadoop生态圈

最新推荐文章于 2025-06-04 01:13:02 发布

鱼获飞

最新推荐文章于 2025-06-04 01:13:02 发布

阅读量339

点赞数

CC 4.0 BY-SA版权

分类专栏： Java 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_40682142/article/details/91470306

Java 专栏收录该内容

40 篇文章

订阅专栏

本文深入探讨Hadoop作为大数据处理框架的核心作用，包括其在海量数据存储与分析计算中的优势，介绍了MapReduce、Hive、HBase、YARN和HDFS等关键组件的功能与架构，以及Hadoop运行环境的搭建步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大数据主要解决海量数据的存储和海量数据的分析计算问题，其特点是大量、高速、多样和低价值密度。Google 是 hadoop 的思想之源：GFS -> HDFS, Map-Reduce -> MR, BigTable -> Hbase。Hadoop 三大发行版本是Apache、Cloudera和Hortonworks

Hadoop生态圈：
在这里插入图片描述

Hadoop 组成：

MapReduce：一个分布式的离线并行计算框架。
Hive：针对大数据的查询框架。
HBase：NoSQL实时/准实时框架。
YARN：作业调度与集群资源管理的框架。
HDFS：一个高可靠、高吞吐量的分布式文件存储系统。

HDFS 架构:

NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的 DataNode 等。
DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。
Econdary NameNode(2nn)：用来监控 HDFS 状态的辅助后台程序，每隔一段时间获取 HDFS 元数据的快照。

YARN 架构：

ResourceManager(rm)：处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度。
NodeManager(nm)：单个节点上的资源管理、处理来自 ResourceManager 的命令、处理来自ApplicationMaster 的命令。
ApplicationMaster：数据切分、为应用程序申请资源，并分配给内部任务、任务监控与容错。
Container：对任务运行环境的抽象，封装了 CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。

MapReduce 架构：MapReduce 将计算过程分为两个阶段：Map 和 Reduce，Map 阶段并行处理输入数据，Reduce 阶段对 Map 结果进行汇总。

搭建Hadoop运行环境步骤：
1、创建并克隆虚拟机。
2、设置静态ip和主机名。
3、安装jdk和hadoop。

Hadoop的三种运行模式demo：
1、本地模式
2、伪分布模式
3、完全分布式模式

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。