hadoop基础知识

本文介绍了Hadoop的组成,包括HDFS、Yarn和MapReduce架构,详细阐述了各组件的功能,如NameNode、DataNode、ResourceManager、NodeManager和ApplicationMaster等。同时,概述了大数据体系的各个层面,从数据来源到业务应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一,hadoop 组成
  1. HDFS 负责数据的存储
  2. MapReduce 负责计算
  3. Yarn 负责资源的调度
  4. Common 辅助工具

以上hadoop 组成是指hadoop2.x ,在hadoop1.x 中 Mapreduce 同时处理业务逻辑运算和资源的调度,耦合性较大,在2.x 中增加了Yarn,来负责资源的调度。

HDFS 架构
  1. NameNode: 存储文件的元数据(文件名,文件目录结构,文件属性-- 生成时间,副本数,权限),以及每个文件的块列表以及块所在的DataNode等。
  2. DataNode: 在本地文件系统中存储文件块数据,以及块数据的校验和。
  3. SecondNameNode: 用来监控HDFS 状态的后台辅助程序,每隔一段时间获取HDFS元数据的快照。
Yarn 架构
  1. ResourceManager : a. 处理客户端请求 b. 监控NodeManager c. 启动或监控ApplicationMaster d. 资源的分配与调度
  2. NodeManager: a. 管理单个节点上的资源 b. 处理来自ResourceManager的命令 c. 处理来自ApplicationMaster的命令
  3. ApplicationMaster: a. 负责数据的切分 b. 为应用程序申请资源,并分配给内部的任务。c. 任务的监控与容错。
  4. Container: 是资源的抽象,封装了某个节点上的多维度资源,如内存,CPU, 磁盘,网络等。
MapReduce 架构

MapReduce 将计算过程分为两个阶段,Map 和 Reduce

  1. Map 阶段并行处理输入数据
  2. Reduce 阶段对Map 结果进行汇总
大数据体系分成
  1. 数据来源层: 数据库(结构化数据), 文件日志(半结构化数据),视频,ppt(非结构化数据)
  2. 数据传输层: sqoop 数据传递,flume 日志采集,kafka 消息队列
  3. 数据存储层:HDFS 文件存储,Hbase 非关系型数据库
  4. 资源管理层: YARN 资源管理
  5. 数据计算层: MapReduce 离线计算 (Hive 数据查询) Spark Core 内存计算(Spark SQL 数据查询,Spark Streaming 实时计算)
  6. 任务调度层: Oozie 任务调度 Azkaban 任务调度
  7. 业务模型层:业务模型层,数据可视化,业务应用
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值