大数据入门之Hadoop(一)

本文介绍了大数据部门的业务流程和组织结构,接着深入讲解了Hadoop的定义、三大发行版本、四大优势及组成。重点阐述了HDFS和Yarn的架构,包括NameNode、DataNode、ResourceManager、NodeManager、ApplicationMaster和Container的角色与功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、 大数据部门流程介绍

1.1 大数据部门业务流程分析

产品人品提需求(主要是公司各部门不限于产品经理)

数据部门搭数据平台、分析数据指标

数据可视化(报表、邮件、大屏幕展示等)

1.2 大数据部门组织结构

在这里插入图片描述
一般为大型互联网公司。

二、Hadoop概述

2.1 Hadoop是什么

Hadoop是一个由Apache基金会开发的分布式系统基础架构。
主要解决,海量数据的存储和海量数据的分析计算问题。
大数据一般指量级在PB量级以上的数据存储。

2.2 三大发行版本

1.Apache;2.Cloudera;3.Hortonworks

2.3 Hadoop的四大优势

1、高可靠性:底层有多个数据副本,可理解为复制了很多份数据。
2、高扩展性:在集群间分配任务数据,需要的时候可以加集群数。
3、高效性:并行工作,加快工作速度。
4、高容错性:可以自动将失败的任务重新分配。

2.4 Hadoop组成

Hadoop 1.x组成:
MapReduce(计算和资源调度)+ HDFS(数据存储) + Common(辅助工具)
Hadoop 2.x组成:
MapReduce(计算)+ Yarn(资源调度)+ HDFS(数据存储) + Common(辅助工具)

1.HDFS架构

HDFS(Hadoop Distributed File System)架构:
(1)NameNode(nn)
它存储文件的元数据(描述数据的数据),就是数据的目录。
(2)DataNode(dn)
存储文件数据本身。但是Hadoop的优势就是它有数据的备份。
(3)Secondary NameNode(2nn)

2.Yarn架构

1)ResourceManager(RM)

说明 首先RM一个集群只有一个,管理集群所有的调度情况(比喻为公司的Boss)
作用:1.处理客户端请求;2.监控NodeManager;3.启动或监控ApplicationMaster;4.资源调度和分配。

2)NodeManager(NM)

(NM可比喻为一个公司的普通员工)
作用:1.管理单个节点上的资源;(根据比喻,相当于完成自己的任务,管理自己的区域)
2.处理来自RM的命令;(听从Boss的安排)
3.处理来自AM的命令(听从某一个项目的负责人安排)

3)ApplicationMaster(AM)

(AM可比喻为一个项目的临时负责人,只负责这一个项目的跟进,AM相当于是由某个项目产生的)
作用:1.复制数据的切分;2.为应用程序申请资源并分配给内部的任务;3.任务的监控和容错

4)Container

Container是Yarn的资源抽象,是RM、NM、AM的容器,它封装了某个节点的多维度资源。如内存、CPU、磁盘、网络等。(因为用容器后可以规定用多少资源多少网络,便于分配)
注意 RM和NM是常驻的,AM和Container是非常住的,有job才会出现。

3.MapReduce 架构

MapReduce可以认为是一种算法或者思想。
MapReduce将计算分为两个阶段:Map和Reduce。
(1)Map阶段并行处理输入数据
(2)Reduce阶段对Map结果进行汇总
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值