Apache—Hadoop实践

本文介绍了Hadoop的核心组件,包括HDFS分布式文件系统、MapReduce分布式运算框架和YARN资源调度系统。阐述了Hadoop的高可靠、高可扩展及分布式计算特点,并详细解析了HDFS、MapReduce的工作原理及Hive数据仓库工具的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

官网地址:https://hadoop.apache.org/

1、概念简介

概念解释:Hadoop 是 Apache 旗下的顶级开源项目,具备高可靠、高可扩展、分布式计算的特点。

  • 核心组件

HDFS 组件
分布式文件系统(Hadoop Distributed File System)具有高容错、高吞吐、可扩展的特性;

MapReduce 组件
分布式运算框架(Map和Reduce),Map(映射)和Reduce(归约)是它们的主要思想

YARN 组件
Hadoop2.0版本新引入的组件,资源调度系统(Yet Another Resources Negotiator);
核心思想:YARN通过将资源管理和应用程序管理两部分剥离开来,分别由ResourceManager和ApplicationMaster进程来实现。

2、系统架构

在这里插入图片描述

Block Replication:默认3副本;
文件块容量:默认128m;

hdfs流程

  • hadoop读
    在这里插入图片描述

  • Hadoop写
    在这里插入图片描述

MapReduce原理

在这里插入图片描述
架构:yarn管理节点采用主从架构,主节点负责接受客户端请求,从节点实时同步主节点的任务状态信息,zk负责状态监控及主从切换;

hive架构

在这里插入图片描述

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。

hive特性:
1)Hive可以单条/批量数据插入,不支持记录级别的删除(delete)、修改(update)操作。
2)Hive的查询延时较长,因为MapReduce Job的启动过程消耗很长时间,所以不能用在交互查询系统中。
3)Hive不支持事务。

================================ over ========================================

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值