hadoop入门

Hadoop是一个开源的分布式计算框架,它包括HDFS(分布式文件系统)、YARN(资源管理)和MapReduce(分布式计算)。Hadoop适合处理大规模、流式数据,尤其在商用硬件上表现出高容错性和高扩展性。然而,它不适用于低延迟数据访问和大量小文件操作,且不支持频繁修改文件。Hadoop的主要组件是HDFS和MapReduce,它们共同实现了大数据的存储和处理。

Hadoop 简介:
Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点
特别适合写一次,读多次的场景

适合:
大规模数据
流式数据(写一次,读多次)
商用硬件(一般硬件)
不适合:
低延迟的数据访问
大量的小文件
频繁修改文件(基本就是写1次)
Hadoop架构
在这里插入图片描述

HDFS: 分布式文件存储
YARN: 分布式资源管理
MapReduce: 分布式计算
Others: 利用YARN的资源管理功能实现其他的数据处理方式
Hadoop架构有两个主要的组件:分布式文件系统和MapReduce引擎。主要的分布式文件系统是Hadoop分布式文件系统(HDFS),这里存储着程序。MapReduce引擎是用于执行程序的一个框架。

参考资料:
https://www.w3cschool.cn/hadoop/fgr61jyf.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值