大数据Hadoop笔记(1):Hadoop概述

大数据涉及数据的采集、存储和计算,特点是量大、速度快、类型多样且价值密度低。Hadoop是关键工具,提供高可靠性和扩展性,包括HDFS文件系统、YARN资源管理和MapReduce计算模型。Hadoop的不同版本主要在资源调度上有所改进。HDFS、YARN和MapReduce共同构建了大数据处理的基础框架,而整个大数据生态还包括更多的相关技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据的概念

采集、存储、计算

大数据的特点

  • 大量Volume
  • 高速Velocity
  • 多样Variety:结构化非结构化数据
  • 低价值密度Value:需要“提纯”

大数据部门间业务流程

Hadoop优势

  • 高可靠性
  • 高扩展性
  • 高效性
  • 高容错性

Hadoop版本区别

资源调度:管理内存、CPU…

请添加图片描述

HDFS概述

HDFS集群

请添加图片描述

Yarn概述

放在容器里:用完自动释放,更灵活,向Resource Manager申请

请添加图片描述

MapReduce

MapReduce将计算分为两个阶段:

  • Map阶段
  • Reduce阶段

在这里插入图片描述

HDFS、YARN、MapReduce三者关系

在这里插入图片描述

大数据生态体系

在这里插入图片描述

课程链接: 【尚硅谷大数据Hadoop教程(Hadoop 3.x安装搭建到集群调优)】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值