大数据--MapReduce学习笔记

本文介绍了MapReduce的起源、工作原理以及在Hadoop生态中的部署结构。详细阐述了Map阶段和Reduce阶段的执行过程,包括数据的拆分、排序、合并以及优化策略。此外,还讨论了处理小文件问题的方法,如CombineFileInputFormat和SequenceFile。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、MapReduce简介

  • MapReduce:2004年 Google paper中提出。
  • 一个用于分布式数据处理的编程模型和运行环境。适合处理各种结构化和非结构化的数据。
  • HDFS(hadoop 分布式文件系统)是MapReduce的基础。
  • 分布式系统的设计原则

moving computation is more cheaper than moving data。(现场办公)

  • Map

示例:我们要数图书馆中的所有的书,你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。

  • Reduce

现在我们到一起,把各自统计的数报给管理员,管理员把所有人的统计数加在一起,这就是“Reduce”。

  • Hadoop生态系统架构

         

  • MapReduce 部署视图

         

MR是和HDFS一样的master/slave模式的星型结构,MR的Nodemanage必须和HDFS的datanode部署在同一节点上。

  • Map Reduce运行视图

MR的几个重要对象:

(1)、MR client:和用户交互,和MR集群交互。

(2)、Application:MR任务,Map算法、Reduce算法。

(3)、App config:MR任务相关配置参数。

 

(1)、Resourcemanage:

Resource deamon,整个MR集群的资源管理,主要是CPU、内存、网络。

Applications deamon,整个集群中MR任务(application)的调度监控,但只调度app master。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值