MapReduce 本地化优先策略

最新推荐文章于 2024-10-30 10:26:02 发布

缘定三石

最新推荐文章于 2024-10-30 10:26:02 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： Hadoop实战文章标签： mapreduce 本地化优先策略

本文链接：https://blog.youkuaiyun.com/tian_qing_lei/article/details/77413059

Hadoop实战专栏收录该内容

46 篇文章

订阅专栏

本文介绍了Hadoop中MapReduce的本地化策略，包括Map任务如何利用数据本地化提高执行效率，以及Reduce任务在网络数据传输过程中的特点。同时，还探讨了如何通过合理设置数据分片大小来实现高效并行处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

http://note.youdao.com/noteshare?id=db6a42debfcb09a1a6d54a497e760f68&sub=649D30D6AD144AB8AC13802E61B47E3E

1、map具备本地化优势策略 

map执行时优先选择在存储HDFS数据的服务器上执行，其次在同机架的服务器上执行，最次在其他机架服务器上执行。 

hadoop执行第一步是将输入数据分片（分成固定大小），单个分片大小要与HDFS最小数据单元相同，因为如果一个分片大于HDFS单元的话，就无法保证分片数据在同一台服务器上。如果跨服务器就会增加网络传输数据的时间消耗。

2、reduce 不具备本地化优势策略 

reduce任务执行不具备就近原则，之后有个shuffer阶段，会通过网络将map执行结果传输之reduce处理的服务器中，在进行计算。

3、.针对有一个128M的数据，依据本地化优先策略，怎样达到高速并发执行的效果？

因为128M有三个副本，设置切片大小128/3M，3个节点，每个节点处理三分之一，在依据本地化优先策略下，可以达到高速并发执行的效果。

示意图如下：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

缘定三石

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hadoop系列之MapReduce 数据本地化 (29)

02-20

6万+

MapReduce 数据本地化 数据本地化是指把计算移动到数据所在节点上进行执行的过程，也就是通常所说的 “移动计算而不是移动数据”。移动计算比移动数据具有更大的优势，它可以降低网络开销，增加系统的整体吞吐量。数据本地化的概念让我们来理解一下数据本地化的概念，以及什么 MapReduce 数据本地化。 Hadoop 主要的缺点是跨交换网络传输巨量的数据。为了克服这个缺点，Hadoop 提出了数据本地化概念。数据本地化的指的是把计算移动到尽可能离数据近的地方执行，因为移动计算比移动巨量数据要更高效，它可以

Mapreduce原理

11-26

- **Map任务本地化策略**：为了减少网络传输成本，Map任务会优先在存储数据的节点上执行。如果无法在本地执行，则会选择同一机架内的节点执行。 - **Reduce任务**：不支持本地化策略，所有Map任务的输出都需要在网络...

参与评论您还未登录，请先登录后发表或查看评论

【读书笔记】MapReduce之数据本地化

潇山远

04-15

903

读书时遇到喜欢的内容，记下笔记，以加深自己的印象，将来亦可以回味。以下内容摘自Tom White的《Hadoop权威指南》。数据本地化特性是MapReduce的核心特征，并因此而获得良好的性能。意识到网络带宽是数据中心环境最珍贵的资源（到处复制很容易耗尽网络带宽）之后，MapReduce通过显式网络拓扑结构保留网络带宽。 Ps：关于什么是显式网络拓扑结构博主现在也不懂，更不明...

巧用MapReduce+HDFS，海量数据去重的五大策略

SprintfWater的专栏

03-26

1425

MapReduceHDFSHadoop存储HbaseDedoop云计算摘要：随着收集到数据体积的激增，去重无疑成为众多大数据玩家面对的问题之一。重复数据删除在减少存储、降低网络带宽方面有着显著的优势，并对扩展性有所帮助。在存储架构中，删除重复数据的常用方法包括哈希、二进制比较和增量差分；而本文专注的是使用MapReduce和HDFS对数据进行去重。随着存储数据信息量的飞速增长，越来越多

数据本地化策略

帅成一匹马

07-04

2099

数据本地化: 数据存储与数据计算都在同一个节点上进行 1.当JobTracker接收到MR任务之后，会去访问NameNode获取要处理的文件信息 2.NameNode将文件信息(包括文件大小,存储位置,切块信息)返回给JobTracker 3.JobTracker收到文件信息之后会将文件进行切片（split中只包含切片信息比如切片起点,切片大小位置等,不包...

MapReduce 数据本地化（Data-Local）

有趣的人生一半是山川湖海一半是初心情怀

04-26

1372

首先，HDFS 和 MapReduce 是 Hadoop 的核心设计。对于 HDFS，是存储基础，在数据层面上提供了海量数据存储的支持。而 MapReduce，是在数据的上一层，通过编写MapReduce 程序对海量数据进行计算处理。在前面 HDFS 章节中，知道了 NameNode 是文件系统的名字节点进程，DataNode是文件系统的数据节点进程。MapReduce 计算框架中负责计算任...

MapReduce优化技巧：数据本地化与压缩策略

通过深入了解MapReduce的原理和流程，有助于我们更好地理解MapReduce优化的重要性和实践方法。 ### 1.1 MapReduce框架概述 MapReduce框架由Google于2004年提出，是一种分布式计算框架，主要用于并行处理大规模数据...

写入本地磁盘策略：MapReduce数据持久化的高效选择

[写入本地磁盘策略：MapReduce数据持久化的高效选择](https://ucc.alicdn.com/pic/developer-ecology/yq32ha2ascg5a_65803cedba2e4c228127ae5ff03d9133.png) # 1. MapReduce数据持久化概述 MapReduce作为一种分布式...

Hadoop MapReduce工作原理与数据本地化解析

MapReduce通过数据本地化策略优化性能，尽可能地让计算任务在数据所在的节点上运行，减少网络传输，提高效率。 **Hadoop的工作流程** 可以概括为以下几个步骤： 1. **任务提交**：客户端将作业（job）提交给...

MapReduce的数据处理策略与设计理念

04-29

5. 数据本地化：MapReduce 优先将任务分配给存储相应数据块的节点，以减少数据传输的开销。 6. 任务调度：MapReduce 通过任务调度器来管理任务的执行，任务调度器可以根据节点的负载情况和数据本地化等因素来决定...

个人笔记之MapReduce

qq_37807821的博客

11-09

348

个人笔记之MapReduce 1.定义首先，总结一下MapReduce是干嘛用的： MapReduce是一种用于处理大批量数据的计算模型。它的特点就是能把大量的数据分割进行计算，再将计算结果汇总出来。这样就能够用更低内存空间的处理器处理数据量远超该内存的数据–因为数据都被切割成很多小块了嘛，一台电脑没法算那就十台，一百台同时算，这样能大大节省计算时间，从而完成单台电脑根本不可能在短时间完成的任务。Map映射，Reduce规约。核心思想：分而治之，计算向数据靠拢。为什么要用MapReduce？它

MapReduce工作机制

liu1390910的博客

01-23

364

作业提交创建一个job实例向ResourceManage请求一个新应用ID将运行所需要的资源复制到一个以作业ID命令的目录下的共享文件系统中通过ResourceManage的submitApplication()方法提交作作业初始化将提交的作业请求传递给Yarn调度器，调度器分配一个容器，资源管理器在节点管理器的管理下，在容器中启动application Maste

Hadoop学习笔记(5) MapReduce工作机制

DPC27149的专栏

04-10

2096

Hadoop学习笔记(5) MapReduce工作机制知识点小结： shuffle影响性能的因素 1 Map –>buffer –> partition, sort, spill to disk (输出缓冲区，溢出写磁盘比例，运行combiner最小溢出写文件数3, task tracker工作线程数) 2 Reduce copy (5 threads) –> memory (b

Hadoop中的数据本地化策略是如何工作的？