Shuffle和排序

MR确保每个reduce 的输入都是按键排序的,系统执行排序的过程(即map输出作为输入传给reduce)称为shuffle,,

shuffle术语不断被优化和改进的代码库的一部分

,从许多方面来看, shuffle是MR的心脏, 是奇迹发生的地方。


1、map端

  map函数开始产生输出时, 并不是简单的将它写到磁盘, 这个过程 更加复杂,他利用缓冲的方式 写到内存中并处于效率的考虑进行了预排序。

每个map人多有一个环形内存缓存区用于存储任务输出, 在默认的情况下,缓冲区的大小为100MB, 此值可以通过改变io.sort.mb属性来挑战, 一旦缓冲区内存达到阈值(io.sort.spill.percent,默认为0.80,或者80%) 一个后台线程便开始把内容溢出打牌spill磁盘, 在溢出写到磁盘的过程中,map输出继续写到缓冲区, 但是如果再次期间缓冲区被填满了,map会被阻塞知道写磁盘过程完成。

溢出写过程按轮询方式将缓冲区的内容写到mapred.local.dir属性制定的作业特定子目录中。

在写磁盘之前,线程首先根据数据最终要穿的reducer把数据划分成相应的分区( partition)在每一个分区中,后台线程按键进行内排序,如果有一个combiner,它就是排序后的输出上运行, 运行combiner是的map输出结果更加紧凑, 因此减少了写到磁盘的数据和传递给reduce的数据


每次内存缓冲区达到溢出的阀值, 就会新建了一个溢出文件(spill  file) 因此在map任务写完其最后一个输出记录之后,就会有几个溢出文件, 在任务完成之前,溢出文件被合并成一个已分区且已排序的输出文件, 配置属性io.sort.factor控制这一次能合并多流。默认是10个


如果至少存在3个溢出文件(通过min.num.spills.for.combine属性进行设置 则combiner就会在输出文件写到磁盘之前再次运行, 如果只有一个两个 溢出文件, 那么 对于map输出的减少方面不值得调用combiner,不会为该map输出再次运行combiner.

在将压缩map输出写到磁盘的过程中,、对他进行压缩往往是一个很好的主意,因为这样会写磁盘的速度更加块, 结余磁盘空间,并且减少传递给reducer的数据量,在默认的情况下, 输出时不压缩的,


reducer通过http方式得到输出文件的分区,用于文件分区的工作线程的数据由任务的tracker.http.threads属性控制,此设置针对的是每一个 tasktracker,而不是针对每个map任务曹,默认值是40,在运行 大型作业的大型集群上,此值可以可以更具需要增加,  在MR2中 此值不使用, MR2使用Netty,默认情况下允许值为处理器数量的两倍。


==================================================================

reduce端

现在转到处理过程的reudce部分,map输出文件位于运行map任务的tasktracker的本地磁盘(注意,尽管map输出经常写到map tasktracker的本地磁盘) 现在taskstacker需要为分区文件运行reduce任务,而且,reduce任务需要上若干个map任务 和map输出作为其特殊的分区文件, 每个map任务的完成时间可能不同,因此只要有一个任务完成,reduce任务就开始复制其输出,这就是reduce任务的复制阶段,reduce任务有少量复制线程, 因此能够并行取得map输出,默认值是5个线程,但这个默认值可以通过mapred.reduce.parallel.cpies属性来改变。


reducer如何知道从那台机器上面取得map输出呢

map任务成功完成后,它们会通知其父tasktraker状态更新,然后tasktraker进而通知jobtracker, 在MR2中,任务直接通知其应用程序master, 这些通知在前面介绍的心跳通信机制中传输,因此对于指定作业,jobtracker或应用程序master 知道map输出和tasktracker之间的映射关系,reducer中的一个县城定期询问jobtracker以便获取map输出的位置,知道获得所有输出位置,

由于第一个reducer可能是爱,因此tasktrakcer并没有在第一个reducer检索到map输出时就立即从磁盘上删除它们, 相反,tasktracker会等待, 知道jobtracker告知他们删除map输出, 这是作业完成后执行的,


如果map输出相当小, 会被复制到reducer任务的JVM的内存(缓冲区大小由mapred.job.shuffle.input.buffer.percent属性控制, 制定用于此用途的堆空间的百分比, 否则map输出被复制到磁盘, 一旦内存缓冲区达到阈值大小 由 mapred.job.shuffle.merge.percent决定 或达到map的输出阈值由mapred.inmem.merge.threshold控制, 则合并后溢出写到磁盘中, 如果指定combiner, 则在合并期间运行它降低写入磁盘的数据量。

随着磁盘上副本增多, 后台线程会将他们合并为更大的,排好序的文件, 这回为后面的合并节省一些时间,注意为了合并, 压缩的map输出(通过map任务)都必须在内存中被解压缩,

复制完所有的map输出后, reduce任务进入排序阶段,(更加恰当的说法是合并阶段,因为排序是在map端进行的) 这个阶段将合并map输出,维持其顺序排序。 这是书序排序。 比如有50个map输出, 而合并因子是10 ,(默认是10 ,由io.sort.factor属性设置, 与map和合并类似)合并将进行5躺, 每糖将10个文件合并成一个文件, 因此最后有5个中间文件,


在最后阶段, 即reduce阶段,直接把数据输入reduce函数,从而省略了一次磁盘的往返过程, 并没有将五个文件合并成一个已排序的文件 ,作为最后一趟,最后的合并可以来自内存和磁盘片段。


在reduce阶段,对已排序的输出中的每个键调用reduce函数,由此阶段的输出直接写到 HDFS, 所以第一块副本将被写到本地磁盘。
























评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值