
hadoop
moxuqiang_dm
这个作者很懒,什么都没留下…
展开
-
hadoop mapreduce任务中,map任务数的确定
原理我们知道在创建一个mapreduce任务的时候,需要指定Inputformat的类型,我们就从这里入手了解一个mr任务中,是如何读取数据的,首先来看一个具体的inputformat的子类源码(hadoop2.6版本源码)#segment_1package org.apache.hadoop.mapreduce.lib.input;import org.apache.hadoop.classif原创 2015-08-07 14:32:27 · 1517 阅读 · 2 评论 -
mapreduce源码结构以及主要过程源码
了解mapreduce任务启动过程想了解mapruduce的源码结构,首先了解yarn的基本结构以及一下mr任务启动的过程,看下图: 可以看到整个过程通过job-client来向resourceManager提交作业,然后resourceManager在集群中某台机子启动mr appMaster,再由mr appMaster去启动task,并管理task;为了更方便地管理集群硬件资源,mr app原创 2015-09-15 18:17:44 · 800 阅读 · 0 评论 -
mapreduce任务中数据分布倾斜导致reduce负载不均衡的解决方案
概述:从所周知,当需求中数据出现分布不均的情况时,按照hadoop mr任务的默认partition方法,会出现某些机子负载过重的情况,这样会拖慢整个任务进度。在这里我介绍一个用随机数解决这个问题的方案,下面是通过代码来模拟map根据partition来分区的情况;package com.mxq.balance;import java.util.Vector;public class UNBalan原创 2015-09-10 00:41:53 · 5408 阅读 · 0 评论