大数据之MapReduce

第1章概述

1.1MapRedece定义
分布式运算程序的编程框架,基于hadoop的数据分析计算的核心框架

MapRedece处理过程分为两个阶段

Map:负责把一个任务分解成多个任务
Reduce:负责把分解后多个任务的处理结果汇总

MapReduce优缺点

优点:

  1. 易于编程,它简单的实现一些借口,就可以完成一个分布式程序
  2. 良好的扩展性
  3. 高容错性,如果其中一台机器挂掉了,他可以把上面的计算任务转移到另外一台节点上运行。
  4. 适合PB级以上的海量数据的离线处理,可以实现上千台服务器集群的并发工作

缺点

  1. 不擅长实时计算
  2. 不擅长流式计算

MapReduce核心思想

在这里插入图片描述

MapReduce进程

在这里插入图片描述

MapReduce编程规范

用户编写的程序分成三个部分:Mapper、Reducer和Driver。
在这里插入图片描述
在这里插入图片描述

WordCount案例实操

在这里插入图片描述

第2章Hadoop序列化

序列化概念

什么是序列化

  • 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(撳化)和网络传输。
  • 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。

为什么要序列化

  • 一般来说,“活的” 对象只生存在内存里,关机断电就没有了。殂“活的”
    对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然而序
    列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。

自定义bean对象实现序列化接口(Writable)

具体实现bean对象序列化步骤如下7步。

  1. 自定义类实现Writable接口
  2. 反序列化时,需要反射调用空参构造函数,所以必须有空参构造
  3. 重写序列化方法
  4. 重写反序列化方法
  5. 注意反序列化的顺序和序列化的顺序完全一致
  6. 要想把结果显示在文件中,需要重写toString(),可用”\t”分开,方便后续用。
  7. 如果需要将自定义的bean放在key中传输,则还需要实现Comparable接口,因为MapReduce框中的Shuffle过程要求对key必须能排序

序列化案例实操

案例需求

统计每一个手机号耗费的总上行流量、下行流量、总流量
在这里插入图片描述

编写MapReduce程序

编写流量统计的Bean对象
// 1 实现writable接口
public class FlowBean implements Writable{

	private long upFlow;
	private long downFlow;
	private long sumFlow;
	
	//2  反序列化时,需要反射调用空参构造函数,所以必须有
	public FlowBean() {
		super();
	}

	public FlowBean(long upFlow, long downFlow) {
		super();
		this.upFlow = upFlow;
		this.downFlow = downFlow;
		this.sumFlow = upFlow + downFlow;
	}
	
	//3  写序列化方法
	@Override
	public void write(DataOutput out) throws IOException {
		out.writeLong(upFlow);
		out.writeLong(downFlow);
		out.writeLong(sumFlow);
	}
	
	//4 反序列化方法
	//5 反序列化方法读顺序必须和写序列化方法的写顺序必须一致
	@Override
	public void readFields(DataInput in) throws IOException {
		this.upFlow  = in.readLong();
		this.downFlow = in.readLong();
		this.sumFlow = in.readLong();
	}

	// 6 编写toString方法,方便后续打印到文本
	@Override
	public String toString() {
		return upFlow + "\t" + downFlow + "\t" + sumFlow;
	}

	public long getUpFlow() {
		return upFlow;
	}

	public void setUpFlow(long upFlow) {
		this.upFlow = upFlow;
	}

	public long getDownFlow() {
		return downFlow;
	}

	public void setDownFlow(long downFlow) {
		this.downFlow = downFlow;
	}

	public long getSumFlow() {
		return sumFlow;
	}

	public void setSumFlow(long sumFlow) {
		this.sumFlow = sumFlow;
	}

	public void set(long downFlow2, long upFlow2) {
		upFlow = upFlow2;
		downFlow = downFlow2;
		sumFlow = upFlow2 + downFlow2;
		
	}
}
编写Mapper类
public class FlowCountMapper extends Mapper<LongWritable, Text, Text, FlowBean>{
	
	FlowBean v = new FlowBean();
	Text k = new Text();
	
	@Override
	protected void map(LongWritable key, Text value, Context context)	throws IOException, InterruptedException {
		
		// 1 获取一行
		String line = value.toString();
		
		// 2 切割字段
		String[] fields = line.split("\t");
		
		// 3 封装对象
		// 取出手机号码
		String phoneNum = fields[1];

		// 取出上行流量和下行流量
		long upFlow = Long.parseLong(fields[fields.length - 3]);
		long downFlow = Long.parseLong(fields[fields.length - 2]);

		k.set(phoneNum);
		v.set(downFlow, upFlow);
		
		// 4 写出
		context.write(k, v);
	}
}
编写Reducer类
public class FlowCountReducer extends Reducer<Text, FlowBean, Text, FlowBean> {

	@Override
	protected void reduce(Text key, Iterable<FlowBean> values, Context context)throws IOException, InterruptedException {

		long sum_upFlow = 0;
		long sum_downFlow = 0;

		// 1 遍历所用bean,将其中的上行流量,下行流量分别累加
		for (FlowBean flowBean : values) {
			sum_upFlow += flowBean.getUpFlow();
			sum_downFlow += flowBean.getDownFlow();
		}

		// 2 封装对象
		FlowBean resultBean = new FlowBean(sum_upFlow, sum_downFlow);
		
		// 3 写出
		context.write(key, resultBean);
	}
}
编写Driver驱动类

1 获取配置信息,或者job对象实例
2 指定jar包路径
3 指定本业务job要使用的mapper/Reducer业务类
4 指定mapper输出数据的kv类型
5 指定最终输出的数据的kv类型
6 指定job的输入原始文件所在目录
7 将job 提交给yarn去运行

public class FlowsumDriver {

	public static void main(String[] args) throws IllegalArgumentException, IOException, ClassNotFoundException, InterruptedException {
		
// 输入输出路径需要根据自己电脑上实际的输入输出路径设置
         args = new String[] { "h:/input/input1", "h:/output1" };

		// 1 获取配置信息,或者job对象实例
		Configuration configuration = new Configuration();
		Job job = Job.getInstance(configuration);

		// 2 指定本程序的jar包所在的本地路径
		job.setJarByClass(FlowsumDriver.class);

		// 3 指定本业务job要使用的mapper/Reducer业务类
		job.setMapperClass(FlowCountMapper.class);
		job.setReducerClass(FlowCountReducer.class);

		// 4 指定mapper输出数据的kv类型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(FlowBean.class);

		// 5 指定最终输出的数据的kv类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(FlowBean.class);
		
		// 6 指定job的输入原始文件所在目录
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		// 7 将job中配置的相关参数,以及job所用的java类所在的jar包, 提交给yarn去运行
		boolean result = job.waitForCompletion(true);
		System.exit(result ? 0 : 1);
	}
}

第3章MapReduce框架原理

3.1InputFormat数据输入

3.1.1 切片与MapTask并行度决定机制

  • MapTask并行度决定机制
    数据块:Block是HDFS物理上把数据分成一块一块。
    数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储

1)一个Job的M ap阶段并行度由客户端在提交Job时的切片数决定
2)每一个Split切片分配一个M apTask并行实例处理
3)默认情况下,切片大小=BlockSize(128M) .
4)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片
在这里插入图片描述

3.1.2 Job提交流程源码和切片源码详解

1. Job提交流程源码详解

waitForCompletion()

submit();

// 1建立连接
	connect();	
		// 1)创建提交Job的代理
		new Cluster(getConfiguration());
			// (1)判断是本地yarn还是远程
			initialize(jobTrackAddr, conf); 

// 2 提交job
submitter.submitJobInternal(Job.this, cluster)
	// 1)创建给集群提交数据的Stag路径
	Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);

	// 2)获取jobid ,并创建Job路径
	JobID jobId = submitClient.getNewJobID();

	// 3)拷贝jar包到集群
copyAndConfigureFiles(job, submitJobDir);	
	rUploader.uploadFiles(job, jobSubmitDir);

// 4)计算切片,生成切片规划文件
writeSplits(job, submitJobDir);
		maps = writeNewSplits(job, jobSubmitDir);
		input.getSplits(job);

// 5)向Stag路径写XML配置文件
writeConf(conf, submitJobFile);
	conf.writeXml(out);

// 6)提交Job,返回提交状态
status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

提交的信息

  1. 切片
  2. job.xml
  3. jar包

Job提交流程源码分析
2. FileInputFormat切片源码解析(input.getSplits(job))
在这里插入图片描述

3.1.3 FileInputFormat切片机制

在这里插入图片描述
FileInputFormat切片大小的参数配置
在这里插入图片描述

3.1.4 CombineTextInputFormat切片机制

框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下。

  1. 应用场景:
    CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理。
  2. 虚拟存储切片最大值设置
    CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m
  3. 切片机制
    生成切片过程包括:虚拟存储过程和切片过程二部分。如图
    在这里插入图片描述

3.1.5 CombineTextInputFormat案例实操

1.需求
将输入的大量小文件合并成一个切片统一处理。
(1)输入数据
准备4个小文件
(2)期望
期望一个切片处理4个文件
2. 实现过程
(1)不做任何处理,运行1.6节的WordCount案例程序,观察切片个数为4。
(2)在WordcountDriver中增加如下代码,运行程序,并观察运行的切片个数为3。

// 如果不设置InputFormat,它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虚拟存储切片最大值设置4m
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);

(3)在WordcountDriver中增加如下代码,运行程序,并观察运行的切片个数为1。

// 如果不设置InputFormat,它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虚拟存储切片最大值设置20m
CombineTextInputFormat.setMaxInputSplitSize(job, 20971520);

3.1.6 FileInputFormat实现类

思考:在运行MapReduce程序时,输入的文件格式包括:基于行的日志文件、二进制格式文件、数据库表等。那么,针对不同的数据类型, MapReduce是如何读取这些数据的呢?

FileInputFormat常见的接口实现类包括: TextInputFormatKeyValueTextInputFormatNLineInputFormatCombineTextInputFormat自定 义InputFormat等。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.1.7 KeyValueTextInputFormat使用案例

1. 需求分析
在这里插入图片描述
在这里插入图片描述

3.2MapReduce工作流程

3.3Shuffle机制

3.4MapTask工作机制

3.5ReduceTask工作机制

3.6OutputFormat数据输出

3.7Join多种应用

3.8计数器应用

3.9数据清洗

3.10MapReduce开发总结

第4章Hadoop数据压缩

第5章Yarn资源调度器

第6章Hadoop企业优化

第8章常见错误及解决方案

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值