MapReduce-Counter使用-快速实现大文件行数的统计

最新推荐文章于 2025-06-14 21:44:08 发布

原创

最新推荐文章于 2025-06-14 21:44:08 发布 · 9.3k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #mapreduce #counters

在普通的java程序中我们可以定义一个全局的静态变量，然后我们可以在各个类中去使用，实现累加器的功能，然而在mapruduce中怎么实现这一功能呢，各个map可能运行在不同的JVM中（这里不考虑JVM重用的情况），然而我们可以借助MapReduce提供的Counter功能来实现这一功能，下面我们通过一个实例来说明这一个用法。
实验要求：快速实现文件行数，以及其中错误记录的统计
实验数据：
1
2
error
3
4
5
error
6
7
8
9
10
error
11
12
13
14
error
15
16
17
18
19
解决思路：
定义一个枚举类型，每次调用map函数时，对值进行判断，把判断的结果分别写入不同的Counter，最后输出Counter的值
根据以上步骤下面是实现代码：

map阶段：

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class MyMapper extends Mapper<LongWritable, Text, LongWritable, IntWritable> {
	/**
	 * 定义一个枚举类型
	 * @date 2016年3月25日 下午3:29:44 
	 * @{tags}
	 */
	public static enum FileRecorder{
		ErrorRecorder,
		TotalRecorder
	}