MapReduce之求平均值

给定文件信息求文件内容的平均值算法

<1>Map端读取文件信息内容

在读取文件信息内容时,首先对文件信息进行切分,将文件切分为key和value,便于文件信息的计算

public class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

	@Override
	protected void map(LongWritable key, Text value,Context context)
			throws IOException, InterruptedException {
		//对文件进行拆分
		String[] str = value.toString().split(" ");
		//获取文件key值
		String name = str[0];
		//获取文件value值
		long a =Long.parseLong(str[str.length-1]);
		//将key和value写进文本中
		context.write(new Text(name),new LongWritable(a));
	}
	
}

在设置Map类时继承Mapper类,并使用泛型,通常泛型的第一个类型是LongWritable,之后的泛型可以根据自己需求进行设置

<2>Reduce端进行接收Map端传进来的key,value并进行函数处理

PS:key值相同的value进行运算,不同的key值value不进行运算

public class MyReduce extends Reducer<Text, LongWritable, Text, LongWritable>{

	@Override
	protect
MapReduce平均值的任务概述如下: 1. Map阶段:将输入数据分割成若干个小数据块,每个小数据块由一个Map任务处理。Map任务将输入数据解析成键值对,其中键表示数据的某个特征,值表示该特征对应的数值。然后,Map任务对每个键值对进行处理,将其转换为新的键值对,其中键仍然表示数据的某个特征,值则表示该特征对应的数值和12. Combiner阶段:Combiner是可选的,其作用是在Map任务本地对输出结果进行合并,以减少数据传输量。对于本任务,Combiner可以将每个键对应的数值和计数值进行累加。 3. Shuffle阶段:将Map任务的输出结果按照键进行分组,将同一键的所有值发送到同一个Reduce任务中进行处理。这个过就是shuffle。 4. Reduce阶段:Reduce任务接收到Map任务输出的键值对后,对每个键的所有值进行累加,并将累加结果除以计数值,得到该键对应的平均值。 以下是一个Python实现的MapReduce平均值的例子: ```python from mrjob.job import MRJob class MRMean(MRJob): def mapper(self, _, line): # 解析输入数据 data = line.strip().split(',') key = data[0] value = float(data[1]) # 输出键值对 yield key, (value, 1) def combiner(self, key, values): # 对每个键的所有值进行累加 total = 0 count = 0 for value, cnt in values: total += value count += cnt # 输出键值对 yield key, (total, count) def reducer(self, key, values): # 对每个键的所有值进行累加,并计算平均值 total = 0 count = 0 for value, cnt in values: total += value count += cnt mean = total / count # 输出结果 yield key, mean if __name__ == '__main__': MRMean.run() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值