hadoop学习-Mapper和Reducer的输出类型

最新推荐文章于 2023-06-11 22:15:44 发布

原创最新推荐文章于 2023-06-11 22:15:44 发布 · 2.9k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#Hadoop

Hadoop 专栏收录该内容

18 篇文章

订阅专栏

本文介绍了Hadoop中Mapper和Reducer的输出类型，Mapper一般由job.setInputFormatClass()指定，如TextInputFormat.class。Mapper和Reducer的K2 V2需一致，Reducer输出类型通过job.setOutputKeyClass()和job.setOutputValueClass()设定，同时也设定了Mapper的输出类型。若要Mapper和Reducer输出类型不同，可使用setMapOutputKeyClass和setMapOutputValueClass。举例说明了一个Mapper输出<Text,LongWritable>，Reducer输出<Text,Text>的情况，并指出类型不匹配会导致错误，解决方法是正确设置输出类型。" 49421779,5246519,卷积神经网络（CNN）详解与应用,"['卷积核', '神经网络', '图像识别', '深度学习', '特征映射']

Mapper过程：Mapper<K1, V1, K2, V2 >

Reducer过程：Reducer<K2, V2, K3, V3 >

K1,V1 的类型一般由job.setInputFormatClass()指定，比如job.setInputFormatClass(TextInputFormat.class)等等；

Mapper和Reducer的K2 V2需要保持一致；

Reducer的输出K3 V3 一般由job.setOutputKeyClass(Text.class);job.setOutputValueClass(Text.class);设置

当然这里设置的不仅仅是Reducer的输出类型，同时也设置了Mapper的输出类型。即Mapper和Reducer的输出类型被设置成一样了。

如果想要Mapper和Reducer的输出key或value类型不同，可以通过setMapOutputKeyClass 和 setMapOutputValueClass来设定Mapper的输出key/value对。

举个例子，我写的Mapper类如下:

　　static class FetchMapper extends Mapper<LongWritable, Text, Text, LongWritable>{ }

　　而Reducer类如下:

　　tatic class FetchReducer extends Reducer<Text, LongWritable, Text, Text> { }

　　这时红色部分表明了FetchMapper的输出<k2,v2> 是 <Text,LongWritable> ,而 FetchReducer的输出为<k3,v3>是 <Text,Text>。可见v2 和 v3 是不同的。此时如果用下面的设置启动程序的话就会出现Type mismatched 错误:

        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);    
     　  job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);

　　而加上红色部分的代码则可以解决这个问题。

   　　 job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        job.setMapOutputValueClass(LongWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);