HadoopType

最新推荐文章于 2025-08-23 23:02:37 发布

a1000005aa

最新推荐文章于 2025-08-23 23:02:37 发布

阅读量140

点赞数

分类专栏： Hadoop 文章标签：大数据 java

Hadoop 专栏收录该内容

5 篇文章

订阅专栏

本文详细解释了Hadoop程序中Key/Value的类型及其应用，包括实现WritableComparable接口的示例代码，以及不同阶段输入输出的类型转换。同时介绍了Key和Value阵营的接口实现，并列举了常用的数据类型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hadoop的类型。
在编写Hadoop的程序的时候，需要传递Key/Value.
比如从Map开始，会有输入对K1,V1.根据不同的输入类型会得到不同的输入对。
map结束后，也会输出K2,V2.
在Combiner间段，会有K2,V2作为输入，K3,V3作为输出，当然这个间段不是必须的.
在Reducer间段，会有K3,V3作为输入，K4,V4作为输出。
其中的K1,K2,K3,K4是作为Key的阵营，而V1,V2,V3,V4作为value的阵营。
其中K的阵营有其必须实现的接口 WritableComparable<T>
例子代码如下:


import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

/**
 * define the type of Data.
 * @author yangchunlong
 *
 */
public class YclType implements WritableComparable<YclType>{
	Long userId;
	Long moduleId;
	int count;

	@Override
	public void readFields(DataInput in) throws IOException {
		userId = in.readLong();
		moduleId = in.readLong();
		count = in.readInt();

	}

	@Override
	public void write(DataOutput out) throws IOException {
		out.writeLong(userId);
		out.writeLong(moduleId);
		out.writeInt(count);
	}

	@Override
	public int compareTo(YclType o) {
		return o.userId.compareTo(o.userId);
	}

	public Long getUserId() {
		return userId;
	}

	public void setUserId(Long userId) {
		this.userId = userId;
	}

	public Long getModuleId() {
		return moduleId;
	}

	public void setModuleId(Long moduleId) {
		this.moduleId = moduleId;
	}

	public int getCount() {
		return count;
	}

	public void setCount(int count) {
		this.count = count;
	}

}

有人就问了，为什么要实现这个接口啊。


首先作为输出的Key,其必须实现Writeable,而作为Combiner和Reducer的输入必须实现Comparable,在Combiner和Reducer之前会对key进行分组/排序.
当然排序和分组取决于Comparable的实现，你想以哪些属性进行分组统计，就以哪些分组作为key.[如果是动态分组，可以使用动态表达式，然后解析动态表达式来判断是否属于同一组(0),大于(1)，小于(-1)].