Hadoop-2.4.1学习之Writable及其实现

最新推荐文章于 2020-07-30 20:58:36 发布

skyWalker_ONLY

最新推荐文章于 2020-07-30 20:58:36 发布

阅读量3.8k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： Hadoop-2.x Hadoop 文章标签： Hadoop-2.4.1 Writable WritableComparable Text IntWritable

本文链接：https://blog.youkuaiyun.com/skywalker_only/article/details/42098851

Hadoop 同时被 2 个专栏收录

49 篇文章 ¥9.90 ¥99.00

订阅专栏

Hadoop-2.x

29 篇文章 ¥9.90 ¥99.00

订阅专栏

本文深入探讨了Hadoop中的序列化协议，重点关注Writable和WritableComparable接口。内容包括常用键值类型的实现、自定义序列化类的需求、hashCode()与equals()方法的重要性，以及IntWritable和Text类的源码分析。通过这些，读者可以了解如何编写自己的WritableComparable类。

Hadoop基于DataInput和DataOutput实现了简单、高效的序列化协议，而Writable接口定义了Hadoop序列化的方法，MapReduce框架中的任何键值类型都实现了该接口，比如IntWritable、LongWritable等，详细的类关系见下图：

通过上图可以发现，MapReduce中常用的键值类型都没有直接实现Writable接口，而是实现了该接口的子接口WritableComparable，该子接口还继承了Comparable接口，这意味着实现类除了可以序列化和发序列化外，还能够彼此进行比较，这是因为当这些类做为键在MapReduce中使用时，在排序阶段需要对其进行比较排序。但这并不是说如果实现自定义的序列化类时，必须实现WritableComparable接口，仅当自定义的序列化类也用作键时才必须实现该接口，如果仅是做为值使用的话，仅实现Writable接口即可。

当自定义的序列化类用做键时，需要考虑到在根据键进行分区时经常用到hashCode()方法，因此需要确保该方法在不同的JVM实例中返回相同的结果，而Object对象中默认的hashCode()方法不能够满足该特性，所以在实现自定义类时需要重写has

了解本专栏