hadoop中的序列化

最新推荐文章于 2024-04-28 06:33:06 发布

A__17

最新推荐文章于 2024-04-28 06:33:06 发布

阅读量762

点赞数

CC 4.0 BY-SA版权

分类专栏：其它文章标签： hadoop Writable 序列化

本文链接：https://blog.youkuaiyun.com/wodewutai17quiet/article/details/53497634

其它专栏收录该内容

15 篇文章

订阅专栏

本文详细介绍了序列化的基本概念及其在Java和Hadoop中的具体实现方式。包括对象如何被编码为字节流，以及如何通过这些字节流重建原始对象状态。此外还对比了Java和Hadoop序列化机制的特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1）序列化：
	对象的序列化：将对象编码成一个字节流。
	对象的反序列化：从字节流中重新构建对象。

	序列化的应用：
		1)数据持久化：一个对象被序列化后，生成的编码可以储存在磁盘上，以后可以通过反序列化来得到该对象。
		2)作为通信的数据格式：序列化的结果可以通过网络从一台机器传输到另一个机器中。
		3)克隆数据：把对象序列化的结果储存在内存中的缓存区里，之后通过反序列化机制，可以得到一个该对象的深层拷贝。
		
		
2）Java中的序列化：
	概念：Java中的序列化机制是将对象转换为连续的字节数据，通过这些字节数据可以得到原先的对象状态。
		注：该机制能够自动处理不同操作系统间的差异，在windows上序列化的Java对象，可以在linux上通过反序列号被重建出来。
	
	实现：类需要实现java.io.Serializable接口，即可被序列化。
		
	例子：
		ByteArrayOutputStream baos= new ByteArrayOutputStream();
		ObjectOutputStream oos = new ObjectOutputStream(baos);
		// 对serialObj对象进行序列化。(serialObj对应的类实现了Serializable接口)
		oos.writeObject(serialObj);
		
		
3）Hadoop中的序列化：
	概念：hadoop中的序列化机制是通过调用对象的write(DataOutput)方法，将对象序列化到流(DataOutput)中。
	
	实现：类需要实现org.apache.hadoop.io.Writable接口，即可被序列化。
		注：Writable接口有两个方法：
			1)序列化方法：
				// 将对象序列化到流(DataOutput)中。
				void write(DataOutput out) throws IOException;
			2)反序列化方法：
				// 从流(DataInput)中读取对象。说明：应尽可能地复用现有的对象，以提高效率。
				void readFields(DataInput in) throws IOException;
				
	例子：
		ByteArrayOutputStream baos = new ByteArrayOutputStream();
		DataOutputStream dout = new DataOutputStream(baos);		
		Object obj = new Object();
		// 将obj对象序列化到输出流dout中
		obj.write(dout);
		dout.close();
	
比较：
	java的序列化机制中：反序列化过程会不断地创建新的对象。
	hadoop的序列化机制中：反序列化的过程中，可以在同一个对象上得到多个反序列化的结果，也就是说对象可以复用，从而减少了对象的分配和回收的次数。