序列化
什么事序列化?简单来说,序列化就是将对象转化为字节流,反序列化就是字节流转化为对象。在Java中具体是如何来使用的呢?他是如何实现的?有什么优缺点?
基本用法
Serializable
要让一个类支持序列化,只需要让这个类实现接口java.io.Serializable,Serializable没有定义任何方法,只是一个标记接口。
声明实现了Serializable接口后,保存/读取对象就可以使用ObjectOutputStream/ObjectInputStream了。
ObjectOutputStream是OutputStream的子类,当实现了ObjectOutput接口,ObjectOutput是DataOutput的子接口,增加了一个方法:
public void writeObject(Object obj) throws IOException
这个方法能够将对象object转化为字节,写到流中。
ObjectInputStream是InputStream的子类,它实现了ObjectInput接口,ObjectInput是DataInput的子接口,增加了一个方法:
public Object readObject() throws ClassNotFoundException, IOException
这个方法能够从流中读取字节,转化为一个对象。
是不是很神奇?只要将类声明实现Serializable接口,然后就可以使用ObjectOutputStream/ObjectInputStream直接读写对象了。我们之前介绍的各种类,如String, Date, Double, ArrayList, LinkedList, HashMap, TreeMap等,都实现了Serializable。
复杂对象
如果对象比较复杂,比如:
- 如果a, b两个对象都引用同一个对象c,序列化后c是保存两份还是一份?在反序列化后还能让a, b指向同一个对象吗?
- 如果a, b两个对象有循环引用呢?即a引用了b,而b也引用了a。
答案是肯定的。这就是Java序列化机制的神奇之处,他能自动处理这种引用同一个对象的情况。更神奇的是,他还能自动处理循环引用的情况。反序列化后还能保持原来的引用关系。
定制序列化
默认的序列化机制已经很强大了,他可以自动将对象中的所有字段自动保存和恢复,但这种默认行为有时候不是我们想要的。
比如,对于某些字段,我们不想要缓存,比如默认的hashCode方法的返回值,当恢复对象后内存位置变了,基于原内存位置的值也就没有了意义。
那怎么办呢?java提供了多种定制序列化的几只,主要有两种,一种是transient管酱紫,另外一种是实现writeObject和readObject方法。
将字段声明为transient,默认序列化机制将忽略该字段,不会进行保存和恢复。如下所示:
transient int size = 0;
声明了transient,不是说就不保存该字段了,而是告诉Java默认序列化机制,不要自动保存该字段了,可以实现writeObject/readObject方法来自己保存该字段。
可以在这个方法中,调用ObjectOutputStream的方法向流中写入对象的数据。比如,LinkedList使用如下代码序列化列表的逻辑数据:
private void writeObject(java.io.ObjectOutputStream s)
throws java.io.IOException {
// Write out any hidden serialization magic
s.defaultWriteObject();
// Write out size
s.writeInt(size);
// Write out all elements in the proper order.
for (Node<E> x = first; x != null; x = x.next)
s.writeObject(x.item);
}
需要注意的是第一行代码:
s.defaultWriteObject();
这一行是必须的,他会调用默认的序列化机制,默认机制会保存所有没声明为transient的字段,即使类中的所有字段都是transient,也应该写这一行,因为Java的序列化机制不仅会保存纯粹的数据信息,还会保存一些元数据描述等隐藏信息,这些隐藏的信息是序列化之所以能够神奇的重要原因。
与writeObject对应的是readObject方法,通过它自定义反序列化过程。
序列化的基本原理
总结一下:
- 如果类的字段表示的就是类的逻辑信息,那就可以使用默认序列化机制,只要声明实现Serializable接口即可。
- 否则的话,那就可以使用transient关键字,实现writeObject和readObject来自定义序列化过程。
- Java的序列化机制可以自动处理如引用同一个对象、循环引用等情况。
但是,序列化到底是怎么发生的呢?关键在ObjectOutputStream的writeObject和ObjectInputStream的readObject方法内。他们的实现都非常复杂,正因为这些复杂的实现才使得序列化看上去很神奇,我们简单介绍一下基本逻辑:
writeObject的基本逻辑:
- 如果对象没有实现Serializable,抛出异常NotSerializableException。
- 每个对象都有一个编号,如果之前已经写过该对象了,则本次只会写该对象的引用,这可以解决对象引用和循环引用的问题。
- 如果对象实现了writeObject方法,调用他的自定义方法。
- 默认是使用反射机制,遍历对象的结构图,对每个没有标记为transient的字段,根据其类型,分别进行处理,写出到流,流中的信息包括字段的类型,即完整类名、字段名、字段值等。
readObject的基本逻辑:
- 不调用任何构造方法
- 他自己就相当于是一个独立的构造方法,根据字节流初始化对象,利用的也是反射机制。
- 在解析字节流时,对于引用到的类型信息,会动态加载,如果找不到类,会抛出ClassNotFoundException.
版本问题
上面的介绍,我们忽略了一个问题,那就是版本问题。我们知道,代码是不断演化的,而序列化的对象可能是持久保存在文件上的,如果类的定义发生了变化,那持久化的对象还能反序列化吗?
默认情况下,Java会给类定义一个版本号,这个版本号是根据类中一系列的信息自动生成的。在反序列化时,如果类的定义发生了变化,版本号就会变化,与流中的版本号对比就会不匹配,反序列化就会抛出InvalidClassException异常。
通常情况下,我们希望自定义这个版本号,而非让Java自动生成,一方面是为了更好的控制,另一方面是为了性能,因为Java自动生成的性能比较低,那怎么自定义呢?在类中定义如下变量:
private static final long serialVersionUID = 1L;
在Java的IDE中,如果声明实现了Serializable而没有定义该变量,IDE会提示自动生成,这个变量的值是任意的,代表该类的版本号。在序列化时,会将该值写入流,在反序列化时,会将流中的值与类定义中的值进行比较,如果不匹配,会抛出InvalidClassException。
那如果版本号一样,但实际字段不匹配呢?Java会分情况自动进行处理,以尽量保持兼容性,大概分为三种情况:
- 字段删掉了:即流中有该字段,而类中没有,该字段会被忽略
- 新增了字段:即类定义中有,而流中没有,该字段会被设为默认值
- 字段类型改变了:对于同名的字段,类型变了,会抛出InvalidClassException
序列化特点分析
序列化的主要用途有两个,一个是对象持久化,另一个是跨网络的数据交换、远程过程调用。
Java标准的序列化机制有很多优点,使用简单,可自动处理对象引用和循环引用,也可以方便的进行定制,处理版本问题等,但他还是有一些局限性:
- Java序列化格式是一种私有格式,是一种Java语言特有的技术,不能被其他语言识别,不能实现跨语言的数据交换。
- Java在序列化字节中保存了很多描述信息,使得序列化格式比较大
- Java的默认序列化使用反射分析遍历对象结构,性能比较低
- Java的序列化格式是二进制的,不方便查看和修改
对于这些局限性,实践中旺旺会使用一些替代方案。在跨语言的数据狡猾格式中,XML/JSON是被广泛采用的文本格式,各种语言都有对他们的支持,文件格式清晰已读,有很多查看和编辑工具,他们的不足之处是性能和序列化大小,在性能和大小敏感领域,往往会采用更为精简高效的二进制方式如ProtoBuf,Thrift,MessagePack等。

本文介绍了Java序列化的概念、基本用法及其内部实现机制。详细解释了如何通过实现Serializable接口来进行对象的序列化与反序列化,并探讨了序列化在处理复杂对象时的特点,包括对象引用和循环引用的处理。此外,还讨论了序列化的定制方式、版本问题及序列化格式的局限性。
4083

被折叠的 条评论
为什么被折叠?



