Java序列化

最新推荐文章于 2025-12-22 15:57:21 发布

翻译最新推荐文章于 2025-12-22 15:57:21 发布 · 223 阅读

文章标签：

#java

Android 同时被 2 个专栏收录

13 篇文章

订阅专栏

Java

12 篇文章

订阅专栏

本文介绍了Java序列化的概念、基本用法及其内部实现机制。详细解释了如何通过实现Serializable接口来进行对象的序列化与反序列化，并探讨了序列化在处理复杂对象时的特点，包括对象引用和循环引用的处理。此外，还讨论了序列化的定制方式、版本问题及序列化格式的局限性。

序列化

什么事序列化？简单来说，序列化就是将对象转化为字节流，反序列化就是字节流转化为对象。在Java中具体是如何来使用的呢？他是如何实现的？有什么优缺点？

基本用法

Serializable

要让一个类支持序列化，只需要让这个类实现接口java.io.Serializable，Serializable没有定义任何方法，只是一个标记接口。

声明实现了Serializable接口后，保存/读取对象就可以使用ObjectOutputStream/ObjectInputStream了。

ObjectOutputStream是OutputStream的子类，当实现了ObjectOutput接口，ObjectOutput是DataOutput的子接口，增加了一个方法：

public void writeObject(Object obj) throws IOException

这个方法能够将对象object转化为字节，写到流中。
ObjectInputStream是InputStream的子类，它实现了ObjectInput接口，ObjectInput是DataInput的子接口，增加了一个方法：

public Object readObject() throws ClassNotFoundException, IOException

这个方法能够从流中读取字节，转化为一个对象。
是不是很神奇？只要将类声明实现Serializable接口，然后就可以使用ObjectOutputStream/ObjectInputStream直接读写对象了。我们之前介绍的各种类，如String, Date, Double, ArrayList, LinkedList, HashMap, TreeMap等，都实现了Serializable。

复杂对象

如果对象比较复杂，比如：

如果a, b两个对象都引用同一个对象c，序列化后c是保存两份还是一份？在反序列化后还能让a, b指向同一个对象吗？
如果a, b两个对象有循环引用呢？即a引用了b，而b也引用了a。

答案是肯定的。这就是Java序列化机制的神奇之处，他能自动处理这种引用同一个对象的情况。更神奇的是，他还能自动处理循环引用的情况。反序列化后还能保持原来的引用关系。

定制序列化

默认的序列化机制已经很强大了，他可以自动将对象中的所有字段自动保存和恢复，但这种默认行为有时候不是我们想要的。
比如，对于某些字段，我们不想要缓存，比如默认的hashCode方法的返回值，当恢复对象后内存位置变了，基于原内存位置的值也就没有了意义。
那怎么办呢？java提供了多种定制序列化的几只，主要有两种，一种是transient管酱紫，另外一种是实现writeObject和readObject方法。
将字段声明为transient，默认序列化机制将忽略该字段，不会进行保存和恢复。如下所示：

transient int size = 0;

声明了transient，不是说就不保存该字段了，而是告诉Java默认序列化机制，不要自动保存该字段了，可以实现writeObject/readObject方法来自己保存该字段。
可以在这个方法中，调用ObjectOutputStream的方法向流中写入对象的数据。比如，LinkedList使用如下代码序列化列表的逻辑数据：

private void writeObject(java.io.ObjectOutputStream s)
    throws java.io.IOException {
    // Write out any hidden serialization magic
    s.defaultWriteObject();

    // Write out size
    s.writeInt(size);

    // Write out all elements in the proper order.
    for (Node<E> x = first; x != null; x = x.next)
        s.writeObject(x.item);
}

需要注意的是第一行代码：

s.defaultWriteObject();

这一行是必须的，他会调用默认的序列化机制，默认机制会保存所有没声明为transient的字段，即使类中的所有字段都是transient，也应该写这一行，因为Java的序列化机制不仅会保存纯粹的数据信息，还会保存一些元数据描述等隐藏信息，这些隐藏的信息是序列化之所以能够神奇的重要原因。
与writeObject对应的是readObject方法，通过它自定义反序列化过程。

序列化的基本原理

总结一下：
- 如果类的字段表示的就是类的逻辑信息，那就可以使用默认序列化机制，只要声明实现Serializable接口即可。
- 否则的话，那就可以使用transient关键字，实现writeObject和readObject来自定义序列化过程。
- Java的序列化机制可以自动处理如引用同一个对象、循环引用等情况。
但是，序列化到底是怎么发生的呢？关键在ObjectOutputStream的writeObject和ObjectInputStream的readObject方法内。他们的实现都非常复杂，正因为这些复杂的实现才使得序列化看上去很神奇，我们简单介绍一下基本逻辑：
writeObject的基本逻辑：
- 如果对象没有实现Serializable，抛出异常NotSerializableException。
- 每个对象都有一个编号，如果之前已经写过该对象了，则本次只会写该对象的引用，这可以解决对象引用和循环引用的问题。
- 如果对象实现了writeObject方法，调用他的自定义方法。
- 默认是使用反射机制，遍历对象的结构图，对每个没有标记为transient的字段，根据其类型，分别进行处理，写出到流，流中的信息包括字段的类型，即完整类名、字段名、字段值等。
readObject的基本逻辑：
- 不调用任何构造方法
- 他自己就相当于是一个独立的构造方法，根据字节流初始化对象，利用的也是反射机制。
- 在解析字节流时，对于引用到的类型信息，会动态加载，如果找不到类，会抛出ClassNotFoundException.

版本问题

上面的介绍，我们忽略了一个问题，那就是版本问题。我们知道，代码是不断演化的，而序列化的对象可能是持久保存在文件上的，如果类的定义发生了变化，那持久化的对象还能反序列化吗？
默认情况下，Java会给类定义一个版本号，这个版本号是根据类中一系列的信息自动生成的。在反序列化时，如果类的定义发生了变化，版本号就会变化，与流中的版本号对比就会不匹配，反序列化就会抛出InvalidClassException异常。
通常情况下，我们希望自定义这个版本号，而非让Java自动生成，一方面是为了更好的控制，另一方面是为了性能，因为Java自动生成的性能比较低，那怎么自定义呢？在类中定义如下变量：

private static final long serialVersionUID = 1L;

在Java的IDE中，如果声明实现了Serializable而没有定义该变量，IDE会提示自动生成，这个变量的值是任意的，代表该类的版本号。在序列化时，会将该值写入流，在反序列化时，会将流中的值与类定义中的值进行比较，如果不匹配，会抛出InvalidClassException。
那如果版本号一样，但实际字段不匹配呢？Java会分情况自动进行处理，以尽量保持兼容性，大概分为三种情况：
- 字段删掉了：即流中有该字段，而类中没有，该字段会被忽略
- 新增了字段：即类定义中有，而流中没有，该字段会被设为默认值
- 字段类型改变了：对于同名的字段，类型变了，会抛出InvalidClassException

序列化特点分析

序列化的主要用途有两个，一个是对象持久化，另一个是跨网络的数据交换、远程过程调用。

Java标准的序列化机制有很多优点，使用简单，可自动处理对象引用和循环引用，也可以方便的进行定制，处理版本问题等，但他还是有一些局限性：
- Java序列化格式是一种私有格式，是一种Java语言特有的技术，不能被其他语言识别，不能实现跨语言的数据交换。
- Java在序列化字节中保存了很多描述信息，使得序列化格式比较大
- Java的默认序列化使用反射分析遍历对象结构，性能比较低
- Java的序列化格式是二进制的，不方便查看和修改
对于这些局限性，实践中旺旺会使用一些替代方案。在跨语言的数据狡猾格式中，XML/JSON是被广泛采用的文本格式，各种语言都有对他们的支持，文件格式清晰已读，有很多查看和编辑工具，他们的不足之处是性能和序列化大小，在性能和大小敏感领域，往往会采用更为精简高效的二进制方式如ProtoBuf，Thrift，MessagePack等。