【JVM】垃圾回收算法详细对比说明

垃圾回收算法详解

最新推荐文章于 2023-02-01 11:52:37 发布

原创最新推荐文章于 2023-02-01 11:52:37 发布 · 835 阅读

2 ·

CC 4.0 BY-SA版权

JVM 专栏收录该内容

12 篇文章

订阅专栏

本文深入解析垃圾回收算法，包括引用计数算法、可达性分析算法、标记清除算法、复制算法及标记整理算法等，探讨各自优缺点及应用场景，帮助读者理解不同算法的特点。

导图

在这里插入图片描述

1、概述

在讲这些算法的时候，我们要知道我们的目的是垃圾回收，垃圾回收的是那些没有用的对象，但是什么时候判断对象是没有用的（死亡的），要进行垃圾回收的呢，那么此阶段有两种算法，分别是引用计数算法，和可达性分析算法，这个阶段也就是标记阶段。接着，在真正回收这些对象的算法上又分为复制算法，标记清除算法和标记整理算法。

2、引用计数算法

2.1概念

对每个对象保存一个整型的引用计数器属性。用于记录对象被引用的情况。
对于一个对象A，只要有任何一个对象引用了A，则A的引用计数器就加1；当引用失效时，引用计数器就减1。只要对象A的引用计数器的值为0，即表示对象A不可能再被使用，可进行回收。

2.2 优点

实现简单，垃圾对象便于辨识
判定效率高，回收没有延迟性

2.3缺点

它需要单独的字段存储计数器，这样的做法增加了存储空间的开销
每次赋值都需要更新计数器，伴随着加法和减法操作，这增加了时间开销
引用计数器有一个严重的问题，即无法处理循环引用的情况。这是一条致命缺陷，导致在Java的垃圾回收器中没有使用这类算法。
eg：如下图，如果将Obj1-reference和Obj2-reference置null，则在java堆当中的两块内存依然保持着互相引用，无法回收，出现内存泄露

2.3 小结

引用计数算法，是很多语言的资源回收选择，例如因人工智能而更加火热的Python，它更是同时支持引用计数和垃圾收集机制。

Java并没有选择引用计数，是因为其存在一个基本的难题，也就是很难处理循环引用关系。Python如何解决循环引用？

手动解除：很好理解，就是在合适的时机，解除引用关系。使用弱引用weakref，weakref是Python提供的标准库，旨在解决循环引用。

3、可达性分析算法

3.1概念

该算法可以有效地解决在引用计数算法中循环引用的问题，防止内存泄漏的发生。
可达性分析算法是以根对象集合（GCRoots）为起始点，按照从上至下的方式搜索被根对象集合所连接的目标对象是否可达。
使用可达性分析算法后，内存中的存活对象都会被根对象集合直接或间接连接着，搜索所走过的路径称为引用链（Reference Chain）
如果目标对象没有任何引用链相连，则是不可达的，就意味着该对象己经死亡，可以标记为垃圾对象。在可达性分析算法中，只有能够被根对象集合直接或者间接连接的对象才是存活对象。

也就是说直接或者间接能喝GC Roots相连的就是可达对象（存活对象），否则就是要回收的对象

3.2 哪些元素可以叫GC Roots呢

虚拟机栈中引用的对象

比如：各个线程被调用的方法中使用到的参数、局部变量等。我们之前说到的栈帧中的局部变量表中的内容都可以叫GC Roots
本地方法栈内JNI（通常说的本地方法）引用的对象方法区中类静态属性引用的对象比如：Java类的引用类型静态变量
方法区中常量引用的对象
比如：字符串常量池（string Table）里的引用
除了堆空间外的一些结构，比如虚拟机栈、本地方法栈、方法区、字符串常量池等地方对堆空间进行引用的，都可以作为GC Roots进行可达性分析
注意
如果要使用可达性分析算法来判断内存是否可回收，那么分析工作必须在一个能保障一致性的快照中进行。这点不满足的话分析结果的准确性就无法保证。

这点也是导致GC进行时必须“stop The World”的一个重要原因。

3.3 对象的finalization机制

Java语言提供了对象终止（finalization）机制来允许开发人员提供对象被销毁之前的自定义处理逻辑。当垃圾回收器发现没有引用指向一个对象，即：垃圾回收此对象之前，总会先调用这个对象的finalize()方法。
finalize()方法允许在子类中被重写，用于在对象被回收时进行资源释放。通常在这个方法中进行一些资源释放和清理的工作，比如关闭文件、套接字和数据库连接等。

由于finalize（）方法的存在，虚拟机中的对象一般处于三种可能的状态。

 可触及的：从根节点开始，可以到达这个对象。
 可复活的：对象的所有引用都被释放，但是对象有可能在finalize（）中复活。
 不可触及的：对象的finalize（）被调用，并且没有复活，那么就会进入不可触及状态。
            不可触及的对象不可能被复活，因为finalize()只会被调用一次。

以上3种状态中，是由于finalize（）方法的存在，进行的区分。只有在对象不可触及时才可以被回收。

3.3.1 具体过程

判定一个对象objA是否可回收，至少要经历两次标记过程：

如果对象objA到GC Roots没有引用链，则进行第一次标记。
进行筛选，判断此对象是否有必要执行finalize（）方法
- 如果对象objA没有重写finalize（）方法，或者finalize（）方法已经被虚拟机调用过，则虚拟机视为“没有必要执行”，objA被判定为不可触及的。
- 如果对象objA重写了finalize（）方法，且还未执行过，那么objA会被插入到F-Queue队列中，由一个虚拟机自动创建的、低优先级的Finalizer线程触发其finalize（）方法执行。
- finalize（）方法是对象逃脱死亡的最后机会，稍后GC会对F-Queue队列中的对象进行第二次标记。如果objA在finalize（）方法中与引用链上的任何一个对象建立了联系，那么在第二次标记时，objA会被移出“即将回收”集合。之后，对象会再次出现没有引用存在的情况。在这个情况下，finalize方法不会被再次调用，对象会直接变成不可触及的状态，也就是说，一个对象的finalize方法只会被调用一次。

4、标记-清除算法

4.1 概念

当堆中的有效内存空间（available memory）被耗尽的时候，就会停止整个程序（也被称为stop the world），然后进行两项工作，第一项则是标记，第二项则是清除

标记：Collector从引用根节点开始遍历，标记所有被引用的对象。一般是在对象的Header中记录为可达对象。

标记的是引用的对象，不是垃圾！！

清除：Collector对堆内存从头到尾进行线性的遍历，如果发现某个对象在其Header中没有标记为可达对象，则将其回收

4.2缺点

标记清除算法的效率不算高
在进行GC的时候，需要停止整个应用程序，用户体验较差
这种方式清理出来的空闲内存是不连续的，产生内碎片，需要维护一个空闲列表

5、复制算法

为了解决标记-清除算法在垃圾收集效率方面的缺陷而出现

5.1 概念

将活着的内存空间分为两块，每次只使用其中一块，在垃圾回收时将正在使用的内存中的存活对象复制到未被使用的内存块中，之后清除正在使用的内存块中的所有对象，交换两个内存的角色，最后完成垃圾回收，在新生代的幸存者区就用到了复制算法
在这里插入图片描述

5.2 优点

没有标记和清除过程，实现简单，运行高效
复制过去以后保证空间的连续性，不会出现“碎片”问题。

5.3 缺点

此算法的缺点也是很明显的，就是需要两倍的内存空间。

5.4 适用特点

如果系统中的存活对象很多，复制算法不会很理想，复制算法需要复制的存活对象数量并不会太大，或者说非常低才行。老年代大量的对象都是存活状态因此不适合老年代，但是年轻代对象的特点是朝生夕死，所以适用于年轻代。

6、标记-整理算法

6.1 概念：

第一阶段和标记清除算法一样，从根节点开始标记所有被引用对象
第二阶段将所有的存活对象压缩到内存的一端，按顺序排放。之后，清理边界外所有的空间。
在这里插入图片描述

6.2 优点

消除了标记-清除算法当中，内存区域分散的缺点，我们需要给新对象分配内存时，JVM只需要持有一个内存的起始地址即可。（之前说过的指针碰撞）
消除了复制算法当中，内存减半的高额代价。

6.3 缺点

从效率上来说，标记-整理算法要低于复制算法。
移动对象的同时，如果对象被其他对象引用，则还需要调整引用的地址
移动过程中，需要全程暂停用户应用程序。即：STW

6.4小结

效率上来说，复制算法是当之无愧的老大，但是却浪费了太多内存。

而为了尽量兼顾上面提到的三个指标，标记-整理算法相对来说更平滑一些，但是效率上不尽如人意，它比复制算法多了一个标记的阶段，比标记-清除多了一个整理内存的阶段。

	标记清除	标记整理	复制
速率	中等	最慢	最快
空间开销	少（但会堆积碎片）	少（不堆积碎片）	通常需要活对象的2倍空间（不堆积碎片）
移动对象	否	是	是

综合我们可以找到，没有最好的算法，只有最合适的算法

7、分代收集算法说明

前面所有这些算法中，并没有一种算法可以完全替代其他算法，它们都具有自己独特的优势和特点。分代收集算法应运而生。

年轻代（Young Gen）
年轻代特点：区域相对老年代较小，对象生命周期短、存活率低，回收频繁。

这种情况复制算法的回收整理，速度是最快的。复制算法的效率只和当前存活对象大小有关，因此很适用于年轻代的回收。而复制算法内存利用率不高的问题，通过hotspot中的两个survivor的设计得到缓解。
老年代（Tenured Gen）
老年代特点：区域较大，对象生命周期长、存活率高，回收不及年轻代频繁。

这种情况存在大量存活率高的对象，复制算法明显变得不合适。一般是由标记-清除或者是标记-清除与标记-整理的混合实现。
```
 Mark阶段的开销与存活对象的数量成正比。（标记对象）
 Sweep阶段的开销与所管理区域的大小成正相关。（清除）
 compact阶段的开销与存活对象的数据成正比。（整理对象）
```

以HotSpot中的CMS回收器为例，CMS是基于Mark-Sweep实现的，对于对象的回收效率很高。而对于碎片问题，CMS采用基于Mark-Compact算法的Serial old回收器作为补偿措施：当内存回收不佳（碎片导致的Concurrent Mode Failure时），将采用serial old执行FullGC以达到对老年代内存的整理。