浅谈Android垃圾回收机制

最新推荐文章于 2024-03-14 16:55:20 发布

原创最新推荐文章于 2024-03-14 16:55:20 发布 · 1.9k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#android #java #1024程序员节

本文详细介绍了Android Runtime (Art)的垃圾回收机制，包括Art如何判断对象为垃圾、使用可达性分析算法、标记-复制算法及其优化、分代收集理论、Full GC与Minor GC的区别，以及垃圾回收的并发性和不同场景下的算法选择。通过对Art垃圾回收机制的深入理解，有助于优化Android应用的内存管理。

Android垃圾回收机制详解

近来在深挖Android的垃圾回收机制，发现这方面原本数量少得可怜的技术文章却大多早已过时，无奈下只好多方查阅资料，现在我就了解到的情况做一个总结，希望对你有所帮助，如有错误欢迎在评论区指出。

前言

Android如今使用的虚拟机名叫Android Runtime，简称Art(本文后面将用Art来指代Android虚拟机)，而Art的其中一大职责就是负责垃圾回收。

在讲述Art的垃圾回收机制之前，还需要了解Art如何判定一个对象是垃圾。

目前主流有两种判定算法，引用计数方法和可达性分析算法，Art采用的是第二种算法，由于引用计数方法不是本文的重点，下面我仅就可达性分析算法展开介绍。

下面的内容截取自《深入理解Java虚拟机的介绍》。

“当前主流的商用程序语言（Java、C#，上溯至前面提到的古老的Lisp）的内存管理子系统，都是通过可达性分析（Reachability Analysis）算法来判定对象是否存活的。这个算法的基本思路就是通过一系列称为“GC Roots”的根对象作为起始节点集，从这些节点开始，根据引用关系向下搜索，搜索过程所走过的路径称为“引用链”（Reference Chain），如果某个对象到GC Roots间没有任何引用链相连，或者用图论的话来说就是从GC Roots到这个对象不可达时，则证明此对象是不可能再被使用的。如下图所示，对象object 5、object 6、object 7虽然互有关联，但是它们到GC Roots是不可达的，因此它们将会被判定为可回收的对象。”

在这里插入图片描述

图片来源:《深入理解Java虚拟机》

至于在Java技术体系里面，固定可作为GC Roots的对象有哪些的问题由于不是本文的重点这里就不再展开细讲，感兴趣的小伙伴可以自行查阅。

了解Art如何界定一个对象是垃圾后，我们再来看看它是如何进行垃圾清理的。

常见的垃圾清理算法有三种，标记-清除算法，标记-复制算法，标记-整理算法。

不同于Dalvik(Android上一代虚拟机)只采用了一种算法的是，Art采用了两种算法，标记-复制算法，标记-整理算法，下面先简单介绍标记-复制法。

下面内容截取自《深入理解Java虚拟机的介绍》。

“标记-复制算法常被简称为复制算法。为了解决标记-清除算法面对大量可回收对象时执行效率低的问题，1969年Fenichel提出了一种称为“半区复制”（Semispace Copying）的垃圾收集算法，它将可用内存按容量划分为大小相等的两块，每次只使用其中的一块。当这一块的内存用完了，就将还存活着的对象复制到另外一块上面，然后再把已使用过的内存空间一次清理掉。如果内存中多数对象都是存活的，这种算法将会产生大量的内存间复制的开销，但对于多数对象都是可回收的情况，算法需要复制的就是占少数的存活对象，而且每次都是针对整个半区进行内存回收，分配内存时也就不用考虑有空间碎片的复杂情况，只要移动堆顶指针，按顺序分配即可。这样实现简单，运行高效，不过其缺陷也显而易见，这种复制回收算法的代价是将可用内存缩小为了原来的一半，空间浪费未免太多了一点。标记-复制算法的执行过程如下图所示。 ”

在这里插入图片描述

图片来源:《深入理解Java虚拟机》

Art中标记复制算法的具体实现

在前面引用内容中，作者指出如果内存中多数对象都是存活的，标记复制算法将会产生大量的内存间复制的开销（原文加粗部分），而这正是因为该算法只把内存区域分为了两个区域，这就会导致出现复制绝大部分的存活对象只为了清理掉一小部分垃圾的情况，这种做法无异于在家里打扫卫生，为了些许灰尘，把灰尘所在一边的所有家具才搬到没有灰尘的另一边后才打扫卫生，这是一种代价极其高昂的清理垃圾方法。

因此，针对这种情况，Art采用的是该算法优化过后的版本，把内存划分为多个区域（官方说法叫做Region），一个区域大小为256KB，如下图所示。
在这里插入图片描述

在这里插入图片描述

图片来源:谷歌开发者大会

这种做法显而易见的好处如下：

1.当一个区域没有垃圾的时候，就可以不进行垃圾清理。

2.当一个区域因为只有一两个垃圾而要进行垃圾清理的时候，代价也不会太过于高昂，因为一个区域大小才256KB，本来存储的对象就不多，因为一两个垃圾而复制三四个对象还是可以接受的，这就和在家里打扫卫生时因为扫把够不着椅子底下的灰尘，从而把椅子移开后才进行清理一样可以令人接受。

区域命名规则

需要注意的是，由于Evacuated这个单词不太好翻译，为了避免我个人对这个词的翻译影响读者的理解，后面我在讲解Art对区域的命名规则的时候仍使用Evacuated这个单词，读者可根据自己的理解对Evacuated进行解释。(ps:Evacuated有疏散；撤离；排泄；腾出(房子等)的意思，词意来自必应词典)

1.当一个区域有垃圾，需要被Evacuated的时候，Art则将该区域命名为Evacuated Region。

2.当一个区域没有垃圾，不需要被Evacuated的时候，Art则将该区域命名为Unevacuated Region。

3.当一个区域没有存储对象的时候，Art则将该区域命名为Unused Region。

4.当一个区域原先为Unused Region，但是要作为其它Evacuated Region中存活对象复制目的地的时候，Art则将该区域命名为Evacuation Region。(存活对象即那些没有被Art判定为垃圾的对象，下同)

第一到第三个命名规则结合图片应该很好理解，这里就不再赘述，这里我再花点笔墨简单介绍下Evacuation Region。

举个例子，假设有两个区域，存储了对象的区域1和没有存储对象的区域2，Art在使用可达性分析算法后，发现区域1有垃圾，将区域1命名为Evacuated Region，但区域1里面还有存活对象，由于区域2没有存储对象，Art决定将这些存活对象要复制到区域2，那么此时区域2就会被Art命名为Evacuation Region。

对象着色规则

细心的读者可能会发现，上图中的对象颜色并不都一样，深绿色是来标明老年代中的存活对象，浅绿色是来标明新生代中的存活对象，红色是来标明待清理的垃圾，此外，老年代和新生代都聚集在各自的区域，并没有出现老年代和新生代混合在一个区域的情况，这样做是有原因的。

新生代和老年代都是分代收集理论中的概念，下面再次引用《深入理解Java虚拟机》的内容来简单介绍下分代收集理论。

“当前商业虚拟机的垃圾收集器，大多数都遵循了“分代收集”（Generational Collection）的理论进行设计，分代收集名为理论，实质是一套符合大多数程序运行实际情况的经验法则，它建立在两个分代假说之上：

1）弱分代假说（Weak Generational Hypothesis）：绝大多数对象都是朝生夕灭的。

2）强分代假说（Strong Generational Hypothesis）：熬过越多次垃圾收集过程的对象就越难以消亡。

这两个分代假说共同奠定了多款常用的垃圾收集器的一致的设计原则：收集器应该将Java堆划分出不同的区域，然后将回收对象依据其年龄（年龄即对象熬过垃圾收集过程的次数）分配到不同的区域之中存储。显而易见，如果一个区域中大多数对象都是朝生夕灭，难以熬过垃圾收集过程的话，那么把它们集中放在一起，每次回收时只关注如何保留少量存活而不是去标记那些大量将要被回收的对象，就能以较低代价回收到大量的空间；如果剩下的都是难以消亡的对象，那把它们集中放在一块，虚拟机便可以使用较低的频率来回收这个区域，这就同时兼顾了垃圾收集的时间开销和内存的空间有效利用。

在Java堆划分出不同的区域之后，垃圾收集器才可以每次只回收其中某一个或者某些部分的区域 ——因而才有了“Minor GC”“Major GC”“Full GC”这样的回收类型的划分；也才能够针对不同的区域安排与里面存储对象存亡特征相匹配的垃圾收集算法——因而发展出了“标记-复制算法”“标记-清除算法”“标记-整理算法”等针对性的垃圾收集算法。这里笔者提前提及了一些新的名词，它们都是本章的重要角色，稍后都会逐一登场，现在读者只需要知道，这一切的出现都始于分代收集理论。

…

把分代收集理论具体放到现在的商用Java虚拟机里，设计者一般至少会把Java堆划分为新生代（Young Generation）和老年代（Old Generation）两个区域。顾名思义，在新生代中，每次垃圾收集时都发现有大批对象死去，而每次回收后存活的少量对象，将会逐步晋升到老年代中存放。”

同样地，Art也采用了这种分代收集理论，分为Major GC和Full GC（GC为Garbage Collection的简称），在Minor GC中只对新生代进行可达性算法分析，在Full GC中才对新生代和老年代一起进行可达性算法分析。

分代收集理论存在的问题

把对象单纯分为新生代和老年代还存在着一个问题，老年代可能持有新生代的引用，而在Minor GC中Art只对新生代进行可达性算法分析，这样可能会导致只被老生代持有的新生代被Art误判为垃圾，举一个栗子，假设有一个老年代X持有了新生代Y的引用，且Y的引用只被X所持有，也就是说，只存在由X出发到Y的路径，那么Art在Minor GC由于不对X进行可达性算法分析，会判定Y不可达，从而误判Y为垃圾，

这就是所谓的跨代引用假说，因此，为了解决这问题，Art引入了Remember Set来记录老年代对新生代的引用。

下面我继续引用《深入理解Java虚拟机》来对跨代引用假说和Remember Set进行介绍。

“跨代引用假说（Intergenerational Reference Hypothesis）：跨代引用相对于同代引用来说仅占极少数。

这其实是可根据前两条假说逻辑推理得出的隐含推论：存在互相引用关系的两个对象，是应该倾向于同时生存或者同时消亡的。举个例子，如果某个新生代对象存在跨代引用，由于老年代对象难以消亡，该引用会使得新生代对象在收集时同样得以存活，进而在年龄增长之后晋升到老年代中，这时跨代引用也随即被消除了。

依据这条假说，我们就不应再为了少量的跨代引用去扫描整个老年代，也不必浪费空间专门记录每一个对象是否存在及存在哪些跨代引用，只需在新生代上建立一个全局的数据结构（该结构被称为“记忆集”，Remembered Set），这个结构把老年代划分成若干小块，标识出老年代的哪一块内存会存在跨代引用。此后当发生Minor GC时，只有包含了跨代引用的小块内存里的对象才会被加入到GC Roots进行扫描。虽然这种方法需要在对象改变引用关系（如将自己或者某个属性赋值）时维护记录数据的正确性，会增加一些运行时的开销，但比起收集时扫描整个老年代来说仍然是划算的。 ”

Art的Full GC

准确来说，Art采用的并不是Full GC算法，因为根据谷歌的说法，Art采用的是经过优化的Full GC算法，全称叫2-phase full-heap GC cycles,但后文为了介绍方便，仍采用Full GC的说法，稍微有点英文基础的读者看到算法的全称就应该知道，该算法分为两阶段，如图所示，第一阶段使用可达性算法分析来判断对象是否存活，第二阶段就是根据区域中的存活对象数量判断是否需要进行Evacuated。（ps：Full GC未优化的版本就包含垃圾判断和垃圾回收）

在这里插入图片描述