今天想跟大家聊一道Linux面试题。场景是这样的
有一个淘气的进程P运行在机器H上。因为P很淘气,时不时会导致机器内存溢出,使得在同一机器上运行的老实进程Q死掉。这时,需要重启机器才能恢复生产。所以问题来了:
- 为什么会出现这种情况?
- 我们应该如何操作才能控制损失,比如只杀掉淘气的P进程而不伤及无辜的老实进程Q呢?
- 如何深入调查找到原因?
为什么会出现这种情况?
因为进程P非常淘气,占用了很多内存资源来储存自己的数据,随着储存的数据越来越多,系统可用的内存就越来越少。系统在此时可能会做一些基本操作,比如paging或者drop clean page,如果系统需要花很长的时间来在内存和硬盘之间传输而不能处理真正的工作,那么此时系统就在thrashing状态。经过这一些列的补救措施,如果还是不能找到足够的页的话,OOM Killer就会从睡眠中被唤醒,杀掉进程使得系统可以继续运行。具体杀哪个进程是通过系统计算得出的。并不一定总是淘气进程P。具体可以看我之前写的OOM Killer的文章。
如何止损来不伤及无辜?
首先,我们需要来确认一下到底是不是P同学的锅。我们可以借用一些工具,例如htop,来看一下可用内存和P同学占用内存之间是否存在相关性。在OOM前的一段时间,如果