最近系统出现了一个莫名其妙的问题,就是运行一段时间之后出现了很多奇怪的异常现象,所以第一反应是看一下进程的运行情况、内存占用情况和cpu利用情况,但是更加奇怪的问题是无论是运行ps还是free都出现了sh: can't fork的错误信息,这是什么鬼东西,去Google搜索了各种资料(不要问我怎么上的Google,你懂的),没有得到任何有用的信息,所以只能靠感觉定位了,既然没办法fork,可能是内存被占用完了,那么目前就需要确认系统的内存使用情况。
1、free命令用不了,ls也出现报错,通过各种方式最后在/proc路径下vi meminfo看到了内存信息,内容如下:
MemTotal: 16357468 kB
MemFree: 4878352 kB
MemAvailable: 7485820 kB
Buffers: 538576 kB
Cached: 1894516 kB
发现内存还有4个多G没使用完,那么就能排除内存不足导致的fork出现错误了。
2、既然不是内存问题,那么还有什么原因导致了,我查了fork的相关接口代码,发现fork主要动作是创建子进程,创建子进程如果内存充足怎么会创建失败呢?后来搜到一个命令ulimit -a查看系统当前用户的资源限制信息,才知道可能是线程数超过了系统的最大限制数量,从而导致的fork失败的发生。为了验证这个猜想我查看了ulimit -a命令结果:
HH:~#ulimit -a
-f: file size (blocks) unlimited
-t: cpu time (seconds) unlimited
-d: data seg size (kb) unlimited
-s: stack size (kb) 8192
-c: core file size (blocks) unlimited
-m: resident set size (kb) unlimited
-l: locked memory (kb) 64
-p: processes 63893
-n: file descriptors 65535
-v: address space (kb) unlimited
-w: locks unlimited
-e: scheduling priority 0
-r: real-time priority 0
发现系统限制的最大线程数为63893。由于许多命令没法执行,所以就杀掉一个已知进程号的进程,幸好kill可以使用,通过kill -15 XXX和kill -9 XXX杀掉一个进程之后,很多操作就能进行了,没有再出现can't fork的报错,所以该问题就锁定了原因:创建线程的数量超过了系统限制该用户创建的数量,所以就出现了异常。