现象
访问系统发现很卡,一个几k的静态文件加载了3秒;登陆到nginx服务器,执行命令的时候也很卡。
排查思路
先查看内存、cpu的情况,发现内存还有4G空余,cpu使用率也只有20-30%;对磁盘进行读写测试,发现也是正常的。排查完这些之后,按照以往经验,要么是最大文件打开数过多,要么是进程过多,要么是虚拟机的宿主机硬件出现问题确实很卡。其他还是有很多原因会导致卡,一步步排查嘛。实在不行就重启大法。
问题处理过程
先查看最大文件打开数和最大进程数配置是否有问题,经查看后无误。
再查看最大进程数量是多少,四百多,正常。
查看文件打开数,发现有138w个。【图丢了】
lsof | wc -l
#把输出追加到一个临时文件,便于后面查询。
lsof > 111.txt
统计每个进程打开了多少个文件,发现有三个进程一共占用了一百多万个文件打开数。
awk '{print $2}' 111.txt | sort -n | uniq -c | sort -n
查看是哪些进程导致的,进程看上去都是容器进程,如果是虚拟机部署的进程,就可以直接处理了。
找到容器进程属于哪个容器ID
for i in $(docker ps -q) ; do echo $i ; echo "-----------------" ; docker top $i | grep -E "247291|281713|240027" ;done
找到容器名,确认是k8s生成的业务容器。
docker ps -a | grep -E "d70e137fd271|afffd9bfe193|9e64f67f0433"
之后根据业务情况,是对容器进行重启,还是进行分析,就自己决定了。直接对容器进行重启,即可释放最大文件打开数,服务器恢复正常,但是避免以后再发生类似情况,还是需要对程序为什么会占用这么多的文件打开数做分析。