1. 问题描述
4月29日上午,测试同学通过压测工具测试"网关->业务层->分析服务"链路,QPS 200。
测试开始不久后,CloudMonitor告警"分析服务"服务器磁盘占用超过80%,经过排查,确定告警根原因是java.nio.file.Files lines方法使用不当引发的文件句柄泄露,临时文件被删除后磁盘空间未释放导致。
2. 排查步骤
-
测试开始后10分钟左右,CloudMonitor告警"分析服务"服务器磁盘占用超过80%,登录服务器删除部分日志后,磁盘占用降低到70%,告警解除;
-
10分钟后,CloudMonitor告警"分析服务"服务器磁盘占用超过80%,登录服务器查看日志目录,发现日志目录占用磁盘空间不足1GB,判断是其他目录占用了磁盘空间;
-
执行du -h -s * 检查主要目录后,发现所有目录占用空间远小于df -h命令返回的磁盘总使用空间,判断是文件句柄泄露导致文件虽被删除但磁盘空间未释放;
-
执行lsof | grep deleted 列出所有已打开且已删除的文件,果然返回大量临时文件;
-
重启JAVA进程后,磁盘空间占有率降至50%以下,问题原因确定为JAVA代码导致的文件句柄泄露。
3. 代码检查
通常的,文件句柄泄露是由于BufferedWriter BufferedReader 之类的文件读写操作类没有关闭导致,因此重点检查了相关代码,但发现开发同学相关操作时均使用了try-with-resources优化关闭资源,并不会导致文件句柄泄露。
public static void writeFileByFullPath(String filename, List<String><