1 说明
月初值班的时候应用反馈跑报表有报错,某个进程出现 No more data to read from socket错误:
2 问题分析
2.1 以往经验
根据历史经验,socket
相关报错通常是网络原因导致的连接异常,重跑程序任务一般没有问题。
2.2 根因排查
一、检查alert日志
比较有迷惑性的是,因为应用给的程序报错截图没有返回ORA相关错误,一开始以为不是数据库层面的原因,但出于谨慎还是查了alert日志,发现对应时间点有ORA-07445错误:
二、检查trace文件
查看xxx_i2479149.trc文件信息。
11:48:50数据库出现1次报错,进程号是am_balance_solid_999:
相关sql类似如下:
与应用反馈的表一致,5个线程同时执行以上sql,其中一个sql报no data found,检查对应sql没有性能问题。
call stack信息如下:
从上面call stack可以看出,sql触发了sql monitor,然后在分配内存时报错。
三、查找问题解释
在官网找到相关问题解释,此问题应该是由于 Bug 21157342 - dump on kghalp/_intel_new_memcpy with SQL Monitoring enabled (default):
由于sql超过5秒触发sql monitor时,sql monitor在分配内存时暂时无法请求到。
可以考虑通过关闭sql monitor功能:
alter system set "_sqlmon_threshold"=0;
或者调大默认的5秒阈值:
--1分钟
alter system set "_sqlmon_threshold"=60;
3 总结
当应用程序遇到socket相关问题时,可以先建议应用尝试重跑,一般来说重跑都能跑过去。
但是如果问题频发,或者应用重跑的时间成本搞,就需要优先查找根因。在此案例中,遇到的ORA-07445 [kghalp]错误可以通过关闭sql monitor功能或调大阈值去规避。