原因:
生产上的所有设备,突然接收不到订单,相当于所有的业务被迫停止。
查找思路:
查找设备上报接口的tag1,查看上报接口的参数。参数是正常的,返回参数也是正常,但是设备就是收不到订单。查看nginx的log日志发现所有请求tag1的状态码返回都是499,
Nginx对499的定义:
ngx_string(ngx_http_error_495_page), /* 495, https certificate error /
ngx_string(ngx_http_error_496_page), / 496, https no certificate /
ngx_string(ngx_http_error_497_page), / 497, http to https /
ngx_string(ngx_http_error_404_page), / 498, canceled /
ngx_null_string, / 499, client has closed connection */
可以明显的看到是客户端管理了连接,那为什么客户端会关闭连接呢?一次请求建立设备与我们的交互大约是在3秒钟,等不到设备就会主动断开与我们的连接,到这个时候就大概有点思路了,开始在接口中打log查看各个服务的请求的运行时间,然后才发现有一个接口要消耗1000多毫秒,最后查看到MongoDB数据库中的一张自检表发现300多万行的数据,结果没有索引,每次查询都是全表扫描,导致这个接口处理时间超长。最后确定优化自检表。处理完一看发现果然设备都正常了。
不过查看发现某些设备还是有的请求时间过长,有待进一步优化的空间。
记一次生产环境的bug-nginx状态码499优化接口
最新推荐文章于 2025-07-16 17:31:27 发布
本文详细记录了一次生产环境中设备无法接收订单的问题排查过程。通过分析nginx日志,定位到499状态码,揭示了客户端提前关闭连接的原因。深入接口响应时间分析,最终锁定MongoDB自检表全表扫描效率低下为瓶颈,并成功优化。
693

被折叠的 条评论
为什么被折叠?



