简述
系统架构是微服务架构,主要Springboot+Nacos,服务比较多想通过SpringbootAdmin对服务进行监控。测试环境一切正常。
问题描述
在测试环境SpringbootAdmin部署一切正常,所有服务均在线。但部署到正式环境有三个服务始终是灰色下线(离线)状态,日志报错如下:
java.util.concurrent.TimeoutException: Did not observe any item or terminal signal within 10000ms in 'map' (and no fallback has been configured)


同样的代码为什么会这样确实有点脑壳疼,排查这个问题就需要知道监控的原理。SpringBootAdmin会默认每隔5秒通过Nacos注册的服务,请求各个服务获取健康数据来监测。

发现有问题的监控通过健康监控的链接访问10秒-20秒才返回健康结果数据,所以问题就在这了。SpringbootAdmin默认情况只要10秒不返回结果就认为超时并将服务状态设置为离线。既然知道了原因问题就好解决了。

解决办法

更新健康检查的默认时间,设置成30秒,加入以下代码:
spring.boot.admin.monitor.default-timeout=30000
1000ms=1s,上述是30s。更改完成后重启监控服务,一切正常。

其它:
至于为什么健康监测链接请求响应慢,没有深入去挖,可能与网络、与数据库连接等均有一定关系,通过网络得知,也有些小伙伴把邮箱警报关闭以及把spring自带的email包去掉引入也能解决,具体我就没试了。
SpringBootAdmin监控服务超时解决方案

本文介绍了在SpringBootAdmin监控微服务架构时遇到的三个服务灰显下线问题。问题源于服务健康检查超时,SpringbootAdmin默认10秒未收到响应即认为服务离线。解决方案是通过增加健康检查的超时时间至30秒,配置`spring.boot.admin.monitor.default-timeout=30000`。此外,文中提及健康监测链接响应慢可能是由于网络或数据库连接等因素,但未深入探讨。
3417

被折叠的 条评论
为什么被折叠?



