下午出现机房故障,办公网断网所有服务器连不上~ 后得知是商务层面人为断网。
对我们业务的影响:
1.核心数据库机房(A机房)内网成为孤岛,外网正常,和其他核心机房内网无法连通。(会影响很多服务,因为为了安全,很多服务都是内网直连)
2.域名解析和SLB服务受影响无法正常提供服务
3.跳板机受影响无法登录服务器
4.redis集群是内网的vip,和应用服务器连通故障
临时方案:
1.更改跳板机域名,改为IP临时登陆服务器
2.操作应用服务器流程:
登陆到四台应用服务器(A机房2台)(B机房两台),由于数据库都是内网直连的,受影响(B机房)数据库无法正常连接,只能保留A机房的应用服务器能连接数据库
想想这个时候还有两台机器能做个负载,也能撑住哈!!但是!!!
发现我客户端绑定的服务域名解析是到SLB的cname上了,还是解析到内网直连过来的,凑巧SLB服务也受到断网影响目前无法变更,,我的数据库和SLB服务无法同时满足连接条件。。也罢,改域名解析吧,通过A机房IP测试登陆后台没有问题,只能将我原解析到SLB服务cname上的域名切换到我A机房的一台机器上单点运行。。
解析生效后打不开了,貌似被打死了,原来4台机器的访问瞬间跑到一台上,报错(503 Service Temporarily Unavailable)。
然后解决503报错问题:
发现日志里面有很多正常的连接,但是很少应该是有些连接打不过来,机器负载也不高,重启服务都无效,后发现连接数过多,3W多个连接卡在那里不释放。
更改系统参数,解决