2017/8/2线上系统故障摘记

本文记录了一次因商务原因导致的机房断网事故及其影响。详细介绍了核心数据库成为孤岛、域名解析及SLB服务中断等问题,并分享了临时解决方案,包括修改跳板机域名、调整应用服务器配置等措施。

下午出现机房故障,办公网断网所有服务器连不上~  后得知是商务层面人为断网。

 

对我们业务的影响:

1.核心数据库机房(A机房)内网成为孤岛,外网正常,和其他核心机房内网无法连通。(会影响很多服务,因为为了安全,很多服务都是内网直连)

2.域名解析和SLB服务受影响无法正常提供服务

3.跳板机受影响无法登录服务器

4.redis集群是内网的vip,和应用服务器连通故障

 

临时方案:

1.更改跳板机域名,改为IP临时登陆服务器

2.操作应用服务器流程:

登陆到四台应用服务器(A机房2台)(B机房两台),由于数据库都是内网直连的,受影响(B机房)数据库无法正常连接,只能保留A机房的应用服务器能连接数据库

想想这个时候还有两台机器能做个负载,也能撑住哈!!但是!!!

发现我客户端绑定的服务域名解析是到SLB的cname上了,还是解析到内网直连过来的,凑巧SLB服务也受到断网影响目前无法变更,,我的数据库和SLB服务无法同时满足连接条件。。也罢,改域名解析吧,通过A机房IP测试登陆后台没有问题,只能将我原解析到SLB服务cname上的域名切换到我A机房的一台机器上单点运行。。

解析生效后打不开了,貌似被打死了,原来4台机器的访问瞬间跑到一台上,报错(503 Service Temporarily Unavailable)。

 

然后解决503报错问题:

发现日志里面有很多正常的连接,但是很少应该是有些连接打不过来,机器负载也不高,重启服务都无效,后发现连接数过多,3W多个连接卡在那里不释放。

 

更改系统参数,解决

 

转载于:https://www.cnblogs.com/liuquan/p/7284738.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值