好久没有更新停机日志了,也是想了个没有办法的办法,一个月左右重新启动一下机器.
还不错,这段时间相安无事,7/13出了点问题,现在补上纪录。
2008/7/13
node1
04:00-04:20
本来第二天我就准备重新启动机器的,谁知DB等不及了,又是死进程。
这个服务器负责两个产品生产,两栋楼。A栋(服务器在这里),B栋
B栋从0点开始就平凡发生应用程序死机等症状,A栋一切正常,日志
里显示0点到4点很多死进程,4点可能重要进程死了,所以NODE1
被踢掉了。A栋才有反映,还好值班员反映快,迅速将程序切换NODE2
没有造成太大影响,后来也没有反应到老板那里,关键是不用大晚上的跑
去公司。
还不错,这段时间相安无事,7/13出了点问题,现在补上纪录。
2008/7/13
node1
04:00-04:20
本来第二天我就准备重新启动机器的,谁知DB等不及了,又是死进程。
这个服务器负责两个产品生产,两栋楼。A栋(服务器在这里),B栋
B栋从0点开始就平凡发生应用程序死机等症状,A栋一切正常,日志
里显示0点到4点很多死进程,4点可能重要进程死了,所以NODE1
被踢掉了。A栋才有反映,还好值班员反映快,迅速将程序切换NODE2
没有造成太大影响,后来也没有反应到老板那里,关键是不用大晚上的跑
去公司。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/10341434/viewspace-417381/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/10341434/viewspace-417381/
本文记录了一次服务器异常导致的应用程序死机事件。事件发生在2008年7月13日,具体表现为大量进程死亡,导致服务器节点被迫重启。通过及时切换到备用节点避免了更大范围的影响。
7058

被折叠的 条评论
为什么被折叠?



