本文是对2018年8月9日公司Exchange邮件系统邮件流故障的故障发现、故障处理和故障修复的过程记录和总结反思。帮助自己总结经验和吸取教训,同时也作为一次反面教材让其他运维或管理员吸取教训。
故障发现
昨天下午18点50左右结束团队内培训分享会后,收到同事的反馈,说他们几个人都无法收到外部邮件(Internet上的邮件),故障现象为:Exchange服务器内网收发邮件正常,外网发送正常,但无法收到外部邮件。
因为公司的邮件系统是公司自建的ExchangeServer2010,因此需要运维自己去管理。经过多个外部邮箱的测试发现,的确无法收到外部邮件,这些外部邮箱包括网易、阿里企业邮箱和微软Outlook邮箱。
因为邮件服务是企业核心服务之一,加之已经有同事反馈遇到问题,因此此故障应该是重要紧急故障,必须尽快排除以恢复服务。
注1:如果问题比较严重或者有紧急事件处理流程规定,应该按照流程汇报上级领导和发出通告。
注2:以下是个人看法和经验总结,如有错误敬请指出。
故障处理
面临故障最重要的就是尽快通过排除法进行故障排除以实现服务的最快恢复。因此首先要做的故障排除。由于已经是下班时间,事故虽然重大,但还尚未造成重大影响。
因为在Windows特别是Exchange的运维上个人经验比较欠缺,不能凭经验一下子发现问题,因此只能先根据以往经验,结合Google等逐个排查。
经过初步测试,内部邮件收发正常,内部向外部发送邮件正常,但接收异常。于是开始以下排查。
在排查之前应该先需要搞清楚最近发生的变更,如软件配置,导致变更的操作,特别是两个及以上的管理员共同管理时。因此服务器由一人管理,且最近没有进行过任何更改,是突然出现的问题,因此直接开始排查:
检查域名解析,排查mx记录等是否存在问题。使用nslookup命令在多个外网服务器上测试MX记录、以及相关的A记录和CNAME记录。
注1:Windows服务器可以使用nslookup-q=mxxxx.com直接查询,Linux命令需要交互式查询,即先执

本文记录了一次Exchange邮件系统因磁盘空间不足触发反压机制,导致无法接收外部邮件的故障处理过程。通过排查日志、系统资源和队列查看器,最终发现并解决了磁盘空间问题,恢复了邮件服务。
最低0.47元/天 解锁文章
1810

被折叠的 条评论
为什么被折叠?



