开门见山。
经过现场实测以及对环境调研评估。确认目前用户邮件系统存在以下亟需解决的问题:
1、 Domino邮件服务崩溃问题。客户端的长连接会间歇性产生于Domino HTTP/POP3/SMTP服务通讯的无响应问题。此问题困扰用户很久未得到解决。
2、 Domino邮件系统由于历史原因,历年来从R5分多次逐步升级到R8.5.1,升级跨度较大,原有R5版本Domino管理策略及运维方式和R8.5.1版本相比显著变化,目前的用户量和数据量增长的情况下,非常有必要对Domino系统进行技术改造,技术改造的目的是:
i. 提升Domino邮件系统的性能,带来系统处理的便捷。
ii. 提高Domino邮件系统的高可用性,消除目前的安全隐患,显著较低邮件服务崩溃、邮件丢失的风险。
iii. 重构邮件基础架构,以达到新版本环境下邮件系统所要求的可靠性。
3、 巡检及评估调研中,我们了解到,用户的网络链路存在部分外部用户(含代理商及公司出差的商务人员)访问公司营销投入系统延时,性能缓慢的情况。特别是很多北方用户反馈经常无法打开,或访问速度很慢。这种情况对公司整体IT效率产生了一定的影响。
一、 需求分析及解决方案
1、 Domino崩溃问题
根据崩溃邮件日志及系统日志分析,产生这样的崩溃的原因有两种可能情况:
1、 操作系统Windows 2003 X64环境中部分补丁及注册表需进行调优,由于Domino 8.5.1环境是一个对Windows操作系统中的内存管理(非分页文件池管理)、文件系统管理(NSF文件访问性能)、网络管理(SP2中默认启用的可缩放网络包SNP优化)有着严格要求的软件版本,因此采用默认安装配置策略将会在用户量增大,数据量增加的情况下产生严重的性能影响,究其原因是Windows的bug,目前Windows 2003 x64环境已经提供了修复方式和补丁程序,详情如下:
http://support.microsoft.com/kb/950224/zh-cn
http://support.microsoft.com/kb/948496
症状:
在拥有启用了 TCP/IP 卸载的网络适配器的计算机上安装 Windows Server 2003 Service Pack 2 (SP2) 或 Windows Server 2003 可伸缩网络包 (SNP) 后,您可能会遇到很多网络相关的问题。
Windows Server 2003 SNP 启用后,可能会出现以下问题:
· 尝试使用 VPN 连接连接到服务器时,收到以下错误消息:
错误 800: Unable to establish connection.
· 您无法创建到服务器的远程桌面协议 (RDP) 连接。
· 您无法从局域网上的计算机连接到服务器上的共享。
· 您无法将客户端计算机加入到域。
· 您无法从运行 Microsoft Outlook 的计算机连接到 Exchange 服务器。
· 可能无法清理到 Exchange 服务器的不活动 Outlook 连接。
· 您的网络性能会下降。
· 与基于 Windows Vista 的计算机通信时,网络性能下降。
· 您无法从服务器创建传出 FTP 连接。
· 动态主机配置协议 (DHCP) 服务器服务崩溃。
· 登录到域时系统性能下降。
· 位于 Windows Small Business Server 2003 或 Internet Security and Acceleration (ISA) Server 后面的网络地址转换 (NAT) 客户端会遭遇间歇性的连接中断。
· 您会遭遇间歇性的 RPC 通信中断。
· 服务器停止响应。
· 服务器在非页面缓冲池内存上运行速度变慢
原因:
由于在 Windows Server 2003 Service Pack 2 中启用的 Windows Server 2003 SNP 功能存在多个问题,因此导致出现这些问题。这些功能包括接收方缩放 (RSS) 和 TCP/IP 卸载。具体来说,这些问题包括:
· RSS 与 NAT 或网络负载平衡 (NLB) 不兼容。
· 在使用 Window 缩放功能时 TCP/IP 卸载出现问题。当与基于 Windows Vista 的计算机通信时通常会出现此问题。Windows Vista 使用 Window 缩放功能。
· 某些启用了 TCP/IP 卸载的网络适配器不会发送 TCP“保持活动”消息。但是,Exchange 服务器会使用 TCP“保持活动”消息来清理非活动客户端会话。
· 启用了 TCP/IP 卸载的网络适配器可能会占用很多非页面缓冲池内存。这可能会在该操作系统中导致其他问题。
· 在某些情况下,启用了 TCP/IP 卸载的网络适配器可能需要较大的连续内存。这会导致计算机在尝试释放内存时停止响应。
解决办法:
1、 更新网卡ROM固件程序和所匹配的网卡驱动程序,详情参见服务器支持页面和网卡厂商支持页面。
2、 补丁 (KB948496) 程序包更新,目前经过检查,系统已更新。
3、 手动禁用网络适配器驱动程序中的“接收方缩放”和“TCP/IP 卸载”。
4、 安装微软专用故障修复程序,见下图中的Fixit50051
5、 由于部分KB948496以后发布的补丁会启动将禁用的RSS和TCP卸载功能重新启用,因此我们必须在操作系统中以administration权限将注册表中完全禁用掉。
注意:补丁禁用旨在对操作系统内核文件进行一个baseline级别的更新,Fixit50051修复程序旨在针对新系统(未部署Domino服务)的注册表进行更新,由于Domino配置后会影响注册表的更新,因此最后的手工修改也是不可缺少的环节。
通过以上步骤,可以解决由于Windows 2003配置不当导致的Domino服务崩溃问题,这个步骤也非常有必要,消除了许多NAT间歇性中断故障并提升了网络访问性能,增强了Windows内存管理的健壮性。适合老旧服务器的优化。
2、 Domino BUG需升级并更新Domino补丁
我们可以发现一个bug已被修复,和我们的报错信息有关:
详细如下:
Waiting for write lock on rwsem 0x0A17 NET package init/term semaphore
修复方式: