2007年10月30日,奥运网站售票系统因用户访问量过大将第二阶段售票延期。超过2100万次访问量中,成功订票4.3万张,系统运行当天的可用性,仅达到了2%。与日常网站可靠性约100%的状态降低了50倍。用户体验指标降到了建站以来的最低点。
从用户体验来分析,首先,在一般情况下网站进行负载测试与分析是在理想的假设环境下进行,而这种非真实的负载测试容易导致相对乐观的结论。其次,网站购票流程相对复杂,完成一个流程需要近10步或更多,这一方面加大了用户操作的失败率,另一方面也增加了网站页面的访问量(Page View)从而成倍增加系统的负载。再有,不同子系统比如门票查询系统、用户帐户系统、票务核对系统、信用卡处理系统等的负载能力不均衡,某些子系统的负载瓶颈变成整个系统的瓶颈,很多子系统也许由第三方直接提供,如果不对第三方系统进行实时的监控和负载分析,会加剧整个系统的不确定因素。最后,从网站公布的事件处理时间上看,宣布系统暂停售票为下午13点,但实际系统问题在9点开始售票时就发生了,如果采用有效的用户体验监测系统,其问题的严重程度可在很短的时间内即可做出评估,及早宣布暂停售票并关闭系统,这也许能稍微降低这一事件的影响。
这次事件是发生在国内票务销售中的问题,相信国内奥运观众会在提出批评建议后,还是能给予充分理解并继续热心支持奥运工作的。关键是通过系统的改善,此类问题不再次出现才是更加重要的。如何改善系统,我想我们可以同样从用户体验的角度出发去解决或缓解上述的问题。首先,网站需要了解系统真正的负载能力和负载目标,从而正确的引导系统的改善和扩容。真实的负载测试必须包括系统的实际布置和用户访问网站的模式和环境。第二,网站合理地调整流程从而使用户能用最短的操作完成最常用的流程。第三,严格地管理和监控各个子系统,尤其是第三方直接提供的子系统,采用严谨合理的SLA协调供求双方的责任,对SLA协议进行全面、公正、合理的独立评估、监测与管理。最后,实时地监控系统的关键点,设置相应的域值及时警报,使问题的发现和解决控制在短时间,从而减小损失。
说到北京奥运网站,通过高明公司近期监测,网站在世界各地用户体验指标如下,仅供参照:
测试点位置
响应时间(秒)
可靠性(%)
北京
2.029
100%
英国
14.080
100%
广州
3.839
100%
法国
12.851
100%
美国
8.490
99.65%
上海
12.395
98.95%
新加坡
32.539
99.65%
加拿大
8.399
99.65%
2007年奥运网站售票遭遇巨大挑战,系统因访问量过大导致可用性降至2%,用户体验创历史新低。问题根源在于负载测试不足、流程复杂及子系统瓶颈。通过改进负载测试、简化流程、严格监控第三方系统及实时监测,此类问题得以缓解。
776

被折叠的 条评论
为什么被折叠?



