对于大型的网管系统,尤其是IDC网管系统来说,如何对告警的众多事件进行归并是一个很重要的问题,据说netcool在法国电信可以作到很好的对每天1500万条的事件进行归并,最后向用户只呈现200条左右的告警信息,能作到这一步确实是非常的不容易了,除了要有完善的归并策略外,对程序性能的要求也同样是很高的,但是对于我们的大部分的网管系统来说,也许并不要求我们要做到这一步。
对我们来说,最大的要求是能够通过归并事件来找出众多告警事件中的相互联系,找出这些事件的源头和所带来的影响,以最直观的事件告警方式呈现给用户。在此基础上,我们可以定义出业务事件的归并策略,也可以定义出网络事件的归并策略,同时还可以定义出设备事件的归并策略。
那么如何对事件进行归并处理呢,我的想法是设置一个归并策略库,然后根据策略库对所有的告警事件进行归并处理,最后得到归并后的事件,至此告警事件之间就有了相互联系了,在监控台上,我们就可以根据归并事件呈现出告警事件的来源及所影响到的范围。这样在IDC网管系统产生了很多告警事件的时候,我们才能够很方便的定位故障的源头,而不仅仅是定位故障对象本身。