这篇文章是写给想对目前的业务系统进行监控但是又不知道从何入手的小伙伴看的,又或者是对于现有监控机制的一个反思,具体为什么要做这件事情,可以参照一下下边这篇,结合着看看。
如下翻译,checkpoint -> cp
cp1 : 业务系统宿主机监控
现在一般系统都不直接跑物理机了,基本都跑在虚拟机或者容器上边,无论你们所谓的宿主机或者迁移做到多好,都要密切关注宿主机这块事情,很可能分分钟被其他业务或者宿主机本身把系统搞挂。一旦有异常必须关注起来,特别是机器数量比较少的时候,系统没发起自动迁移的情况下,及时迁移宿主机。
大概需要关注的东西:宿主机网络、磁盘IO、CPU load、memory load
cp2 : 数据库监控
对于一个普通的业务系统来说,最重要的底层组件莫过于数据库了,根据我的经验,现在非常多业务并没有对数据库进行设计,所以一般情况下,数据库要是挂了,那么这时候业务系统通常来说就是直接不可用状态。数据库本身的容灾固然重要,但是数据库一般情况下来说,并不能识别哪些业务SQL是重要