63、VMware vSphere性能监控:告警与性能图表使用指南

VMware vSphere性能监控:告警与性能图表使用指南

1. 告警的使用

告警可以有多个触发条件,而此前创建的告警可能只有单一触发条件。例如,用于监控主机连接和电源状态的内置告警就有两个触发条件,在“Trigger if”下拉菜单中选择“ALL”,可确保只有通电但无响应的主机才会触发该告警。

一个对象可以有多个告警。创建新告警后,测试其功能至关重要,以确保获得预期结果。若发现配置的阈值不适合当前环境,导致告警未在应触发时触发,或在不应触发时触发,可编辑告警来适当设置阈值和条件;若不再需要该告警,右键单击并选择“Remove”即可删除。

编辑或删除告警需满足两个条件:
1. 连接到vCenter Server的用户账户必须有编辑或删除告警的适当权限。
2. 必须从定义告警的对象上尝试编辑或删除告警。

2. 告警管理

在vSphere Web Client中,除了“Alarms Definitions”选项卡,还有“Triggered Alarms”视图。通过在vCenter Web Client中选择一个对象,然后点击“Monitor”选项卡 -> “Issues” -> “Triggered Alarms”即可访问该视图。

“Monitor -> Issues -> Triggered Alarms”区域会显示所选对象及其所有子对象的所有激活告警,而vSphere Web Client右侧窗格的“Global Alarm”区域会显示vCenter内的所有告警。

vSphere Web Client右下角提供了一个便捷视图,显示所有当前触发的告警。点击这些告警可进入告警触发对象的“Triggered Alarms”视图,还可在此面板中确认或重置告警为绿色。

对于监控资源消耗的告警(即告警定义在“General”选项卡的“Alarm Type”下选择了“Monitor For Specific Conditions Or State”,如CPU使用情况、电源状态设置),可右键单击告警并选择“Acknowledge”来确认告警。确认后,vCenter Server会记录确认时间和用户账户,只要告警条件持续存在,告警会在“Triggered Alarms”视图中保持灰色显示;告警条件解决后,激活的告警会消失。

对于监控事件的告警(即在“General”选项卡的“Alarm Type”下选择了“Monitor For Specific Events Occurring On This Object”,如VM开机),可按上述方法确认告警,也可将告警状态重置为绿色。重置为绿色会将激活的告警从“Triggered Alarms”视图中移除,即使触发告警的底层事件实际上并未解决。

graph LR
    A[选择对象] --> B[点击Monitor选项卡]
    B --> C[点击Issues]
    C --> D[点击Triggered Alarms]
    D --> E[查看激活告警]
    E --> F{告警类型}
    F -- 资源消耗 --> G[右键点击告警并选择Acknowledge]
    F -- 事件 --> H[选择Acknowledge或重置为绿色]
3. 性能图表的使用

告警是提醒管理员特定条件或事件的好工具,但无法提供管理员有时所需的详细信息,如处于警告或临界状态下仍在使用的资源情况。vCenter Server的性能图表可解决这一问题,它具备创建和分析图表的诸多功能。

通过点击数据中心、集群、主机或VM的“Monitor -> Performance”选项卡,可获取大量信息。性能图表有两种不同布局:
- Overview Layout :访问“Monitor -> Performance”选项卡时的默认视图。顶部有更改视图和时间范围的选项,“View”下拉列表的内容会根据所选对象而变化,旁边可设置数据的时间范围,如实时、一天、一周、一个月、一年或自定义值。实时时间范围设置会显示最后一小时的数据,并每20秒自动刷新,其他时间范围设置不会自动刷新。下方是实际的性能图表,布局和包含的图表会根据所选对象和“View”下拉列表中的选项而变化。
| 所选对象 | 视图选项 |
| ---- | ---- |
| 数据中心 | Clusters, Storage |
| 集群 | Home, Resource Pools & Virtual Machines, Hosts |
| 资源池 | Home, Resource Pools & Virtual Machines |
| 主机 | Home, Virtual Machines |
| 虚拟机 | Home, Storage |

  • Advanced Layout :虽然名为“Advanced”,但一开始看起来比“Overview Layout”简单,只有一个图表,但该图表有大量配置选项。右侧有“View”下拉列表可快速切换图表设置,还有刷新图表或导出图表的按钮。刷新按钮可刷新数据,导出按钮可将图表导出为JPEG、PNG图形或CSV文档。图表两侧是计量单位,水平轴是时间间隔,下方的性能图表图例提供了颜色编码的键,帮助用户找到特定对象或感兴趣的项目,还会将图表分解为被测量的对象、使用的测量方法、计量单位以及该对象的最新、最大、最小和平均测量值。
4. 选择图表指标和计数器

在“Chart Options”对话框的左侧,可选择要监控或分析的指标。可用的图表指标包括:
- CPU
- Cluster Services
- Datastore
- Disk
- Memory
- Network
- Power
- Storage Adapter
- Storage Path
- System
- vSphere Flash Module
- Virtual Disk
- Virtual Machine Operations
- vSphere Replication

实际可用的选择会根据在vCenter Web Client中选择的对象类型而变化。每个资源内有不同的对象和计数器,某些情况下,实时间隔显示的对象和计数器比其他间隔更多。计数器列表中的描述字段解释了每个计数器的含义,若描述无法完全显示在“Chart Options”对话框中,鼠标悬停即可查看全文。

5. 查看不同资源的性能信息
  • CPU性能信息 :在“Chart Options”对话框中选择“CPU”资源类型,可选择要在性能图表中查看的特定对象和计数器。数据中心对象(DC)的“Performance”选项卡中不可用“CPU”资源类型,集群(CL)、ESXi主机(ESXi)、资源池(RP)和单个虚拟机(VM)可用。
    | 计数器 | DC | CL | ESXi | RP | VM |
    | ---- | ---- | ---- | ---- | ---- | ---- |
    | Max Limited | X | | | | |
    | Ready | | X | X | | |
    | Run | | X | | | |
    | Swap Wait | | X | X | | |
    | System | | X | | | |
    | Total | | X | | | |
    | Usage In MHz | | X | X | X | X |
    | Used | | X | X | | |
    | Utilization | | X | | | |
    | Wait | | X | X | | |

  • 内存性能信息 :在“Chart Options”对话框的“Memory”资源类型中,可显示不同的对象和计数器。数据中心对象的“Performance”选项卡中不可用“Memory”资源类型,集群、ESXi主机、资源池和单个VM可用。
    | 计数器 | DC | CL | ESXi | RP | VM |
    | ---- | ---- | ---- | ---- | ---- | ---- |
    | Active | | X | X | | |
    | Compressed | | X | X | | |
    | Consumed | | X | X | X | X |
    | Swap In | | X | X | | |
    | Swap Out | | X | X | | |
    | Swap Used | | X | | | |
    | Usage | | X | X | X | |
    | Balloon Target | | | X | | |
    | Zipped Memory | | | X | | |
    | Memory Saved By Zipping | | | X | | |

  • 磁盘性能信息 :磁盘性能是vSphere管理员需要监控的关键领域。数据中心、集群和资源池不支持这些计数器,ESXi主机和VM支持。并非所有计数器在所有显示间隔都可见。
    | 计数器 | DC | CL | ESXi | RP | VM |
    | ---- | ---- | ---- | ---- | ---- | ---- |
    | Disk Bus Resets | | | X | | X |
    | Disk Commands Terminated | | | X | | X |
    | Disk Kernel Command Latency | | | X | | X |
    | Disk Kernel Read Latency | | | X | | X |
    | Disk Kernel Write Latency | | | X | | X |
    | Disk Maximum Queue Depth | | | X | | X |
    | Disk Command Latency | | | X | | X |
    | Disk Read Latency | | | X | | X |
    | Disk Write Latency | | | X | | X |
    | Disk Queue Command Latency | | | X | | X |

  • 网络性能信息 :vCenter Server性能图表涵盖了广泛的网络性能计数器,仅ESXi主机和VM可用,数据中心对象、集群或资源池不可用。
    | 计数器 | DC | CL | ESXi | RP | VM |
    | ---- | ---- | ---- | ---- | ---- | ---- |
    | Data Receive Rate | | | X | | X |
    | Data Transmit Rate | | | X | | X |
    | Receive Packets Dropped | | | X | | X |
    | Transmit Packets Dropped | | | X | | X |
    | Packet Receive Errors | | | X | | |
    | Packet Transmit Errors | | | X | | |
    | Packets Received | | | X | | X |
    | Packets Transmitted | | | X | | X |
    | Usage | | | X | | X |

  • 系统性能信息 :ESXi主机和VM在“System”资源类型中有一些性能计数器,数据中心、集群和资源池不支持任何系统性能计数器。
    | 计数器 | DC | CL | ESXi | RP | VM |
    | ---- | ---- | ---- | ---- | ---- | ---- |
    | Resource CPU Active (1 Min Average) | | | X | | |
    | Resource CPU Active (5 Min Average) | | | X | | |
    | Resource CPU Maximum Limited (1 Min) | | | X | | |
    | Resource CPU Maximum Limited (5 Min) | | | X | | |
    | Resource CPU Running (1 Min Average) | | | X | | |
    | Resource CPU Running (5 Min Average) | | | X | | |
    | Resource CPU Usage (Average) | | | X | | |
    | Resource Memory Shared | | | X | | |
    | Resource Memory Swapped | | | X | | |
    | Uptime | | | X | | X |

  • 数据存储性能信息 :监控数据存储性能可查看整个数据存储的性能,而非每个VM的磁盘计数器。数据存储性能计数器仅ESXi主机和VM可用,数据中心对象、集群或资源池不可用。
    | 计数器 | DC | CL | ESXi | RP | VM |
    | ---- | ---- | ---- | ---- | ---- | ---- |
    | Storage I/O Control Aggregated IOPS | | | X | | X |
    | Storage I/O Control Datastore Maximum Queue Depth | | | X | | X |
    | Storage DRS Datastore Normalized Read Latency | | | X | | X |
    | Storage DRS Datastore Normalized write latency | | | X | | X |
    | Highest Latency | | | X | | X |
    | Average Read Requests Per Second | | | X | | X |
    | Average Write Requests Per Second | | | X | | X |
    | Storage I/O Control Normalized Latency | | | X | | X |
    | Read Latency | | | X | | X |
    | Write Latency | | | X | | X |

  • 存储路径性能信息 :“Storage Path”是新的性能计数器类别,可帮助排查存储路径问题,仅ESXi可用,数据中心对象、集群、VM或资源池不可用。
    | 计数器 | DC | CL | ESXi | RP | VM |
    | ---- | ---- | ---- | ---- | ---- | ---- |
    | Average Commands Issued Per Second | | | X | | |
    | Highest Latency | | | X | | |
    | Average Read Requests Per Second | | | X | | |
    | Average Write Requests Per Second | | | X | | |
    | Read Rate | | | X | | |
    | Storage Path Throughput Usage | | | X | | |
    | Read Latency | | | X | | |
    | Write Latency | | | X | | |
    | Write Rate | | | X | | |

  • 其他性能计数器

  • 参与集群的ESXi主机有“Cluster Services”资源类型,包含两个性能计数器:CPU公平性和内存公平性,显示集群内资源的分配情况。
  • 数据中心对象包含“Virtual Machine Operations”资源类型,包含监控特定VM操作发生次数的性能计数器,如VM开机事件、VM关机事件、VM重置、vMotion操作和Storage vMotion操作。
6. 设置自定义间隔

与“Overview Layout”一样,每个资源类型都可选择查看的间隔。有些对象提供“Real-Time”选项,显示该资源当前的情况,有过去一小时的历史视图,图表每20秒自动刷新;其他间隔的时间跨度一目了然,但不会自动刷新。“Custom”选项允许指定要在性能图表上查看的内容,如查看过去8小时的性能数据。

7. 管理图表设置

在“Chart Options”对话框顶部,有“Chart Options”下拉菜单和“Save Options As”按钮。选择要在性能图表中查看的资源类型、显示间隔、对象和性能计数器后,可使用“Save Options As”按钮保存这些图表设置。vCenter Web Client会提示输入保存的图表设置名称,保存后可从性能图表“Advanced”布局顶部的下拉列表中轻松再次访问。若保存了自定义图表,“Chart Options”对话框还允许删除不再需要的图表设置。

8. 导出性能图表

在“Performance”选项卡的“Advanced”布局右上角有“Export”按钮,点击该按钮会出现标准的保存对话框,可选择保存结果文件的位置,还可选择将图表保存为图形文件或逗号分隔值(CSV)文件。

VMware vSphere性能监控:告警与性能图表使用指南(续)

9. 总结性能图表的优势与应用场景

vCenter Server的性能图表在VMware vSphere环境的性能监控中发挥着至关重要的作用。其优势和适用场景总结如下:
| 优势 | 应用场景 |
| ---- | ---- |
| 提供详细信息 | 当需要了解处于警告或临界状态下资源的使用情况时,性能图表能提供比告警更详细的数据。 |
| 多种布局选择 | Overview Layout适合快速获取数据中心、集群、主机或VM的整体性能概况;Advanced Layout则满足对特定数据进行自定义分析的需求。 |
| 丰富的指标和计数器 | 涵盖CPU、内存、磁盘、网络等多种资源类型的性能指标,可根据不同需求选择查看。 |
| 灵活的时间间隔设置 | 支持实时、自定义等多种时间间隔,方便查看不同时间段的性能数据。 |
| 可保存和导出设置 | 能够保存自定义的图表设置,方便后续快速访问;还可将图表导出为图形或CSV文件,用于长期存档、分析或报告。 |

10. 综合运用告警和性能图表进行性能监控

为了实现对VMware vSphere环境的有效性能监控,需要综合运用告警和性能图表。以下是具体的操作步骤和建议:

graph LR
    A[规划监控目标] --> B[创建告警规则]
    B --> C[设置性能图表参数]
    C --> D[定期查看告警和图表]
    D --> E{是否有异常}
    E -- 是 --> F[分析性能图表]
    F --> G[采取相应措施]
    G --> D
    E -- 否 --> D
  1. 规划监控目标 :明确需要监控的资源和性能指标,例如CPU使用率、内存利用率、磁盘I/O等。
  2. 创建告警规则 :根据监控目标,设置合理的告警触发条件。对于可能影响业务正常运行的关键指标,如CPU使用率超过80%,应及时设置告警。
  3. 设置性能图表参数 :选择合适的性能图表布局(Overview或Advanced),并根据需要设置时间间隔、指标和计数器。例如,对于实时监控可选择实时时间间隔,对于历史数据分析可选择自定义时间范围。
  4. 定期查看告警和图表 :养成定期查看告警信息和性能图表的习惯,及时发现潜在的性能问题。
  5. 分析性能图表 :当告警触发或发现性能图表中的异常数据时,深入分析图表,找出问题的根源。例如,若发现磁盘I/O延迟过高,可查看磁盘性能相关的计数器,确定是哪个磁盘或存储路径出现问题。
  6. 采取相应措施 :根据分析结果,采取相应的解决措施。如调整资源分配、优化配置、进行硬件升级等。
11. 常见问题及解决方法

在使用告警和性能图表进行性能监控的过程中,可能会遇到一些常见问题,以下是相应的解决方法:
| 问题 | 原因 | 解决方法 |
| ---- | ---- | ---- |
| 告警频繁触发 | 阈值设置不合理 | 重新评估并调整告警阈值,使其更符合实际环境。 |
| 性能图表数据不准确 | 数据采集间隔过长、数据源异常 | 缩短数据采集间隔,检查数据源是否正常工作。 |
| 无法保存或导出图表设置 | 权限不足、系统故障 | 确保用户账户具有足够的权限,检查系统是否存在故障并进行修复。 |
| 找不到所需的性能指标 | 所选对象不支持该指标 | 确认所选对象是否支持所需的性能指标,若不支持,可尝试选择其他相关对象进行监控。 |

12. 最佳实践建议

为了更好地利用告警和性能图表进行性能监控,以下是一些最佳实践建议:
- 合理设置告警阈值 :避免阈值设置过严导致告警频繁触发,或设置过宽而无法及时发现问题。可根据历史数据和实际业务需求进行调整。
- 定期清理不必要的告警和图表设置 :随着时间的推移,可能会积累大量不再使用的告警规则和图表设置,定期清理可提高系统性能和管理效率。
- 培训相关人员 :确保运维人员熟悉告警和性能图表的使用方法,能够准确分析和处理监控数据。
- 建立监控日志 :记录告警触发时间、处理过程和结果,以及性能图表的重要数据变化,方便后续的问题追溯和分析。

通过以上对告警和性能图表的详细介绍和操作指南,相信你能够在VMware vSphere环境中实现高效、准确的性能监控,及时发现并解决潜在的性能问题,保障业务的稳定运行。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值