VMware vSphere性能监控全攻略
在VMware vSphere环境中,性能监控至关重要。通过有效的监控工具和方法,我们可以及时发现问题,确保环境的稳定运行。本文将介绍vCenter Operations Manager和resxtop这两个重要的监控工具,以及如何监控CPU、内存、网络和磁盘等主要资源的使用情况。
理解vCenter Operations Manager
vCenter Operations (vC Ops) Manager是VMware vCenter Operations Management Suite的主要组件。该套件不仅与vSphere紧密配合,还能与VMware的整个vCloud基础设施产品套件协同工作,在运营方面提供额外的管理功能。完整的企业版vCenter Operations Management Suite包含以下组件:
- vCenter Operations Manager
- vCenter Configuration Manager
- vFabric Hyperic
- vCenter Infrastructure Navigator
- vCenter Chargeback Manager
本文将重点介绍免费的基础版功能。
安装vC Ops
vC Ops Manager是一个包含两个VM的vApp,以Open Virtualization Format (OVA)包的形式提供,可从VMware官网下载,大小为1.4 GB。所有拥有vSphere许可证的客户都可以免费下载并安装到基础模式,无需许可证密钥。在基础模式下,vC Ops的一些高级功能(如自定义仪表板、根因分析、自动化工作流触发器或合规性视图)将被禁用,但它仍能在一定程度上扩展vSphere Web Client的功能。
以下是部署vC Ops vApp的步骤:
1. 使用vSphere Web Client连接到vCenter Server实例。
2. 导航到“主机和集群”或“虚拟机和模板”视图。
3. 右键单击要托管vC Ops vApp的集群对象。
4. 选择“部署OVF模板”。
5. 浏览并选择下载的文件,然后点击“下一步”。
6. 查看部署详细信息,注意如果选择厚置备,磁盘要求较大(344 GB)。点击“下一步”继续。
7. 接受许可协议,然后点击“下一步”。
8. 为vC Ops安装vApp命名,并选择数据中心和目标文件夹。
9. 选择最适合您环境的配置大小。点击“下一步”继续。
vCenter Operations Manager有三种环境大小设置可供选择:小型、中型或大型。即使是最小的安装也需要4个vCPU和16 GB的RAM。虽然在安装程序中无法更改这些值,但在部署后可以修改分配给VM的资源。不过,如果偏离VMware的标准大小设置,可能无法获得官方支持。
- 选择数据存储和置备类型,注意如果磁盘格式设置为厚置备,需要更大的空间。点击“下一步”继续。
- 确保所有相关的网络详细信息已填写,并将vApp连接到正确的网络端口组。完成后,点击“下一步”进入最终配置页面。
- 设置服务器的正确时区,然后为Analytics和UI VM分配IP地址。点击“下一步”进入审核页面。
- 确保所有详细信息正确后,点击“完成”部署vC Ops vApp。vC Ops设备VM将作为vApp部署,最后可以开机。
向vCenter Server注册
vC Ops设备部署并开机后,需要向vCenter Server注册,以实现指标检索和vSphere Web Client集成。注册步骤如下:
1. vApp开机并完成启动后,打开Web浏览器,指向UI VM的IP地址。
2. 使用用户名“admin”和密码“admin”登录。
3. 输入vCenter Server实例的详细信息,然后点击“下一步”。可能会提示接受SSL证书,点击“是”。
4. vC Ops管理页面将提示更改默认的root和admin密码。默认情况下,admin账户密码为“admin”,root账户密码为“vmware”。更改后,点击“下一步”继续。
5. 提示输入要注册的vCenter Server实例的详细信息。输入所有详细信息后,点击“下一步”检查连接,然后再次点击“下一步”进入最终屏幕。
6. 在最终屏幕上,vC Ops管理页面检查链接模式的vCenter Server。点击“完成”完成vC Ops到vCenter的注册过程,这可能需要一些时间,具体取决于vCenter管理的对象数量。
注册完成后,重新加载vCenter Web Client,查看发生的更改。
vC Ops基础版功能
基础版vC Ops启用了四个关键功能:主动智能警报、智能操作组、vSphere健康监控和自学习性能分析。
-
主动智能警报
:与本章前面讨论的标准警报不同,该功能与自学习性能分析功能相关联,当系统运行超出正常水平时会发出警报。自学习性能分析功能会分析随时间收集的所有指标,确定什么是“正常”。例如,环境在白天的工作负载相对稳定,但在晚上11点备份开始时,存储和网络利用率会显著高于白天。传统警报需要考虑备份窗口的峰值,但自学习分析知道晚上11点后高存储和网络IO是“正常”的,不会发出警报。但如果白天出现IO峰值,仍会触发警报。
-
智能操作组
:允许根据规则集创建监控组。可以自动应用此规则集,确保所有对象根据规则集添加到组中。添加对象组后,可以将它们作为一个整体进行监控,而不仅仅是单独监控。此外,组可以嵌套,方便在分类对象进行报告时进行细致管理。
-
vSphere健康监控
:这是vC Ops基础版中最直观的功能,会在vCenter Web Client中某些对象的“摘要”选项卡上添加一个彩色徽章。徽章颜色会根据当前显示的健康数字而变化,100表示最健康,0表示非常不健康。健康是一个顶级指标,由故障、工作负载和异常等子组件组成。故障在计算整体健康徽章时权重最大,因为它们是当前正在发生的问题。工作负载和异常结合起来有助于理解当前的性能特征。健康徽章每5分钟计算一次,提供了vCenter中对象性能的总体视图。如果健康监控发现问题,可以深入查找原因。
使用resxtop
除了警报和性能图表,VMware还提供了resxtop工具来监控性能和资源使用情况。在早期的ESX版本中,服务控制台命令行上有多个工具可用。后来,VMware推出了ESXi,限制了直接在主机上可用的命令数量,但开发了一个名为vSphere Management Assistant (vMA)的特殊虚拟设备,提供了一个命令行界面来管理ESX和ESXi主机。我们可以使用vMA对ESXi主机运行命令,就像在控制台运行一样。
以下是使用resxtop的步骤:
1. 从my.vmware.com网站下载vMA,并将其导入到vSphere环境中。
2. 在实际查看实时性能数据之前,需要告诉resxtop要使用的远程服务器。连接到vMA,然后输入以下命令:
resxtop --server esxi-03.lab.local
将
esxi-03.lab.local
替换为要连接的ESXi主机的主机名或IP地址。提示时,提供用户名和密码,然后resxtop将启动。
resxtop启动后,默认显示CPU利用率。屏幕顶部是摘要统计信息,下面是特定VM和VMkernel进程的统计信息。按大写字母
V
可以只显示VM。resxtop是区分大小写的,所以要确保使用大写字母。
-
监控CPU使用情况
:使用小写字母
c可以监控CPU使用情况。两个重要的CPU计数器是CPU Used (%USED)和Ready Time (%RDY)。%RDY计数器有助于确定是否为VM分配了过多的CPU资源。在CPU模式下,按小写字母e可以展开VM的CPU统计信息,查看使用CPU时间的不同组件。如果切换到其他资源视图,按大写或小写字母C可以返回CPU计数器显示。完成操作后,按小写字母q退出resxtop。 -
监控内存使用情况
:按小写字母
m可以监控内存使用情况。屏幕上部显示ESXi主机的内存使用实时统计信息,下部显示VM的内存使用情况。按大写字母V可以只显示VM。%ACTV计数器(显示当前活动的客户机物理内存)以及%ACTVS(长期估计的慢速移动平均值)、%ACTVF(短期估计的快速移动平均值)、%ACTVN(下一次采样时%ACTV的预测值)和SWCUR(当前交换使用率)计数器都很有用。 -
监控网络统计信息
:按小写字母
n可以监控虚拟机网络接口卡(vmnics)、单个VM或用于iSCSI、VMotion和NFS的VMkernel端口的网络统计信息。显示网络使用情况的列包括每个vmnic或端口的发送和接收数据包数以及发送和接收的兆字节数。DNAME列显示vSwitches或dvSwitches,左侧显示连接到它们的对象,包括VM、VMkernel和服务控制台端口。如果某个VM占用了vSwitch的大量带宽,可以查看特定交换机和各个端口的网络流量,找出问题VM。与其他resxtop视图不同,这里不能使用大写字母V只显示VM。 -
监控磁盘I/O统计信息
:按小写字母
d可以监控每个磁盘适配器的磁盘I/O统计信息。按小写字母u可以查看磁盘设备信息,按小写字母v可以查看磁盘VM信息。按大写字母V可以只显示VM。“READS/s”、“WRITES/s”、“MBREAD/s”和“MBWRTN/s”列通常用于确定磁盘负载,它们显示每秒的读写次数和每秒读写的兆字节数。 -
查看CPU中断
:按字母
i可以查看CPU中断。此命令将显示使用中断的设备,有助于识别可能与服务控制台共享中断的VMkernel设备(如vmnic),这种中断共享可能会影响性能。
捕获和回放性能数据
resxtop的另一个强大功能是能够在短时间内捕获性能数据并回放。使用
vm-support
命令可以设置捕获的间隔和持续时间。以下是捕获数据并在resxtop上回放的步骤:
1. 使用PuTTY(Windows)或终端窗口(Mac OS X或Linux),打开到ESXi主机的SSH会话。注意,这需要启用ESXi Shell和SSH,它们默认是禁用的。
2. 输入
su –
命令以获取root权限。
3. 以root用户登录或切换到root用户后,使用
cd /tmp
命令将工作目录更改为/tmp。
4. 输入命令
vm-support -p -i 10 -d 180
,这将创建一个resxtop快照,每10秒捕获一次数据,持续180秒。
5. 生成的文件是一个tarball,并使用gzip压缩。使用
tar -xzf esx*.tgz
命令提取它,这将创建一个
vm-support
目录,供下一个命令使用。
6. 运行
resxtop -R /vm-support*
命令回放数据进行分析。
通过以上介绍,我们了解了vCenter Operations Manager和resxtop这两个重要的监控工具,以及如何使用它们来监控VMware vSphere环境中的主要资源。在实际应用中,我们可以根据具体需求选择合适的工具和方法,确保环境的稳定运行。
VMware vSphere性能监控全攻略
监控CPU使用情况
在监控虚拟机(VM)时,关注CPU消耗是一个很好的起点。许多VM最初是由性能不佳的物理服务器转换而来的。虚拟化后,VM需要与其他工作负载共享资源,当部分或多个VM变得繁忙时,它们会竞争ESXi主机有限的资源。当VM中的应用程序需要更多CPU时间而主机无法提供时,应用程序所有者通常会首先注意到并向系统管理员报警。
评估、期望与调整
如果在服务器虚拟化之前进行了评估,可能会有一些硬数据来确定最低性能或服务级别协议(SLA)的预期。否则,vSphere管理员需要与应用程序所有者合作,在需要时为VM提供更多CPU资源。
vCenter Server的图表是分析CPU使用情况的最佳方式,可进行短期和长期分析。假设收到一个帮助台工单,指出某个VM在过去一小时内出现性能缓慢的问题。可以按照以下步骤创建一个显示该VM过去一小时CPU使用情况的图表:
1. 使用vSphere Web Client连接到vCenter Server实例。
2. 导航到“主机和集群”或“虚拟机和模板”视图。
3. 在导航器中选择要监控的虚拟机。
4. 选择右侧内容窗格中的“监控” -> “性能”选项卡,然后将视图更改为“高级”。
5. 点击“图表选项”链接。
6. 在“图表选项”对话框中,从资源类型列表中选择“CPU”,并选择“自定义间隔”作为时间范围。
7. 将间隔更改为“过去1小时”。
8. 将图表类型设置为“折线图”。
9. 从对象列表中选择要监控的VM。
10. 从计数器列表中选择“CPU Usage In MHz (Average)”和“CPU Ready”。
11. 点击“确定”应用图表设置。
CPU Ready指标
“CPU Ready”显示VM等待在逻辑处理器上调度的时间。如果VM等待数千毫秒才能在处理器上调度,可能表示ESXi主机过载、资源池限制过紧或VM的CPU份额太少。需要与服务器或应用程序所有者合作,确定任何CPU密集型VM可接受的“CPU Ready”时间。
这个图表显示了所选VM的CPU利用率,但不一定能帮助找出该VM性能不佳的原因。如果“CPU Usage In MHz (Average)”计数器很高,只能说明VM正在使用所有可用的CPU周期。除非“CPU Ready”计数器也很高,表明VM正在等待主机将其调度到物理处理器上,否则仍未找到触发帮助台工单的性能缓慢问题的原因。此时,需要监控主机的CPU使用情况。
监控主机的整体CPU使用情况相对简单,但需要考虑一些其他因素,如vMotion、vSphere DRS和vSphere HA等功能会直接影响服务器或集群的可用CPU容量。与旧版本的ESX相比,ESXi中的VMkernel通常不会像以前那样竞争处理器0,因为现在消耗CPU时间的进程较少。不过,在旧版本的ESX中,服务控制台只能固定在处理器0上,即使在高竞争情况下也不会迁移到其他处理器。在ESXi中,虽然没有服务控制台了,但VMkernel进程仍然固定在处理器0上。
监控内存使用情况
内存是ESXi主机最重要的组件之一,通常是最先耗尽的资源。使用resxtop监控内存使用情况时,按小写字母
m
,屏幕上部会显示ESXi主机的内存使用实时统计信息,下部显示VM的内存使用情况。按大写字母
V
可以只显示VM,有助于在排查VM问题时排除VMkernel资源的干扰。以下是一些重要的内存计数器:
| 计数器 | 说明 |
| ---- | ---- |
| %ACTV | 显示当前活动的客户机物理内存 |
| %ACTVS | 长期估计的慢速移动平均值 |
| %ACTVF | 短期估计的快速移动平均值 |
| %ACTVN | 下一次采样时%ACTV的预测值 |
| SWCUR | 当前交换使用率 |
监控网络统计信息
在vSphere环境中,网络性能往往容易被忽视,但随着环境的增长,监控网络性能至关重要。按小写字母
n
可以监控虚拟机网络接口卡(vmnics)、单个VM或用于iSCSI、VMotion和NFS的VMkernel端口的网络统计信息。显示网络使用情况的列包括每个vmnic或端口的发送和接收数据包数以及发送和接收的兆字节数。DNAME列显示vSwitches或dvSwitches,左侧显示连接到它们的对象,包括VM、VMkernel和服务控制台端口。如果某个VM占用了vSwitch的大量带宽,可以查看特定交换机和各个端口的网络流量,找出问题VM。与其他resxtop视图不同,这里不能使用大写字母
V
只显示VM。
监控磁盘I/O统计信息
内存和磁盘I/O被认为是vSphere环境中最重要的组件。虽然内存重要是因为它最先耗尽,但磁盘I/O往往被忽视,而糟糕的磁盘性能会直接影响VM的性能。按小写字母
d
可以监控每个磁盘适配器的磁盘I/O统计信息。按小写字母
u
可以查看磁盘设备信息,按小写字母
v
可以查看磁盘VM信息。按大写字母
V
可以只显示VM。“READS/s”、“WRITES/s”、“MBREAD/s”和“MBWRTN/s”列通常用于确定磁盘负载,它们显示每秒的读写次数和每秒读写的兆字节数。
总结
在VMware vSphere环境中,通过vCenter Operations Manager和resxtop等工具,可以对CPU、内存、网络和磁盘等主要资源进行全面的性能监控。vCenter Operations Manager提供了高级的管理和分析功能,如主动智能警报、智能操作组和vSphere健康监控等;resxtop则是一个强大的命令行工具,可实时监控单个ESXi主机的资源使用情况,并能捕获和回放性能数据。在实际应用中,需要根据具体需求选择合适的工具和方法,及时发现和解决性能问题,确保vSphere环境的稳定运行。
mermaid格式流程图展示使用resxtop监控资源的流程:
graph LR
A[启动resxtop] --> B[默认显示CPU利用率]
B --> C{选择监控资源}
C -->|按c| D[监控CPU使用情况]
C -->|按m| E[监控内存使用情况]
C -->|按n| F[监控网络统计信息]
C -->|按d| G[监控磁盘I/O统计信息]
C -->|按i| H[查看CPU中断]
D --> I{其他操作}
I -->|按e| J[展开VM的CPU统计信息]
I -->|按C| B
E --> K{其他操作}
K -->|按V| L[只显示VM]
F --> M{其他操作}
M -->|无V功能| N[继续监控网络]
G --> O{其他操作}
O -->|按u| P[查看磁盘设备信息]
O -->|按v| Q[查看磁盘VM信息]
O -->|按V| R[只显示VM]
H --> S[识别共享中断的设备]
D --> T{退出操作}
T -->|按q| U[退出resxtop]
通过以上详细的介绍和操作步骤,希望能帮助您更好地掌握VMware vSphere环境的性能监控方法,确保您的虚拟化环境高效稳定运行。
超级会员免费看
314

被折叠的 条评论
为什么被折叠?



