vROps应用管理与告警配置全解析
1. vROps应用管理概述
在管理基础设施时,vROps是一个强大的工具。它不仅可以接收来自vSphere的性能数据,还能整合其他各种数据源。为了更好地利用这些不同的数据来源,我们可以将它们组合到一个单一的应用程序中,这样便于进行简单的导航和故障排除。
1.1 vRealize Hyperic(vRH)解决方案
vRealize Hyperic(vRH)是应用监控中非常有用的解决方案,它是一种基于代理的监控解决方案,专注于操作系统的应用程序级性能和可用性。当安装vRealize Hyperic代理时,它会自动发现已安装的应用程序,并开始收集相关指标以及典型的操作系统级指标,然后将这些数据发送到Hyperic Server。通过vRealize Hyperic适配器,这些平台和组件也会在vROps中创建。
vRealize Hyperic代理支持32位和64位版本的Windows和Linux,以及大量的企业应用程序。当在Hyperic中发现一个应用程序时,它会作为一个服务器(Hyperic对应用程序或组件的术语)添加,然后转换为vROps对象类型,如IIS、.NET、WebLogic、vPostgres等。
1.2 创建应用程序
在vROps中创建应用程序的功能在之前的版本中就已存在,它允许我们创建可以包含不同层级的一组虚拟机或其他对象的容器或对象。这个新的应用程序对象可以作为一个单一对象进行管理,其健康徽章和警报会从组中的子对象聚合而来。
创建应用程序的步骤如下:
1. 导航到“Environment”部分,选择“Applications”选项卡。在这里可以看到所有已创建的应用程序,点击小绿色加号图标创建新应用程序。
2. 在弹出的对话框中选择应用程序类型,这里我们选择“Custom”,然后点击“OK”,这样就可以创建自己的层级。
3. 在“Application Management”窗口的“Tiers”窗格中,点击带绿色圆点的图标创建新层级。输入层级名称,点击“Update”按钮保存。
4. 将窗口底部窗格中的对象拖放到不同的层级中,完成后点击“Save”,应用程序即创建完成。
5. 应用程序创建完成后,会回到“Applications”选项卡,此时“Health”、“Risk”和“Efficiency”信息会显示为灰色,这只会持续几个收集周期,之后所有的健康数据都会可用。
创建应用程序后,我们可以将构成应用程序的所有对象作为一个单一的逻辑对象进行报告、警报和监控,还能查看环境概述以及对象所在的主机、数据存储或vCenter的关系。
1.3 导入应用程序
除了手动创建应用程序,我们还可以从VMware Infrastructure Navigator(VIN)导入应用程序。VIN是vRealize Management Suite的一部分,它使用虚拟机中的VMware Tools来查看哪些服务和端口正在监听,以及来宾操作系统中存在哪些活动连接。
VIN利用这些信息绘制虚拟机依赖关系图,这些图可以组合成一个应用程序。它还使用已知可执行文件和端口的数据库来确定哪些应用程序在各种虚拟机上运行,从而为依赖关系图提供关键信息。
使用VIN解决方案将VIN应用程序依赖数据导入vROps的步骤如下:
1. 应用程序安装并运行几天后,通过vSphere Web Client选择一个已知属于要配置应用程序的虚拟机,此时它应该有详细的传入和传出依赖关系图。
2. 按住“Ctrl”键,点击所有要包含在应用程序中的虚拟机。
3. 点击“create application”按钮。
4. 输入应用程序名称,点击“OK”创建应用程序。
在vROps中,会有两种不同类型的应用程序:之前手动创建的内置应用程序和从VIN导入的应用程序,后者在vROps中会显示为自定义组。VIN还附带两个预安装的仪表板,使用拓扑小部件为我们提供应用程序的映射,并显示虚拟机中运行的应用程序及其相关端口和依赖关系。
通过创建应用程序和导入应用程序,vROps管理员可以创建特定于应用程序的仪表板,并将这些逻辑分组和仪表板分配给相关的应用程序团队,这大大减少了团队之间的转发循环问题,使管理员有更多时间专注于改善环境。
2. 告警、操作和建议
2.1 告警系统概述
vCOps 5.x在自定义告警方面存在一定的局限性,特别是在使用标准版本时。这些警报主要关注主要和次要徽章,除了故障之外,往往难以向管理员传达实际问题,只能显示明显的降级徽章状态。而vROps 6.0引入了新的操作和建议功能,其生成的建议是基于规则的、100%可配置的,并且接近实时。
2.2 症状、建议和操作的关系
症状、建议和操作共同构成了告警系统,它们之间的关系如下:
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
subgraph Alarm
A(Alarm/Alert):::process
end
subgraph Symptoms
B1(Symptom 01):::process
B2(Symptom 02):::process
B3(Symptom N):::process
end
subgraph Recommendations
C1(Recommendation 01):::process
C3(Recommendation N):::process
end
subgraph Actions
D1(Action):::process
D2(Action):::process
end
A --> B1
A --> B2
A --> B3
B1 --> C1
B2 --> C1
B3 --> C3
C1 --> D1
C3 --> D2
2.2.1 症状
症状由单个条件组成,条件可以基于指标条件(如CPU使用率大于90%)或属性条件(如DRS/HA完全自动化)。症状可以用于突出直接影响相关徽章分数(如健康徽章)的问题,也可以是更大问题(即警报)的一部分。任何触发的症状都会在vROps用户界面中相关徽章和对象下显示为一个问题。
症状有以下五种不同类型:
| 症状类型 | 描述 | 示例 |
| ---- | ---- | ---- |
| 指标/超级指标症状 | 基于指标的症状 | 虚拟机CPU使用率大于75% |
| 属性症状 | 配置设置相关症状 | DRS未完全自动化 |
| 消息事件症状 | 基于事件的症状,基于事件消息中的文本正则表达式 | 通知vCenter许可证即将过期 |
| 故障症状 | 基于故障的症状 | vCenter中“Lost Network Redundancy”故障 |
| 指标事件症状 | 直接针对vROps中的硬阈值事件,基于我们设置的指标阈值 | |
2.2.2 警报
警报由一个或多个症状组成,可以配置为所有症状都必须为真或只有一个症状为真才能激活警报。还可以进一步创建多个症状集,一个症状集内的一个或所有症状为真时激活该症状集,然后警报可以配置为一个症状集为真或所有症状集为真时激活。
2.2.3 建议
建议用于提供如何修复已触发警报的信息。有很多内置建议,但也可以根据组织的政策和程序、知识库链接和联系人手动创建。建议可以是一行文本,也可以是几页文本,用于告诉人们如何解决当前问题。在为警报分配建议时,建议会被赋予优先级,以便根据环境知识确定哪个建议更有可能解决问题。
2.2.4 操作
操作是vROps 6.0的新功能,需要配置vCenter python解决方案。操作的数量是固定的,目前不能创建额外的操作。开箱即用的操作提供了一些简单的解决方案来解决一些问题,如删除快照、添加vCPU、添加内存、删除vCPU等。每个建议只能分配一个操作,但这是完全可选的。
2.3 创建症状和建议
2.3.1 创建症状
创建症状的步骤如下:
1. 导航到“Content”部分,选择导航窗格中的第五个选项“Metric Event Symptom Definitions”。
2. 点击小绿色加号图标,打开“Add Symptom Definition”窗口,选择基础对象类型和所需的指标。
3. 选择一个指标并将其拖到右侧窗格创建新症状。在该窗格中,先为指标命名,然后选择错误级别,接着选择激活该症状的条件(通常是“大于”或“等于”某个值)。还可以看到等待周期和取消周期,它们表示条件必须为真或假的时间,以先激活然后取消该条件。
4. 对症状满意后,点击“Save”。
2.3.2 创建建议
创建建议相对简单,只需导航到“Content”部分,选择“Recommendations”,然后在文本框中输入建议内容即可。
通过合理配置症状、建议和操作,我们可以在环境中创建一个完善的告警系统,当出现问题时,即便环境的专家不在,初级服务器工程师也能根据清晰的解决方案解决问题。
3. 告警系统实际案例分析
为了更好地理解症状、建议和操作在告警系统中的协同工作,下面通过一个具体的案例来进行分析。
3.1 案例场景
假设我们有一个虚拟机环境,其中部分虚拟机出现了高CPU使用率的问题。我们希望通过vROps的告警系统来及时发现这个问题,并提供相应的解决方案。
3.2 配置症状
根据前面提到的症状创建步骤,我们为这个案例配置一个指标/超级指标症状。
1. 导航到“Content”部分,选择“Metric Event Symptom Definitions”。
2. 点击小绿色加号图标,在“Add Symptom Definition”窗口中,选择基础对象类型为“虚拟机”,指标选择“CPU使用率”。
3. 为症状命名为“虚拟机高CPU使用率”,错误级别选择“高”。激活条件设置为“CPU使用率大于85%,持续3个收集间隔”。
4. 设置等待周期为3个间隔,取消周期为5个间隔。点击“Save”保存症状配置。
3.3 配置建议
根据这个症状,我们创建相应的建议。
1. 导航到“Content”部分,选择“Recommendations”。
2. 在文本框中输入建议内容:“当虚拟机CPU使用率持续高于85%时,建议检查虚拟机中运行的应用程序,是否存在高负载的进程。可以尝试关闭不必要的应用程序,或者考虑为虚拟机添加vCPU以提高处理能力。”
3.4 配置操作
为这个建议分配一个操作。由于操作数量固定且目前不能创建额外操作,我们选择“添加vCPU”操作。
1. 在配置建议时,在相关设置中选择“添加vCPU”操作。
3.5 告警触发与处理流程
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
A(虚拟机CPU使用率大于85%,持续3个间隔):::process --> B(触发“虚拟机高CPU使用率”症状):::process
B --> C(激活相关警报):::process
C --> D(显示建议:检查应用程序,考虑添加vCPU):::process
D --> E{是否执行操作?}:::process
E -->|是| F(执行“添加vCPU”操作):::process
E -->|否| G(人工检查并处理):::process
当虚拟机的CPU使用率满足症状条件时,会触发相应的症状,进而激活警报。系统会显示我们配置的建议,管理员可以根据实际情况选择是否执行“添加vCPU”操作。如果选择执行操作,系统会自动为虚拟机添加vCPU;如果选择不执行操作,则需要人工进行检查和处理。
4. 应用管理与告警系统的综合优势
4.1 提高管理效率
通过在vROps中创建应用程序,将相关对象进行逻辑分组,管理员可以创建特定于应用程序的仪表板,并将其分配给相关的应用程序团队。这样可以大大减少团队之间的沟通成本,避免问题在团队之间的转发循环,使管理员有更多时间专注于改善环境。
同时,完善的告警系统可以及时发现问题,并提供明确的建议和操作,帮助管理员快速解决问题,提高管理效率。
4.2 增强环境稳定性
合理配置的症状、建议和操作可以帮助我们及时发现和解决潜在的问题,避免问题扩大化,从而增强整个环境的稳定性。例如,在前面的CPU高使用率案例中,及时发现并处理问题可以避免虚拟机因CPU过载而出现性能下降甚至崩溃的情况。
4.3 提升团队协作
应用管理和告警系统的结合使得不同团队之间的职责更加明确。应用程序团队可以专注于应用程序的性能和可用性,而管理员可以根据告警系统提供的信息,为团队提供更好的支持和资源分配。这种分工协作可以提升整个团队的工作效率和协作能力。
5. 总结
综上所述,vROps的应用管理和告警系统为我们提供了强大的工具来管理和监控基础设施。通过创建和导入应用程序,我们可以将不同的对象进行逻辑分组,方便进行统一管理和监控。而告警系统中的症状、建议和操作则可以帮助我们及时发现问题,并提供有效的解决方案。
在实际应用中,我们可以根据具体的环境和需求,合理配置症状、建议和操作,创建完善的告警系统。同时,充分利用应用管理的功能,创建特定于应用程序的仪表板,分配给相关团队,提高管理效率和团队协作能力。通过这些措施,我们可以更好地保障环境的稳定性和可靠性,提升整个系统的性能和可用性。
超级会员免费看
91

被折叠的 条评论
为什么被折叠?



