20、AWS资源管理与应用监控全解析

最新推荐文章于 2025-08-21 11:57:08 发布

gitlab7runner

最新推荐文章于 2025-08-21 11:57:08 发布

阅读量26

点赞数

CC 4.0 BY-SA版权

分类专栏：探索AWS与Node.js的完美融合文章标签： AWS资源管理应用监控 CloudWatch

本文链接：https://blog.youkuaiyun.com/gitlab7runner/article/details/149394814

探索AWS与Node.js的完美融合专栏收录该内容

25 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

AWS资源管理与应用监控全解析

1. AWS资源组创建与管理

在AWS中，我们可以通过创建资源组来更高效地管理资源。以下是创建资源组的具体步骤：
1. 打开AWS导航栏中的“AWS”菜单，点击“Create a Resource Group”。
2. 在“Create a resource group”视图中，进行如下配置：
- 为资源组命名，例如“Photoalbums Resources”。
- 添加标签：在“Tags”下拉菜单中选择“projects”，在对应的文本框中选择“photoalbums”。
- 选择地理区域：由于所有资源都在美国东部，所以选择“US East”。
- 资源类型：将“Resource types”字段留空以包含所有资源类型。
3. 完成配置后，点击“Save”。

创建资源组后，我们可以通过AWS主导航中的“Resource Group”视图快速访问项目中的所有资源。资源标签不仅有助于详细查看连接的资源，还可用于管理账单。如果要维护多个应用环境或应用栈，可以添加额外的标签值，如“photoalbums dev”，并创建所有栈共有的标签，从而在所有AWS服务中创建不同的资源视图。

2. 应用监控的重要性与原理

在设计系统时，可扩展性和弹性是重要原则，但我们尚未充分将这些原则付诸实践。弹性意味着能够根据需求或其他事件（统称为事件）扩展基础设施。要实现这一点，首先需要识别事件并做出响应。

评估基础设施的健康状况是响应事件的首要障碍。我们需要评估对应用有影响的特定指标，例如CPU利用率和内存使用情况，以确定当前实例的状态。如果应用在单个实例上运行，且CPU利用率达到100%，则会出现严重的性能问题，这可视为一个事件。

检测到事件后，需要制定响应措施。例如，当CPU利用率过高时，最明显的响应是向应用栈添加另一个实例。我们将学习如何使用基于负载和基于时间的EC2实例，以应对和预测高需求时部署额外资源。对于一些需要手动干预或超出初学者范围的事件，我们将设置关键事件发生时的通知。

3. CloudWatch监控服务

Amazon将所有监控指标整合在名为CloudWatch的服务下（http://aws.amazon.com/cloudwatch/）。任何在其他AWS服务中可以查看的指标，都可以在CloudWatch中收集和跟踪，且通常在CloudWatch中更易于详细查看。需要注意的是，AWS指标仅在两周内可用。

以下是在OpsWorks和CloudWatch中查看指标的操作步骤：
- OpsWorks指标查看 ：
1. 登录AWS控制台，导航到OpsWorks。
2. 选择“Photoalbums”栈。
3. 打开导航下拉菜单，点击“Monitoring”。默认情况下，将看到分配了EC2实例的应用层的监控视图，其中RDS和ELB层不会显示。
4. 这里显示了四个层指标类别，每个类别都有自己的图表：CPU System、Memory Used、Load和Processes。默认加载过去24小时的指标。可以快速查看是否有CPU系统（利用率）、内存使用或负载达到最大值的重大事件，或者活动进程是否有峰值。前三个图表标题实际上是下拉菜单，可用于选择该类别中的其他指标。
5. 可以更改日期范围，但无法更详细地查看这些指标。点击图表会跳转到该层实例的监控视图。注意“Memory Used”指标，后续将在CloudWatch中查看。
- CloudWatch指标查看 ：
1. 打开“Services”下拉菜单，选择“CloudWatch”。
2. 在控制台顶部，点击“Metric Summary”下的“Browse Metrics”按钮。
3. 在“Metrics”视图中，可以看到AWS账户的所有指标，按服务和服务内的类别细分。
4. 以查看应用层的内存使用情况为例，在“OpsWorks Metrics”标题下，点击“Layer Metrics”，会看到按名称字母排序的指标列表及其对应的“LayerId”。
5. 滚动到名为“memory_used”的指标，勾选旁边的复选框，下方会出现一个图表，显示过去12小时内该指标每5分钟的间隔数据。
6. 可以将图表更改为24小时和1分钟平均值，以匹配OpsWorks中的图表。点击“5 Minutes”展开间隔下拉菜单，更改为“1 Minute”，使用图表右侧的“Time Range”过滤器将“From”字段更改为24，然后点击“Update Graph”。
7. 还可以在CloudWatch中查看多个指标。选择“memory_total”指标，“memory_used”曲线将变为橙色，“memory_total”指标将以蓝色显示。如果“memory_used”线高于“memory_total”线，需要翻转坐标轴。鼠标悬停在其中一条线上，找到“Y-Axis”属性，点击“switch”更改坐标轴。

以下是操作流程的mermaid流程图：

graph LR
    A[登录AWS控制台] --> B[导航到OpsWorks]
    B --> C[选择Photoalbums栈]
    C --> D[点击Monitoring]
    D --> E[查看OpsWorks指标]
    A --> F[打开Services下拉菜单]
    F --> G[选择CloudWatch]
    G --> H[点击Browse Metrics]
    H --> I[查看CloudWatch指标]

4. CloudWatch警报设置

当指标超过特定阈值时，可以配置CloudWatch警报向自己或团队发送通知。每个账户最多可以创建5000个警报，使用CloudWatch中可访问的任何指标，每个警报每月费用为0.10美元。创建警报的主要目的是量化应用栈中发生的事件，以便进行手动或自动响应。

创建有用的警报并非易事，可能会出现预期警报触发但实际事件被遗漏的情况。创建警报时，需要选择一个指标和一个比较运算符（大于、小于、大于或等于等），不能直接比较两个指标。例如，不能创建当“memory_used >= memory_total”时触发的警报，而需要配置当“memory_used >= 600,000”时触发，但这种警报可能不太实用，除非打算将实例保持在特定规模。

警报有三种可能的状态：
- OK ：警报条件为假时的状态。
- ALARM ：警报条件为真时的状态。
- INSUFFICIENT_DATA ：没有足够的数据来确定警报是处于OK还是ALARM状态。当警报首次创建且未收集到足够数据，或者由于某些原因当前无法获取指标数据时，可能会看到此状态。如果长时间处于此状态，意味着警报存在问题，需要调查原因。

5. 警报周期设置

由于AWS基础设施和应用都可能出现小故障，因此需要定义检查警报状态的间隔和构成警报状态的连续周期数。

例如，基于应用层的CPU利用率设置警报，当CPU利用率大于50%时希望得到通知。应将警报的间隔（周期）设置为1分钟，进行定期健康检查。但不希望因CPU利用率的孤立峰值而触发警报。由于CPU利用率是应用需求过高事件的一个良好指标，因此可以通过向应用栈添加更多实例来响应。但EC2实例不会立即启动，如果警报频繁触发和停止，会导致额外实例不断启动和关闭，造成资源浪费并产生大量误报。因此，我们可以配置警报，当CPU利用率连续3分钟大于50%时触发。

6. 简单通知服务（SNS）配置

在创建CloudWatch警报之前，需要使用简单通知服务（SNS）将警报与各种通知方法（如HTTP、电子邮件、移动推送通知和SMS）关联起来。我们将使用SNS的最简单功能：当CloudWatch警报触发时向一组用户发送电子邮件。

以下是配置SNS的步骤：
1. 从AWS服务菜单中选择“Simple Notification Service”。
2. 创建主题：
- 在SNS仪表板中心，点击“Create New Topic”。
- 在弹出的模态框中，在“Topic Name”和“Display Name”字段中输入“PhotoalbumsAlarms”，因为此主题仅由应用栈的CloudWatch警报触发。
- 点击“Create Topic”。
3. 创建订阅：
- 进入主题详细视图后，点击“Create Subscription”。
- 在弹出的模态框中，展开“Topic”下拉菜单，选择“Email”。
- 在“Endpoint”字段中输入电子邮件地址，然后点击“Subscribe”。
- 窗口将显示消息，通知需要确认电子邮件地址。点击“Close”返回主题详细视图。
- 收到主题为“AWS Notification—Subscription Confirmation”的电子邮件，点击邮件正文中的订阅确认URL链接。
- 返回主题详细视图并点击“Refresh”，将看到为电子邮件生成的订阅ID（ARN）。
4. 测试SNS主题：
- 在主题详细视图顶部，点击“Publish”。
- 在弹出的模态框中，填写测试内容的“Subject”和“Message”，然后点击“Publish Message”。
- 检查电子邮件，应该会收到来自“PhotoalbumsAlarms” no-reply@sns.amazonaws.com 的消息。

通过以上步骤，我们可以有效地管理AWS资源，监控应用的健康状况，并在出现问题时及时收到通知，从而确保应用的稳定运行。

AWS资源管理与应用监控全解析

7. 应用监控总结与策略制定

综合前面的内容，我们已经了解了AWS资源组的创建管理、应用监控的重要性、CloudWatch服务及警报设置、SNS配置等关键内容。为了更有效地保障应用的稳定运行，我们需要制定一套完整的监控策略。

首先，明确监控指标的选择。对于应用的不同层面，要选择与之相关且有代表性的指标。例如，CPU利用率、内存使用情况、负载和进程数量等，这些指标能够直观地反映应用的运行状态。

其次，合理设置警报阈值和周期。根据应用的实际情况和业务需求，确定合适的警报触发条件。如前面提到的CPU利用率大于50%且连续3分钟满足该条件时触发警报，这样既能及时发现问题，又能避免误报。

最后，建立有效的通知机制。通过SNS将警报与电子邮件等通知方式关联起来，确保在关键事件发生时，相关人员能够及时收到通知。

以下是一个简单的监控策略表格：
| 监控层面 | 监控指标 | 警报阈值 | 警报周期 | 通知方式 |
| ---- | ---- | ---- | ---- | ---- |
| 应用层 | CPU利用率 | >50% | 连续3分钟 | 电子邮件 |
| 应用层 | 内存使用 | >特定值 | 连续2分钟 | 电子邮件 |
| 其他层 | 负载 | >特定值 | 连续4分钟 | 电子邮件 |

8. 监控数据的分析与利用

收集到监控数据后，如何进行有效的分析和利用是关键。通过对监控数据的分析，我们可以发现应用运行中的潜在问题，提前进行优化和调整。

例如，通过观察CPU利用率和内存使用情况的长期趋势，我们可以判断是否需要增加或减少实例数量。如果CPU利用率长期处于较高水平，说明当前实例可能无法满足应用的需求，需要增加实例；反之，如果利用率长期较低，则可以考虑减少实例以节省成本。

另外，对监控数据进行对比分析也是很有必要的。将不同时间段的数据进行对比，或者将不同实例的数据进行对比，找出差异和异常点。如发现某个实例的内存使用量明显高于其他实例，可能意味着该实例存在性能问题，需要进一步排查。

以下是一个简单的分析流程mermaid流程图：

graph LR
    A[收集监控数据] --> B[数据整理与清洗]
    B --> C[趋势分析]
    C --> D[对比分析]
    D --> E[发现问题与异常]
    E --> F[制定优化策略]

9. 监控系统的优化与改进

随着应用的不断发展和业务需求的变化，监控系统也需要不断优化和改进。以下是一些优化和改进的方向：

指标优化 ：根据应用的新特性和业务需求，添加或删除监控指标。例如，如果应用增加了新的功能模块，可能需要增加与之相关的监控指标。
警报优化 ：调整警报阈值和周期，使其更加符合实际情况。通过对历史警报数据的分析，找出误报和漏报的原因，进行相应的调整。
通知优化 ：根据不同的事件类型和严重程度，设置不同的通知方式和通知对象。例如，对于严重的故障事件，可以同时通知多个相关人员。

以下是一个优化改进的步骤列表：
1. 定期回顾监控系统的运行情况，收集用户反馈。
2. 分析监控数据和警报记录，找出存在的问题。
3. 根据分析结果，制定优化和改进方案。
4. 实施优化和改进方案，并进行测试和验证。
5. 持续监控优化效果，根据实际情况进行调整。

10. 总结与展望

通过对AWS资源管理和应用监控的学习，我们掌握了一系列有效的方法和工具。从资源组的创建管理到应用监控指标的选择、警报设置和通知机制的建立，再到监控数据的分析利用和监控系统的优化改进，我们构建了一个完整的应用监控体系。

在未来的应用开发和运维过程中，我们可以继续深入探索和应用这些技术，不断提升应用的稳定性和性能。同时，随着云计算技术的不断发展，我们也可以关注更多新的监控工具和方法，为应用的发展提供更有力的支持。

总之，有效的应用监控是保障应用稳定运行的关键，我们需要不断学习和实践，将这些技术运用到实际工作中。