提升Amazon ECS的可观察性以获取可操作的洞察
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Container Insights, Application Signals, Service Level Indicators, Checkout Service, Cost Insights]
导读
在本次会话中,探讨如何利用亚马逊云科技可观察性服务来增强部署在Amazon ECS中的应用程序。学习如何使用最新的亚马逊云科技可观察性功能,如Amazon CloudWatch Container Insights、Amazon X-Ray和myApplications,以获取对您的Amazon ECS环境的可操作洞察。本次会话涵盖应用场景,以及如何高效使用亚马逊云科技服务来进行故障排除、优化性能,并深入了解您的容器化应用程序。
演讲精华
以下是小编为您整理的本次演讲的精华。
本次会议由Stephen David和Lucy Harton主持,他们热情欢迎与会者,并强调了可观测性在理解部署在Amazon Elastic Container Service (ECS)上的应用程序的健康状况和性能方面的关键作用。
Stephen解释说,容器通过其可移植性、一致性和自动化能力,使客户能够加速创新,从而促进软件交付加快和资源利用优化。他强调,客户选择ECS是因为它与其他亚马逊云科技服务无缝集成,并具有自动化优势,包括构建和部署管道、通过指标和日志进行可观测性、安全措施、编排、调度和自动缩放功能。客户一直告诉亚马逊云科技:“我喜欢在ECS上构建,因为它与所有其他亚马逊云科技服务无缝集成。”
尽管ECS带来了诸多优势,但仍可能出现问题,本次会议的目的是为与会者提供工具和能力,以便在问题出现时识别和解决。Lucy将可观测性定义为通过指标、日志和实时故障排除,以及了解最终用户体验和成本优化来获得对容器的可见性。
在第一个场景中,重点是调查应用程序响应能力,Stephen演示了如何使用亚马逊云科技管理控制台的Application Insights小组件来聚合与应用程序相关的资源和指标。然后,他探讨了增强的Container Insights功能,该功能为ECS工作负载提供了性能指标和服务级别指标(SLI)。通过分析延迟和故障率,他确定了一个特定的组件cart service是高延迟的根本原因,观察到800毫秒的延迟,这对于一个Web应用程序的小组件来说是不合理的。Stephen为开发人员提供了必要的上下文,以调查和解决该问题。
第二个场景集中于解决一个严重错误。在这种情况下,Stephen使用Log Insights将一条错误消息与最近的部署相关联,从而建议回滚部署到先前的版本,直到问题得到解决。他观察到错误开始出现在事件前几个小时,表明可能与新的部署有关。客户面临的情况是,新的部署引入了一个错误,通过使用Log Insights将错误消息与最近的部署相关联,他们可以快速缓解问题,回滚到先前的版本,同时进行进一步的测试和调试。
第三个场景解决了排查间歇性错误的挑战。Stephen演示了如何利用亚马逊云科技 Synthetics金丝雀来模拟用户工作流程并检测间歇性错误。通过结合应用程序信号、指标、跟踪和异常,他发现了checkout service的get过程中的一个随机故障,该服务的故障和错误率高于其他服务,这从指标图中橙色线条明显偏离其他线条可以看出。客户一直在努力解决间歇性错误的问题,即应用程序在某些条件下会出现故障,尽管通过了健康检查。通过利用亚马逊云科技 Synthetics金丝雀、应用程序信号、指标、跟踪和异常,客户可以隔离随机故障,并使他们的开发团队能够更有效地调查和解决问题。
在第四个场景中,Lucy深入探讨了ECS的成本洞察。她强调了理解在ECS上运行应用程序的成本的重要性。她展示了如何启用ECS分割成本分配、将成本数据导出到Amazon Athena,并利用预构建的查询来分析成本。随后,她利用Amazon QuickSight创建可呈现的仪表板,显示按使用类型、区域、应用程序和任务细分的成本明细,从而实现更好的成本可见性,并有助于做出更明智的预算决策。QuickSight仪表板显示了诸如CPU是最昂贵的使用类型,其次是us-west-1和us-west-2区域的存储成本等见解。此外,仪表板还允许比较ECS集群中不同应用程序和任务的成本。客户经常面临这样的情况:项目负责人和经理需要为基于ECS的应用程序制定准确的预算信息。通过利用ECS分割成本分配、Athena查询和QuickSight仪表板,客户可以获得应用程序成本的细粒度可见性,优化预算,设置准确的成本预期,并主动解决任何超支问题。
在整个会议过程中,Stephen和Lucy借鉴了真实的客户故事和用例来丰富他们的解释和演示。例如,他们引用了一些客户对ECS的简单性和与其他亚马逊云科技服务的无缝集成表示赞赏,这使他们能够更快更有效地创新。
在第一个场景中,Stephen回顾了一个客户报告应用程序响应缓慢的情况,他利用Application Insights小组件和增强的Container Insights发现根本原因是cart service组件的高延迟,观察到800毫秒的延迟,这对于一个Web应用程序的小组件来说是不合理的。通过为开发人员提供这一具体上下文,客户能够更有效地调查和解决问题。
在第二个场景中,Stephen分享了一个客户在应用程序中遇到严重错误的例子,新的部署在cart service中引入了一个列表不匹配的问题。通过使用Log Insights将错误消息与最近的部署相关联,并观察到错误是在部署后几个小时开始出现的,Stephen能够建议回滚到先前的版本,使客户能够快速缓解问题,同时进行进一步的测试和调试。
在第三个场景中,Stephen回顾了一个客户在努力解决间歇性错误的问题,即应用程序在某些条件下会出现故障,尽管通过了健康检查。通过利用亚马逊云科技 Synthetics金丝雀、应用程序信号、指标、跟踪和异常,Stephen演示了如何隔离checkout service的get过程中的随机故障,该服务的故障和错误率高于其他服务,这从指标图中橙色线条明显偏离其他线条可以看出。这使客户的开发团队能够更有效地调查和解决问题。
Lucy在讨论ECS的成本洞察时,借鉴了客户的经验,即项目负责人和经理需要为基于ECS的应用程序制定准确的预算信息。她展示了客户如何利用ECS分割成本分配、Athena查询和QuickSight仪表板来获得应用程序成本的细粒度可见性,按使用类型、区域、应用程序和任务进行细分。QuickSight仪表板显示了诸如CPU是最昂贵的使用类型,其次是us-west-1和us-west-2区域的存储成本等见解。此外,仪表板还允许比较ECS集群中不同应用程序和任务的成本。这使客户能够优化预算、设置准确的成本预期,并主动解决任何超支问题。
在整个会议过程中,Stephen和Lucy强调了可观测性在确保基于ECS的应用程序顺利运行和性能方面的重要性。他们强调,客户可以利用亚马逊云科技工具和功能获得可操作的见解,更有效地排除故障,提高最终用户体验,优化成本,从而加快创新步伐,为客户提供更好的产品和服务。
下面是一些演讲现场的精彩瞬间:
Lucy Harton,来自亚马逊云科技的高级业务发展专家,欢迎观众并表达了她对于获取 Amazon ECS 可操作见解的兴奋。
尽管 ECS 非常出色,但演讲者承认容器可能会出现故障,目标是提供正确的工具和功能来识别和修复问题。
可观察性对于理解和改善终端用户体验至关重要,让您能够主动解决客户遇到问题之前的问题。
获取跨不同服务的多资源应用程序的健康状况和性能见解,以加快故障排除和解决。
演示如何缩小日志见解的范围,以确定结账服务中的问题。
解决在大多数情况下工作正常但在某些情况下会出现故障的服务中的间歇性错误,尽管通过了健康检查。
演讲者鼓励观众探索Skill Builder上关于可观察性的电子学习资源,以进一步扩展知识。
总结
在这场精彩的会议中,Stephen和Lucy深入探讨了Amazon ECS可观测性的重要性,提供了有效管理和排查容器化应用程序的可行见解。他们强调了可观测性的好处,包括获得对指标、日志和实时问题的可见性,了解终端用户体验,以及优化成本。
通过四个真实场景和现场演示,他们展示了如何利用亚马逊云科技的能力,如Container Insights、Application Insights、Log Insights和Synthetics来识别和解决各种问题。这些问题涵盖了延迟、间歇性错误、严重故障和成本优化。他们展示了如何关联指标、日志和跟踪来确定根本原因并加快解决问题的速度。
此外,Lucy强调了ECS工作负载的成本洞察的重要性,演示了如何设置成本分配、运行Athena查询以及利用QuickSight仪表板来获得对使用类型、区域成本和任务级别支出的可见性。这使团队能够有效地呈现成本数据并优化预算。
最后,Stephen和Lucy提供了宝贵的资源,包括可观测性研讨会、最佳实践和电子学习材料,帮助与会者应用所获得的知识,并增强他们在Amazon ECS上的可观测性之旅。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。