COP343 | 亚马逊云科技的可观察性最佳实践
关键字: [Amazon Web Services re:Invent 2023, CloudWatch, Observability Best Practices Amazon, Monitoring Customer Experience Amazon, Troubleshooting Root Cause Amazon, Optimizing Observable Data Amazon, Measuring Customer Experience Amazon]
本文字数: 2800, 阅读完需: 14 分钟
视频
导读
在本次分享中,了解亚马逊云科技为实现完美的可观察性粒度而付出的不懈努力。本次分享涵盖了亚马逊云科技的全方位监控——从团队如何立足高水平评估系统健康状况到如何拉进镜头以了解单个请求的细节。了解数据记录、日志和追踪的最佳做法,以及如何使用这些信号来实现卓越运营。
演讲精华
以下是小编为您整理的本次演讲的精华,共2500字,阅读时间大约是12分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
在会议开始时,大卫解释说,在亚马逊,可观察性不仅是为了监控系统,更是为了深入理解和感同身受地体验客户体验。他表示,他们通过各种指标来观察并了解客户在使用服务时的体验。此外,亚马逊还利用追踪、日志和仪表板等可观察性工具来发现和解决各种问题,从而持续优化运营。
大卫强调,可观察性对于推动亚马逊的“飞轮效应”至关重要。他们的服务被大量仪器化以生成详细的遥测数据,包括指标、日志和追踪。这些数据可以驱动警报,主动提醒团队关注问题,并提供实时可视性的仪表板。团队通过这些遥测数据提出关于客户体验和系统性能的有洞察力的问题,从而进一步优化仪器以提高数据捕获能力。这种循环使得亚马逊的运营、可观察性和客户同理心得到持续改进。
大卫分享了一个关于可观察性如何深入融入亚马逊文化的例子。他指出,亚马逊的CloudWatch服务(用于监控亚马逊云科技)每月处理的指标观测超过900万亿。这意味着,如果将这些观测平均分配给地球上的人口,那么CloudWatch每月将为每个人记录超过100万个观测。这种庞大的规模使得亚马逊能够几乎消除对客户体验的所有猜测,从而更好地以满足客户需求为导向、深入研究问题以及坚持最高标准。
大卫提供了一个实际例子来说明可观察性如何影响日常工作。他表示,当亚马逊的工程师值班时,他们会收到关于事件的警报。一旦警报响起表示有问题,团队就会利用指标、日志和追踪来确定具体的问题,并采取相应措施尽快恢复服务的正常运行。
在事件发生后,据他解释,亚马逊会对被称为错误纠正(COE)的流程进行全面审查,以找出问题的根源。他们收集可观察数据作为证据,并学习如何更有效地检测及解决问题。大卫表示,公司在运营审查过程中也广泛使用可观察性数据。团队成员会通过查看客户体验仪表板并提出深入问题来加深理解。这些最佳实践会在整个公司内共享,以促进持续的改进。
大卫用一个实际案例展示了如何使用追踪和仪表板来分析分布式系统。他以一个包含负载均衡器、前端设备、Lambda函数、队列和轮询设备的简化应用为例进行分析。尽管这个系统相对简单,但他指出性能问题可能涉及多个组件。通过在组件间分配唯一ID,可以深入了解请求如何在系统中传播的过程。这有助于发现耗时、指标和性能瓶颈。服务地图提供了一个概括各组件间互动的总览。
仪表板还可以提供从整体客户体验到微服务和资源的分层视图。大卫强调,预先准备好的详细仪表板有助于工程师在事故发生时迅速获取关键数据。他还强调了亚马逊的仪表板最佳实践,包括使用时间序列图表、将最重要数据置于顶部、清晰显示时区以及添加描述性文字。然而,大卫也提醒要避免过度填充仪表板,因为亚马逊团队通常会关注不同角度而设置数十个仪表板。
伊恩接着讨论了如何通过度量仪器化产生的数据来支持亚马逊的可观察性。他以一个产品目录服务为例,说明如何为每个请求记录事实和测量数据。然后,指标定义会将这些数据聚合到CloudWatch指标中。例如,像API名称或可用区域这样的维度提供了有价值背景信息。而像客户或实例这样高频维度的数据可以通过诸如Metric Insights之类的工具来进行特定的故障排查。
Ian"分享了一个客户案例,展示了如何通过分析日志来提高灵活性。一位客户在将数据发送到亚马逊云科技的物联网设备时,遇到了周期性的分析应用程序速度减慢的问题。尽管他们的指标显示每秒平均请求低于容量,但他们通过不同地查询和切割日志数据,发现了设备流量在分钟内波动的现象。这使得他们可以实施抖动以平滑流量。关键收获是,日志数据使他们能够以最初无法想象的方式分析数据。
"Ian"还建议在生产环境中使用性能分析,而不仅仅是离线。性能分析器可以显示哪些代码部分消耗了大量时间或资源。这有助于团队在正常操作和故障期间改进性能问题。他认为,要找到问题的根本原因,需要将指标、日志、追踪和其他技术相结合。关键是使关键的故障排除数据容易获得。
大卫随后谈论了从多个角度衡量客户体验的问题。他分享了一个关于改善CloudWatch控制台用户体验的客户案例。他们构建了一个在生产中进行真实浏览器测试的自动化测试框架。这发现了API测试遗漏的错误或性能问题。由于这些好处,亚马逊决定将这一做法作为CloudWatch合成服务产品化。
大卫解释说,真实用户监控(RUM)可以通过直接从客户的网络客户端收集性能遥测信息,提供更深入的可观察性。他强调,由于有大量数据信号,因此重要的是将相关的警报聚合为复合警报,以避免“警报疲劳”使团队不堪重负。例如,英国电信(BT)是如何使用这种技术来监视数百万家庭路由器的,以便更快速地检测和解决地理位置相关的事件。
最后,大卫和Ian总结说,可观察功能是一个强大的工具包,可以帮助解答系统性能和客户体验问题。他们从高级警报转向精确的追踪和日志,以揭示问题的根本原因。一个关注客户同理心的文化会根据运营经验不断调整可观察性。他们感谢观众有机会分享亚马逊的一些最佳实践。
总的来说,这段视频全面概述了亚马逊令人印象深刻的可观察性和策略。核心思想包括:通过分析和利用日志数据来提高灵活性;在生产环境中使用性能分析以提高效率;从多个角度衡量客户体验;以及使用真实用户监控(RUM)提供更好的可观察性。
通过可观察性深入洞察客户体验;构建一个将设备、数据、分析和学习紧密相连的飞轮效应;利用大量数据消除盲目猜测;提供诸如轨迹、仪表板和日志分析等工具以便快速诊断问题;实施严格审查以持续优化实践;从多个维度评估客户体验;审慎整合信号以防警报疲劳;运用工具包查询和解答关于系统的疑问;根据所获知的信息优化可观察性以提升客户同理心;秉持以客户为中心的文化,这得益于世界顶级的可观察性支持。演讲者完美地阐述了可观察性如何成为亚马逊在庞大市场中实现卓越客户体验的战略核心。他们提供的见解为寻求强化自身可观察性能力的组织提供了极为宝贵的经验教训。
下面是一些演讲现场的精彩瞬间:
本次研讨会主要关注了亚马逊云科技的全面监控和可观察性,以便更好地理解客户体验并解决问题。

会议着重探讨了CloudWatch如何收集关于服务请求的详细指标和属性,从而提高对应用性能的可观察性。

然而,部分客户的分析应用程序发现,由于其每秒请求图中仅显示平均请求速率而非峰值,导致负载过大。

为了解决这个问题,亚马逊云科技利用详细的请求日志和日志分析工具,以秒为单位而不是分钟来分解数据,从而识别和解决设备同步问题。

关键在于运用多层次的可观察性工具来衡量客户体验并找到问题的根本原因。

领导者们强调了对问题进行快速诊断和改进监控的重要性,例如使用追踪和分析等工具。

此外,领导者们还强调了定期审查指标、提出有深度的问题并从经验中学习,以提高整体可观察性。

总结
亚马逊非常重视可观察性,以确保提供最佳的客户体验。本次演讲概述了亚马逊如何通过指标、追踪、日志和仪表板深入剖析系统性能。
一个核心主题是如何利用可观察性来理解客户体验全过程。持续进行的测试验证了从客户角度出发的端到端体验。关注的指标包括可用性、延迟以及与客户满意度密切相关的其他因素。
演讲者分享了快速排查问题的技巧。警报有助于及时发现问题,而仪表板则提供了可能影响组件的顶层可视性。在进行更深入调查时,追踪和日志分析有助于确定特定瓶颈或错误。通过揭示无效代码路径,可以进一步优化性能。
最佳实践来自于事后分析和每周审查。团队添加仪器以解决新问题并在仪表板上展示关键指标。这种持续改进产生了飞轮效应,提高了可观察性,使得更快地发现和解决问题成为可能。最终目标是通过对所有关键系统方面的全面、实时监控,最大程度地提高客户体验。
演讲原文
想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
即刻注册亚马逊云科技账户,开启云端之旅!
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技是谁?
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

908

被折叠的 条评论
为什么被折叠?



