开源方式的可观测性

开源方式的可观测性

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Open Source Observability, Managed Observability, Metrics Collection, Logs Ingestion, Observability Challenges]

导读

对使用开源工具进行可观察性感兴趣吗?由于开源工具的快速发展,使用它们建立有效的可观察性解决方案可能具有挑战性。亚马逊云科技提供了灵活性,可以使用亚马逊云科技管理版本的开源工具(如Prometheus、Grafana和OpenTelemetry)来实现可观察性。本次会话展示了托管开源服务如何实现标准化的仪器化、收集和分析方法。探索每个可观察性阶段的推荐架构模式,包括使用OpenTelemetry进行仪器化,使用Amazon Managed Service for Prometheus和Amazon OpenSearch Service进行数据摄取,以及使用Amazon Managed Grafana获取洞察。

演讲精华

以下是小编为您整理的本次演讲的精华。

本次会议由Rodrigue开场,他介绍了开源可观测性所面临的挑战,并设置了一个假设场景,涉及Example Corp公司。在值班时,Jessica于晚上11点收到警报,指出前端应用程序响应时间变慢。然而,她无法访问Grafana、Prometheus或Prometheus浏览器表达式。

Bob加入了通话,试图搜索应用程序日志,但由于应用程序的复杂微服务架构,这项任务变得艰巨。随着客户变得不耐烦,CTO Sarah加入了通话。经过故障排查,Jessica推断Prometheus可能已耗尽内存和磁盘空间资源,而Bob则发现了卡服务中的连接池错误。此事件凸显了诸如扩展问题、快速发布周期、有限支持和合规开销等挑战。

Rodrigue将此与亚马逊云科技的托管可观测性服务进行对比,后者可以通过让团队专注于应用程序来缩短平均恢复时间。亚马逊云科技提供Amazon Managed Prometheus,这是一种无服务器且可扩展的与Prometheus兼容的服务,以及用于托管日志和跟踪的OpenSearch。可以使用Open Telemetry收集数据,并通过Managed Grafana或OpenSearch Dashboards进行可视化。Rodrigue演示了利用此架构的应用程序,展示了如何在单个仪表板中关联来自Managed Prometheus的指标和来自OpenSearch的日志。

来自Stripe的Cody分享了他们迁移到Amazon Managed Prometheus的经验。最初,Stripe依赖于供应商解决方案,但后来决定过渡到开源以降低成本。然而,迁移过程充满挑战,需要转移40,000个警报、150,000个仪表板查询和2.7亿个指标。Cody的团队构建了自动化工具,包括解析器和编译器,以促进迁移过程。

他们遇到了高基数问题,其中诸如堆栈跟踪和数据库键等唯一值被存储为指标标签,导致时间序列激增。Stripe通过部署流处理器在存储数据到Managed Prometheus之前减少基数来解决此问题。此外,他们弥补了开源工具在用户体验方面的差距,最初构建了一个专门的迁移UI,后来将警报管理集成到Stripe的控制面板中。Cody强调在迁移过程的早期自动化反馈循环的重要性。

来自亚马逊云科技的Mark宣布了可扩展性的改进,Managed Prometheus现在每个工作区支持10亿个活跃时间序列,Managed Grafana支持1,000个并发用户,使客户能够统一各种环境中的指标。

成本效益措施包括对供应商日志实行分层定价,在达到更高层级时,成本从50美分降至5美分,降幅达10倍。客户可以直接从OpenSearch查询诸如VPC流日志、CloudTrail事件和WAF日志等各种数据源,无需ETL,从而消除了跨位置复制数据的需求,并减少了学习多种查询语言的需求。

可移植性通过可观测性解决方案目录得到解决,其提供了超过30种预构建的解决方案,包括各种亚马逊云科技服务和第三方应用程序的主观遥测信号、仪表板和警报,以基础设施即代码的形式供应,以便无缝集成CI/CD。

AI/ML功能得到增强,包括异常检测、AI助手和OpenSearch中的自然语言查询,简化了AI驱动搜索应用程序的设置和部署,并使用户能够使用普通英语查询数据。

Mark强调了亚马逊云科技对开源项目OpenSearch的贡献,下载量超过7亿次,亚马逊云科技和其他企业都做出了贡献。亚马逊云科技将OpenSearch移交给Linux基金会,以促进进一步的协作。

Mark强调了托管服务的好处,包括符合行业标准、通过IAM集成实现强大的安全性、降低运营开销、通过精简供应简化快速发布周期,以及亚马逊云科技提供24/7支持。

Cody分享了Stripe的经验,最初使用基于供应商的指标解决方案,但后来为了降低成本而迁移到开源。迁移涉及40,000个警报、150,000个仪表板查询和2.7亿个指标。Stripe构建了自动化工具,包括解析器和编译器,以促进迁移。

Stripe遇到了高基数问题,堆栈跟踪和数据库键等唯一值被存储为指标标签,导致时间序列激增。他们部署了流处理器,在将数据存储到Managed Prometheus之前减少基数。Stripe还弥补了开源工具在用户体验方面的差距,最初构建了专门的迁移UI,后来将警报管理集成到他们的控制面板中。

Cody强调在迁移过程的早期自动化反馈循环的重要性。Stripe实现了大约80%的成本降低,活跃时间序列使用量翻了一番,在Managed Prometheus上运行的警报规则数量增加了三倍,提供了更多余量。

Mark宣布了可扩展性的改进,Managed Prometheus现在每个工作区支持10亿个活跃时间序列和10万条规则,Managed Grafana支持1,000个并发用户。成本效益措施包括对供应商日志实行分层定价,在达到更高层级时,成本从50美分降至5美分,降幅达10倍。

客户可以直接从OpenSearch查询诸如VPC流日志、CloudTrail事件和WAF日志等各种数据源,无需ETL,从而消除了复制数据的需求,并减少了学习多种查询语言的需求。可观测性解决方案目录提供了超过30种预构建的解决方案,包括各种亚马逊云科技服务和第三方应用程序的主观遥测信号、仪表板和警报,以基础设施即代码的形式供应,以便无缝集成CI/CD。

AI/ML功能得到增强,包括异常检测、AI助手和OpenSearch中的自然语言查询,简化了AI驱动搜索应用程序的设置和部署,并使用户能够使用普通英语查询数据。Mark强调了亚马逊云科技对开源项目OpenSearch的贡献,下载量超过7亿次,亚马逊云科技和其他企业都做出了贡献,并将OpenSearch移交给Linux基金会,以促进进一步的协作。

下面是一些演讲现场的精彩瞬间:

亚马逊云科技领导人讨论了开源可观测性的挑战,并介绍了针对Managed Prometheus和OpenSearch的新功能。

f553f4d90c7de65c1694f22229778797.png

Stripe工程师分享了如何通过纠缠同事Mark从而改进了他们的警报管理工具和自动补全功能。

5683b7ba28dba2ad90bb0ad7d1e91c47.png

描述了一种解决方案,通过部署流处理器来减少数据量并在存储之前过滤掉不必要的值,从而处理高基数数据,实现高效存储和可观测性。

b4cb8620652b772a5939a3feb8f49942.png

强调了Web应用程序防火墙日志在理解和阻止不需要的流量、检测安全威胁以及优化资源使用方面的重要性。

8ce1b1b48ff74ccac223bf6ce813c08c.png

OpenSearch与Amazon Bedrock和OpenAI等AI服务集成,实现了强大的功能,如语义搜索和自然语言查询,用于数据分析。

586eb095e26ad7a5f61fb450ebca55a0.png

亚马逊云科技与开源社区在OpenSearch项目上的合作,该项目拥有超过7亿次下载量,现已转移到Linux基金会。

0db6ecbd87f26864baf0f485be995182.png

演讲者鼓励与会者参观CloudOps展位,与主题专家互动,收集纪念品,并通过移动调查提供出色的反馈。

4637380d131591fd3b5cc75566a82012.png

总结

在这个引人入胜的叙事中,我们跟随Jessica的旅程,她是Example Corp的一名护士,在她的值班期间遇到了一起事件。故事展开时,Jessica和她的同事Bob和Sarah努力应对可观测性系统故障的挑战,使他们“飞行盲区”,难以找到问题的根源。这个贴近实际的场景凸显了自行管理开源可观测性工具的复杂性和运营开销。

叙事随后转向Rodrigue的深入演讲,他介绍了亚马逊云科技的托管可观测性解决方案,包括Amazon Managed Prometheus和OpenSearch。他演示了这些服务如何简化可观测性流程,减少运营开销,使团队能够专注于核心应用程序。来自Stripe的Cody随后分享了他们公司迁移到Amazon Managed Prometheus的经验,阐明了他们面临的挑战以及实施的创新解决方案,例如使用流处理器来解决高基数问题。

亚马逊云科技高级经理Mark Shanny登台,揭晓了Prometheus、Grafana和OpenSearch的令人兴奋的新功能和增强。他强调了可扩展性改进、成本效益策略,以及引入了可观测性解决方案目录,该目录提供了预构建的解决方案,可无缝集成到CI/CD管道中。此外,Mark还展示了AI/ML功能,包括异常检测和自然语言查询支持,进一步赋予团队从可观测性数据中提取有价值见解的能力。

在整个叙事中,演讲者强调了托管可观测性服务的好处,包括合规性、安全性、降低运营开销和24/7支持。他们强调亚马逊云科技致力于与开源社区合作,并为OpenSearch和Prometheus等项目做出贡献。叙事最后邀请大家探索亚马逊云科技的研讨会、文档和资源,并在CloudOps展位与专家互动。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值