构建任意规模的云运营未来

构建任意规模的云运营未来

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Application Signals, Cloud Operations Future, Observability Challenges, Connected Telemetry, Analytics Insights, Automation Controls]

导读

随着技术的快速发展,企业和IT领导者不断提出这样的问题:我们如何在降低成本、提高效率、增强安全性和合规性的同时,还能超越客户期望?在亚马逊云科技,我们希望帮助每位客户从IT运营转型中受益。参加本次讲座,了解如何将您的IT运营转变得更加敏捷、有弹性、高效和安全;如何使运营更加智能以消除重复性任务;以及如何获得更深入的洞察以做出更好的决策。观看最新创新的演示,并探索有影响力的客户案例。

演讲精华

以下是小编为您整理的本次演讲的精华。

亚马逊云科技 re:Invent 2024大会以Nandani Ramani的创新演讲拉开序幕。她是亚马逊云科技搜索、可观测性和Cloud Ops的副总裁。Nandani热情欢迎与会者,并表达了分享亚马逊云科技在过去12个月取得的进步和创新的热情。她强调,90%的亚马逊云科技路线图都是由客户需求和见解驱动的,凸显了客户对话在塑造亚马逊云科技产品中的重要性。

Nandani向观众保证,无论他们从事何种行业,亚马逊云科技都在构建云运营的未来,一个统一的体验,每个SRE、IT运营商、DevOps工程师、云架构师和应用程序开发人员都可从中受益。这种统一体验旨在消除无差别的繁重工作,让客户能够专注于核心业务,同时在亚马逊云科技上无缝运营。

三个指导原则被强调为推动亚马逊云科技路线图和持续创新的动力。首先,亚马逊云科技比任何其他主要云提供商都拥有更多经验,为客户在云中大规模运营奠定了良好基础。其次,在过去17年中,亚马逊云科技一直在运营自己的服务,从这种经验中汲取的教训指导着服务的持续改进、新功能的推出以及为客户提供的指导。最后也是最重要的,亚马逊云科技继续密切关注客户的需求。

Nandani透露,当她询问客户在云中运营时遇到的挑战时,回答通常可归纳为三个共同主题。第一个主题是希望运营能够随着业务的增长而无缝扩展,无需任何不自然的努力。第二个主题是需要从环境中产生的所有数据中收集见解,无论数据位于何处。第三个主题是要求内置自动化和控制,以简化流程。

认识到这些挑战的复杂性,Nandani向观众保证亚马逊云科技正在努力解决这些问题。关键思想是更加和谐、无缝地连接亚马逊云科技服务,消除客户手动从不同来源拼凑信息的需求。

为了说明这一概念,Nandani邀请了她团队中的高级首席技术专家David Deanna上台。David介绍了“OpsItrons”的主题,灵感来自于他童年对可以合并成更强大实体的机器人的着迷。

David随后演示了亚马逊云科技的可观测性服务(如CloudWatch、CloudTrail和Config)如何协同工作,为基础设施、软件依赖关系和根本原因分析提供可见性。他提出了一个涉及“账单支付”服务部分失败的假设场景,展示了这些服务如何通过汇总来自各种来源的数据来识别根本原因。

David解释说,在他的组织中,他们在CloudWatch中有数百万亿字节的数据,以及数百万个警报。虽然他们已经成功解决了“已知未知”问题,可以识别和解决已知资源的问题,但“未知未知”问题仍然是一个挑战。这些“未知未知”或“僵尸资源”是指在他们的仪表板上看不到的资源,造成了可见性的盲点。

通过利用CloudTrail和Config,David的团队能够将实时信息引入他们的后端系统,帮助消除这些盲点,覆盖“未知未知”或“僵尸资源”。与CloudWatch、CloudTrail和Config一起,他们的系统在可见性方面变得更加智能和全面。

为进一步说明这些服务的强大功能,David通过一个实际用例演示了检测和隔离故障的过程。他演示了如何通过结合来自CloudWatch、CloudTrail和Config的数据,快速了解他们的基础设施和软件依赖关系,利用实时数据精确定位部分故障的根本原因。

David强调,在云管理、安全、弹性和治理方面的创新至关重要,这些方面必须在系统设计时考虑,以确保关键交易(如电汇)每次都能成功。

在结束他的环节之前,David强调了他的组织与亚马逊云科技之间的合作,共同解决复杂有趣的问题。他鼓励观众访问一个特定链接,在那里他的公司Capital One分享了他们正在研究的创新理念和技术进步。

Nandani表达了她对听到客户如何利用亚马逊云科技服务的喜悦,并过渡到演讲的第二部分,聚焦于亚马逊云科技的可观测性。她坚信“你无法管理你无法测量的东西”,要在云中高效运营,必须主动而非被动地应对可观测性。

Nandani透露,亚马逊云科技为了满足内部需求,包括亚马逊和亚马逊云科技团队,都在使用其旗舰可观测性产品服务CloudWatch。亚马逊云科技团队可以在CloudWatch仪表板上查看数据,以解决问题并降低平均恢复时间(MTTR)。

2019年,CloudWatch仅用于监控每月来自外部使用的一万亿(1,000,000,000,000,000)个指标观测值。这一数字在2022年增长到9万亿,如今,CloudWatch每月监控超过20万亿(20,000,000,000,000,000)个指标观测值,这是一个惊人的数字。

虽然承认其规模和增长令人印象深刻,但Nandani强调,存储和呈现一万亿个指标本身并不有用。关键是连接所有这些遥测数据,无论数据位于何处都能收集见解,并在需要时采取补救措施。

为解决这些挑战,Nandani再次邀请David上台,演示CloudWatch的一些新功能,并使用OpsItron的类比。

David展示了CloudWatch中的“Explore Related”功能,它提供了一个侧面板,可以在亚马逊云科技控制台中随用户移动,提供正在查看的亚马逊云科技资源的遥测数据,并帮助用户在调查过程中浏览相关资源,无需输入、复制日志ID或参考运行手册,因为上下文关系会自动提供。

David接着演示了“Application Signals”功能,它结合了指标、日志、跟踪和应用程序拓扑,使用户能够深入了解应用程序的行为。他浏览了一个假设的“机器人服务”场景,通过跟踪资源、指标、日志和跟踪之间的上下文关系来调查问题,无需切换工具或复制数据。

Nandani强调了CloudWatch的其他新功能,如用于监控亚马逊云科技资源之间TCP流量的网络监控,提供了丢包率和延迟等指标。该功能还会将健康事件发送到支持仪表板,确保亚马逊云科技支持团队立即了解影响客户工作负载的任何问题。

此外,Nandani宣布在CloudWatch中推出了数据库洞察功能,它为所有数据库实例和整个数据库群提供了单一视图。用户可以一眼看到整个数据库群的健康状况,并深入查看可能运行过热的特定实例,无需代理或边车。

对于使用容器运行应用程序的客户,Nandani提到去年推出的EKS增强型容器洞察功能,以及CloudWatch Container Insights中新推出的ECS增强型可观测性功能。该功能允许用户深入查看容器级别的指标和层次,识别出存在内存泄漏或其他问题的单个容器,无需代理或边车。

为进一步说明亚马逊云科技可观测性解决方案的强大功能,Nandani邀请了Dream11的高级副总裁工程师Ameet Garde。Dream11是印度最大的梦幻体育平台,拥有超过2.2亿注册用户。

Ameet分享说,Dream11在其平台上支持12种运动,每年有超过22,000场比赛。然而,板球是最受欢迎的运动,印度板球超级联赛(IPL)是头等大事。IPL比赛会引发巨大的用户兴趣,从而给Dream11的系统带来大量流量和负载。

Ameet解释说,在IPL板球比赛开始前约30分钟,比赛信息(如开场掷币结果、场地状况和球员阵容)会被公布。这会触发流量的陡峭增长,因为用户登录、创建团队、存款、搜索比赛和加入比赛。Dream11可以看到在几分钟内流量增加两个数量级,他展示了一场实际IPL比赛的真实流量数据。

比赛开始前的30分钟对于业务来说至关重要,因为这是产生大部分收入的时间。在此期间任何不可用或用户体验问题都会对业务造成重大打击。此外,Dream11的梦幻格式意味着一旦板球比赛开始,用户就无法再加入比赛,这是一次性的机会。

Ameet强调,要在这种条件下成功运营,可观测性是成功运营的基石。Dream11的整个运营姿态都建立在良好的可观测性之上,从高度依赖于事件发生后快速响应,到越来越能够检测新兴问题并主动干预。

然而,仅仅具备可观测性是不够的;有效响应并采取有意义的干预措施,关键在于自动化。Dream11的目标是针对预期情况(如启动服务器、切换流量、故障转移、切换功能标记或更改配置)实现一键式响应。他们还旨在为“假设”情况预先编程响应。

Ameet展示了Dream11对可观测性的高层次视角,将其需求分为两部分:可观测性信号(指标、跟踪、日志、跨度)和理解这些数据(了解系统状态、检测异常并快速正确地回答任意问题)。这些信号被输入分析,然后导致推动正确的自动化按钮,以确保系统按预期运行。

Dream11主要使用亚马逊云科技服务,利用CloudWatch等服务获取可观测性信号,尤其是来自数据库管理服务的信号。他们还在尝试诸如OpenTelemetry等前沿技术来设置监控和警报。

Ameet表示,Dream11在可观测性和自动化方面的努力已经转化为具体成果和显著的业务价值。他们的系统例行调用数百万个自动化操作,消除了手动繁重工作,大大提高了运营人员的生活质量。最值得注意的是,他们实现了无故障的IPL赛季,这是一个了不起的成就,考虑到所涉及的规模和复杂性。

展望未来,Dream11的愿景是构建自主系统,让计算机自动发现问题并自动修复。他们看好人工智能、机器学习和生成式人工智能等新技术有助于实现这一目标,同时继续专注于日常运营,提供可靠的正常运行时间和性能。

Ameet以板球运动的比喻作为结尾,表示“状态是暂时的,但水平是永恒的”,反映了Dream11追求世界一流运营水平的愿望。

Nandani感谢Ameet分享了Dream11鼓舞人心的故事,并对即将到来的IPL赛季表示兴奋,希望她家乡的皇家挑战者班加罗尔队(RCB)终于能赢得他们的首个冠军。

转向云运营的第三大支柱,Nandani强调需要存储原始数据和遥测数据的可扩展性、用于索引和分析的查询引擎,以及从不同来源收集见解而无需复制数据的能力。

在深入探讨新功能之前,Nandani邀请David重新登台,演示CloudWatch和OpenSearch Service的一些新功能。

David展示了一个场景,客户报告了一个预定的机器人操作未被执行的问题,而且系统中已经没有该计划。为了调查这个问题,David利用了CloudWatch中新的交易搜索功能,该功能允许用户回溯时间,分析每个客户与服务的所有交互,包括包含分布式系统中每个交互详细信息的结构化请求日志(跨度)。

David构建了一个可视化查询,以查找客户与特定机器人ID的所有交互,利用了来自OpenTelemetry自动检测、服务器框架和客户端框架的信息。他跟踪了各种线索,例如检查客户是否意外删除了计划或计划最初是何时创建的。

有趣的是,David在其中一个交互中遇到了409 HTTP冲突状态码,表明与DynamoDB通信时出现了错误。他能够放大应用程序日志和跨度进行进一步调查,发现系统在将计划持久化到数据库之前就将其发送给了机器人,从而导致了这个问题。

为了确定有多少其他机器人受到这个bug的影响,David展示了跨所有交互运行查询的能力,而无需复制数据或切换工具。他同时使用了CloudWatch Logs查询语法和支持连接和嵌套聚合的SQL查询,所有查询都针对同一底层CloudWatch Logs数据,无需任何ETL过程。

Nandani赞扬了David的演示,强调了新功能使分析性能问题和从任何位置收集见解变得更加容易。她概述了关键功能:

  1. 在CloudWatch中完全可见应用程序交易跨度,允许用户跟踪100%的跨度作为日志而无需采样。这使支持团队能够回答有关每个用户的最终用户交易的问题,确定出现问题的原因或应用程序为何未按预期行为,而无需代理或额外设置。
  2. 能够收集数据并对其进行交易,而无需从不同来源复制数据。CloudWatch提供了一种简单的方式来获取见解,而不管数据存在于何处。
  3. 能够在CloudWatch Logs或OpenSearch中互换调查日志数据,而无需维护昂贵的数据管道或复制数据。用户可以利用CloudWatch查询语言、SQL或PPL,支持连接和嵌套聚合。
  4. 安全分析的零ETL,增强的安全分析将OpenSearch和Security Lake数据结合在一起。Nandani提到Chris Betts将于下午3点就此主题进行创新演讲。
  5. 用于分析跨多个数据源(如托管的OpenSearch集群、无服务器集合、S3存储桶和CloudWatch Logs)的运营数据的统一视图,消除了针对每个数据源维护单独仪表板的需求。

Nandani总结了关键发布内容,强调亚马逊云科技致力于整合服务,为云运营提供强大、统一的体验。这种体验旨在消除客户复制数据、维护上下文或管理昂贵ETL管道的需求,让他们专注于核心业务,而亚马逊云科技负责繁重的工作。

Nandani感谢Capital One和Dream11分享了他们的故事,并强调了re:Invent 2024大会上一系列专门针对云运营的演讲,供与会者进一步探索已发布功能的详细信息。

最后,Nandani感谢观众,鼓励他们填写调查问卷,并邀请他们探索re:Invent 2024大会上丰富的产品和服务。

下面是一些演讲现场的精彩瞬间:

亚马逊云科技首席执行官欢迎观众来到2024年的re:Invent大会,并对分享公司过去一年的最新创新和进展表示兴奋。

f15f86f895f5ef4ccbda44e80a4f3ade.png

利用亚马逊云科技可观测性工具探索应用程序指标和日志,实时诊断问题。

c287d006b853ad2d680618d697c5e507.png

应用程序信号结合了指标、日志、跟踪和应用程序拓扑结构,使人们能够全面了解应用程序的行为,并准确定位跨服务和依赖关系的问题根源。

91c8bd32e087424b54ce657a7d698b5d.png

使用Amazon CloudWatch Application Insights识别并解决特定EC2实例导致BotForge服务出现故障的问题。

f5a6424fc5e0e71e1d4501446e1b56d6.png

亚马逊云科技扩展了CloudWatch网络监控功能,提供了对资源之间网络健康状况和TCP流量的可见性,有助于识别性能问题并确定根本原因。

03fbd2860d3e540da031d26159f12654.png

Amazon在CloudWatch中推出了Database Insights,为跨环境的所有数据库实例提供统一视图和监控功能。

debaedb2578dacc2a877ac2ceab59b64.png

演讲者总结了演示,并为与会者提供了一份精选的云操作相关主题清单,以便进一步探索新推出功能的详细信息。

370747adab36c8a5f0cde408f8efa02e.png

总结

在这场引人入胜的演讲中,亚马逊云科技搜索、可观测性和云运维副总裁Nandani Ramani揭示了云运维的未来。她强调亚马逊云科技致力于构建统一的体验,赋能SRE、IT运维人员、DevOps工程师、云架构师和应用程序开发人员无缝进行大规模运维。该演讲围绕着治理、可观测性和分析这三大支柱展开。

首先,Nandani强调亚马逊云科技在运营自身服务方面的丰富经验和学习成果,加上持续的客户反馈,是推动其创新的驱动力。她介绍了Amazon Systems Manager中用于增强节点管理和预防性策略的新功能,以应对企业发展带来的可扩展运维需求。

其次,她在CloudWatch中推出了突破性的可观测性功能,实现了上下文遥测数据导航、网络流量监控、数据库洞察和增强的容器可观测性。这些功能旨在提供跨基础设施、应用程序和环境的可见性,消除了手动故障排查和运维手册维护的需求。

第三,Nandani展示了高级分析功能,允许在CloudWatch Logs和OpenSearch之间无缝分析数据,无需数据复制或昂贵的ETL管道。她演示了这些功能如何让用户轻松发现根本原因、收集洞见并采取补救措施。

贯穿整个演讲,Nandani强调了亚马逊云科技连接服务、消除非核心重复工作、让客户专注于核心业务的愿景,而亚马逊云科技将负责可扩展的云运维。最后,她鼓励与会者探索精心策划的云运维专题讲座,亲身体验云运维的未来。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

内容概要:本文介绍了一个基于Matlab的综合能源系统优化调度仿真资源,重点实现了含光热电站、有机朗肯循环(ORC)和电含光热电站、有机有机朗肯循环、P2G的综合能源优化调度(Matlab代码实现)转气(P2G)技术的冷、热、电多能互补系统的优化调度模型。该模型充分考虑多种能源形式的协同转换与利用,通过Matlab代码构建系统架构、设定约束条件并求解优化目标,旨在提升综合能源系统的运行效率与经济性,同时兼顾灵活性供需不确定性下的储能优化配置问题。文中还提到了相关仿真技术支持,如YALMIP工具包的应用,适用于复杂能源系统的建模与求解。; 适合人群:具备一定Matlab编程基础和能源系统背景知识的科研人员、研究生及工程技术人员,尤其适合从事综合能源系统、可再生能源利用、电力系统优化等方向的研究者。; 使用场景及目标:①研究含光热、ORC和P2G的多能系统协调调度机制;②开展考虑不确定性的储能优化配置与经济调度仿真;③学习Matlab在能源系统优化中的建模与求解方法,复现高水平论文(如EI期刊)中的算法案例。; 阅读建议:建议读者结合文档提供的网盘资源,下载完整代码和案例文件,按照目录顺序逐步学习,重点关注模型构建逻辑、约束设置与求解器调用方式,并通过修改参数进行仿真实验,加深对综合能源系统优化调度的理解。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值