为创新注入动力:通过自动化实现卓越运营

为创新注入动力:通过自动化实现卓越运营

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, OpsCenter, Operational Excellence, Infrastructure Automation, Cloud Automation Practice, Automation Flywheel, Automation Tenets]

导读

企业开始云转型时必须采用亚马逊云科技最佳实践来简化运营并优化成本。在本次会议中,了解亚马逊云科技如何通过整合人员、流程和技术来开发自己的自动化实践。探索推动增长和创新的策略,并保持竞争优势。深入了解亚马逊云科技平台运营和工程方法,以自动化任务、确定计划优先级,并针对一些实际运营用例实现跨职能协作。此外,还将听取一家领先金融服务客户的分享,了解亚马逊云科技云自动化如何提高运营效率和节省成本,从而为创新再投资提供支持。

演讲精华

以下是小编为您整理的本次演讲的精华。

演讲者首先承认了DevOps工程师和技术领导者在管理跨多个工作负载和账户的重复基础设施任务时所面临的挑战。他们旨在展示如何自动化这些任务可以提高运营效率,并使组织能够建立云自动化实践。

Priyanka Tutoredi,亚马逊云科技的一位高级经理,介绍了本次会议的议程,包括讨论在亚马逊云科技上实现运营卓越的关键目标、探讨三个具体的用例,其中发现了效率低下的问题,以及深入探讨建立云自动化实践。她强调,本次会议将重点介绍亚马逊云科技如何将自动化与文化层面相结合,以实现预期的成果。

运营卓越与亚马逊云科技最佳实践 Priyanka将运营卓越定义为持续改进运营,以确保有效和高效地实现业务成果。她强调关注效率、效力、持续改进流程、监控绩效以及最大化投资回报的重要性。

在亚马逊云科技上构建基础设施或工作负载时,最佳实践包括为故障而构建、创建有弹性的工作负载和基础设施以确保业务正常运行。设计决策还应识别和减轻风险、从一开始就优先考虑安全性,以及优化资源利用和成本。

运营卓越能力包括管理登陆区域、治理、审计、日志记录和标记。Priyanka强调标记的关键作用,因为这将贯穿整个会议。这些能力通常应用于多个账户和整个足迹,需要协调一致的方法来实现多账户成果、合规性和可扩展性。

用例1:安全组补救 在第一个用例中,Priyanka讨论了一个场景,其中一个EC2实例的安全组允许所有入站流量,这通常不是一个理想的配置,除非有合理的使用案例。Amazon Config将触发一个规则并通知安全或DevOps团队。但是,由于缺乏对工作负载要求的背景了解,这些团队无法直接修改安全组。

典型的工作流程是安全团队与应用程序所有者或业务所有者联系,以寻求对更改的许可。在获得批准后,DevOps工程师将修改安全组。这个过程可能需要一到两周或更长时间,在此期间,安全风险仍然存在。此外,对于需要进行相同更改的每个实例,无论是应用程序还是账户,都需要重复整个工作流程。

Priyanka提出了一种利用标准化的替代方法。配置存储库将存储有关工作负载、账户号码、环境类型(例如非生产)、工作负载类别(从基本到面向客户或合规)以及其他独特特征的信息。

流程将涉及Amazon Config触发规则,然后EventBridge(无论是计划的还是实时合规性通知服务)调用Lambda解决方案。Lambda将读取配置存储库,并将EC2实例标记映射到定义的策略(例如,允许在每月的第一个星期六),以确定是否允许进行更改。如果允许,它将使用亚马逊云科技 Systems Manager OpsCenter创建运维项目和运书,以补救安全组配置。然后将向业务所有者发送有关更改的通知。

这种方法简化了工作流程,减少了等待时间,在多个账户中标准化了流程,并确保根据预定义的策略和标记进行更改。

用例2:删除未附加的EBS卷 第二个用例解决了未附加EBS卷的常见问题,通常在Amazon Trusted Advisor中识别。传统工作流程涉及DevOps工程师与业务所有者联系,以评估卷的保留要求,因为某些受监管行业要求特定的保留期限以符合合规性。

根据业务所有者的反馈,DevOps工程师将执行卷删除,通常需要通过变更咨询委员会(CAB)获得额外批准。从最初识别到实际删除,这个过程可能需要超过一个月的时间,导致不必要的成本和效率低下。

Priyanka建议通过构建Amazon Config存储库来自动化此过程,以存储组织策略,定义何时可以根据环境类型、工作负载严重性或关键性以及保留期限等因素删除资源。在定义策略阶段,将征求业务所有者的意见,以考虑任何例外情况。

计划的Lambda函数将读取Config策略、Trusted Advisor发现结果和资源标记,并使用Amazon Systems Manager自动删除未附加的EBS卷,遵守定义的策略。然后将向业务所有者发送有关更改的通知。

这种方法简化了流程,减少了等待时间,并确保符合组织策略,同时最大限度地减少了与未附加卷相关的手动工作和成本。

用例3:RDS SSL证书轮换 第三个用例关注最近轮换即将到期的RDS SSL证书的挑战,这对许多组织来说是一个长达六个月的过程。传统工作流程涉及Trusted Advisor识别即将到期的证书,促使DevOps工程师与业务所有者联系以获得批准。

由于缺乏对数据库是否在多个应用程序之间共享、证书轮换对应用程序功能的潜在影响以及停机风险的洞察力,业务所有者很难做出明智的决定。在这方面缺乏良好的治理可能导致强制证书轮换和计划外停机,这对于拥有数十万个RDS实例的大型组织尤其令人担忧。

为了解决这一挑战,Priyanka描述了为客户开发的一个基于Python的脚本。该脚本将读取Trusted Advisor发现的即将到期的RDS SSL证书以及受影响RDS实例的参数。最关键的是,它还将读取包含有关运行在实例上的应用程序、应用程序所有者、环境(较低或较高)以及是否允许在工作日或周末进行更改的信息的资源标记。

根据这些信息,该脚本将准备两个列表:一个用于不需要重启的RDS实例,另一个用于需要重启的实例。然后,它将为每个RDS实例创建计划事件,触发Lambda函数来轮换SSL证书并发送有关更改的通知。

这种自动化方法加快了RDS SSL证书轮换过程,减少了手动工作和潜在停机的可能性,尤其是对于拥有大量RDS实例的组织。Priyanka强调了生命周期管理模式和适当标记对于实现此类自动化的重要性。

潜在收益和左移方法 Priyanka承认,一些组织可能会觉得他们当前的手动流程是足够的。然而,她强调了传统方法的明显缺陷,包括花费在重复任务上的时间、不必要的成本以及可能影响品牌声誉的风险。

她建议采用“左移”方法,即尽可能自动化以大规模实现成果。Priyanka引用了一句有力的话:“作为开发人员,我们拥有的最强大的工具就是自动化”,强调了自动化在实现运营卓越中的核心作用。

建立云自动化实践 虽然自动化至关重要,但Priyanka强调,这只是故事的一半。要成为运营卓越,组织必须机械化自动化并建立云自动化实践。她强调,由于亚马逊云科技服务的数量庞大,以及它们可以被自动化的无数排列组合,自动化不能以临时的方式进行。

Priyanka强调了建立云自动化实践的人员、流程和技术方面,承认技术很少是问题所在。需要进行文化转变,包括跨团队协作、自动化优先的思维模式以及对自动化工作的正确优先级。

这种方法将使组织能够建立更多控制,将人从决策过程中移除,让他们专注于构建业务差异化因素并加速创新。

Nitin Werma,亚马逊云科技的一位首席解决方案架构师,接着讨论了亚马逊云科技如何建立其云自动化实践,并分享了最佳实践和关键概念。

飞轮概念 Nitin介绍了飞轮概念,这是亚马逊用来实现运营卓越和随时间降低服务价格的机械类比。在自动化的背景下,飞轮代表从未定义的手动工作过渡到创建自动化、获得一致性,并最终实现运营效率的过程。

随着持续的自动化努力使飞轮获得动力,组织可以将之前花费在手动任务上的时间和资源重新用于业务创新、降低服务价格、提高生产力,或让员工有更多时间与家人和朋友在一起。

云自动化实践的原则 Nitin强调建立原则或防护栏来指导云自动化实践的重要性。亚马逊云科技的原则是:

  1. 自动化重复性任务:不断提醒识别和自动化耗时、重复性的任务。
  2. 投资回报:自动化工作应提供有形的投资回报,而不仅仅是为了好玩或自动化本身。
  3. 避免重复发明轮子:利用现有的自动化构建模块,将新的自动化注入现有解决方案,而不是从头开始。
  4. 从第一天开始测量:从一开始就持续测量自动化工作的影响和有效性。

这些原则和飞轮概念构成了建立、支持和管理云自动化实践的基础。

人员、流程和技术 Nitin概述了亚马逊云科技云自动化实践中涉及的四个关键角色或实体:

  1. 用户:在亚马逊云科技的情况下,平台运营团队识别手动任务和自动化机会,收集数据并传递给治理团队。
  2. 治理团队:由技术项目经理和系统开发经理组成,负责管理实践、根据来自用户、客户和工具的输入确定自动化需求的优先级,并遵守防护措施和业务实践。他们将优先级需求传递给开发人员。
  3. 开发人员:平台工程团队使用DevOps实践构建自动化。
  4. 安全:安全贯穿于每个阶段,确保自动化的安全构建和执行,并与治理团队合作进行决策。

这些实体以循环、持续改进的方式工作,形成一个良性循环,推动自动化飞轮向前发展。

优先级指标 治理团队面临着根据各种标准(包括数据可用性、紧急程度、临时解决方法、影响、投资回报和关键性)确定自动化工作优先级的挑战。为此,亚马逊云科技开发了云自动化优先级指标。

以亚马逊云科技托管服务功能为例,Nitin阐释了该指标如何在0到10的量表上测量紧急程度和影响等类别。得分越高,自动化的优先级就越高。这种数据驱动的方法有助于治理团队确定传入请求的优先级,并将其传递给开发团队。

自动化开发生命周期 亚马逊云科技的自动化开发生命周期遵循与传统软件开发生命周期类似的过程,但有两个关键区别:

  1. 早期反馈:为确保自动化不会由于缺乏人工干预而失败或产生意外响应,最终用户会参与测试阶段(α、β、γ),提供反馈和评审。
  2. 用户代码贡献:用户可以访问Git存储库,并直接提交代码更改以修复次要错误或问题。如果提交符合防护措施和检查,则会自动部署到生产环境;否则,将由工程团队优先处理。

这种创新和改进的持续循环推动着自动化飞轮向前发展,使组织能够获得运营效率并识别新的自动化机会。

技术示例:IAM和支持案例处理 Nitin提供了亚马逊云科技内部自动化的两个实际示例:身份和访问管理(IAM)以及支持案例和工单处理。

IAM自动化 跨数百个账户和应用程序管理IAM策略可能是一项艰巨且容易出错的任务,因为一个字符的错位就可能授予意外的访问权限,从而危及安全性。此外,由于业务需求和API变化,IAM策略需要持续的治理和运营。

为解决这一挑战,亚马逊云科技的平台运营团队识别出手动IAM更改请求的模式,收集了有关请求量和类型的数据,并将这些信息传递给治理团队。治理团队根据优先级指标确定了IAM自动化的优先级,工程团队开发了IAM自动化管道和基础设施即代码解决方案。

由此产生的自动化集成到现有的中央自动化工具(OpsCLI)中,实现了跨数百个账户安全、可扩展和高效的IAM CRUD(创建、读取、更新、删除)操作。这种自动化将解决时间(TTR)提高了34%,在一年内节省了6,700个工时,显著提高了客户满意度。

支持案例和工单处理 运营团队经常面临管理来自客户的多个支持案例和工单的挑战,需要分析数据、了解问题并执行适当的运书。传统的案例管理工具并非为自动化而设计,严重依赖于自由文本输入、人工干预和大量运书,从而增加了人为错误的风险。

亚马逊云科技利用AI/ML和大型语言模型(LLM)对支持案例进行分类,并推荐适当的运书。如果置信度满足预定义的阈值,自动化引擎将执行推荐的运书来解决案例。如果置信度较低,则将输出传递给人工操作员进行验证和反馈。

这种由Amazon Comprehend、Bedrock和Amazon Kendra等服务支持的自动化工单分类和推荐服务,截至2024年第三季度,实现了高达99%的分类准确率和85%的推荐准确率。

Nitin提供了一个实时示例,客户支持案例要求将新的VPC附加到传输网关并更新VPC路由表。系统准确地分类了操作类型,识别出三个最相关的运书,并提供了相应的OpsCLI命令和内部Systems Manager (SSM)文档以执行操作。

持续改进和自动化飞轮 自动化飞轮概念阐释了自动化所实现的持续改进循环。随着组织自动化任务、分析数据、评估自动化率并获得运营效率,飞轮获得了动力。这种动力使组织能够更快地识别频繁的请求,从而以更快的速度开发新的自动化,进一步降低服务价格或大规模提高生产力。

运营模式和托管服务 Nitin承认,在建立云自动化实践时,不同组织可能有不同的优先事项、技能和时间限制。他讨论了亚马逊云科技 Well-Architected Framework的运营卓越支柱中概述的四种运营模式,从分散到集中。

虽然没有对错模式,但Nitin观察到许多客户倾向于从分散(1)到部分集中(2)模式,然后再发展到更集中的模式(3或4)。这种转变使组织能够通过利用托管服务提供商的人员、流程和技术来加速其云自动化实践,后者已经投入多年时间构建自动化构建模块。

Nitin以亚马逊云科技托管服务为例,它起初的自动化率约为40%,现已通过AI和ML实现了95%的自动化率。他强调了亚马逊云科技托管服务开发的一些关键自动化,包括资源标记强制执行、持续合规性、资源调度以优化成本、Trusted Advisor发现的可信修复程序、补丁编排、基础设施任务的自动修复以及噪音减少。

Nitin建议考虑托管服务的组织应确保随着时间的推移减少依赖,并选择按使用付费模式以保持灵活性。

关键要点和行动号召 Nitin总结了两个关键要点和一个行动号召:

  1. 自动化至关重要,但围绕它建立云自动化实践是实现高效有效的运营、获得运营卓越并实现预期业务成果的关键。
  2. 组织可以自行建立云自动化实践,利用托管服务提供商的经验和工具来加速其旅程,或者采用混合方法。

Nitin的行动号召是让与会者识别一项耗时且令人头疼的手动任务,对其进行自动化,测量影响,并将其作为在组织内建立云自动化实践的案例。

总之,演讲者强调在亚马逊云科技上自动化重复的基础设施任务以提高运营效率并实现运营卓越的重要性。他们提供了真实的使用案例和建立整体云自动化实践的见解,该实践结合了人员、流程和技术。自动化飞轮概念、优先级框架和持续改进循环被强调为组织最大化投资回报并通过自动化推动创新的关键推动力。

下面是一些演讲现场的精彩瞬间:

演讲者强调本次会议的重点是自动化重复的基础设施任务,以提高运营效率,并在组织内部建立云自动化实践。

2f7df6972bfae5b917cc1419fefed12f.png

亚马逊云科技强调通过遵循最佳实践、构建有弹性的基础设施、识别和缓解风险、从一开始就优先考虑安全性以及优化资源以实现成本效率,来实现运营卓越。

32a3ddff8e8ea7933590dd1069333cae.png

强调了在多个账户和整个云足迹中实现治理、审计、日志记录、标记和成本优化等运营卓越能力的重要性。

dfaee94e44b080dbe737ccb618fca38f.png

强调了标准化和配置管理对于满足不同环境和合规性要求的可扩展工作负载的重要性。

5ac53cf188c8e406384a43451ee69426.png

治理团队根据数据可用性、紧迫性、影响、投资回报率和关键性,对自动化任务进行优先级排序,以确保业务和客户的自动化高效有效。

c79bf72dcd4d33b12f941c74b733f1b6.png

亚马逊云科技引入了云自动化优先级指标,用于衡量紧迫性和影响,帮助根据数据可用性、客户问题和总体评分来确定自动化工作的优先级。

29bc21fc910b44ca5a8481094c050ff5.png

演讲者鼓励观众识别一项可以自动化的手动任务,衡量其影响,并为其业务中的云自动化做出论证。

7180bc6ce4b1c583252b61d675bd6503.png

总结

在这个富有洞见的会议中,Priyanka Tutoredi和Nitin Werma深入探讨了在实现亚马逊云科技上的运营卓越中,自动化的变革力量。他们强调了自动化重复的基础设施任务以提高效率、降低成本和减轻风险的重要性。通过引人入胜的用例,他们展示了如何通过标准化、标记以及利用亚马逊云科技服务(如Config、EventBridge、Lambda和Systems Manager)来简化工作流程并加快决策过程。

Priyanka重点介绍了三个关键场景:修复安全组配置错误、优化未附加的EBS卷以及自动化RDS SSL证书轮换。每个示例都展示了通过自动化手动重复任务可能带来的时间和成本节省。然而,她强调,仅仅依赖自动化是不够的;在组织内建立云自动化实践对于持续运营卓越至关重要。

Nitin深入探讨了建立云自动化实践的基础概念和最佳实践。他介绍了飞轮概念,强调通过自动化实现持续改进和动力积累。他还讨论了作为防护栏的原则,例如自动化重复任务、确保投资回报、避免重复发明轮子以及从第一天开始衡量影响。

Nitin进一步阐述了云自动化实践中人员、流程和技术方面的内容。他强调了用户、治理团队、开发人员和安全团队的角色,以及跨团队协作和自动化优先思维的重要性。他还分享了使用AI/ML和自然语言处理自动化身份和访问管理(IAM)操作以及支持案例处理的真实世界示例。

最后,Priyanka和Nitin鼓励与会者将自动化视为创新、成本优化和运营卓越的催化剂。他们强调利用托管服务提供商来加速建立健全的云自动化实践之旅的潜在好处,同时逐步减少依赖。会议最后呼吁与会者识别并自动化手动任务、衡量影响,并在各自的组织内倡导云自动化实践。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值