为创新注入动力:通过自动化实现卓越运营
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, OpsCenter, Operational Excellence, Infrastructure Automation, Cloud Automation Practice, Automation Flywheel, Automation Tenets]
导读
企业开始云转型时必须采用亚马逊云科技最佳实践来简化运营并优化成本。在本次会议中,了解亚马逊云科技如何通过整合人员、流程和技术来开发自己的自动化实践。探索推动增长和创新的策略,并保持竞争优势。深入了解亚马逊云科技平台运营和工程方法,以自动化任务、确定计划优先级,并针对一些实际运营用例实现跨职能协作。此外,还将听取一家领先金融服务客户的分享,了解亚马逊云科技云自动化如何提高运营效率和节省成本,从而为创新再投资提供支持。
演讲精华
以下是小编为您整理的本次演讲的精华。
演讲者首先承认了DevOps工程师和技术领导者在管理跨多个工作负载和账户的重复基础设施任务时所面临的挑战。他们旨在展示如何自动化这些任务可以提高运营效率,并使组织能够建立云自动化实践。
Priyanka Tutoredi,亚马逊云科技的一位高级经理,介绍了本次会议的议程,包括讨论在亚马逊云科技上实现运营卓越的关键目标、探讨三个具体的用例,其中发现了效率低下的问题,以及深入探讨建立云自动化实践。她强调,本次会议将重点介绍亚马逊云科技如何将自动化与文化层面相结合,以实现预期的成果。
运营卓越与亚马逊云科技最佳实践 Priyanka将运营卓越定义为持续改进运营,以确保有效和高效地实现业务成果。她强调关注效率、效力、持续改进流程、监控绩效以及最大化投资回报的重要性。
在亚马逊云科技上构建基础设施或工作负载时,最佳实践包括为故障而构建、创建有弹性的工作负载和基础设施以确保业务正常运行。设计决策还应识别和减轻风险、从一开始就优先考虑安全性,以及优化资源利用和成本。
运营卓越能力包括管理登陆区域、治理、审计、日志记录和标记。Priyanka强调标记的关键作用,因为这将贯穿整个会议。这些能力通常应用于多个账户和整个足迹,需要协调一致的方法来实现多账户成果、合规性和可扩展性。
用例1:安全组补救 在第一个用例中,Priyanka讨论了一个场景,其中一个EC2实例的安全组允许所有入站流量,这通常不是一个理想的配置,除非有合理的使用案例。Amazon Config将触发一个规则并通知安全或DevOps团队。但是,由于缺乏对工作负载要求的背景了解,这些团队无法直接修改安全组。
典型的工作流程是安全团队与应用程序所有者或业务所有者联系,以寻求对更改的许可。在获得批准后,DevOps工程师将修改安全组。这个过程可能需要一到两周或更长时间,在此期间,安全风险仍然存在。此外,对于需要进行相同更改的每个实例,无论是应用程序还是账户,都需要重复整个工作流程。
Priyanka提出了一种利用标准化的替代方法。配置存储库将存储有关工作负载、账户号码、环境类型(例如非生产)、工作负载类别(从基本到面向客户或合规)以及其他独特特征的信息。
流程将涉及Amazon Config触发规则,然后EventBridge(无论是计划的还是实时合规性通知服务)调用Lambda解决方案。Lambda将读取配置存储库,并将EC2实例标记映射到定义的策略(例如,允许在每月的第一个星期六),以确定是否允许进行更改。如果允许,它将使用亚马逊云科技 Systems Manager OpsCenter创建运维项目和运书,以补救安全组配置。然后将向业务所有者发送有关更改的通知。
这种方法简化了工作流程,减少了等待时间,在多个账户中标准化了流程,并确保根据预定义的策略和标记进行更改。
用例2:删除未附加的EBS卷 第二个用例解决了未附加EBS卷的常见