大胆构想,小步实施:何时扩大规模,何时简化

大胆构想,小步实施:何时扩大规模,何时简化

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Rust, Iterative Architecture Approach, System Complexity Reduction, Cost Optimization, Human Factors Consideration, Cloud Workload Patterns]

导读

创建云架构可能令人困惑和望而生畏。我何时需要多个可用区或区域?我应该使用或避免哪些服务?什么时候应该进行垂直扩展,什么时候应该进行水平扩展?如何优化以实现持久的商业价值和敏捷性?在本次讨论中,您将听到从与成功的亚马逊云科技客户合作中获得的见解和指导。了解亚马逊云科技如何看待不同的架构层级,如何培养简单性和可靠性的工程方法,以及如何将基础设施视为一项投资,包括权衡和回报。

演讲精华

以下是小编为您整理的本次演讲的精华。

在亚马逊云科技 re:Invent 2024活动上的一场富有洞见力的演讲中,一位经验丰富的亚马逊云科技架构师分享了他关于在系统中实现规模与复杂性之间适当平衡的架构方法的见解。他从与亚马逊云科技开发团队和客户合作的丰富经验中汲取经验,强调了领导力技能和心智模型在实现这种微妙平衡中的关键作用。

演讲者首先对比了迭代式架构方法与传统的前期设计过程。他巧妙地运用了自行车、三轮车和独轮车的比喻,说明本质上最简单或最稳定的设计未必是最实用的解决方案。通过迭代和现实世界的反馈,折衷的自行车架构被证明是最佳选择,从而强调了这种迭代方法的重要性。

演讲者强调了预先定义成功指标的重要性,主张持续测量并根据收到的反馈调整原型。这种迭代过程,加上从一开始就关注成本考虑因素,有助于确保系统的优化和高效,符合实现规模与复杂性之间适当平衡的总体目标。

为了佐证他的观点,演讲者分享了一些关于成本考虑因素如何影响亚马逊云科技架构决策的有见地的例子。其中一个例子涉及编程语言的选择,亚马逊云科技必须在深入投资Rust还是Go之间做出决定。尽管两种语言都有不同的优势,但最终的决定是由人为因素驱动的,例如吸引顶尖人才的潜力以及每种选择相关的机会成本。这一决策过程凸显了人为因素在架构决策中的重要性,这是演讲者整个演讲的一个重要主题。

另一个例子强调了在选择构建单体服务还是微服务时的决策过程。演讲者解释说,亚马逊云科技主要会问是否存在需要紧密耦合代码的严格性能要求,或者在所选框架中,开发人员相互阻塞的成本是否可以随时间衡量。再次强调了人为因素,如开发人员生产力和机会成本,而不仅仅是技术考虑因素。

在云架构模式方面,演讲者将工作负载分为四大类型,并提供了优化每种类型的有见地的指导:

  1. 高可用性云模式:这些工作负载部署在多个可用区中,以实现弹性和冗余。演讲者强调,跨更多可用区分布负载可以显著降低开销并提高容错能力。例如,在五个可用区中部署的客户,在发生可用区故障时只需要25%的开销,而在两个可用区部署中则需要100%的开销。这种方法不仅降低了成本,而且还提高了整个系统的整体弹性。
  2. 尽力而为工作负载:这些工作负载几乎没有冗余,只在单个可用区中运行。演讲者指出,对于诸如机器学习训练等工作负载,规模至关重要,并行运行多个副本可能是不可行或无法承受的。在这种情况下,重点转移到优化高效硬件并利用服务文档来识别潜在的优化机会。演讲者举例说明,客户通过专门安排一名团队成员彻底研究核心服务(如EKS、SageMaker Batch和Glue)的文档,并根据发现实施相对不太侵入性的优化,从而实现了可观的节省。
  3. 高度隔离系统:这些工作负载通常面向政府或受监管行业,需要专用环境,如Amazon Local Zones,客户是唯一的租户。对于这些工作负载,重点是合理规模和优化基础设施使用。演讲者还强调,在一些对变更控制要求严格的行业(如交易所)中,正出现从传统的40小时工作周模式转向24/7运营模式的新趋势。这种转变不仅提高了可用性,而且降低了峰值与平均值之比,从而在行业层面上可能节省成本。
  4. 全球分布式工作负载:这些工作负载常见于媒体、娱乐和游戏行业,跨多个区域或边缘位置运行,以实时为终端用户和消费者服务。演讲者警告不要采用在多个区域中部署冗余基础设施的天真方法,因为这可能导致规模急剧膨胀。相反,他主张仔细评估每个区域是否需要冗余,并探索主动-主动部署模型,这可以带来与跨区域内多个可用区分布负载相当的显著成本节省。

在整个演讲过程中,演讲者强调培养一种促进、奖励和激励简单性和效率的文化的重要性。他强调需要严格的优先级流程,以确保开发人员专注于最具影响力和最有利可图的任务,以及在整个组织的各个层面提供成本透明度的开放式财务系统。

演讲者分享了一个关于他为非营利组织进行的一个副项目的个人经历,在那里他管理着一个专门的亚马逊云科技账户,并像任何其他客户一样为服务付费,没有任何折扣。他强调,通过采用在re:Invent上宣布的节省成本的功能,他能够替换核心基础设施组件并实现快速节省,体现了保持与时俱进并持续优化系统的重要性。

庆祝运营胜利是演讲者强调的另一个关键方面。在亚马逊云科技,团队定期提名并庆祝他们提高系统性能、减少运营开销或提高效率的实例。这种做法不仅加强了持续改进的文化,而且还起到了认可机制的作用,个人可以凭借取得这些运营胜利而获得晋升。

演讲者还谈到了从一开始就将成本考虑因素纳入架构决策过程的重要性。他对许多团队和客户在财务团队提出疑虑之前都没有考虑成本影响的情况表示惊讶。通过让开发人员和团队从一开始就参与成本讨论,组织可以做出更明智的决策,避免潜在的陷阱。

在一个令人信服的例子中,演讲者回顾了一位客户的经历,他们最初为一个团队设定了一个预算,期望他们在一年内保持在该预算范围内。然而,当该团队的工作被证明是高度有利可图时,这种做法适得其反,因为坚持预先确定的预算将限制他们利用增长机会的能力。这一经历凸显了将激励措施和决策过程与业务目标和盈利能力保持一致的重要性。

在整个演讲过程中,演讲者强调了领导力技能在推动架构决策和培养持续改进文化中的重要性。他鼓励领导者提出正确的问题,例如“我们现在真的需要这样做吗?”或“我们能推迟这项优化一段时间吗?”这些问题有助于确定优先事项,并确保资源集中在最具影响力和最有利可图的计划上。

最后,演讲者对看到客户在亚马逊云科技的基础设施之上构建并应用自己的模式来实现更大的效率和节省表示兴奋,这最终将惠及终端用户和公民。他对亚马逊云科技在构建健壮的基础设施方面所做的努力表示自豪,同时也承认正是客户将这些解决方案真正推向前沿,影响着普通人和社区的生活。

总的来说,这场演讲全面深入地探讨了在规模与复杂性之间实现平衡的架构方法,强调了领导力技能、迭代过程、成本考虑因素和持续改进文化的关键作用。通过分享真实世界的例子和实用指导,演讲者为组织提供了一个宝贵的路线图,帮助它们优化系统,在不断发展的云计算领域取得长期成功。

下面是一些演讲现场的精彩瞬间:

Andy Jassy强调开放式财务系统的重要性,避免为盈利团队设置僵化的预算,鼓励开发人员专注于增长和创造价值。

d5eb50d3e8f3344c9aa77e49da7c89fe.png

亚马逊云科技致力于为大规模ML训练等尽力而为的工作负载提供高可用性的基础设施,在这种情况下运行多个冗余副本是不经济的。

2a70797d6a0a40ad984572bd0f728942.png

通过从40小时的商业模式转向24/7的云模式,可以提高可用性和效率,降低各行业的峰值与平均值之比和成本。

a1729594eacbf6e96a22d46823372569.png

Andy Jassy强调了全球分布式工作负载的潜在成本节约和架构优化,并强调了评估冗余需求和适当利用主动-主动模式的重要性。

fa0ade4ba5b9f93c09b56e1ab2aed055.png

亚马逊云科技庆祝运营胜利和效率提升,促进持续改进的文化,以提供满足客户需求的可持续架构和服务。

0a228e72a845b4f877eb78c8ac6a7ab8.png

总结

在这个富有洞见的演讲中,演讲者深入探讨了建筑设计的艺术,强调了迭代过程、成本意识和领导力技能的重要性。他们分享了一种心智模型,该模型包含迭代、原型制作和数据驱动的决策,以在系统中实现适当的规模和复杂性平衡。

演讲者强调了前期规划、定义成功指标以及持续测量的价值,从而根据实际反馈进行调整。他们强调了尽早将成本考虑因素纳入其中、推广开放式财务系统以及赋予开发人员成本可见性的重要性。

演讲探讨了各种架构模式,如高可用性、尽力而为、隔离和全球分布式工作负载,提供了优化复杂性和成本占用的见解。演讲者强调了领导力技能在培养奖励简单性、调整激励措施并庆祝运营效率胜利的文化中的作用。

最后,演讲者强调了迭代、数据驱动的架构方法的重要性,结合了一种优先考虑成本意识、简单性和持续改进的文化,从而能够交付可持续和市场适应性强的系统,为客户创造价值。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值