亚马逊EC2的最新动态
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Nitro, Cloud Computing, Ec2 Instances, Nitro System, Graviton Processors, Instance Optimization]
导读
参加本次会议,了解来自亚马逊云科技的最新计算创新。听听如何利用最近推出的Amazon EC2实例和功能。本次会议将帮助您更好地理解Amazon EC2实例,以及像您这样的组织如何使用它们来运行任何工作负载,同时满足您的成本、性能和可持续性目标。
演讲精华
以下是小编为您整理的本次演讲的精华。
在2024年的亚马逊云科技 re:Invent大会上,Amazon EC2副总裁Volum Fiser发表了一场引人入胜的主题演讲。Fiser自十多年前在南非开普敦加入亚马逊云科技以来,一直是公司的核心成员。他的演讲围绕着Amazon Elastic Compute Cloud (EC2)的最新进展和更新展开,这项开创性的云计算服务彻底改变了整个行业。
Fiser首先回顾了EC2的起源,当时需要重新构想计算的方式。亚马逊云科技推出云计算时有两个主要目标:首先,为客户提供工具和服务,使他们能够安全可靠地在云中运行几乎任何工作负载;其次,以更低的成本提供卓越的性能。
从最初在弗吉尼亚北部的一个区域起步,亚马逊云科技经历了惊人的增长,现已在全球拥有34个区域,另有6个区域正在建设中。公司的全球足迹包括108个可用区和41个本地区域,服务于245个国家和地区。仅在2023年,亚马逊云科技就推出了惊人的510亿个EC2实例,而在2024年这一数字已经超过了数百亿。
为了满足客户的不同需求,亚马逊云科技不断扩展其实例类型,从2006年的m1实例开始。该公司是首家推出基于英特尔、AMD和苹果的实例的云提供商,还推出了自己的Graviton处理器和NVIDIA GPU。最初的m1实例配备了1.7 GHz的Xeon处理器、1.75 GB内存、160 GB本地磁盘存储和250 Mbps的网络带宽,每小时收费10美分。
随着工作负载的演变和对不同特性的需求,亚马逊云科技随后推出了计算优化和内存优化实例。Nitro系统通过将虚拟化功能卸载到专用硬件和软件上,成为EC2的核心组件,推动了诸多实例创新。
Fiser强调了早期基于软件的虚拟机管理程序所面临的挑战,包括CPU和内存开销。Nitro系统解决了这些问题,提供了更好的安全性、加密和严格的访问控制。值得注意的是,由于Nitro安全芯片持续监控和验证实例硬件和固件,亚马逊云科技的任何人或服务都无法访问EC2实例中使用的客户数据。
亚马逊云科技已推出了五代Nitro系统架构,每一代都在延迟、吞吐量和数据包处理能力方面有所改进。新推出的第六代Nitro V6卡解锁了前所未有的性能、规模和功能,单张卡可实现超过400 Gbps的吞吐量。
由Nitro V6和Graviton 4处理器驱动的C8gn实例,允许客户以极高的吞吐量从S3或数据湖摄取、处理和馈送数据,同时扩展性能和吞吐量,优化成本。C8gn实例非常适合实现高性能文件系统,如Lustre,可提供高达400 Gbps的网络带宽,数据包处理性能是现有网络优化实例的两倍。
Fiser还讨论了Graviton,这是亚马逊云科技为EC2设计的通用处理器,旨在提供最佳的性价比。在过去两年中,超过50%的新CPU能力都部署在了亚马逊云科技数据中心的Graviton实例上,展现了这款处理器在客户中的令人难以置信的采用率和受欢迎程度。
最新推出的Graviton 4是迄今为止最强大、最节能的处理器,能源消耗比其他芯片低60%。客户如Zendesk利用亚马逊云科技 Graviton实例,实现了每月碳排放量减少50%的惊人成就。
Fiser强调了对真实工作负载进行基准测试的重要性,而不应完全依赖可能无法在生产环境中实现最佳性能的微基准测试。亚马逊云科技分析了在Graviton 3和Graviton 4上运行MySQL等客户工作负载,观察到了更低的敏感度和性能提升。通常情况下,客户在运行MySQL这种真实工作负载时,性能比Graviton 3提高了40%。
Graviton 4实例(如C7g、R7g和M7g)提供高达30%的计算性能提升、三倍的内存处理能力(适用于高性能数据库)以及更高的能源效率。这些实例非常适合扩展到三倍的CPU和内存,支持高性能数据库、内存缓存和大数据分析工作负载。
除了优化真实工作负载的性能外,Graviton 4还在安全性方面树立了新的标杆,通过验证、监控和保护主机启动过程的每个阶段,并为DRAM、Nitro卡和CPU之间的QPI链路提供全加密的高速硬件接口。
亚马逊云科技推出了Graviton节省仪表板,提供客户当前Graviton使用情况的洞察、迁移指导和潜在成本节省,帮助做出明智决策。
资本一号公司的高级副总裁兼杰出工程师Ed分享了该公司管理云生态系统和做出明智决策的方法。资本一号于2016年采用云计算,旨在赋予其快速增长的开发人员团队权力,并推行“你构建它,你拥有它”和“自助餐规则”的原则。
资本一号的云演进团队在确保分布式决策方面发挥着关键作用,包括通过自助服务工具、分析大型应用程序和大量使用的亚马逊云科技服务,以及容量规划计划。Ed演示了内部工具Optic Cloud,这是一款基于亚马逊云科技数据构建的工具,提供了关于EC2实例、利用率和各种服务(如RDS、DynamoDB和无服务器应用程序)优化建议的详细信息。该工具还计算了一个支出效率指标,以激励团队优化使用情况。
资本一号利用来自亚马逊云科技的详细计费数据、资源标记和运营遥测数据为应用程序团队生成洞察。该公司还对新实例类型和芯片系列进行基准测试,以了解它们在真实工作负载上的性能。
Ed强调在采用新实例类型时需要保持灵活性,并指出GPU利用率指标的挑战以及需要更好的功率指标来准确测量效率。资本一号与英特尔和AMD等行业合作伙伴合作,了解来自硅的指标,并将功率指标纳入其遥测管道,从而更准确地评估基于GPU的系统利用率。
接下来,亚马逊公司的首席产品营销经理Art Baudo讨论了亚马逊云科技实例的命名约定,以及最近推出的Amazon EC2实例查找器,这是一项由生成式AI驱动的服务,帮助客户做出准确和经济的实例选择决策。
Baudo解释了客户可用的各种购买选项,包括按需实例、节省计划、现货实例(可节省高达90%的费用)和容量块(用于在系统内预留容量)。亚马逊云科技为容量块引入了额外功能,如即时容量块、更长期限的容量块和容量块扩展,允许客户加速GPU和机器学习工作流程、预留长达六个月的容量,并根据需要延长预留。
对于高性能计算(HPC)工作负载,亚马逊云科技提供了专门的产品组合,最近推出了亚马逊云科技并行计算服务,简化了大容量实例和集群的迁移和设置,减少了作业管理和迁移所需的工作量。
在人工智能领域,亚马逊云科技看到客户使用的GPU数量和参数数量快速增长,有些客户在2024年要求超过10万个GPU,参数数量接近万亿级。亚马逊云科技为机器学习工作负载提供了完整的实例组合,包括NVIDIA GPU、英特尔的Gaudi Habana、高通实例以及自己的推理和Trinium实例。
新推出的Trinium 2实例由16个Trinium II芯片通过Neuron Link互连而成,为深度学习工作负载提供出色的性价比。Trinium 2 Ultra Servers通过连接四个由Trinium 2驱动的实例,提高了可靠性和安全性,在单个服务器中可提供高达83.2 peda-flops的性能。
EC2 Ultra Clusters允许客户扩展到数十万个Trinium 2芯片,利用高带宽、低延迟的EFA网络互连,实现AI计算的快速增长。Baudo还宣布了即将推出的Trinium 3实例,其计算能力将是Trinium 2的两倍,在相同性能下能耗降低40%,并基于3纳米工艺node。
演讲最后总结了2024年推出的各种EC2实例,鼓励客户尝试Graviton处理器,并探索大会上的可持续发展努力和博览会。
总而言之,亚马逊云科技 re:Invent 2024大会展示了亚马逊云科技持续创新和致力于通过其EC2服务为客户提供前沿计算资源、优化性能和经济高效的解决方案。此次大会涵盖了广泛领域的更新和公告,包括Nitro系统、Graviton处理器、人工智能和机器学习实例、高性能计算以及采购选项,彰显了亚马逊云科技在云计算领域的领导地位。大会强调了亚马逊云科技满足客户不断发展需求的能力,提供多种实例类型、优化性能和创新解决方案,推动各行业的技术进步。
下面是一些演讲现场的精彩瞬间:
Volum Fiser,Amazon EC2 的副总裁,回顾了他在 亚马逊云科技 的旅程,这一切始于十多年前在南非开普敦,当时他加入了构建弹性计算云服务(现在称为 EC2)的团队。
亚马逊云科技 推出了由 Nitro V6 和 Graviton 4 处理器驱动的 C8gn 实例,提供高达 400 Gbps 的网络带宽和两倍的数据包处理性能,用于高吞吐量数据摄取和处理。
演讲者解释了传统基准测试如何加压 L3 缓存并展示后端停顿,表明由于基准内核的重复性质,CPU 流水线的后端难以找到足够的工作。
Capital One 的云演进团队不断对新的实例类型和芯片系列进行基准测试,以确定最有效的硬件选择适用于他们的应用程序,从而提出优化资源利用和节省成本的建议。
亚马逊云科技 解释了他们折扣实例的陷阱,如果需要回收实例,将提前 2 分钟发出优雅关闭的通知,适用于每月工资计算等有时间限制的工作负载。
推出 Trinium 2 Ultra 服务器,这是一种新的 EC2 产品,通过高带宽低延迟的 Neuron Link 连接 4 个 Trinium 2 驱动的实例,在单个服务器中提供高达 83.2 peda-flops 的计算能力。
演讲者鼓励与会者在会议期间参观凯撒论坛的可持续发展博览会。
总结
在这个引人入胜的叙事中,我们踏上了亚马逊 EC2 不断演进的旅程,在那里创新和以客户为中心的解决方案占据主导地位。故事从 Amazon EC2 副总裁 Fiser 回顾 EC2 十多年前的创立开始,讲述了不懈追求为客户提供无与伦比的性能和成本效率的过程。
Fiser 深入探讨了具有里程碑意义的 Nitro 系统,这是一种专用的硬件和软件架构,为实例创新解锁了诸多可能,提高了安全性、加密能力和性能。他揭示了第六代 Nitro V6 卡,承诺前所未有的吞吐量和网络能力。
叙事随后转向 亚马逊云科技 自主研发的 Graviton 处理器,旨在为云端提供最佳的价格/性能比。Fiser 分享了一个惊人的统计数据:在过去两年中,落户 亚马逊云科技 数据中心的新 CPU 容量中,有超过 50% 是 Graviton 实例,这证明了它们卓越的采用率和能源效率。
从客户的角度来看,Capital One 的 Ed 登场,强调在 亚马逊云科技 不断创新的同时,选择的重要性。他分享了 Capital One 分布式决策的方法,利用诸如 Optic Cloud 等工具和对真实工作负载进行基准测试,以优化实例选择并节省成本。
故事的高潮是亚马逊首席产品营销经理 Art Baudo 展示了在 re:Invent 2024 上推出的最新 EC2 功能和实例。从人工智能驱动的 EC2 实例查找器到突破性的 Trinium 2 和 Trinium 3 实例,旨在以前所未有的计算能力和能源效率加速人工智能工作负载,EC2 的未来充满无限可能。
在结束时的行动号召中,Baudo 挑战观众利用这些创新成果,塑造计算的未来,让我们受到启发,渴望探索 Amazon EC2 无穷的潜力。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。