点燃公共部门创新,创造更美好的明天
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, S3 Tables, Data Storage Innovations, S3 Bucket Limits, S3 Metadata Management, Data Lake Optimization, Generative Ai Training]
导读
公共部门的格局正在迅速变化,为组织带来了需要前所未有的变革性方法来应对的复杂障碍。加入Dave Levy,亚马逊云科技全球公共部门副总裁,他将探讨前沿的人工智能和机器学习解决方案如何正在革新这一领域。通过真实案例获得洞见,并发掘无限潜力,以推动变革并为公民、选民、学生、军人、患者等群体创造更美好的未来。
演讲精华
以下是小编为您整理的本次演讲的精华。
在亚马逊云科技 re:Invent 2024活动上的一场引人入胜的演讲中,亚马逊云科技副总裁兼Distinguished Engineer Andy Warfield带领观众领略了存储解决方案的非凡演进历程,展示了亚马逊云科技存储服务的最新创新和进步。凭借对行业挑战的深刻理解和对技术进步的敏锐洞察力,Andy巧妙地将技术见解与现实应用无缝融合,让观众受益匪浅,深受启发。
Andy以摄影的转变与存储解决方案的进步作比喻,开启了演讲。他回忆起胶片摄影时代,当时捕捉记忆需要在暗房精心冲洗35毫米胶片,与现代数码相机和AI/ML驱动的工具相比,显得格外繁琐。这个类比有力地提醒人们,尽管保存高质量记忆和创作美丽艺术的目的从未改变,但相关的流程和技术却在几十年间发生了深刻变革。
Andy自然过渡到亚马逊云科技存储服务,揭示了这些服务运营的惊人规模。他透露,十年前,S3仅有不到100个客户拥有超过1PB的数据,当时这已是一项了不起的成就。然而,如今已有数千个客户运营在这一规模,有些甚至达到EB级别。令人难以置信的是,在这种指数级增长中,服务仍保持一贯的一致性和透明度,这是亚马逊云科技团队不懈努力的见证。
Andy深入探讨了S3内部复杂的运作方式,阐明了亚马逊云科技团队为优化性能和效率而采用的创新方法。他解释了硬盘固有的局限性,尽管在密度和容量方面取得了长足进步,但由于其机械性质,性能仍受到限制。在现代硬盘上,磁头与盘面之间的飞行高度仅为1纳米,约为10个碳原子的距离。Andy强调,尽管硬盘不断推动数据密度的极限,但其每秒操作数(OPS)在几十年来一直停滞在100到120次左右。为解决这一挑战,亚马逊云科技团队不断创新,采用了诸如分离存储机架和利用亚马逊云科技 Nitro虚拟化硬盘等技术,确保了最佳性能和灵活性。
深谙数据的热力学特性,Andy强调了跨数百万物理硬盘聚合工作负载和平衡数据的重要性。这种方法不仅实现了性能平滑,而且还确保了客户的成本效益,因为众多租户的聚合产生了整体存储工作负载的平滑效应,使个别S3客户能够获得远远超过自身系统的存储性能。Andy透露,数万个客户存储桶分布在超过100万个物理硬盘上,这是个人客户几乎无法复制的非凡壮举。
在整个演讲过程中,Andy阐述了亚马逊云科技存储服务所面临的各种限制和挑战,以及团队如何努力消除或放宽这些约束。他讨论了对Amazon FSx、Amazon EFS和S3等服务所做的改进,包括提高性能、增加吞吐量限制,以及取消诸如每个账户的存储桶限制(提高至100万个存储桶)等数值限制。EFS团队实现了每个文件系统读取IOPS提高10倍,文件系统吞吐量提高2倍至60GB/秒,而FSx Lustre团队与EFA集成,实现了每个客户端高达150GB/秒的吞吐量。
其中一项引人注目的重大公告是推出S3 Tables,这是S3内置的一流托管Iceberg表抽象。S3 Tables提供了优化的性能,查询性能提高3倍,TPS提高10倍,因为每个表实际上都呈现为自己的资源端点。此外,S3 Tables通过IAM提供表级访问控制,而亚马逊云科技则负责持续维护和优化表内容,确保客户获得最佳性能和效率。
Andy还介绍了S3 metadata预览功能,允许客户自动索引并存储S3中对象的metadata。S3 metadata为对象metadata提供了可查询的系统表,支持强大的数据发现、血统跟踪,并能够用自定义metadata丰富数据。这一功能使客户能够更深入地了解自己的数据,从而做出更明智的决策并推动创新。
在整个演讲中,Andy强调了metadata和管理在处理大量数据时的重要性,并以Adobe的生成式AI训练管道为例。该管道利用S3中数千万张库存照片训练生成式图像模型。Adobe的团队构建了包括边缘检测、深度感知,甚至图像文本摘要在内的metadata,并将其与照片相结合,以有效训练模型。
为进一步说明亚马逊云科技存储服务在现实世界中的影响,Andy邀请了两位客户分享他们的经验:Nubank的Kat Swetel和罗氏制药公司的Ashwini Sonder。
Nubank代表Kat Swetel讨论了公司对S3的广泛使用,存储了超过325PB的数据,每月惊人地进行了18万亿次S3 API调用。她回顾了面临S3存储桶限制的挑战,以及采取的缓解策略,包括建立集中式存储域和实施专用存储账户。Kat的见解突出了Nubank对亚马逊云科技存储服务的依赖,以及他们为克服限制而采取的创新方法,使他们能够顺利扩展业务。Nubank由S3支持的日志平台在单日处理了超过1PB的日志,展示了其运营的巨大规模。Nubank广泛利用S3,在不同国家部署了超过4,500个微服务,每个微服务都依赖于多个S3存储桶。
来自罗氏制药公司的Ashwini Sonder分享了医疗保健行业面临的数据挑战的宝贵见解,强调了数据驱动创新和个性化医疗保健的重要性。她透露,医疗保健行业贡献了所有行业数据总量的近30%,预计到2025年年增长率将达到36%,远高于制造业的6%和媒体行业的11%。Ashwini讨论了罗氏在整个价值链中利用数据的方法,从药物发现到患者护理,以及构建的架构,用于整合来自40多个不同数据源的结构化、半结构化和非结构化数据,总计超过100TB的数据和每天3,000次数据摄入。
Ashwini重点介绍了罗氏构建推荐系统的用例,利用AI和MLOps预测及时、有针对性和个性化的见解,为利益相关者提供服务。该系统旨在减轻医疗专业人员的信息收集和管理负担,让他们有更多时间照顾患者。罗氏的架构利用S3作为坚实的数据存储,与公司的分析工具无缝集成,提供了可扩展性、便利性和经济效益。
Ashwini的演讲揭示了处理多种数据类型的复杂性,以及强大的数据基础在实现有意义的见解和改善患者结果方面的关键作用。她强调了投资人力和技能、彻底简化可扩展架构以及健全数据基础(包括主数据、metadata存储、计算和目录)的必要性。
总之,Andy Warfield在亚马逊云科技 re:Invent 2024上的演讲堪称巅峰之作,展示了亚马逊云科技存储服务的非凡进步和创新。从解决规模和性能挑战,到推出突破性功能如S3 Tables和S3 metadata,Andy的演讲令观众惊叹于亚马逊云科技为组织提供强大、高效和可扩展存储解决方案的决心。
Nubank和罗氏等客户分享的见解进一步加强了这些创新在现实世界中的影响力,突出了亚马逊云科技存储服务如何让组织释放数据的全部潜力、推动创新,并为更美好的明天铺平道路。Andy的演讲有力地证明了亚马逊云科技对卓越的不懈追求,激励与会者拥抱技术的变革力量,为数据驱动的解决方案开辟通往更繁荣、更可持续发展世界的道路。
下面是一些演讲现场的精彩瞬间:
Andy是一位亚马逊云科技工程师,在reInvent2024活动上以幽默的语气向观众致辞,承认存在技术困难。
亚马逊强调现代硬盘令人难以置信的密度和容量,它们不断超越预期,实现了大规模成本效益数据存储。
亚马逊云科技在整个存储堆栈上进行创新,包括使用亚马逊云科技 Nitro分离存储机架和虚拟化硬盘,从而实现更大的灵活性和简单性。
Amazon FSx OpenZFS引入了智能分层到S3,与基于SSD的FSx相比,成本降低了85%,同时在跨层移动数据时提供了卓越的性能。
强调管理和策划大量数据以发掘其潜在价值并实现快速应用程序开发的重要性。
Adobe创新的训练管道利用元数据和GPU,使用数百万张库存照片训练生成图像模型,实现高级图像理解和生成。
演讲者强调存储已经发展到更加无缝,并积极促进跨摄影、视频、音频和文档等各种数据类型的数据处理。
总结
在这场引人入胜的演讲中,亚马逊云科技副总裁和杰出工程师Andy Warfield带领我们探索了亚马逊云科技存储服务的演进历程。他深入探讨了亚马逊云科技如何创新和扩展其存储系统,尤其是S3,以满足客户日益增长的需求。Andy分享了团队面临的挑战,例如随着数据密度增加而管理硬盘性能,以及他们实施的解决方案,如分离存储机架和利用亚马逊云科技 Nitro。
Andy还强调了各种亚马逊云科技存储服务的最新增强功能,包括推出S3 Express One Zone以支持低延迟工作负载、取消EFS和FSx Lustre的性能限制,以及将S3存储桶限制突破性地提高到1,000,000。接着,他揭示了两项令人兴奋的新产品:S3 Tables,一种用于结构化数据的托管Iceberg表抽象,以及S3 Metadata,一个自动索引和存储S3对象元数据的系统表。
演讲中还包括来自Nubank和罗氏公司的客户案例分享,他们分享了利用亚马逊云科技存储服务推动创新和改善患者护理的经验和见解。Nubank的Kat Swetel讨论了他们如何缓解S3存储桶限制挑战,并构建了由S3支持的日志平台,而罗氏公司的Ashwini Sonder则强调了在医疗保健行业中强大的数据基础、员工技能提升和简化架构的重要性。
贯穿整个演讲,Andy强调了元数据和管理在释放存储在亚马逊云科技存储服务中数据真正价值方面的重要性。他分享了客户如Adobe如何利用元数据训练生成式AI模型的例子,以及S3 Metadata简化数据发现和血统跟踪的潜力。
总之,Andy的演讲展示了亚马逊云科技在持续创新、简化客户存储管理以及通过前沿服务和功能帮助客户从数据中获取最大价值方面的承诺。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。