“我们能获得的数据已经到头,不会再有更多了。”图灵奖获得者Jeffrey Hinton 的得意弟子、前 OpenAI 首席科学家 IIya Sutskever 本月发出“预训练将因数据耗尽而结束”的判断堪称炸裂,却也揭示了数据资源对于当前AI技术爆炸、数字大厦构建的重要性。
对更多的企业来说,这样的挑战还很遥远。然而,构建更高效、更灵活、低成本的数据湖架构,以支撑更大规模数据存储与分析,依然是建设数据驱动企业加强行业竞争力应对未来商业竞争的 P0 级大事。
在 2024 亚马逊云科技 re:Invent 大会上全新发布的 Amazon S3 Table 云对象存储,正是为了满足这一需求而生。S3 Table 不仅简化了大规模存储表格数据的复杂性,提供最多 3 倍的查询性能提升,还能与 Amazon 云服务无缝集成,为数据分析提供了强大的动力支持。
现在,亚马逊云科技又给开发者带来了好消息:可以通过新发布的实验深入体验 S3 Table 带来的先进技术与产品功能。
Amazon S3 Tables:推动关键数据基础设施变革
Amazon S3 Tables 提供首款内置 Apache Iceberg 支持的云对象存储,简化大规模存储表格数据。通过开放兼容的 Apache Parquet 格式,Iceberg 的第三方查询引擎也可以直接访问 S3 Tables 数据。
Amazon S3 Table的核心优势在于其可扩展性、增强的性能和完全托管的特性。无论你是刚入门还是要在 Iceberg 环境中管理数千个表,S3 Table都能简化任何规模的数据湖。与将 Iceberg 表存储在通用 S3 存储桶相比,S3 Table 的查询性能最多可提高 3 倍,每秒事务数(TPS)最多可提高 10 倍。
S3 Table 与 Amazon Glue Data Catalog 集成,提供高级 Iceberg 分析功能,并且可以使用熟悉的云服务如 Amazon Athena、Redshift 和 EMR 查询数据。
此外,S3 Table 允许将表创建为一级AWS资源并应用权限,并 执行连续的表维护任务,如压缩、快照管理和未引用文件删除,不仅大幅减轻数据管理工作的负担,还能以随着时间的推移自动优化查询效率和存储成本。
实验亮点:为快速获取数据洞察扫清一切障碍
在“洞察数据价值 —— 利用 Amazon S3 Table 构建数据湖及可视化系统”的实验中,亚马逊云科技提供了一个全面的学习体验,逐步引导参与者深入探索 S3 Table 的核心功能和价值,了解如何基于 S3 Table 构建数据湖可视化系统。
通过数据初始化、行级过滤策略和限制访问配置等步骤,参与者将亲身体验 S3 Table 在数据湖场景中的高效数据管理与分析。实验还将展示如何与Amazon Athena 等分析工具无缝集成,如何实现数据湖数据摄取,以及大屏可视化系统构建,快速获得数据洞察。
此前,S3 自行管理 Iceberg 表面临的元数据管理、快照管理、查询写入性能等挑战,需要大量的工程工作,而本实验为参与者展示了一种的全新方案。
实验收益:笑傲数据湖技术前沿
这个难度级别为 L200 的新实验,尤其适合数据工程师、解决方案架构师与大数据分析开发人员。
通过本实验,你将获得 S3 Table 的实战经验,深入了解其在数据湖架构中的核心功能及价值,包括分区策略与行级数据过滤。通过利用 Athena 等工具对 S3 Table 数据进行高性能查询,参与者将掌握如何构建现代数据分析平台的实践基础。参与者把这些知识应用到自己的工作环境中,将可提升数据处理和分析的能力。
在海外,目前已经有不少企业将 S3 Tables 列入未来战略的重要组成部分,为企业发展提供快速、灵活和可靠的数据见解,同时减轻表维护方面的开销。
现在扫码参与本实验,即可卡位数据湖技术的前沿,提升数据湖架构的查询性能与灵活性,掌握最新的数据管理和分析技能,一起开启数据驱动的新篇章。