去年底的2024 AWS re:Invent大会,新任CEO Matt Garman发布了一众与AI相关的新服务。在这些新服务中,新的Amazon S3 Tables服务看似不起眼,却对于未来数据存储有着深远影响。
在当时的发布现场,笔者与多位技术专家进行交流,均认为Amazon S3 Tables的发布是以Apache Iceberg为代表的开放表格发展历程的重要时刻,不仅仅标志着AI时代下基于对象存的开放表格在湖仓一体的霸主地位,更意味着对象存储作为主存储的时代正加速到来。
那么,开放表格目前市场情况如何?三大开放表格彼此之间的竞争情况如何?为什么开放表格格式是对象存储的理想选择?开放表格的流行为什么会像当初Hadoop的崛起一样,在未来的AI世界中占据数据分析的霸主地位?
近日,数据库和数据湖技术专家Brenna Buuck对此进行了深度分析。对此,大数据在线进行编译与解读。
开放表格:湖仓一体的关键组件
现代化的湖仓一体架构建立在三个关键组件之上:存储层、开放表格式式和计算引擎。
这其中,开放表格格式(Open Table Formats)和对象存储(Object Storage)正在重新定义构建数据系统的方式,成为可扩展、高效且面向未来的现代化湖仓一体架构的基石。
现代化湖仓一体架构采用模块化设计,且充分利用对象存储的可扩展性、灵活性和成本效益等优势,以及开放表格的高级元数据管理功能和跨不同计算引擎的互操作性,帮助企业与组织满足现代工作负载的需求。
在存储层,现代化湖仓一体架构通常采用对象存储作,以方便存储结构化、半结构化和非结构化数据。而开放表格则充当元数据抽象层,提供类似数据库的功能,包括 Schema、分区和版本控制,以及 ACID 事务、Schema 演变和时间旅行等高级功能。最后,Spark、Presto、Trino 和 Dremio 等计算引擎与开放表格式交互,以大规模处理和分析数据,使用户能够灵活地选择最适合其工作负载的工具。

现代化湖仓一体架构的核心设计思路是算和存储的分解,充分利用对象存储、开放表格和各种计算引擎进行交互,既满足大规模处理和分析数据的需求,又具备足够的灵活性和扩展性,不会受制于供应商。
在AI应用蓬勃发展和高级分析需求日渐增多的大趋势下,打造现代的湖仓一体架构依然成为企业与组织在数字化转型中的必选项。
数据架构的演变
企业的数据架构最早要追溯到在线事务处理 (OTLP) 数据库等早期系统。由于OLTP数据并不具备分析功能,所以在线分析处理 (OLAP) 系统随后开始出现,针对查询结构化数据进行优化,但无法有效处理半结构化和非结构化数据。
随着互联网、移动互联网的快速发展,半结构化、非结构化数据成为数据

最低0.47元/天 解锁文章
3689

被折叠的 条评论
为什么被折叠?



