左移架构 -- 从攒批，湖仓到使用数据流的实时数据产品

最新推荐文章于 2025-12-23 23:02:55 发布

原创

最新推荐文章于 2025-12-23 23:02:55 发布 · 911 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#架构 #云计算 #Kafka #云原生

编辑导读: 这篇文章翻译自 Kai Waehner的《The Shift Left Architecture – From Batch and Lakehouse to Real-Time Data Products with Data Streaming》。文章通过数据产品的概念引出了如何创建可重复使用的数据产品使企业能够从当前和未来的数据中获得价值。基于构建数据产品发挥数据价值的基本思想，作者提出了利用Apache Kafka 以及 Flink 来构建左移架构，在data pipeline的前端尽早构建优质的数据产品，并且将原始实时数据流通过iceberg格式进行入湖和后续的分析消费。该文充分说明了 Apache Kafka 在当前现代化的左移数据栈中如何发挥重要的作用。AutoMQ[1] 是全球唯一一款与 Apache Kafka 100% 完全兼容的新一代 Kafka，可以做到10倍成本降低和极速的弹性，因此以下方法论也完全适用于 AutoMQ，欢迎使用我们 Github 开源的社区版本或者联系我们进行商业试用。

数据整合是每个企业面临的重大挑战。批处理和反向ETL是数据仓库、数据湖等存储方案中的常见方法。这些方法可能带来数据不一致、计算成本高和信息过时等后果。本文介绍了一种新的设计模式来解决这些问题：左移架构（the Shift Left Architecture）。左移架构通过实时数据产品实现数据网格（Data Mesh），利用 Apache Kafka、Flink 和 Iceberg 统一事务性和分析性工作负载。一致的信息通过流式处理或提取到 Snowflake、Databricks、Google BigQuery 或任何分析/AI 平台。以此提高灵活性，降低成本，并实现数据驱动的公司文化，提高创新软件应用的上市速度。