吴炳锡:AI 时代下的湖仓一体化平台建设的思考

随着企业数字化转型的深入推进,实时数据仓库与湖仓一体化架构已成为现代数据平台建设的核心议题。在业务节奏日益加快的今天,企业不仅需要处理海量的历史数据,更需要实时洞察数据变化,快速响应市场需求。如何在保证数据一致性和可靠性的前提下,实现数据湖的灵活性与数据仓库的高性能完美融合,成为每一位数据架构师面临的重大挑战。

在第 16 届中国数据库技术大会(DTCC2025)的「实时数仓与湖仓一体应用实践(上)」专场中,Databend 联合创始人吴炳锡带来了主题为《AI 时代下的湖仓一体化平台建设的思考》的深度分享。

本文基于演讲内容整理而成,不仅回顾了从传统数据库到现代湖仓一体化架构的技术演进历程,更重要的是提出了面向AI时代的数据平台建设新思路。通过对传统架构痛点的深入剖析,以及对 Databend 创新解决方案的详细阐述,将看到存算分离、云原生架构如何为企业数据处理带来革命性的变化。

传统大数据架构和 OLAP 结合的挑战

发展至今,大数据架构经历了 4 次大的迭代,每个阶段都代表着技术架构的重大突破和应用场景的显著扩展。

第一代技术以 Oracle、DB2、Sybase 等为代表,建立了数仓理念的基础框架,采用单机或主备数据库架构。这一阶段奠定了关系型数据库的理论基础,但在处理大规模数据时面临明显的性能瓶颈;

第二代技术的核心突破在于引入了 MPP(大规模并行处理)架构,以 2003 年的 Greenplum 和 2005 年的 Vertica 为标志性产品。这种架构通过多节点并行化调度,实现了节点间存储和计算资源的自耦合运算,显著提升了数据处理能力;

第三代技术迎来了大数据时代的全面爆发。从 2003-2006 年谷歌发表的三大论文开始,到 2008 年 Hadoop/Hive 的普及,再到近年来 Presto、Impala、Hudi、Iceberg、DeltaLake 等技术的不断涌现,最终形成了"湖仓一体"的架构理念。这一阶段以 HDFS 分布式存储为基础,结合 MapReduce、Spark、Flink 等计算框架,构建了松散耦合的系统套件组合。这个阶段实际上只能处理结构化和半结构化数据,不支持对非结构化数据的处理;

 ****3.5 ****代技术代表了架构优化的重要节点,以 ClickHouse、Doris、Starrocks 为代表,通过升级现代化 MPP 架构,引入向量化执行、负载均衡、预聚合等技术,实现了大数据格式的全面兼容;

第四代技术标志着云原生时代的到来,Snowflake 和 Databend 等产品充分利用云平台的基础设施能力,实现了弹性计算、存储分离、网络安全管理等功能的深度整合,可以处理、计算结构化、半结构化、非结构化,以及时空类数据等多模态的数据。

第三代湖仓架构往往包含四五十个组件,系统维护极其繁琐。当单个硬盘出现故障时,运维人员需要执行一系列复杂操作:从配置文件中移除故障硬盘、重启系统、更换硬盘、重新配置并加入新硬盘。由于硬盘故障频繁发生,这种运维工作几乎每天都在重复,严重影响了系统稳定性和运维效率。

数据管理层面的问题同样严重。表分区过多会导致 MetaData 存储的 CPU 使用率直接飙升至 100%,小文件数量激增使得文件扫描效率极低,甚至连基本的count 查询都无法正常执行。这些技术问题直接影响了系统的可用性和查询性能。

在这种复杂架构下,大数据团队的工作状态令人担忧。团队成员经常需要加班处理数据搬运和核对工作,甚至被戏称为"大数据搬运工"。为了应对各种复杂的架构挑战,行业内发明了许多具有中国特色的概念,如数据中台、指标平台等,但这些概念往往增加了系统的复杂性而非简化问题。

面对这些挑战,企业用户迫切需要一个支持存算分离、无状态计算、流批一体且架构简单易用的解决方案。理想的产品应该具备几个核心特性:

  • 事务支持( ACID  是基础要求。许多大数据产品忽视了事务问题,容易造成数据丢失,这在生产环境中是不可接受的风险。
  • 时间旅行(Time Travel) 功能具有重要的实用价值。这项功能允许用户随时查询历史数据,对比不同时间点的数据差异,甚至直接查询特定历史时刻的数据状态。更重要的是,当用户误删数据时,只需一个命令就能完成数据恢复,这在国内项目中堪称救命技能。
  • 并发读写能力是现代数据系统的必备特性。传统大数据产品往往缺乏并发读写支持,也不考虑更新操作。而现代解决方案需要支持 merge into、update 等复杂语法,满足实际业务的多样化需求。
  • 独立于存储的消费模式对成本控制至关重要。在云环境中,存储往往是大数据系统最昂贵的部分。许多企业的数据规模达到 PB 级别,如果按照峰值容量建设存储基础设施,成本将极其高昂。以生物制药公司为例,DNA 数据分析过程中单次可能产生 PB 级数据,但分析周期仅为 3-6 个月,之后数据就会被清理或归档。通过云上对象存储的按需付费模式,企业可以根据实际使用量付费,而非按照峰值存储容量建设,从而显著降低总体拥有成本。

传统大数据架构在实际应用中面临六个经典问题,这些问题在传统技术框架下往往缺乏有效的解决方案:

  1. 服务异常海量日志导致平台雪崩。在接入应用日志的大数据场景中,当应用系统出现异常时会产生大量日志数据,严重情况下会导致 Kafka 消
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值