传统数据仓库正在被 Agentic AI 吞噬?Agentic Data Stack 初探

作者 | 郭炜 白鲸开源 CEO,Apache 基金会成员

摘要:从技术架构的角度看,我认为这一次的AI浪潮将深刻影响整个软件生态。DSS 系统的设计是以人作为最终消费者的决策支持逻辑为中心,然而,随着 Agentic AI 时代来临,最终的“消费者”更可能是 agent,对数据仓库和复杂 ETL 链路将被重新设计,甚至消失。传统数据仓库偏重结构与查询模式,会被 Agentic Data Stack 架构强调语义与响应模式取代。

一、引言:Snowflake 换 CEO 背后的信号

2024 年春天,云数据仓库的明星公司 Snowflake 宣布换帅,前 Google 广告业务负责人 Sridhar Ramaswamy 接替了曾带领 Snowflake 实现 600 亿美元估值的传奇 CEO Frank Slootman。

如果你只是把这当成一次高管轮换,理解就不够透彻,因为这背后真正的隐喻是,数据仓库世界的范式,正在悄然巨变。

技术的演进,从来不是线性推进,而是技术的跃迁,从 OLTP 数据库到 MPP 数据仓库,从 MPP 本地化计算到向量化云数仓引擎,都是一个技术跃迁到另一个技术,从一个产品霸主到另一个产品霸主。

Slootman 是“数据仓库黄金时代”的代表。他押注云原生、押注多租户架构、押注 Snowflake 成为新一代数据平台的中枢,直接在市场上干掉了我从业的第一家公司——当年的数据仓库霸主 Teradata(从 102 亿美金市值到现在 20 亿美金市值)。就在他功成身退的这一刻,Snowflake 官方博客的关键词悄然切换:AI-first、Agent-driven、语义导向的数据架构。

这不是巧合,这是风向。

同一时间,硅谷最具前瞻性的风投们正在押注“Agentic AI”这个新概念:AI 不再只是一个模型,它是一个能感知、能行动、有目标、有协作能力的 Agent。

那么问题来了:

当 AI 不再只是“聊天工具”,而是能主动感知业务变化、理解意图并执行操作的智能体时,传统数据仓库这样的为“人”建造的决策支持系统还可以满足 Agent 的需要么?

数据仓库曾是企业的“重要的数据资产”,如今,却可能沦为 Agent 的“数据素材库”。甚至连“素材”这个词都在贬值,因为 Agentic DataStack 可以直接访问原始数据,并以语义+数据的形式直接供给给上层各类 Sales Agent,Risk Agent 直接使用;而数据仓库里无语义、冗余的数据只能留给传统 BI 和数据开发人员来消费。

真正危险的不是被淘汰,而是你还在运行上一代范式的规则,而世界已经换了剧本。

这不是对数仓的轻视,而是历史的轮回。正如当年 Hadoop、Iceberg 的崛起重构了数据湖,今天,Agentic AI 正在重写企业级的大数据架构。

二、1970-2024:数据仓库架构是如何演进的

1970:数据仓库之父:Bill Inmon

数据仓库之父 Bill Inmon 首次提出“面向主题、集成、时变、不可更新的数据集合”这一概念(EDW),奠定了后半个世纪企业数据架构的基石。

我本人也有幸在 20 多年前在北京大学的时候,在唐世谓教授带领下,学习并参与翻译《数据仓库》第一版,这本书里对主题域、数据分层架构和缓变维(历史拉链表)的描述,从上个世纪一直沿用到今天,成为整体数据仓库的奠基之作。

1983:Teradata 诞生,MPP 架构横空出世

1983 年诞生了未来 30 年横扫所有企业数据仓库基础设施的公司 Teradata,这也是我毕业后第一份工作所在的公司。首次将 MPP(大规模并行处理)架构引入数据处理系统,Teradata凭借软硬一体的基于 Bynet 的 MPP 架构,在超大量级数据处理和复杂 SQL 的情况下,比

### 豆包与文心一言的 RAG 技术类型分析 豆包(Doubao)和文心一言(ERNIE Bot)作为当前主流的大语言模型工具,其背后的技术架构在信息检索与生成方面均有不同程度的 RAG(Retrieval-Augmented Generation)应用。然而,从公开资料和实际应用表现来看,两者在 RAG 技术的实现上存在差异。 豆包在信息检索与生成的流程中更倾向于采用**传统 RAG**架构。其核心在于通过预定义的检索器(如 BM25、DPR 等)从外部知识库中提取相关信息,并结合语言模型进行生成。这种方式在结构上较为固定,适合处理标准化的查询任务,例如事实性问答或文档摘要生成。这种架构的优势在于实现简单、响应速度快,适合大规模部署[^2]。 文心一言则在部分高级功能中引入了**Agentic RAG**的思想。其系统架构中包含了任务分解、多步骤推理、工具调用等机制,使得模型能够根据用户意图动态地构建检索路径,并在多个知识源之间切换。这种架构具备更高的灵活性和适应性,适用于复杂查询、多轮对话以及需要上下文感知的场景[^1]。 在具体实现上,文心一言的 Agentic RAG 模块可能包含以下特征: - **任务规划器**:能够根据用户输入自动生成检索策略,并决定是否需要调用外部数据库或API。 - **多级检索器**:结合关键词检索与语义向量检索,提升信息召回率与相关性。 - **动态生成器**:在生成阶段引入反馈机制,确保生成内容与原始查询保持高度一致,并支持引用标注功能。 豆包虽然在基础层面上仍采用传统 RAG,但其后续版本中也逐步引入了部分 Agentic RAG 的优化策略,如查询改写、内容压缩、答案引用标注等,以提升系统的智能化程度[^1]。 ### 示例:传统 RAG 与 Agentic RAG 的对比代码结构 以下是一个简化版的 RAG 流程代码,分别展示传统 RAG 与 Agentic RAG 的实现方式: #### 传统 RAG 示例 ```python from langchain.retrievers import BM25Retriever from langchain.chains import RetrievalQA from langchain.chat_models import ChatOpenAI # 初始化检索器 retriever = BM25Retriever.from_documents(documents) # 初始化问答链 qa = RetrievalQA.from_chain_type( llm=ChatOpenAI(), chain_type="stuff", retriever=retriever ) # 执行问答 response = qa.run("什么是量子计算?") print(response) ``` #### Agentic RAG 示例 ```python from langchain.agents import initialize_agent, AgentType from langchain.chains import RetrievalQA from langchain.vectorstores import FAISS from langchain.embeddings import OpenAIEmbeddings # 构建向量数据库 vectorstore = FAISS.from_documents(documents, OpenAIEmbeddings()) retriever = vectorstore.as_retriever() # 初始化检索问答链 qa = RetrievalQA.from_chain_type( llm=ChatOpenAI(), chain_type="map_reduce", retriever=retriever ) # 构建智能体 agent = initialize_agent( tools=[qa], llm=ChatOpenAI(), agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True ) # 执行智能体驱动的查询 response = agent.run("请解释 RAG 与 Agentic RAG 的区别") print(response) ``` ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DolphinScheduler社区

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值