“
导语
数据将是未来 AI 竞争的胜负手。
今年伊始,随着 deepseek 和 manus 等 AI 技术的火爆,技术浪潮将大模型从技术研究快速推向场景落地的关键阶段,以腾讯、阿里、字节为代表的互联网厂商凭借海量用户和丰富的生态资源,在通用大模型领域不断升级进化,并快速迭代 AI 相关的应用。与此同时,金融机构也迅速入局,利用其交易、风控、客户画像等高质量数据,加速布局智能投顾、信贷风控、智能客服等领域,并快速切入场景和应用落地。
”
金融智能化的浪潮奔涌而至,全球头部机构的实践正验证一个铁律: AI的天花板,由数据地基的深度与纯度决定。Gartner 在今年 3 月提出了一个观点,随着大语言模型能力的提升和商品化的加速,特定的LLM 将不再视为企业组织 GenAI 成功的关键因素。企业机构难以获取和复制的独特内部数据(Uniquedata)将成为 AI 成功之旅的核心竞争力来源(参考图 1)。只有那些有能力通过先进的数据管理技术持续发现高价值数据并将其转化为企业数据资产的组织,才能在不断演进的 AI 技术浪潮中快速实现业务价值。
图1 : 企业数据与AI平台价值金字塔
金融行业落地Data+AI的三大核心矛盾
对于金融行业而言,虽然掌握交易、画像、资产等高质量数据,但如何将这些“数据富矿”转化为驱动 AI 的“高纯度燃料”,是未来金融机构面临的三大核心矛盾:
矛盾一:多源异构数据的整合困境
核心痛点:数据孤岛林立,难以形成统一视图。
数据来源极其广泛且格式多样:用户交易数据、客服录音、市场研报等等;系统烟囱林立,接口复杂;数据标准与质量参差不齐;
实时性要求高:实现多源异构数据的整合并保证低延时是巨大挑战。
矛盾二:领域知识匮乏与模态鸿沟
核心痛点:AI 技术专家缺乏金融专业知识,业务专家难以理解 AI内核,且跨模态数据难以有效融合和利用。
领域知识壁垒:金融业务逻辑复杂且专业性强,AI 工程师通常缺乏领域知识;
业务与技术沟通屏障:业务人员难以理解AI 原理,对 AI 抱有不切实际的期望或对“黑箱”决策产生不信任感;
跨模态数据融合困难:金融数据天然包含多种模态;
可解释性与信任机制:复杂的通用大模型或垂类行业模型往往缺乏可解释性,在高度强调风险和合规控制的金融领域,无法解释模型为何做出某个决策。
矛盾三:数据安全与价值释放的博弈
核心痛点:如何在保障数据安全与隐私的前提下,最大化挖掘数据价值?
监管合规压力大:金融行业是全球监管最严格的行业之一;
敏感数据高度集中:大量个人隐私信息、商业秘密;
数据共享与协作鸿沟:出于安全和竞争考虑,不同部门/子公司的数据共享存在天然障碍;
大模型本身的安全风险:AI 模型可能存在对抗攻击误导,或泄露训练数据中的敏感信息的风险。
这三大矛盾相互交织,构成了金融行业数据价值释放的主要障碍。鉴于本文篇幅和云厂商的能力聚焦,我暂不展开人才组织管理和数据安全管理的方向探讨。着重展开金融数据基座的能力构建,这涵盖云原生、数据开发一体化与Data Agents 生态等能力,构建面向 AI-Native 的统一数据智能平台。
在 Data+AI 这一火热的方向,从持续融合与发展的能力的建设角度考虑,可以分为三个层面去研究和探讨,分别是:数据应用层、开发治理层与底座能力层(参考图 2)
图 2 Data+AI 能力建设分层
一、数据应用层
——构建人机协同的智能体应用生态
从数据应用的层面看,随着Agent的技术迅速发展与成熟,Data Agent的领域将不断扩大,它将不再以单一智能体的形态出现,而是代表具有“数据分析能力”的智能体生态。未来这些具有数据串接能力和分析能力的Data Agents,后续将与业务发展紧密结合,与传统业务应用深度融合,成为业务发展最直接和重要的能力。
2025 年 4 月,微软在《Work Trend Index Annual Report 》报告中提出,前沿企业在 AI 转型的过程中会出现三阶段的进化路径:人机协作、代理同事和人类主导-代理执行(参考图 3)。这与AI agent 的能力跃迁和扮演的角色息息相关,Data Agent 的角色和能力范围也会愈发强大。
Phase 1 Human with assistant 个人助手。Data Agent 作为数据分析人员的个人助手;
Phase 2 Human-agent teams 代理同事。Data Agent 作为团队成员承担独立数据分析任务;
Phase 3 Human-led,Agent-operated 人主智行。Data Agent 具有高度自主化数据处理和总结能力,独立承担数据相关工作和职责。
图 3 三阶段进化路径
尽管AI Agent 的能力会不断增强,但是在金融领域,机构对于数据的安全性、严谨性的高要求,也会对于数据智能体的协作模式产生不同的需求。针对金融行业的数据智能体,我总结了以下五大设计原则:
自主性(Autonomy):在严格预设的业务规则与风控边界内,智能体应能独立执行分析、决策、交易流程。
安全性(Safety):构建金融级安全防线,涵盖数据加密、Agent 权限管理和抗 AI 攻击。
可解释性(Interpretability):核心在于模型透明与审计追踪。
持续进化(Sustainability):具备在线学习、增量学习能力。
开放性(Openness):基于标准化接口(如OpenAPI、MCP server),实现智能体间及与传统系统的无缝协同。
遵循以上的设计原则,人与智能体会有非常深入的交互协作模式。在数据分析场景而言,对整体的应用层的交互和设计上也会有很大的革新。未来在Data Agent 时代,人机的交互将进行分层,更多的需求到实现的逻辑会在智能体之间实现,而人类主要做的是确认和验证的工作。
二、开发治理层
——构建面向 AI 的一体化数据开发管理平台
Data Agent时代的交互将趋向于分层化、自治化,这就要求其运行基座——数据开发管理平台必须进行革新。这个平台不仅要能够驾驭Data Agent的“智能”,更要深刻理解其运作逻辑,有效约束其行为边界,需要三大核心能力:
(一)构建面向 AI 的智能资产管理中枢
在传统模式下,数据资产目录往往是一个静态的“图书馆目录”,主要服务于人类分析师。对于Data Agent,它需要的并非一份简单的清单,而是一张赋予其理解与行动能力的、动态的“智能知识图谱”。面向AI的数据资产管理,核心在于超越传统元数据管理的范畴,构建起一套Agent可以直接理解、调用并反馈的动态语义中枢平台。
1、资产认知的升维:构建统一语义知识库
深度语义建模与标注 :平台需具备强大的自然语言理解和知识图谱构建能力。它不仅要抓取基础元数据,更要通过嵌入领域知识库,理解每个数据项背后的含义及流程中的角色。举个例子,“客户最近交易总额”这个字段,,对Agent需要标记其业务定义(如:取最近3个月所有非测试账户的入金交易净额)、关联指标(如“最近消费总额”)、原始表路径(用于追溯与调试);
上下文感知与意图理解 :当业务人员或Agent以自然语言形式提出查询需求(如:“筛选一个月内购买过A理财产品且风险等级为R3以上的高净值活跃客户”),资产平台能结合对话语境、Agent角色、任务类型,深度解析其真实业务意图,并精准映射到背后所涉及的“客户画像表”、“资产持仓表”等实体资产,理解查询中各概念的约束关系;
动态关系捕捉与智能推演 :数据口径会因业务规则变化或监管政策变化而更新。平台需要主动捕获这些变化,清晰地标记语义层面的“演化轨迹”与关联影响范围。
2、资产的AI 自适应表达:构建 Agent 看得懂的数据地图
多模态接口适配:平台提供多种类型、易操作的接口访问数据资产知识图谱。
自然语言接口 :支持Agent通过自然语言与平台进行高效对话。
向量化嵌入服务 :知识图谱的重要语义信息被预训练为高质量的向量,直接嵌入到Agent的内部推理模型中,大幅提升其对语义的理解能力,提高响应速度。
3、资产的智能适配与推荐:成为Agent的“数据导航员”
情境化推荐 :基于当前任务、行为模式、环境参数的综合感知,平台能主动推荐最适合的的核心数据资产及其关键指标解释;
资产组合智能分析 :平台能基于已有的各模块级数据资产组件,诊断现有的“资产拼图”是否完整;
质量与可用性状态智能感知 :Agent在决策时需要依赖数据的时效性和准确性。
(二)构建Data+AI 一体化开发平台
AI+Data一体化开发平台的核心在于将AI驱动的自动化与数据工程深度融合,为构建Data Agent及其应用提供端到端、高度灵活化的开发流水线。实现这一愿景,平台须具备三大核心一体化能力:
1、交互式开发一体化
这是平台连接人类智能与机器智能的首要入口。
自然语言作为核心编译层 :业务需求方(如领域专家、产品经理)可使用自然语言直接描述复杂意图;
可视化引擎 :提供图形化、组件化的可视化编排界面;
即时验证与反馈机制 :集成实时数据沙箱与轻量化仿真引擎。
2、DataOps与MLOps一体化:
构建端到端的自动化治理型流水线,旨在打破数据工程(DataOps)与机器学习工程(MLOps)间的流程壁垒。
统一编排引擎驱动的融合流水线
AI增强型过程自动化
嵌入式治理与全景可观测
监控一体化
3、AI助手一体化:
深度赋能的协同中枢,一体化的AI 助手不仅仅是辅助工具,更是平台的智能决策引擎与知识协同网络,通过插件化架构实现能力无限延展。
全生命周期赋能
知识资产化
插件化生态
(三)构建智能化的数据自治系统
在Data Agent的时代,治理不应再是围栏边界的检查站,而应成为融入平台运行脉络中的“神经网络调控中心”,实现数据的自动监管与主动体检。
1、智能化的数据质量监控:
复杂规则的学习与生成
多维度健康度评估
自适应质量校准
2、实时感知驱动的治理策略优化:
治理规则动态调优
环境敏感治理
3、内生式安全策略的动态实施:
Agent行为可信度评估审计
策略驱动的数据安全弹性收缩机制
构建统一的Data+AI 的一体化开发管理平台,其最终价值在于:消除从业务洞见到数据智能产出的“最后一公里摩擦”。腾讯 Wedata 3.0 平台,正是从服务集团内部业务需求出发,支撑了包括金融科技、广告推荐、游戏等核心业务的数据开发与治理需求,未来在企业服务领域将持续深化AI与数据工程的融合,以“智能开发范式”推动数据价值向业务决策的实时转化。
图4 腾讯云 Wedata3.0平台架构
三、底座能力层
——构建面向AI 原生的数据底座
数据智能体的爆发式增长,正在倒逼底层基础设施的架构范式发生根本性迁移。传统以“实时与离线割裂”“多系统烟囱式协作”为主的数据平台,在未来Dataagent 的高并发推理、低延迟决策及跨模态认知的需求下会日益捉襟见肘。对于AI原生时代的数据底座需要考虑三大核心能力:
(一)流批融合引擎:重塑计算范式
金融业务对时效性的需求呈现两极分化——高频交易需毫秒级风控响应,客户画像训练需PB级吞吐。
6 月份Databricks Summit 大会上,Spark发布了 4.0新特性,在实时模式上做了更多的增加和优化。在面向Data Agent未来的多元化场景,能够通过实时感知作业运行时态的数据特征和资源状态,动态切换优化策略,是面向AI 原生流批融合的核心本质。
以腾讯云自研的流批一体化流湖引擎Setats为例,用户可以通过 Setats 引擎实现统一存储、统一流批增量多种处理模式,解决传统Lambda架构中流和批链路分离导致的维护、管理和业务变更的高成本问题。下图5是 setats 的方案架构。
图 5 腾讯云Setats方案架构
腾讯云 Setats 有以下六大核心特性:
支持 Changelog 增量机制
支持批处理与 OLAP 查询
秒级数据可见性
支持存算分离的 State 管理
支持丰富的 Upsert 逻辑
原生兼容 Apache Iceberg
(二)智能湖仓一体架构
金融业的智能湖仓架构可以通过元数据统一化、存储开放化和计算弹性化,构建弹性可扩展的数据架构。在技术实现层面,湖仓一体的架构可以参考以下关键能力的设计:
1、统一元数据服务:
湖仓一体架构的核心枢纽,主要总结为以下几点:
统一元数据模型与存储机制:构建可扩展的元数据模型,利用图数据库存储血缘关系,并通过ES建立全文索引以加速检索;
自动化采集与集成元数据:多源适配与实时同步,被动推送和主动拉取 ;
智能化元数据治理能力:包括数据血缘与影响分析,可视化展示数据从源端到消费端的全链路路径;
统一服务化接口与开放集成:多协议服务兼容,开放表格式支持。
2、存储开放化:
存储开放化是智能湖仓架构的核心支柱之一,其核心在于打破传统存储系统的封闭性,通过标准化的接口、开放的数据格式和灵活的架构设计,实现异构数据的统一存储与治理。
开放表格式与数据接口:基于开放表格式的元数据管理,支持事务性ACID操作和多版本控制,实现数据湖与数据仓库的元数据统一;
为什么是Apache Iceberg?Iceberg 在 2024 年一路开挂,Snowflake 和 Databricks 先后开源;一整年时间里,Iceberg 持续占据 Data Infra 的热点,毫无争议的成为开放表格式的事实标准。而腾讯作为国内最早拥抱Iceberg的互联网厂商,通过自身实践和在企业客户的打磨,已在多个场景上有丰富的优化与实践,比如小文件治理问题、元数据膨胀失控等问题。以腾讯云TBDS 为例,数据湖治理服务-luoshu在多个大型金融客户的大规模生产实践中,取得了比较好的实践结果。主要体现在以下三个方面:维护表数量上限大幅提升、资源自治化率提升、失败率大幅降低。
3、计算弹性化:
“计算弹性化”是金融智能湖仓架构的核心算力支撑,通过云原生化的动态资源调度和智能优化技术,实现对金融业务高并发、实时性需求的敏捷响应。其核心实现主要体现在以下三个方面:
存算分离架构:资源解耦与独立扩展,将数据统一存储在开放的对象存储,计算层与存储层解耦,实现计算资源按需独立扩缩容;
弹性资源调度机制 :云原生动态扩缩容策略,按需扩缩容和提前扩容;
多租户资源隔离 :为不同业务线分配独立计算资源组,通过K8S或YARN实现资源配额隔离,确保高优任务不受低优任务干扰。
(三) 多模态数据融合:金融认知的“全息投影”
据IDC预测,到2025年,全球非结构化数据总量将突破175 ZB,占比突破80%;但仅有不到20%的企业能有效挖掘其潜力。金融行业中,例如研报中的风险提示、客服录音中的情绪波动、合同文本中的条款变更——这些隐藏在异构模态中的知识,恰是智能体深化金融认知的关键拼图。但是,当前多模态的数据融合与应用仍处于前沿的研究中,目前在场景中面临三个主要挑战:噪声干扰、模态缺失与模态失衡。
噪声干扰:噪声导致数据质量退化,是多模态融合的首要障碍。具体分为两类,模态内噪声(特征级)和跨模态噪声(语义级)。
模态缺失:交互不足,语义割裂。
模态失衡:异构数据中的主导效应与偏见放大。
多模态数据的融合并非技术孤岛,它与生成式AI的演进、边缘计算甚至世界模型的成熟都紧密交织。认知的“全息投影”不仅仅是对现状的更清晰描摹,更是对未来可能性的前瞻洞察。谁能率先突破融合瓶颈,有效地将分散的、嘈杂的、异构的多源信息提炼成高价值、可行动的金融智慧,谁就能在激烈的市场竞争和复杂的风险环境中占据认知高地, 真正开启智能金融的新纪元。
写在最后
这篇文章前前后后写了快两个月,不是自己偷懒而是技术革新的步伐太快。研究和学习了包括国内外数据厂商以及腾讯主办的很多会议,结识了很多领域专家,收获良多,不断刷新自己的认知。
我们正处于数据时代一个新的转折点,无论是Dataagents 还是多模态数据湖,都将成为未来企业AI 转型的必答题。腾讯云在大数据基础产品、TBDS、Wedata、Dataagent 等多个企业数据产品矩阵中,助力金融机构实现面向AI 的升级转型。
最后一个总结性的观点:“AI战略,数据先行!”
作者:张帆 腾讯金融云解决方案总监
目前负责腾讯金融云基础产品的解决方案建设工作,覆盖数据库、大数据、云原生、网络安全等多个领域。具有 10 余年ToB 领域金融行业咨询及项目落地经验,帮助多款腾讯自研产品从0-10-100 走向金融级明星产品的商业化落地。