“
导语
随着自主创新工作的持续深入,构建国产大数据平台对于数据要素的价值释放和数据安全保障都具有重要意义。国产大数据生态可以为数据全生命周期管理提供稳定可靠的底层支持,推动形成统一的数据治理框架,并集成AI等创新技术提升数据加工效率与智能化水平,为精准营销、风险防控等场景提供高质量数据服务能力。
”一、 国产大数据的发展历程
国内银行业大数据平台的建设经历了从技术引进到自主创新的跨越式发展,形成了具有行业特色的演进路径。其历程可划分为三个阶段:
1. 技术引进与基础架构搭建(2000-2014年)
早期主要依赖Oracle、Teradata等国外产品构建数据集市和数据仓库,这一阶段以批量处理为主,提供报表加工及BI服务。2014年Hadoop技术引入成为转折点,行业用户陆续启动了技术架构的分布式转型;
2. 技术融合与自主创新探索(2015-2020年)
逐步淘汰集中式架构,并引入Hadoop、Spark等分布式计算框架构建企业级大数据平台,此阶段技术特征表现为分布式架构普及与实时计算能力突破。行业用户依托开源社区的技术创新和“平台+生态”的合作模式为技术自主创新奠定了基础;
3. 云数智融合与自主创新(2021年至今)
加速向实时化数据处理转型,并通过湖仓一体和流批融合等技术实现实时处理与批量作业的有效协同。部分行业用户开始探索大数据、云原生和AI的深度融合;在自主创新建设方面持续推进全栈技术适配,增强核心技术自主掌控能力。
二、 国产大数据平台建设的主要关注
随着国产大数据技术体系的加速成熟,国内银行业正全面推进新一代自主创新大数据平台建设。在此过程中,需兼顾前瞻性技术布局与历史数据资产的有效整合,并在多期次历史建设形成的异构数据底座和分散系统平台的基础上进行平滑升级。因此,银行用户对国产大数据平台的主要关注包括:
1. 架构先进性
湖仓协同:通过统一元数据管理与数据资产目录,构建湖仓协同体系,实现批处理、流式计算、交互分析的统一引擎支撑,支持PB级结构化与非结构化数据的融合计算,推动数据处理时效向秒级演进,实现交易欺诈、洗钱等风险事件的实时拦截,并整合客户长短期行为数据,支持精准营销与个性化服务推荐;
数智融合:在大数据平台的架构设计上,支持AI/ML组件的集成,例如基于湖仓支持AI模型的训练和推理,并利用大模型提升数据理解和业务洞察能力,结合自然语言的交互式查询降低取数、用数的技术门槛;在大数据平台的运维管理上,通过AI驱动的健康监测与故障预测实现大数据平台运维管理自治,提升平台故障自愈与资源弹性调度能力;
2. 平台扩展性
存算分离:采用存算分离与容器化部署重构基础设施,通过弹性资源池实现计算存储资源的独立扩缩容,提升资源利用效率,计算资源的分配可结合负载情况、资源配额及策略进行弹性调度,支持多租户资源隔离和混合负载(如实时与离线任务混部),并可基于云存储服务构建数据湖存储底座,支持对象存储、文件存储与数据库存储的数据协同;
集群扩展性:通过分布式架构设计实现水平扩展能力,例如采用Hadoop联邦机制将单NameNode拆分为多NameNode协同工作,支持集群规模按需扩展至数万节点;采用元数据分片技术将海量元数据分布至多个节点(如分布式数据库),以支持十亿级分区和百亿级文件数。
跨IDC扩展:通过跨AZ/Region的部署支持双活(双写双加工)、主备集群复制及冷备集群等多种容灾架构,结合全量/增量数据同步、数据一致性校验及精细化调度策略,支持分钟级RTO及秒级RPO,满足银行行业高业务连续性、高安全性的灾备要求。
3. 实施可行性
存量组件替换:平台能力组件需覆盖大数据全生命周期,对于存量数据平台(如CDH等)的核心组件可实现完整替换和扩展,或提供渐进式的可替代方案;
存量资产迁移:提供高效的数据迁移工具,支持集群数据迁移和校验、任务迁移以及权限迁移等,并可采用分阶段技术迁移方式,通过数据联邦等技术实现新旧平台的并行运行与平滑过渡,同步建立双轨运行验证机制,确保业务连续性的同时完成技术体系升级;
国产适配优化:适配海光、鲲鹏等国产CPU,并适配麒麟、统信等国产操作系统,实现从芯片到操作系统的全链路兼容,同时,通过国产软硬件的集成优化提升平台整体性能,例如,针对鲲鹏/海光处理器的指令集特征,优化Spark、Flink等框架的计算内核在国产硬件上的执行效率。
三、 腾讯云在金融大数据平台的建设实践
腾讯云积极参与银行行业的大数据平台建设,推出了自主创新的金融级全栈大数据解决方案TBDS(Tencent Big Data Suite),支撑多家大型银行用户构建基于国产基础设施的湖仓架构数据平台,助力全域数据资产管理与数据智能场景落地。
1. 完备的产品能力
腾讯云TBDS是专为金融行业打造的自主创新、安全稳定的一站式大数据平台,可满足银行在数字化转型中对数据存储、计算分析、灾备管理及智能化运营的核心需求。
多引擎支持:集成Hadoop、HBase、Flink、StarRocks等主流组件,覆盖离线计算、实时分析、交互式查询等场景;
存算分离&弹性伸缩:支持云原生架构下的资源动态扩展,灵活应对银行业务高峰期数据处理需求;
湖仓一体:支持数据湖与数据仓库融合,提供统一元数据管理能力和统一权限管控,支撑高效数据分析与AI建模;
TBDS产品能力概览
2. 成熟的迁移体系
腾讯TBDS在数据迁移方面提供了全面的能力支持,覆盖从元数据到业务数据的全流程迁移,并结合高效工具与服务保障,适用于多种复杂场景:
全功能组件覆盖:TBDS支持从Hadoop生态多个发行版迁移至TBDS平台,覆盖HDFS、Hive、HBase、Kafka等30+核心组件的元数据和主数据迁移;
高效迁移工具:可视化迁移工具支持同构/异构迁移,自动完成元数据解析、转换及导入,并支持断点续传和一致性校验;支持按表维度的全量迁移及按时间分区的增量迁移,确保业务连续性。
迁移流程与服务保障:支持标准化迁移流程,提供从需求调研、方案制定到实施落地的全流程服务。
平台迁移的并行期方案
部分银行用户的数据平台迁移采用分期建设方式。在平台迁移的并行期,TBDS可以提供与存量大数据平台(如CDP)的并行方案:在开启安全互访的情况下,通过WaggleDance实现TBDS与CDP的元数据统一路由,客户端通过WaggleDance虚拟HMS(Hive Meta-store)入口访问,自动路由请求至对应集群的HBase表元数据,并行期间新旧大数据集群可以同时分担业务负载,直至通过业务负载的逐步迁移平稳完成大数据平台的替换,既可以保证自主创新任务的分期分批完成,也充分保证了存量基础设施的有效利用。
3. 持续的可成长性
大数据技术在腾讯内部历经四代技术迭代(离线计算 → 实时计算 → 机器学习/深度学习 → 批流融合/云数智融合),目前已建成EB级实时湖仓一体平台,实现离线、实时数据的统一管理,每日完成200万亿次实时计算。
作为腾讯自营业务的重要支撑,大数据技术是腾讯重点投入战略方向,通过积极提升大数据的数据感知和智能,支持智能化数据治理和智能运维管控,为大数据平台能力的持续成长提供了广阔的发展空间。
AI for Data是大数据发展必由之路
智能化数据治理
融合智能化技术实现数据资产的高效管理,提高数据治理水平,提升找数、用数效率:
1)治理:构建增强元数据体系
通过分析历史SQL执行记录自动提取数据实体间的关联关系,并结合数据被业务使用的逻辑生成增强元数据,构建人和AI都能理解的数据资产;
2)找数:支持数据资产智能导航
采用文本匹配、语义理解及业务策略相结合的库表多级检索技术,精确定位数据资产并生成符合业务语境的SQL语句;
3)用数:基于自然语言的智能交互
以自然语言交互为基础,通过多轮对话、智能追问、智能联想等方式实现从业务意图理解到智能数据洞察的端到端分析。
智能化运维管控
为应对超大规模集群管理与复杂技术栈带来的运维挑战,腾讯云大数据平台提供“平台大脑”智能自治体,通过AI for Big Data的方式来解决超大规模大数据平台的运营压力,融合统一监控、链路跟踪、可视化监控等智能化运维技术,为用户提供自优化、自修复、自安全、自运维的平台运维服务。
四、 开放的合作模式
腾讯云的大数据坚持采用开放的技术生态和开源技术路径,打造“组件可选、路径自主”的灵活合作方式,助力银行客户实现大数据技术架构向国产平台的平滑演进。
1. 技术开放性
依托技术开放能力实现自主创新与灵活扩展,在兼容开源社区标准的基础上保障核心技术自主掌控,并在稳定性、易用性及性能层面超越社区基线;
全面适配国产设备并进行深度集成优化,支持鲲鹏、海光等异构芯片混合部署,确保基础设施无技术路线的绑定风险;
采用技术共研和产品共建等合作方式,为大型银行客户的重点需求进行针对性技术攻关,并提供全生命周期技术支撑。
2. 路径开放性腾讯云大数据可以根据不同客户的实际情况提供灵活的技术方案,让客户选择最合适的技术路径;以存算分离架构为例,部分银行客户开始探索在数据平台采用存算分离架构,然而,将大数据系统从传统的基于Hadoop生态的架构迁移到云原生架构,也会面临技术成本投入和架构改造等风险。
腾讯云大数据可以提供从存算一体到存算分离的演进路线:用户可以先平稳迁移到存算一体架构,在其基础上新建存算分离的试点集群,并通过统一元数据实现存算一体集群和存算分离集群的数据系统无缝互访,根据业务场景逐步完成存算分离架构的试点验证和负载迁移,最大程度降低新技术路径引入中的技术风险。四、 结语
通过与银行机构共建自主创新的大数据基础设施,腾讯云在大数据平台的自主创新、实时数据能力升级以及容灾能力建设等方面积累了丰富的工程化落地经验,同时在大数据智能运维、大模型应用等前沿领域持续展开深度探索。腾讯云将持续以技术开放性和服务敏捷性,助力银行业实现数据智能转型的新跨越。
作者:游欣,腾讯云商业银行总监
目前负责腾讯金融云银行行业解决方案工作,具有18年的IT咨询和建设经验,为多家银行、保险、互联网金融机构提供金融行业数字化转型、云服务与AI融合创新等咨询规划与落地实施服务。