摘 要
“数据要素×”行动启动以来,我国大数据平台经历了“数据集中—数据治理—数据要素流通”三大跃升。本文基于2020-2025年政务、能源、交通、医疗、制造、金融六大行业实践,提出“四横三纵”参考架构;总结实时湖仓、流批一体、Data Fabric、数据空间等关键技术路线;给出雾天通行、电网负荷预测、影像云等典型场景量化成效;最后指出“信创深水区—数据要素市场—AI大模型驱动”三大趋势,为“十五五”大数据平台高质量发展提供借鉴。
关键词
大数据平台;数据要素;流批一体;实时湖仓;Data Fabric
1 引言
2025年1月,国家数据局等17部门印发《“数据要素×”三年行动计划》,提出“打造一批数据要素赋能示范平台,形成安全可信的大数据流通环境”。过去五年,国内大数据平台从“海量汇聚”迈向“要素运营”,亟需总结技术演进、梳理共性架构、识别未来趋势。
2 建设现状与阶段模型
2.1 三段模型
① 数据集中(2015-2018):Hadoop/MPP 为主,“搬数据”为核心
② 数据治理(2019-2022):数据湖、数据仓库、数据中台“三库鼎立”
③ 要素流通(2023-2025):实时湖仓、Data Fabric、数据空间,支撑“原始数据不出域、可用不可见”
2.2 2025年规模
-
数据产量:32.8 ZB,全球占比 24%
-
大数据平台市场:1,156 亿元,年增速 28%
-
国产化率:基础软件 52%、芯片 41%、操作系统 38%
3 “四横三纵”参考架构
四横:
① 多源感知层:DB、IoT、日志、影像、GIS
② 算力调度层:CPU+GPU+FPGA 异构,云边端统一调度
③ 数据引擎层:流引擎、批引擎、图引擎、AI 引擎
④ 要素服务层:数据目录、数据沙箱、数据空间、数据商城
三纵:
-
安全可信:国密算法+零信任+区块链确权
-
标准治理:DCMM、GB/T 37918、JT/T 697 行业元模型
-
场景驱动:交通、能源、医疗、制造、金融、政务六大高价值场景
4 关键技术路线
4.1 实时湖仓(LakeHouse)
-
统一元数据:Iceberg/Hudi/Paimon 三剑客,支持 ACID、Time-Travel
-
流批一体:Flink 1.19 原生 Batch 模式,TPC-DS 10 TB 性能提升 38%
-
代码示例:Iceberg 实时入湖
Python
复制
from pyflink.datastream import StreamExecutionEnvironment
env = StreamExecutionEnvironment.get_execution_environment()
env.add_source(kafka_consumer) \
.map(json_parser) \
.add_sink(IcebergSink.forRowData()
.table(table)
.build())
env.execute("lakehouse-realtime")
4.2 Data Fabric 主动元数据
-
主动 Data Catalog:SQL 解析+血缘图+API 嗅探,实现“数据自发现”
-
动态数据管道:基于策略的自动数据搬迁,RPO<15 min
4.3 数据空间(Data Space)
-
可信执行环境(TEE):SGX/TrustZone,确保“原始数据不出域”
-
区块链记账:交易、授权、计费三链分离,TPS>5 000
4.4 异构算力统一调度
-
开放标准:OpenCL+oneAPI,x86/ARM/GPU/FPGA 混合池化
-
调度算法:GPU 碎片率从 35% 降至 8%(电网 GPU 池实测)
5 行业场景与量化成效
表 1 行业场景 KPI 对比
表格
复制
| 行业 | 场景 | 关键技术 | 成效(2024 实测) |
|---|---|---|---|
| 交通 | 雾天能见度预测 | 实时湖仓+YOLOv8 | 封路次数-80% |
| 能源 | 15 min 负荷预测 | 时空 Transformer | MAPE 1.4% |
| 医疗 | 影像云 PACS | 数据空间+TEE | 阅片时间 90 s |
| 制造 | 设备故障预测 | Data Fabric+振动图 | 停机-42% |
| 金融 | 反洗钱图谱 | 图引擎+FPGA | 可疑交易识别+30% |
| 政务 | 跨省通办 | 区块链确权 | 平均材料-60% |
6 安全问题与对策
-
开源组件漏洞:建立 SBOM(软件物料清单),平均修复时间 24 h
-
内部威胁:零信任+微隔离,东西向流量可视化 100%
-
数据出境:分类分级+国密 SM9 标识加密,敏感数据出境审批率 100%
7 政策与标准建议
-
制定《数据空间互操作标准》,统一身份、授权、计费 API
-
推广“算力券”+“数据券”双券模式,降低中小企业用数成本
-
建立全国一体化数据资产登记平台,实现数据资产“一本账”
8 结论与展望
(1)实时湖仓+Data Fabric 成为“数据要素×”落地首选架构;
(2)信创深水区亟需 CPU、OS、DB、中间件全栈适配;
(3)AI 大模型驱动数据平台从“人找数据”走向“数据找人”。
展望“十五五”,国内大数据平台将沿着“实时化、智能化、要素化、绿色化”路线持续演进,为数字中国提供“数据之翼”。
参考文献
[1] 中国信息通信研究院. 大数据白皮书(2024)
10万+

被折叠的 条评论
为什么被折叠?



