什么是数据融合

文章探讨了数据融合,包括技术融合(构建数据平台和信息管理系统)与业务融合(从源数据到数据仓库的转化过程),涉及数据采集、元数据管理、加载策略(如增量拉链、全量更新等)以及数据质量管理与标准化等关键环节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

   数据融合是指将异源,异构的数据通过一系列的技术,策略,方法论,转换加工成最终符合各种应用需求的目标数据。从整个融合的过程来看又分技术融合和业务融合,技术融合和业务融合是相辅相成,相互演进的。
   技术融合,整合在一个数据平台,围绕这个数据平台做的一整套的信息管理系统。在同一个平台系统上分后台数据管理系统,前端数据应用系统。此处省略xxx字

业务融合,从源数据,贴源操作型数据ODS,按主题划分的数据仓库,基于应用需求的指标体系,数据集市,对外开放基础库等。
首先,将数据从外部数据源融合到贴源操作型数据池ODS,这部分涉及到数据采集,就有源数据的元数据描述,管理,应用。对源数据的存储介质无论是数据库,还是传感器信号,还是外部纸质文档,或者是结构化数据和非结构化数据,都可以通过元数据描述,管理,应用把数据融合到数据平台的贴源操作型数据池ODS。贴源操作型数据池ODS的数据基本和源数据保持原样,数据组织方式也将是按照源数据的业务数据组织结构存储在平台上。目的在于将异源,异构转换成同源,同构的数据,有些不能转换的也将存储在同一平台,方便后期应用系统关联加工,调用。
其次,从贴源操作型数据池ODS将数据融合到数据仓库,数据加载的方式按照每次新数据是增量还是全量,加载策略又分为全量加载和增量加载。全量加载又按照对源系统已删除数据,数据平台该如何处置分全量拉链,全量更新,覆盖。全量拉链算法和全量更新都是针对源系统数据做的物理删除对仓库中对应的数据进行处理,新数据都是全量。全量拉链以新数据为基准,和前一天比较,不在今天里面的数据关链,新增及有变化的开链,变化的旧记录关链,未变化的保持原样。全量更新算法针对源系统数据做的物理删除将仓库中对应的数据设置物理删除标志。全量更新算法操作的目标表都是全量数据,也称作“当前表”,全量更新算法所使用的源数据通常为全量数据,因此需要将目标表和源数据进行比对,对目标表中不在源数据中的数据置物理删除标志。同时将变更的部分UPDATE到目标表中,将需要将新增的数据INSERT到目标表。覆盖算法主要指仓库模型实体的存储策略为全量表类型,并且源系统每次(或者每个供数日)提供的数据也为全量数据,只需要将新的全量数据覆盖仓库中的全量数据即可这种算法经常用在参数类的数据。增量加载又分增量拉链,增量更新,追加。增量拉链以前一天开链的数据为基准,将目标表中较新数据变化的记录关链,新数据开链,未变化的保持原样。增量更新算法跟覆盖算法操作的目标表都是全量数据,也称作“当前表”,将变更的部分Update到目标表中,同时需要将新增的数据Insert到目标表,未变化的保持原样。因Update的处理效率较低,故采用Delete + Insert方式代替。追加算法主要用在事件一类的实体,追加算法操作的目标表存储策略多为每日快照表。这类表通常都带日期字段。追加算法处理逻辑较简单。(与拉链表的区别为不需要和昨日的数据进行比对,直接插入目标表)。拉链策略主要对应的是需要记录状态变迁的数据,更新策略是对应无需记录状态变迁的数据,只需保留最新状态,覆盖策略主要是针对全量参数类的数据,追加策略主要就是针对日志,交易等流水类的数据。这些加载策略可以提前做成模板,根据业务需要选择。当然在这一步从贴源操作型数据池ODS将数据融合到数据仓库的过程中还涉及到表级映射,字段级映射,配置加工规则等,在这个过程中我们同步实现数据的标准化,这一部分也元数据描述,管理,应用来解决。从这一步开始到实现最终应用需求数据,我们就要开始对数据的质量进行管理和评估。
然后,在数据仓库中数据融合的过程中,我们需要关注主题的选定,数据的规范化,标准化,模型的构建,维度的划分,粒度的选取等等。此处省略xxx字

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

科学的N次方

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值