大数据项目实施案例

本文介绍了大数据项目的目标,包括从30多个系统实时同步数据到大数据平台,处理复杂的业务系统和数据源,以及应对大数据量和实时性要求。提出了通过建立数据处理中心、元数据仓库,使用全量和增量同步策略等解决方案,强调了数据准确性、存储和网络资源管理的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一、项目目标

将超过30个核心系统数据,实施同步复制,统一集中到大数据平台。

1)将数据实施同步,数据量很大。---数据比较复杂

2)数据复制的实时性、准确性

3)复制数据需要增加标签(操作时间、操作类型、操作人等),便于后端识别数据。

4)如何抽取数据,减轻对生产库的影响。如视图、临时表、dg库等手段。

5)如何更好的适配后端应用,保证数据规格灵活,预留字段充足。

可以考虑建立编码管理,元数据仓库。

6)具备操作控制流管理、数据抽取、数据清洗、数据对比的功能,方便追踪溯源。

第二、项目难点与应对

1)业务系统众多,数据源比较复杂,有sqlserver,mysql,essbase,oracle,sql server。同时数据规则不一。

建议建立数据处理中心、元数据仓库。转换数据格式,并做好扩展性。

2) 数据量庞大,初始化数据的时间开始点很重要。一般财务核算数据保留两年的时间。但是因为业务特殊性,有些数据

需要追溯到10-30 年,甚至更长时间。

3)对数据存储空间、存储机房位置,是否需要专用光缆,是否和其他系统抢占资源等。

4)复制核心业务系统数据不超过10S-20S。实效要求高。准确性也需要,否则无法保证数据准确性。

5)对数据清洗、分摊、补录。提供一个统一手工补录的接口。

第三、解决方案:

1)数据平台复制数据需要支持异构数据库、大数据量、实时性、模块化。

可以考虑初始化数据全量同步到hdfs,增量数据同步到kafka。

2)复制数据放在 备份库上。一定要减轻生产库的压力。

3)为了节约网络资源,需要和备份数据库放在同一个机房。、

4)需要建立数据控制流,方便数据校验。 暂定校验数据条数、数据数量合计。

目的是支持后续业务进行数据操作回查,实现数据校验。特别是财务数据,可能需要下钻

抽取凭证级的数据。

5)需要配置多个同步通道。可以快速将数据同步到数据库,并支

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

金融业务专家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值