记一波数据仓库从0到1的实战经历

本文记录了一个团队数据仓库从初期的原始状态,经过温饱阶段,最终达到小康水平的过程。从数据存储、任务调度、数据同步等方面描述了各阶段的特点和问题,强调了数据规范和数据分层的重要性。总结中提倡早期规划、严格数据出口管控、规范文档以及重视元数据的价值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前算是经历了一个团队的数据体系从比较原始的状态到相对比较完善的数据仓库的演变过程,大概记录下,有个方向和思路。

1.原始状态

在这里插入图片描述

业务上

纯需求驱动,无明确分工;
根据需求,联系原数据方,通过各种技术手段得到结果。

技术上
数据存储

主要依赖oracle和mysql,绝大多数存储在oracle中。

任务调度

大部分通过可执行jar包放到服务器上起crontab任务定时执行jar包,部分写在自己的java工程里面。

数据同步

根据binlog信息,进行关系型数据库之间的数据同步。

数据产出

基本都是报表的方式,开发之间会有少量表或者接口的形式。

环境

基本不区分测试和线上环境(跟数据产出一致性要求不高有一定关系)。

问题

太多了,比如:

  • 指标口径不一致,排查口径和改错成本越来越高;
  • 调度任务管理难度大,需要改jar包逻辑,重新发布,且后期jar包数量惊人;
  • 重复逻辑很多,造成服务器和数据库资源的浪费;分工不
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值