20190523 对数据仓库的一些思考

本文探讨了数据仓库和数据集市的区别,数据仓库汇集企业所有数据,数据集市是针对某主题的部分数据。还提及外包公司构建数据仓库常不符合模型,数据来源多基于业务Excel,存在数据同步、处理问题,预警和透明检测不足,后期需大量修数和重加工。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据仓库  跟 数据集市的区别 ?

  数据仓库: 是汇集企业所有数据的存储库房

  数据集市:是针对某个主题得到的部分数据

如何构建一个数据仓库?

目前外包公司对很多客户公司其实构建的数据仓库多不符合数据仓库模型

那么这个“外包”数据仓库从何而来,就按一个部门来看,针对的是该部门需要的数据,原来的业务分析都是基于Excel的,所以很多数据根据业务相关的Excel去得到(这应是繁琐又最简单的数据来源了)

这些数据没有进过加工,也就是没有业务部门人员的公式运算,但在数仓里面这个就变成了计算加工得到结果集

外包公司大多没有对数据仓库构建的建模概念想法,一般是业务想要什么数据,就做什么表结构,唯一就是说数据的同步方面有一定的方式,有人问了我关于实时业务数据库跟数据仓库之间的数据同步问题,因为很多业务数据库创建的人没有思考过时间戳的问题导致很多数据源头到数仓都数据同步、处理就会有问题,导致同步的不容易

 

然而我觉得有个问题,当数据同步到数仓中后,逻辑加工,滚数,一旦中间数据有一点问题,很难发现

哪怕数据同步到数仓后时漏数,一样发现会很晚,预警机制不够,数据透明检测也是一个弊端

后期会出现,大量的修数,重加工动作

 

做数据最重要的,数据空间结构,什么阶段数据是可能是什么样子,便于结构处理

 

转载于:https://www.cnblogs.com/Soar-Pang/p/10910129.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值