杂感-关于数据仓库的一点体会

博主分享了情人节仍在加班的经历,面临项目延期、数据质量问题等挑战。在数据仓库建设中遇到了数据准确性核验难题,需要进行大量额外的数据校验工作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

刚才看到同事的签名:没有妞泡的情人节,调戏代码吧!我只能:写篇日志转移注意力吧,其实对我影响最大的是:酒店房价涨的厉害,差点露宿街头了。
为什么我每天都有忙不完的事情呢?
从我实习时就到这个项目组,但现在项目还没有做完,年前拿到的竣工报告只有70%!!而现在又有忙不完的工作安排。为什么呢?
虽然我们模型已经建好了,系统也每天在运行,每天的交易数据都按时采集过来,并装载到数据仓库中了。正常来说应该很快转入运维了,而不是开发调试。
但是虽然数据仓库中有这么多企业的宝贵数据信息,但客户不知道这些数据的准确度,尤其当这些数据装载如程序,采用核算客户资金,客户持仓市值,时一旦出现小小失误,他们开始怀疑数据仓库里的数据质量了。接着提出针对每个环节的数据校验核对,工作就来了(赶紧写核对脚本)。
事实上我们数据质量做得不够好。尤其对一个复杂的系统,应用系统。比如oracle,它能够让人知道它每一步做了什么。而我们还做不到,
E:有没有在指定的时间抽取到符合要求的数据
T:有没有在指定的时间内完成数据清洗,确定的清洗规则合理吗?
L:能不能在指定的时间内完成数据装载,如何保证完整装载呢?(曾经遇到数据部分丢失的情况,折腾了一个月!)

觉得项目里实时数据处理也是我们非常蹩脚的方面。因为实时,频率高,性能问题就来了,数据质量管理难度就增加了。需要实时处理的数据如果有流水号,时间戳,由于需求,设计特殊,这部分数据竟然还有大文本字段。我们是怎么处理的?不说了,反正不是最佳实践!

希望我们用上 information analyzer后能把数据质量管理好。
以后重点学习性能优化方面的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值