如何用科学的方法,保障数据准确性

|0x00 问题描述

上周收到一位读者的询问:怎么保证数据的正确性?

以下是原文:

上游,会遇到根源性问题,比如客户端在数据上报时就传错的情况,比如手抖把下单时间不小心上报成了用户点击商品详情的时间.

中游,指标的计算正确与否完全依赖于开发人员对于指标含义的理解以及业务方对于数据结果的敏感程度,一旦有一方出现问题即使指标统计错误也无人可以发现,甚至开发人员写错统计代码,或者由于字段的值异常, 代码没有处理好异常等等导致计算脚本异常中断,都会导致计算结果的偏差.

下游,业务方看到指标时,可能也对指标的统计口径理解上有偏差,经常需要问技术人员为啥这两个指标是跟他预期不一致的,技术人员就总是要反复排查统计逻辑和解答业务人员的疑惑,很耗时.

关于这三个典型问题,我们分开来看。

|0x01 上游数据的保障

针对上游数据的保障,我的看法是,错误的发生是不可避免的,甚至一些隐藏的问题始终无法被发现,但我们要做的不是100%杜绝问题,而是及时发现95%的可疑问题。

因此,,针对ODS层,不论是数据同步任务、视图还是其他形式,保障数据的准确性的核心有两点:一是及时监控问题的发生;二是保障一个流畅的上下游沟通方法。

但是,在防范问题发生之前,工程端也是要参与到数据准确性保障的工作中来,也就是尽可能在埋点平台上做好保障,这个需要有比较好的功能测试。

其次,我们得有一套合理的埋点规范,不论是SPM,还是其他一些自定义的方法,合理的规范不仅能够

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值