数据指标一致性
数据指标不一致的体现
同样的指标来自两张不同的表,结果不一样,可能源不一致,口径不一致
同样的指标,数据源自同一张表,但是是2个需求,指标口径不统一。
同一个指标,命名不一样,导致重复计算。
不同的两个指标,命名一样,导致产生误解
数据一致性的目标
从设计,开发,部署和使用层面,避免重复建设和指标冗余建设,从而保障数据口径的规范和统一,最终实现数据资产全链路关联,提供标准数据输出以及建立统一的数据公共层。
数据一致性思考方向
口径一致性(计算口径,可以从结果去做监控)
命名一致性(通过指标管理平台来管理)
如何保证数据指标一直性
从需求分析、到命令规范到开发规范、到指标监控
最后 数据重新计算的场景一定保证后面依赖的部分全部计算
统一命名规范
词根梳理评审
指标评审及指标定义
指标命名规范
研发流程规范
开发流程:
需求分析调研,明确口径,评估排期,需求正规流程提交
指标管理:完善指标命名规范,指标同名同义,指标和业务强相关,明确指标构成要素
模型设计:完善开发流程规范,标准化业务调研,知识库文档集中管理,建立模型评审机制。
ETL开发:ODS,DWD,DWS,DWT,ADS
数据验证:制定数据测试标准
任务调度:规划化调度参数配置
上线管理
清洗规范
单位统一,比如金额单位统一为元
字段类型统一
注释补全
空值用默认值或者中位数填充
时间字段格式统一
json数据解析
枚举值统一
过滤没有意义的数据。
研发工具保障
设计原则
指标口径一致性
使用便捷性
数据处理智能及高性能
开发维护高效性
展示
指标编码
指标名称
业务口径
指标类型
存储的表
责任人
创建时间
状态
1.4.4 指标结果监控
数据重新计算
参考 https://blog.youkuaiyun.com/yezonghui/article/details/117649473