数据探查

数据探查与质量评估
本文探讨了数据探查的重要性,旨在理解数据形态,检查数据可靠性,发现潜在问题和风险,为项目决策提供依据。内容涉及源表的主键重复、空值异常统计、关联关系、数据格式和增量规则等,通过字段和表探查方法,结合ER图来构建数据探查报告。
部署运行你感兴趣的模型镜像

概念

了解数据形态,探索数据是否可靠,找出潜在问题与风险,并为开发提供指导。如果当前数据质量无法支撑需求实现,寻求新的替代方案或项目回退。

内容

  • 源表数据主键字段重复数。
  • 源表字段空值/异常值的统计数。
  • 源表之间关联关系。
  • 源表字段的数据格式。
  • 源表增量规则。

探查方式

字段探查

// 数据探查
select	count(*)													as `总行数`
		,sum(decode(col, null, 1, 0))  								as `空值个数`
		,round(sum(decode(col, null, 1, 0)) / count(*), 2)  		as `空值比例`
		-- 小数据量非重复值数目查询
		,count(distinct col) 										as `唯一个数`
		-- 非重复值的近似数目,5%标准误差
		,approx_distinct(col) 										as `唯一个数` 
		,min(col)  													as `最小值`
		,max(col)  													as `最大值`
		,round(avg(col), 2)         								as `均值`
		,median(col) 												as `中位数`
		-- 小数据量分位数查询
		,percentile(col, 0.01) 										as `1%分位数`
		,percentile(col, 0.05) 										as `5%分位数`
		,percentile(col, 0.25) 										as `25%分位数`
		,percentile(col, 0.5) 										as `中位数` 
		,percentile(col, 0.75) 										as `75%分位数`
		,percentile(col, 0.95) 										as `95%分位数`
		,percentile(col, 0.99) 										as `99%分位数`
		-- 大数据量分位数查询 PERCENTILE_APPROX(DOUBLE col, p [, B]))
		-- p:百分比;B:精度参数
		,round(percentile_approx(col, 0.01, 10000), 2)    			as `1%分位数`
		,round(percentile_approx(col, 0.05, 10000), 2)				as `5%分位数`
		,round(percentile_approx(col, 0.25, 10000), 2)				as `25%分位数`
		,round(percentile_approx(col, 0.5, 10000), 2)				as `中位数`
		,round(percentile_approx(col, 0.75, 10000), 2)				as `75%分位数`
		,round(percentile_approx(col, 0.95, 10000), 2) 				as `95%分位数`
		,round(percentile_approx(col, 0.99, 10000), 2) 				as `99%分位数`
from    table
;

表探查

通过ER图,探查表与表关联关系

数据探查报告模板

序号字段名字段注释字段类型总行数空值个数空值比例唯一个数均值最小值1%分位数5%分位数25%分位数中位数75%分位数95%分位数99%分位数最大值

您可能感兴趣的与本文相关的镜像

LobeChat

LobeChat

AI应用

LobeChat 是一个开源、高性能的聊天机器人框架。支持语音合成、多模态和可扩展插件系统。支持一键式免费部署私人ChatGPT/LLM 网络应用程序。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值