whylogs数据验证实战教程:大规模数据质量监控

whylogs数据验证实战教程:大规模数据质量监控

whylogs whylabs/whylogs: whylogs是一个轻量级的数据质量监控和数据分析库,能够实时收集和记录特征统计数据,便于后期进行数据质量和异常检测等工作。 whylogs 项目地址: https://gitcode.com/gh_mirrors/wh/whylogs

前言

在数据驱动的时代,数据质量直接影响着机器学习模型的性能和业务决策的准确性。whylogs作为一款开源的数据日志记录和分析工具,能够帮助数据科学家和工程师高效地进行数据验证和质量监控。本文将深入介绍如何使用whylogs进行数据验证,从基础概念到高级应用场景。

数据验证基础概念

数据验证是确保数据准确、完整和一致的过程,主要包括:

  1. 数据完整性检查:确认数据没有缺失值
  2. 数据一致性检查:验证数据是否符合预期的格式和范围
  3. 数据准确性检查:确保数据值在合理范围内
  4. 业务规则验证:检查数据是否符合特定的业务逻辑

whylogs通过创建**度量约束(Metric Constraints)**来实现这些验证,并生成详细的验证报告。

环境准备

安装whylogs

%pip install -q 'whylogs[viz]'

安装完成后,我们可以导入必要的库并创建示例数据集:

import pandas as pd
import whylogs as why

# 创建示例数据
data = {
    "animal": ["cat", "hawk", "snake", "cat"],
    "legs": [4, 2, 0, 4],
    "weight": [4.3, 1.8, 1.3, 4.1],
}

df = pd.DataFrame(data)

数据日志记录基础

生成数据剖面(Profile)

whylogs的核心功能是生成数据剖面,它包含了数据的各种统计信息:

profile = why.log(df).profile()

查看剖面数据

我们可以将剖面数据转换为Pandas DataFrame进行查看:

profile_view = profile.view()
prof_df = profile_view.to_pandas()
prof_df

剖面数据包含丰富的统计信息,主要分为以下几类:

  1. 计数统计:样本数量、空值数量等
  2. 类型推断:整型、浮点型、布尔型等
  3. 基数估计:列中唯一值的估计数量
  4. 频繁项:最常见的值及其出现频率
  5. 分布指标:最小值、最大值、中位数、分位数等

数据验证实战

创建度量约束

whylogs允许我们为数据创建各种验证规则,称为度量约束。例如,我们可以验证:

  1. 腿的数量应该在0-4之间
  2. 重量应该大于0
  3. 动物类型应该是已知的几个值之一
from whylogs.core.constraints import ConstraintsBuilder
from whylogs.core.constraints.factories import (
    greater_than_number,
    less_than_number,
    is_non_negative,
)

builder = ConstraintsBuilder(dataset_profile_view=profile_view)

# 添加约束
builder.add_constraint(greater_than_number(column_name="weight", number=0))
builder.add_constraint(less_than_number(column_name="legs", number=5))
builder.add_constraint(is_non_negative(column_name="legs"))

constraints = builder.build()
constraints.generate_constraints_report()

条件计数指标

对于更复杂的验证规则,我们可以使用条件计数指标:

from whylogs.core.metrics.condition_count_metric import Condition
from whylogs.core.relations import Predicate

def has_legs(x):
    return x in [0, 2, 4, 6, 8]

condition = Condition(
    name="valid_leg_count", 
    predicate=Predicate().is_(has_legs)
)

profile_with_condition = why.log(
    df, 
    schema=why.log(df).schema().add_condition(condition, "legs")
).profile()

自动约束生成

whylogs还支持基于参考数据自动生成约束:

from whylogs.core.constraints.factories import generate_column_constraints

auto_constraints = generate_column_constraints(profile_view)
auto_constraints.generate_constraints_report()

验证失败调试

当验证失败时,whylogs提供了详细的诊断信息:

  1. 查看哪些约束失败
  2. 分析失败的具体原因
  3. 比较当前数据与历史数据的差异
report = constraints.generate_constraints_report()
failed = [result for result in report if not result.passed]

最佳实践建议

  1. 分层验证:从基础类型检查到复杂业务规则,分层设置验证
  2. 渐进式严格:生产环境初期使用较宽松的约束,逐步收紧
  3. 监控趋势:不仅检查单次验证结果,还要关注指标的变化趋势
  4. 自动化警报:设置关键指标的自动警报机制
  5. 文档化规则:为每个约束添加清晰的业务说明

总结

whylogs提供了一套完整的数据验证解决方案,从简单的范围检查到复杂的业务规则验证,能够满足不同场景下的数据质量监控需求。通过本教程,您应该已经掌握了:

  1. 如何使用whylogs生成数据剖面
  2. 如何创建和验证各种约束条件
  3. 如何处理和调试验证失败的情况
  4. 数据验证的最佳实践

在实际项目中,建议结合业务需求设计适当的验证规则,并建立持续的数据质量监控机制,确保数据的可靠性和一致性。

whylogs whylabs/whylogs: whylogs是一个轻量级的数据质量监控和数据分析库,能够实时收集和记录特征统计数据,便于后期进行数据质量和异常检测等工作。 whylogs 项目地址: https://gitcode.com/gh_mirrors/wh/whylogs

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

尤贝升Sherman

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值