whylogs数据验证实战教程：大规模数据质量监控-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00633/article/details/148783444

whylogs数据验证实战教程：大规模数据质量监控

whylogs whylabs/whylogs: whylogs是一个轻量级的数据质量监控和数据分析库，能够实时收集和记录特征统计数据，便于后期进行数据质量和异常检测等工作。项目地址: https://gitcode.com/gh_mirrors/wh/whylogs

前言

在数据驱动的时代，数据质量直接影响着机器学习模型的性能和业务决策的准确性。whylogs作为一款开源的数据日志记录和分析工具，能够帮助数据科学家和工程师高效地进行数据验证和质量监控。本文将深入介绍如何使用whylogs进行数据验证，从基础概念到高级应用场景。

数据验证基础概念

数据验证是确保数据准确、完整和一致的过程，主要包括：

数据完整性检查：确认数据没有缺失值
数据一致性检查：验证数据是否符合预期的格式和范围
数据准确性检查：确保数据值在合理范围内
业务规则验证：检查数据是否符合特定的业务逻辑

whylogs通过创建**度量约束(Metric Constraints)**来实现这些验证，并生成详细的验证报告。

环境准备

安装whylogs

%pip install -q 'whylogs[viz]'

安装完成后，我们可以导入必要的库并创建示例数据集：

import pandas as pd
import whylogs as why

# 创建示例数据
data = {
    "animal": ["cat", "hawk", "snake", "cat"],
    "legs": [4, 2, 0, 4],
    "weight": [4.3, 1.8, 1.3, 4.1],
}

df = pd.DataFrame(data)

数据日志记录基础

生成数据剖面(Profile)

whylogs的核心功能是生成数据剖面，它包含了数据的各种统计信息：

profile = why.log(df).profile()

查看剖面数据

我们可以将剖面数据转换为Pandas DataFrame进行查看：

profile_view = profile.view()
prof_df = profile_view.to_pandas()
prof_df

剖面数据包含丰富的统计信息，主要分为以下几类：

计数统计：样本数量、空值数量等
类型推断：整型、浮点型、布尔型等
基数估计：列中唯一值的估计数量
频繁项：最常见的值及其出现频率
分布指标：最小值、最大值、中位数、分位数等

数据验证实战

创建度量约束

whylogs允许我们为数据创建各种验证规则，称为度量约束。例如，我们可以验证：

腿的数量应该在0-4之间
重量应该大于0
动物类型应该是已知的几个值之一

from whylogs.core.constraints import ConstraintsBuilder
from whylogs.core.constraints.factories import (
    greater_than_number,
    less_than_number,
    is_non_negative,
)

builder = ConstraintsBuilder(dataset_profile_view=profile_view)

# 添加约束
builder.add_constraint(greater_than_number(column_name="weight", number=0))
builder.add_constraint(less_than_number(column_name="legs", number=5))
builder.add_constraint(is_non_negative(column_name="legs"))

constraints = builder.build()
constraints.generate_constraints_report()

条件计数指标

对于更复杂的验证规则，我们可以使用条件计数指标：

from whylogs.core.metrics.condition_count_metric import Condition
from whylogs.core.relations import Predicate

def has_legs(x):
    return x in [0, 2, 4, 6, 8]

condition = Condition(
    name="valid_leg_count", 
    predicate=Predicate().is_(has_legs)
)

profile_with_condition = why.log(
    df, 
    schema=why.log(df).schema().add_condition(condition, "legs")
).profile()

自动约束生成

whylogs还支持基于参考数据自动生成约束：

from whylogs.core.constraints.factories import generate_column_constraints

auto_constraints = generate_column_constraints(profile_view)
auto_constraints.generate_constraints_report()

验证失败调试

当验证失败时，whylogs提供了详细的诊断信息：

查看哪些约束失败
分析失败的具体原因
比较当前数据与历史数据的差异

report = constraints.generate_constraints_report()
failed = [result for result in report if not result.passed]

最佳实践建议

分层验证：从基础类型检查到复杂业务规则，分层设置验证
渐进式严格：生产环境初期使用较宽松的约束，逐步收紧
监控趋势：不仅检查单次验证结果，还要关注指标的变化趋势
自动化警报：设置关键指标的自动警报机制
文档化规则：为每个约束添加清晰的业务说明

总结

whylogs提供了一套完整的数据验证解决方案，从简单的范围检查到复杂的业务规则验证，能够满足不同场景下的数据质量监控需求。通过本教程，您应该已经掌握了：

如何使用whylogs生成数据剖面
如何创建和验证各种约束条件
如何处理和调试验证失败的情况
数据验证的最佳实践

在实际项目中，建议结合业务需求设计适当的验证规则，并建立持续的数据质量监控机制，确保数据的可靠性和一致性。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考