Pandera项目中的错误报告机制深度解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01035/article/details/148552562

Pandera项目中的错误报告机制深度解析

pandera A light-weight, flexible, and expressive statistical data testing library 项目地址: https://gitcode.com/gh_mirrors/pa/pandera

前言

在数据验证过程中，准确识别和报告错误是确保数据质量的关键环节。Pandera作为一个强大的数据验证工具，从0.19.0版本开始引入了全新的错误报告机制，为开发者和数据工程师提供了更加灵活和强大的错误处理能力。

错误报告机制概述

Pandera的错误报告是一种通用的、机器可读的验证失败摘要，它能够清晰地展示在模式验证过程中发现的所有问题。这一机制支持对pandas和pyspark.sql对象的验证，为不同数据处理场景提供了一致的错误报告体验。

验证级别控制

Pandera提供了三种可配置的验证级别，通过环境变量即可轻松控制：

仅模式验证(SCHEMA_ONLY)：仅检查数据结构是否符合模式定义，不执行数据级别的验证
仅数据验证(DATA_ONLY)：仅验证数据是否符合定义的检查规则，不验证模式结构
模式和数据验证(SCHEMA_AND_DATA)：默认选项，执行最全面的验证，包括模式结构和数据内容的双重检查

设置方法非常简单，只需在运行前设置环境变量：

export PANDERA_VALIDATION_DEPTH=SCHEMA_ONLY

在Pandas中使用错误报告

要在pandas中生成详细的错误报告，需要使用lazy=True参数。这使得Pandera能够收集所有错误，而不是在遇到第一个错误时就停止验证。

import pandas as pd
import pandera.pandas as pa
import json

# 定义验证模式
pandas_schema = pa.DataFrameSchema({
    "color": pa.Column(str, pa.Check.isin(["red", "green", "blue"])),
    "length": pa.Column(int, pa.Check.gt(10)),
})

# 创建测试数据
df = pd.DataFrame({
    "color": ["red", "blue", "purple", "green"],
    "length": [4, 11, 15, 39],
})

try:
    pandas_schema.validate(df, lazy=True)
except pa.errors.SchemaErrors as e:
    # 以JSON格式输出详细的错误信息
    print(json.dumps(e.message, indent=2))

这段代码会捕获所有验证错误，并以结构化的JSON格式输出，便于后续处理和分析。

在PySpark中使用错误报告

对于PySpark数据帧，错误报告可以通过pandera访问器的errors属性获取：

import pandera.pyspark as pa
import pyspark.sql.types as T
import json
from pyspark.sql import SparkSession

# 创建Spark会话
spark = SparkSession.builder.getOrCreate()

# 定义PySpark验证模型
class PysparkPanderSchema(DataFrameModel):
    color: T.StringType() = pa.Field(isin=["red", "green", "blue"])
    length: T.IntegerType() = pa.Field(gt=10)

# 创建测试数据
data = [("red", 4), ("blue", 11), ("purple", 15), ("green", 39)]
df = spark.createDataFrame(data, ["color", "length"])

# 执行验证并获取错误报告
df_out = PysparkPanderSchema.validate(check_obj=df)
print(json.dumps(dict(df_out.pandera.errors), indent=4))