Chispa 项目教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00895/article/details/141837738

Chispa 项目教程

chispa PySpark test helper methods with beautiful error messages 项目地址: https://gitcode.com/gh_mirrors/ch/chispa

1. 项目介绍

Chispa 是一个用于 PySpark 测试的辅助库，旨在提供快速且具有描述性错误消息的测试方法。通过 Chispa，开发者可以轻松编写高质量的 PySpark 代码，并确保其正确性。Chispa 提供了多种测试方法，包括列相等性检查、DataFrame 相等性检查等，帮助开发者快速定位和修复代码中的问题。

2. 项目快速启动

安装

首先，使用 pip 安装 Chispa：

pip install chispa

如果你使用 Poetry，可以通过以下命令将其添加为开发依赖：

poetry add chispa -G dev

示例代码

以下是一个简单的示例，展示如何使用 Chispa 进行列相等性检查：

from pyspark.sql import SparkSession
from pyspark.sql.functions import regexp_replace
from chispa.column_comparer import assert_column_equality

# 创建 SparkSession
spark = SparkSession.builder.master("local").appName("chispa").getOrCreate()

# 定义一个函数，用于移除非单词字符
def remove_non_word_characters(col):
    return regexp_replace(col, "[^\\w\\s]+", "")

# 创建一个包含非单词字符的 DataFrame
data = [
    ("jo&&se", "jose"),
    ("**li**", "li"),
    ("#::luisa", "luisa"),
    (None, None)
]

df = spark.createDataFrame(data, ["name", "expected_name"])

# 应用函数并检查结果
df = df.withColumn("clean_name", remove_non_word_characters(df["name"]))

# 使用 Chispa 进行列相等性检查
assert_column_equality(df, "clean_name", "expected_name")

3. 应用案例和最佳实践

列相等性检查

在实际开发中，经常需要检查两列数据是否相等。Chispa 提供了 assert_column_equality 方法，可以方便地进行这种检查，并输出详细的错误信息，帮助开发者快速定位问题。

DataFrame 相等性检查

有时需要比较两个 DataFrame 是否相等。Chispa 提供了 assert_df_equality 方法，可以比较两个 DataFrame 的内容，并忽略行或列的顺序。这在测试数据处理逻辑时非常有用。

忽略行或列顺序

在某些情况下，DataFrame 的行或列顺序并不重要。Chispa 允许在比较 DataFrame 时忽略行或列的顺序，从而简化测试代码。

from chispa.dataframe_comparer import assert_df_equality

# 创建两个 DataFrame
df1 = spark.createDataFrame([(1,), (2,), (3,)], ["some_num"])
df2 = spark.createDataFrame([(2,), (1,), (3,)], ["some_num"])

# 忽略行顺序进行比较
assert_df_equality(df1, df2, ignore_row_order=True)