Python shapash库：一款构建透明且易解释的机器学习模型

原创于 2024-12-07 18:30:12 发布 · 1.1k 阅读

CC 4.0 BY-SA版权

文章标签：

更多Python学习内容：ipengtao.com

随着机器学习模型在各领域的广泛应用，模型的可解释性成为一个备受关注的问题。复杂的机器学习模型（如深度学习、集成方法）虽然能提供高准确率，但往往像“黑盒”一样，难以解释其内部决策过程。Shapash 是一个基于Python的开源库，专注于提高模型的可解释性。它通过直观的交互式可视化和清晰的解释，帮助开发者和业务用户理解模型的行为和预测结果。

安装

在开始使用 Shapash 之前，需要安装该库。

可以使用以下命令完成安装：

pip install shapash

同时，Shapash 依赖一些常见的机器学习和数据可视化库，例如 pandas、scikit-learn 和 plotly。安装时会自动安装这些依赖。

安装完成后，可以通过以下代码验证是否成功：

import shapash
print(shapash.__version__)

如果输出版本号，则说明安装成功。

主要功能

Shapash 提供了一系列功能来提高模型的透明度和可解释性：

全局解释：帮助用户理解整个模型的行为，例如哪些特征对预测结果影响最大。
局部解释：针对单个样本，显示影响其预测结果的关键特征。
交互式可视化：通过可交互的图表展示模型解释结果。
支持多种模型：兼容主流机器学习库，包括 scikit-learn、xgboost、lightgbm 和 catboost。
数据报告：生成结构化的解释报告，便于分享和协作。

这些功能使 Shapash 成为一个强大且易用的模型解释工具。

基础用法

准备数据和模型

以下是一个使用 Shapash 解释分类模型的示例：

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from shapash import SmartExplainer

# 加载示例数据
data = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
X = data.drop(columns=['species'])
y = data['species']

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

这里，我们使用 RandomForestClassifier 对 iris 数据集进行分类，并完成模型训练。

初始化和绑定解释器

通过 SmartExplainer 绑定模型和数据，开始生成解释：

# 初始化解释器
explainer = SmartExplainer()

# 绑定模型和数据
explainer.compile(
    model=model,
    X=X_test,
    y_pred=model.predict(X_test)
)

compile 方法会将模型、输入数据和预测结果绑定在一起，为后续的解释提供基础。

全局解释

使用 Shapash 的全局解释功能，可以查看特征的重要性：

# 展示全局特征重要性
explainer.plot.features_importance()

运行上述代码会生成一个交互式图表，显示每个特征对模型整体预测结果的重要性排序。

局部解释

局部解释关注单个样本的预测结果，可以通过以下代码实现：

# 选择一个样本进行解释
sample_idx = 0
explainer.plot.local_plot(sample_idx)

该功能生成的图表会展示哪些特征对选定样本的预测结果贡献最大。

生成数据报告

Shapash 提供了生成结构化数据报告的功能，便于与团队分享：

# 生成可视化报告
explainer.to_html(path='report.html')
print("报告已生成：report.html")

生成的HTML报告包含模型的全局和局部解释，以及直观的交互式图表。

高级用法

自定义特征说明

为了提高业务用户的理解，Shapash 支持为特征添加自定义说明：

# 添加特征说明
explainer.add_feature_descriptions({
    'sepal_length': 'The length of the sepal in cm',
    'sepal_width': 'The width of the sepal in cm',
    'petal_length': 'The length of the petal in cm',
    'petal_width': 'The width of the petal in cm'
})

# 查看带有说明的特征重要性
explainer.plot.features_importance()

这些说明会直接显示在生成的图表和报告中，帮助非技术用户更好地理解结果。

支持不同模型

Shapash 支持大部分主流机器学习模型，例如 xgboost 和 lightgbm：

import xgboost as xgb

# 训练 XGBoost 模型
xgb_model = xgb.XGBClassifier()
xgb_model.fit(X_train, y_train)

# 使用 Shapash 绑定 XGBoost 模型
explainer.compile(
    model=xgb_model,
    X=X_test,
    y_pred=xgb_model.predict(X_test)
)

# 查看特征重要性
explainer.plot.features_importance()

通过这种方式，开发者可以轻松解释不同框架下训练的模型。

多语言支持

Shapash 支持多语言显示，可以为特定业务场景切换语言：

# 设置显示语言为中文
explainer.set_language('zh')
explainer.plot.features_importance()

多语言支持使得 Shapash 在全球团队协作中更加灵活。

实际应用

银行贷款预测模型解释

在银行贷款预测中，解释模型的决策过程对提高透明度和用户信任非常重要。例如：

# 加载贷款数据集
loan_data = pd.read_csv('loan_data.csv')
X = loan_data.drop(columns=['loan_approved'])
y = loan_data['loan_approved']

# 训练逻辑回归模型
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X, y)

# 使用 Shapash 解释模型
explainer = SmartExplainer()
explainer.compile(model=model, X=X)

# 展示全局特征重要性
explainer.plot.features_importance()

# 解释单个样本
explainer.plot.local_plot(3)

医疗诊断模型解释

在医疗诊断中，解释模型对疾病预测结果的依据可以帮助医生做出更准确的判断。例如：

# 使用医疗数据训练分类模型
explainer = SmartExplainer()
explainer.compile(model=model, X=patient_data)

# 查看局部解释
explainer.plot.local_plot(patient_id)

这些解释提供了模型输出的透明依据，提升医疗场景下的信任和应用价值。

总结

Shapash 是一个强大的机器学习模型可解释性工具，专注于提高模型的透明度和可信度。它支持全局和局部解释，通过直观的交互式图表展示特征对模型预测的影响，帮助开发者和非技术用户深入理解模型行为。Shapash 兼容主流机器学习框架，如 scikit-learn、xgboost 和 lightgbm，并支持多语言显示和自定义特征描述，使其适用于多种业务场景。此外，Shapash 提供了结构化的报告生成功能，便于团队协作和结果分享。无论是在金融、医疗还是其他领域，Shapash 都能够有效提升模型的透明性和可解释性。通过简单易用的API，开发者可以快速将其集成到项目中，为模型应用和结果分析提供可靠的支持。

如果你觉得文章还不错，请大家点赞、分享、留言下，因为这将是我持续输出更多优质文章的最强动力！

我们还为大家准备了Python资料，感兴趣的小伙伴快来找我领取一起交流学习哦！