【机器学习】Yellowbrick 包的理解和说明

Yellowbrick是一个用于scikit-learn的可视化库,提供多种Visualizer来辅助机器学习的模型选择过程。这些工具涵盖分类、聚类、特征选择和回归等多个方面,帮助用户理解模型性能、诊断问题并优化结果。例如,ClassificationVisualization包括了分类报告、混淆矩阵等,而ClusteringVisualization有InterclusterDistanceMaps和SilhouetteVisualizer等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、介绍

首先是包的安装过程:

pip install --user yellowbrick

Yellowbrick 是一套视觉分析和诊断工具,旨在通过 scikit-learn 促进机器学习。

该库实现了一个新的核心 API 对象,Visualizer,它是一个 scikit-learn 估计器—一个从数据中学习的对象。

与转换器或模型类似,可视化工具通过创建模型选择工作流程的可视化表示来从数据中学习。

Visualizer 允许用户引导模型选择过程,围绕特征工程、算法选择和超参数调整建立直觉。

例如,它们可以帮助诊断围绕模型复杂性和偏差、异方差性、欠拟合和过度训练或类别平衡问题的常见问题。

通过将可视化工具应用于模型选择工作流程,Yellowbrick 允许您更快地引导预测模型获得更成功的结果。

完整的文档可以在 scikit-yb.org 上找到,其中包括面向新用户的快速入门指南。

在这里插入图片描述

二、Visualizers

可视化工具是估算器—从数据中学习的对象—其主要目标是创建可视化效果,以便深入了解模型选择过程。

在 scikit-learn 术语中,它们在可视化数据空间时类似于转换器,或者包装类似于 ModelCV(例如 RidgeCV、LassoCV)方法工作方式的模型估计器。

Yellowbrick 旨在创建一个类似于 scikit-learn 的敏感 API。 我们最受欢迎的一些可视化工具包括:

2.1 Classification Visualization

  1. Classification Report:一个视觉分类报告,以热图的形式显示模型的精度、召回率和 F1 每类分数;
  2. Confusion Matrix:多类分类中类对混淆矩阵的热图视图;
  3. Discrimination Threshold:精度、召回率、F1 分数和排队率相对于二元分类器的辨别阈值的可视化;
  4. Precision-Recall Curve:绘制不同概率阈值的精度与召回分数;
  5. ROC / AUC:绘制接受者操作特征 (ROC) 和曲线下面积 (AUC)。

2.2 Clustering Visualization

  1. Intercluster Distance Maps:可视化集群的相对距离和大小;
  2. KElbow Visualizer:根据指定的评分函数可视化集群,寻找曲线中的“弯头”。
  3. Silhouette Visualizer:通过可视化单个模型中每个簇的轮廓系数分数来选择 k。

2.3 Feature Visualization

  1. Manifold Visualization:具有流形学习的高维可视化;
  2. Parallel Coordinates: 实例的水平可视化;
  3. PCA Projection:基于主成分的实例投影;
  4. RadViz Visualizer:围绕圆形图分离实例;
  5. Rank Features:特征的单一或成对排序以检测关系。

2.4 Model Selection Visualization

  1. Cross Validation Scores:将交叉验证分数显示为条形图,平均分数绘制为水平线;
  2. Feature Importances:根据模型内性能对特征进行排名;
  3. Learning Curve:显示模型是否可以从更多数据或更少复杂性中受益;
  4. Recursive Feature Elimination:根据重要性找到最好的特征子集;
  5. Validation Curve:根据单个超参数调整模型。

2.5 Regression Visualization

  1. Alpha Selection:显示 alpha 的选择如何影响正则化;
  2. Cook’s Distance:显示实例对线性回归的影响;
  3. Prediction Error Plots:沿目标域查找模型故障;
  4. Residuals Plot:显示训练和测试数据的残差差异。

2.6 Target Visualization

  1. Balanced Binning Reference:生成带有垂直线的直方图,显示建议值点将 bin 数据放入均匀分布的 bin 中;
  2. Class Balance:通过以条形图形式显示每个类出现的频率,显示训练数据和测试数据中每个类的支持关系 类在数据集中的表示频率;
  3. Feature Correlation:可视化因变量和目标之间的相关性。

2.7 Text Visualization

  1. Dispersion Plot:可视化关键术语如何分散在整个语料库中;
  2. PosTag Visualizer:绘制整个标记语料库中不同词性的计数;
  3. Token Frequency Distribution:可视化语料库中术语的频率分布;
  4. t-SNE Corpus Visualization:使用随机邻居嵌入来投影文档;
  5. UMAP Corpus Visualization:将相似的文档更靠近地绘制在一起以发现集群。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旅途中的宽~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值