机器学习分类与训练模型详解
1. 错误分析
在机器学习项目中,当你找到一个有前景的模型后,分析其产生的错误类型是提升模型性能的有效方法。
1.1 混淆矩阵分析
首先,我们可以通过混淆矩阵来分析模型的错误情况。具体操作步骤如下:
1. 使用 cross_val_predict() 函数进行预测。
2. 将标签和预测结果传递给 confusion_matrix() 函数。
由于现在有 10 个类别,混淆矩阵会包含大量数字,可能难以阅读。因此,绘制彩色的混淆矩阵图会更便于分析。以下是绘制彩色混淆矩阵图的代码:
from sklearn.metrics import ConfusionMatrixDisplay
y_train_pred = cross_val_predict(sgd_clf, X_train_scaled, y_train, cv=3)
ConfusionMatrixDisplay.from_predictions(y_train, y_train_pred)
plt.show()
这个混淆矩阵看起来不错,大多数图像都在主对角线上,这意味着它们被正确分类。但第 5 行第 5 列的单元格看起来比其他数字稍暗,这可能是因为模型对数字 5 的分类错误更多,或者数据集中数字 5 的数量比其他数字少。
为了更清晰地分析,我们可以对混淆矩阵进行归一化处理,即将每个值除以相应(真实)类别的图像总数。以下是归一化处理的代码:
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



