13、机器学习分类与训练模型详解

最新推荐文章于 2025-12-18 20:12:48 发布

五行擒拿术

最新推荐文章于 2025-12-18 20:12:48 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

分类专栏：动手学AI：从零到精通文章标签：机器学习分类模型混淆矩阵

本文链接：https://blog.youkuaiyun.com/table/article/details/152288245

动手学AI：从零到精通专栏收录该内容

77 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习分类与训练模型详解

1. 错误分析

在机器学习项目中，当你找到一个有前景的模型后，分析其产生的错误类型是提升模型性能的有效方法。

1.1 混淆矩阵分析

首先，我们可以通过混淆矩阵来分析模型的错误情况。具体操作步骤如下：
1. 使用 cross_val_predict() 函数进行预测。
2. 将标签和预测结果传递给 confusion_matrix() 函数。

由于现在有 10 个类别，混淆矩阵会包含大量数字，可能难以阅读。因此，绘制彩色的混淆矩阵图会更便于分析。以下是绘制彩色混淆矩阵图的代码：

from sklearn.metrics import ConfusionMatrixDisplay
y_train_pred = cross_val_predict(sgd_clf, X_train_scaled, y_train, cv=3)
ConfusionMatrixDisplay.from_predictions(y_train, y_train_pred)
plt.show()

这个混淆矩阵看起来不错，大多数图像都在主对角线上，这意味着它们被正确分类。但第 5 行第 5 列的单元格看起来比其他数字稍暗，这可能是因为模型对数字 5 的分类错误更多，或者数据集中数字 5 的数量比其他数字少。

为了更清晰地分析，我们可以对混淆矩阵进行归一化处理，即将每个值除以相应（真实）类别的图像总数。以下是归一化处理的代码：

订阅专栏解锁全文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

五行擒拿术

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

PyTorch深度学习实战（1）——神经网络与模型训练过程详解

盼小辉丶的博客

05-28

9万+

在本节中，我们将了解传统机器学习与人工神经网络间的差异，并了解如何在实现前向传播之前连接网络的各个层，以计算与网络当前权重对应的损失值；实现反向传播以优化权重达到最小化损失值的目标。并将实现网络的所有关键组成——前向传播、激活函数、损失函数、链式法则和梯度下降，从零开始构建并训练了一个简单的神经网络。

机器学习分类算法之XGBoost（集成学习算法）

热门推荐

迷茫与徘徊只会让你陷入绝境，欢迎私信博主，带你开始提升变现价值！

02-14

10万+

目录走进XGBoost 什么是XGBoost？ XGBoost树的定义 XGBoost核心算法正则项：树的复杂程度 XGBoost与GBDT有什么不同 XGBoost需要注意的点 XGBoost重要参数详解调参步骤及思想 XGBoost代码案例相关性分析 n_estimators（学习曲线） max_depth（学习曲线）调整max_depth 和min_child_weight 调整gamma 调整subsample 和colsample_bytree 调整正则

参与评论您还未登录，请先登录后发表或查看评论

机器学习中的模型设计与训练流程详解

cooldream2009的博客

10-12

2449

机器学习在数据驱动的现代社会中发挥着重要作用，被广泛应用于金融、医疗、推荐系统等领域。模型设计、训练、优化和选择是实现智能系统的核心步骤，在这个过程中，需要考虑多方面因素，如数据量、计算资源、模型复杂度等。在本文中，我们将深入探讨机器学习中的模型设计、训练、优化、测试与选择的流程，详细解释如何在这些环节中做出合理的决策，以构建出高效的机器学习系统。

【机器学习】线性回归模型详解

weixin_45434953的博客

05-10

3905

接下来我们将要学习我们的第一个模型——线性回归。比如说我需要根据数据预测某个面积的房子可以卖多少钱m:训练样本数量x:输入值，又称为属性值y:输出值，是我们需要的结果我们会用xy(x,y)xy表示一整个训练样本，使用xiyixiyi来表示第i个样例我们将上图用表格表示出来如下：那么线性回归的预测模型如下：训练集输入到学习算法中，然后学习算法会根据数据训练出函数h。作为一个线性回归模型，其输出的h应该是hxθ0θ1xhxθ0θ1。

机器学习——模型评估与选择

CYTLOVELY的博客

11-28

1975

模型评估的目的是为了确保我们选出的模型能在实际场景中取得良好的泛化能力，而不仅仅是在训练数据集上表现优秀。过于复杂的模型往往会产生过拟合，导致它们无法处理新的、未见过的数据。在选择模型时，除了要考虑模型的准确性，还应考虑其训练和推理时间、计算复杂度、数据要求、对噪声的敏感性等因素。

机器学习_分类算法详解

a6181816的博客

06-02

3364

机器学习中的分类算法是用于将输入数据分配到预定义类别中的算法。分类任务是监督学习的一种，模型根据训练数据中的输入-输出对进行学习，然后预测新的输入数据的类别。我们将详细讲解其中的几种，并提供相应的代码实例。

机器学习（五）线性模型详解

qq_21484787的博客

01-30

1万+

线性模型线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数，既可以用于分类也可以用于回归。从数学角度讲，回归就是用超平面做拟合，分类就是用超平面做分割。谈及线性模型，其实我们很早就已经与它打过交道，还记得高中数学必修3课本中那个顽皮的“最小二乘法”吗？这就是线性模型的经典算法之一：根据给定的（x，y）点对，求出一条与这些点拟合效果最好的直线y=ax+b，之前我们利用下面的公式便可以计算出拟合直线的系数a,b（3.1中给出了具体的计算过程），从而对于一个新的x，可以预测它

机器学习实现图像识别与分类的技术详解

极客代码

06-22

7244

图像识别是指通过计算机技术对图像进行分析，从而识别出图像中的物体、场景或人物等。而图像分类则是将图像划分为不同的类别或标签。图像识别与分类在许多领域都有广泛的应用，如图像搜索、安防监控、医疗诊断等。为了更好地理解图像识别与分类的实际应用，我们将使用一个流行的数据集——MNIST手写数字数据集。MNIST包含60,000个训练样本和10,000个测试样本，每个样本都是一个28x28像素的灰度图像，代表0到9中的一个数字。# 加载MNIST数据集# 显示一张图像plt.show()

预训练模型在机器翻译中的应用：迁移学习的优势详解

数据知道的博客

08-14

5625

预训练模型和迁移学习的出现，彻底改变了这一局面。它就像让一个已经精通了多种语言（如英语、法语、西班牙语）的顶尖语言学家，再去学习一门新语言（如日语）。这位语言学家已经具备了普遍的语法知识、词汇结构和语义理解能力。学习新语言时，他不再需要从零开始，而是利用已有的“元能力”快速上手，只需少量针对性的练习就能达到很高的水平。

传统机器学习笔记7——GBDT模型详解

chase

10-31

3996

传统机器学习笔记7——GBDT模型详解

机器学习基本模型算法详解及案例展示

08-17

机器学习的基本模型算法是构建和训练模型的基础，通过对数据的处理，可以实现分类、回归、聚类等多种功能。在机器学习基本模型算法详解及案例展示中，将详细介绍以下算法：线性回归、逻辑回归、决策树、随机森林、...

CIFAR-10 数据集的机器学习建模及Web-Demo部署：模型训练与优化流程详解

01-08

课程设计包含了从读取与预处理CIFAR-10数据集合、选择并训练三个不同的机器学习模型、评估性能确定最优方案到最后利用Streamlit构建简单易用的应用程序展示成果四个重要环节。适用人群：本指南适用于拥有一定的编程...

机器学习入门实践：手写数字识别、声呐分类、垃圾短信识别与鸢尾花分类详解

08-18

今天我们要探讨的正是机器学习入门实践中的几个经典案例：手写数字识别、声呐信号分类、垃圾短信检测以及鸢尾花分类。这些案例不仅覆盖了机器学习中常见的分类任务，而且为初学者提供了一个实践操作的平台。首先，...

机器学习之模型训练

查拉图斯特拉talk的博客

07-05

1049

nn.ReLU(),nn.ReLU(),从网络构建中加载代码，构建一个神经网络模型。超参数是可以调整的参数，可以控制深度学习模型训练优化的过程，包括训练轮次、批次大小和学习率等。这些超参数的取值会影响模型的训练和收敛速度，其中学习率在迭代过程中控制模型的学习进度。模型训练一般包括构建数据集、定义神经网络模型、定义超参数、损失函数和优化器，以及输入数据集进行训练和评估。

【技术人如何用爬虫+机器学习识别并屏蔽恶意广告】第1课：爬虫与广告反欺诈入门

weiliang_Handan的博客

12-14

874

本文介绍了广告欺诈的现状及其危害，并提出了利用网络爬虫和机器学习技术进行反欺诈的解决方案。主要内容包括：1)网络爬虫的基本原理和工作流程；2)常见广告欺诈类型及其对行业的负面影响；3)系统化的反欺诈学习路径，从数据采集、预处理到模型训练和系统部署。通过构建自动化识别系统，可有效保护广告预算、优化投放策略并提升用户体验。文章还包含了一个简单的Python爬虫示例代码，帮助读者初步了解数据采集技术。

01.需要了解的五种机器学习类型

AI算法蒋同学的博客

12-18

493

ML 是计算机科学、[数据科学]和[人工智能] (AI) 的子集，它使系统能够从数据中学习和改进，而无需额外的编程干预。ML 模型不依赖用于性能优化的显示指令，而是采用算法和统计模型，以根据数据模式和推论来部署任务。换句话说，ML 利用输入数据来预测输出，并随着新数据的出现不断更新输出。例如，在零售网站上，机器学习算法通过根据购买历史提出建议来影响消费者的购买决策。

Day37 深入理解SHAP图

weixin_47193046的博客

12-15

632

年龄+0.02影响很小，把模型的决策分解到每个特征上。基准值 = 没有任何特征信息时的"默认"预测(相当于"0”的起点)，这个值一般就是平均值，把训练集的所有样本都输入模型，得到所有预测值取平均值，在没有关于这个特定样本的区分性信息时，最合理的猜测就是平均值。到这里你可能心想，这样是不是很类似于线性回归的特征前的系数 y=ax1+bx2+cx3，那既然如此，我直接选择用线性回归的系数作解释，那岂不是更好?三人合伙前，收入是 0，三人合伙后，收入是 100万，要分配的"蛋糕"就是 100万-0=100 万。

03.统计学机器学习

AI算法蒋同学的博客

12-18

544

本文探讨了机器学习中的统计思维基础，指出机器学习本质上是建立在统计学和概率论之上的统计过程。文章从三个核心概念展开：1）统计学作为从数据中提取洞察的科学，为机器学习提供数学基础；2）概率论作为量化不确定性的工具，是建模预测不确定性的关键；3）概率分布作为描述数据行为的数学函数，支撑着误差建模、损失函数设计等机器学习核心环节。文章强调，理解这些统计概念对于构建可靠、可解释的AI系统至关重要，它们是现代机器学习（从简单回归到复杂神经网络）的理论支柱。通过介绍描述性统计指标、概率基本概念和常见概率分布，为读者提供

机器学习（决策树）