27、常见分类算法解析

人间计算器

于 2025-07-24 11:35:39 发布

阅读量41

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习的视觉之旅文章标签：分类算法决策树信息增益

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/swift5iosmith/article/details/151036026

深度学习的视觉之旅专栏收录该内容

65 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

常见分类算法解析

1. 决策树分割评估方法

在决策树中，有几种方法可以评估节点分割的质量。

1.1 信息增益（IG）

信息增益通过计算测试产生的所有新子节点的熵之和，并将其与父节点的熵进行比较。一个节点越纯，其熵越低。如果一次分割产生了更纯的子节点，那么这些子节点的熵之和会小于父节点的熵。在尝试不同的分割方式后，我们会选择能使熵减少最多（即信息增益最大）的分割方式。

1.2 基尼不纯度（Gini Impurity）

基尼不纯度旨在最小化样本分类错误的概率。例如，一个叶子节点有 10 个 A 类样本和 90 个 B 类样本，如果将新样本分类为 B 类，那么有 10% 的错误概率。基尼不纯度会为多个候选分割值测量每个叶子节点的分类错误情况，然后选择分类错误概率最小的分割方式。

此外，一些库还提供了其他评估潜在分割质量的方法。通常，我们会尝试几种不同的方法，然后选择最适合特定数据的那一种。

2. 支持向量机（SVM）

2.1 基本算法

我们从一个由两类样本组成的二维数据集开始，目标是找到这两类样本之间的边界。为了简化问题，我们使用直线作为边界，但有很多直线可以将这两类样本分开。

为了选择合适的直线，我们考虑新数据的分类情况。一般来说，我们希望将新样本分类为与其最近的样本所属的类别。为了评估某条边界线的优劣，我们会计算它到任一类中最近样本的距离，并以此距离为依据在直线周围绘制对称边界。

支持向量机（SVM）的目标是找到一条离两类样本中所有点都最远的直线。在这个算法中，“支持”可以理解为“最近”，“向量”是“样本”的

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。