常见分类算法解析
1. 决策树分割评估方法
在决策树中,有几种方法可以评估节点分割的质量。
1.1 信息增益(IG)
信息增益通过计算测试产生的所有新子节点的熵之和,并将其与父节点的熵进行比较。一个节点越纯,其熵越低。如果一次分割产生了更纯的子节点,那么这些子节点的熵之和会小于父节点的熵。在尝试不同的分割方式后,我们会选择能使熵减少最多(即信息增益最大)的分割方式。
1.2 基尼不纯度(Gini Impurity)
基尼不纯度旨在最小化样本分类错误的概率。例如,一个叶子节点有 10 个 A 类样本和 90 个 B 类样本,如果将新样本分类为 B 类,那么有 10% 的错误概率。基尼不纯度会为多个候选分割值测量每个叶子节点的分类错误情况,然后选择分类错误概率最小的分割方式。
此外,一些库还提供了其他评估潜在分割质量的方法。通常,我们会尝试几种不同的方法,然后选择最适合特定数据的那一种。
2. 支持向量机(SVM)
2.1 基本算法
我们从一个由两类样本组成的二维数据集开始,目标是找到这两类样本之间的边界。为了简化问题,我们使用直线作为边界,但有很多直线可以将这两类样本分开。
为了选择合适的直线,我们考虑新数据的分类情况。一般来说,我们希望将新样本分类为与其最近的样本所属的类别。为了评估某条边界线的优劣,我们会计算它到任一类中最近样本的距离,并以此距离为依据在直线周围绘制对称边界。
支持向量机(SVM)的目标是找到一条离两类样本中所有点都最远的直线。在这个算法中,“支持”可以理解为“最近”,“向量”是“样本”的
超级会员免费看
订阅专栏 解锁全文
1838

被折叠的 条评论
为什么被折叠?



