常见机器学习算法详解
一、分类评估指标与常见决策树方法
在机器学习的分类任务中,有几个重要的评估指标:
- 假阴性(False negative/FN) :实际类别值为“是”,但预测类别为“否”。
- 准确率(Accuracy) :计算公式为 (正确预测的观测值) / (总观测值) = (TP + TN) / (TP + TN + FP + FN)。
- 精确率(Precision) :计算公式为 (正确预测的正类) / (总预测的正类) = TP / (TP + FP)。
- 召回率(Recall) :计算公式为 (正确预测的正类) / (总正确的正类观测值) = TP / (TP + FN)。
常见的决策树方法有 ID3、C4.5 和 CART,这些方法生成的决策树可用于对未来样本进行分类。
1. ID3(Iterative Dichotomizer 3)
- 原理 :ID3 算法使用信息增益作为代价函数,信息增益基于熵来计算。熵用于衡量数据集的不纯或无序程度。给定任意分类 C 到类别 {c1, … cn},以及一组示例 S,其中 ci 的比例为 pi,样本 S 的熵计算公式为:
[H(S) = -\sum_{x \in X} p(x) \log_2 p(x)]
信息增益是相对于示例 S 为属性 A 计算的,属性 A 可能取值为 {t1, … tn},代表集合 T 的全部取值,信息增益计算公式为:
超级会员免费看
订阅专栏 解锁全文
3349

被折叠的 条评论
为什么被折叠?



