机器学习中的误差、评估与事件提取
1. 误差相关概念
1.1 纠错输出码(ECOC)
纠错输出码是一种集成学习技术,用于处理多分类问题,将其分解为多个二分类问题。具体步骤如下:
- 假设集成中有 T 个模型,将每个类别编码为长度为 T 的二进制字符串。
- 每个模型尝试将原始类别的一个子集与其他类别分开,例如一个模型学习区分“类别 A”和“非类别 A”。
- 预测后,T 个模型会得到一个长度为 T 的二进制字符串,与该字符串汉明距离最近的类别编码即为集成的最终决策。
1.2 误差率
误差率是衡量模型预测误差程度的指标,常用于分类模型。在分类模型中,误差率 $P(\hat{Y}(X) \neq Y)$,其中 $X$ 和 $Y$ 是联合分布,分类模型 $\hat{Y}$ 是一个从 $X$ 到 $Y$ 的函数。误差率有时以百分比表示,而非 0.0 到 1.0 之间的值。
评估模型误差率的方法:
- 将模型应用于已知类别标签的测试数据,误差率可计算为错误分类对象的数量除以总对象数量。
- 也可应用平滑函数,如拉普拉斯估计或 m 估计。
误差率与准确率直接相关,误差率 = 1.0 - 准确率(以百分比表示时,误差率 = 100 - 准确率)。对于回归模型,常见的误差率衡量指标有均方误差和平均绝对误差。
1.3 误差平方
误差平方是回归中常用的损失函数,是预测值与真实值之差的平方。
2. 学习算法的评估
2.1 评估的定义和动机
学习算法评估是评估学习算法一个或多个属性的过程。评估学习
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



