机器学习:从分类到聚类的全面解析
1. 多类别分类问题的处理
在处理多类别分类问题时,通常会将其分解为多个二分类问题。一般步骤如下:
1. 问题分解 :把 k 类别学习问题拆分成 l 个二分类学习问题。
2. 模型训练 :在原始数据的二分类版本上训练 l 个二分类分类器。
3. 结果合并 :将这 l 个分类器的预测结果合并成一个 k 类别的预测结果。
常见的处理方式有一对一(one-versus-one)和一对其余(one-versus-rest),使用代码矩阵还能实现其他方案。此外,还可以从二分类器中获取多类别得分和概率,并通过重新加权来校准多类别决策规则。
2. 回归问题的探讨
在之前讨论的分类、评分、排序和概率估计等任务中,标签空间是离散的类别集合。而回归问题则是针对实值目标变量的,回归器(函数估计器)是一个从实例空间 X 到实数集 R 的映射 ˆf : X →R。回归学习问题就是从示例 (xi, f (xi)) 中学习一个函数估计器。
例如,我们可能想根据选定的经济指标来学习道琼斯指数或富时 100 指数的估计器。但回归问题与离散分类不同,它从相对低分辨率的目标变量转变为具有无限分辨率的变量,试图精确匹配函数估计器很可能会导致过拟合。因为示例中的部分目标值可能是模型无法捕捉的波动造成的,所以合理的做法是假设示例存在噪声,估计器只需捕捉函数的总体趋势或形状。
2.1 多项式拟合示例
考虑以下五个点的集合:
| x | y |
|----|--
超级会员免费看
订阅专栏 解锁全文

122

被折叠的 条评论
为什么被折叠?



