机器学习中的几何视角:从监督学习到非结构化数据
监督学习的几何视图
监督学习是机器学习中的重要部分,我们可以从几何角度来理解一些标准的机器学习主题,包括分类、回归、过拟合和维度灾难。
分类
当数据集转换为数值电子表格(假设有 $d$ 列)后,监督分类器的任务是为每个新输入数据点标记预测类别。这可以通过决策边界来理解,即将 $R^d$ 空间划分为不重叠的区域,并为每个区域分配一个类别。不同的监督分类器方法会产生不同类型的几何形状的决策边界,具体形状细节在训练过程中从数据中学习。
以下是几种常见分类算法的决策边界特点:
| 算法 | 决策边界特点 |
| — | — |
| 逻辑回归 | 产生线性决策边界,添加高阶项可实现非线性决策边界 |
| 决策树 | 通过独立变量的单个不等式分割,决策边界由水平和垂直线段组成,高维时为与坐标轴对齐的平面 |
| 随机森林 | 决策树的集成,决策边界类似决策树,但更复杂,由许多小的水平和垂直线段组成,看起来像曲线 |
| k - NN 分类器 | 基于有限训练数据点的距离划分空间,产生多边形决策边界 |
| 神经网络 | 可以产生复杂的曲线决策边界,但灵活性高可能导致过拟合 |
研究不同分类算法的决策边界有助于理解算法工作原理,也能根据数据情况选择合适的算法。当遇到不熟悉的分类算法时,绘制其决策边界并调整超参数观察变化是培养直觉的好方法。
mermaid 流程图展示分类算法决策边界研究流程:
graph LR
A[遇到新分类
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



