机器学习中的分类与参数优化:从基础到梯度应用
1. 高维数据可视化问题
在实际情况中,我们通常难以获取训练数据点的空间分布图表。这是因为将高维数据可视化到二维平面上是非常困难的。不过,我们可以在后续的研究中探索处理此类情况的方法。
2. 二元分类中分离面符号的意义
在二维平面中,以直线方程 (y + 2x + 1 = 0) 为例,该直线上所有点的 (x) 和 (y) 坐标值都满足此方程。这条直线将二维平面划分为两个半平面:
|半平面| (y + 2x + 1) 的值|
|----|----|
|一个半平面| 负值|
|另一个半平面| 正值|
此概念可扩展到其他曲面和更高维度。因此,二元分类可以看作是估计一个最优决策面 (\varphi (\vec{x}; \vec{w}, b))。在训练过程中,我们会对参数 (\vec{w}) 和 (b) 进行估计。给定任意输入向量 (\vec{x}),我们可以通过计算 (\varphi (\vec{x}; \vec{w}, b)) 的符号来预测类别。
3. 模型参数估计:训练过程
为了估计参数 (\vec{w}) 和 (b),我们需要进行训练。具体步骤如下:
1. 选取一组已知输出的输入向量 (\vec{x}^{(0)}, \vec{x}^{(1)}, \cdots, \vec{x}^{(N)})。这些已知输出通常是通过人工标注得到的,例如,人工查看训练输入图像并为每个图像标注适当的类别(如汽车与长颈鹿,马与斑马)。每个(图像,标签)对构成一个训练数据实例。
2. 整体训练数据由一组带标签的输入(即训练数据实例)组成:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



