神经网络基础:感知机与相关概念解析
1. 小批量随机梯度下降与感知机模型
在预测出现错误时,小批量随机梯度下降会对权重进行更新。对于随机选择的训练点子集 (S),权重 (W) 的更新公式如下:
[W \Leftarrow W + \alpha \sum_{X\in S} E(X)X]
感知机有个有趣的特性,学习率 (\alpha) 可以设为 1,因为学习率只是对权重进行缩放。感知机是一种线性模型,方程 (W \cdot X = 0) 定义了一个线性超平面,其中 (W = (w_1 \cdots w_d)) 是一个与超平面垂直的 (d) 维向量。对于超平面一侧的 (X) 值,(W \cdot X) 为正;对于另一侧的 (X) 值,(W \cdot X) 为负。
感知机算法在处理线性可分的数据时表现出色,例如图中左侧所示的数据集;但在处理线性不可分的数据时,性能往往较差,如右侧的数据集。这体现了感知机固有的建模局限性,也促使我们使用更复杂的神经网络架构。
当数据线性可分时,感知机算法总能收敛到训练数据误差为零的解;但当数据线性不可分时,算法不一定收敛,有时甚至会得到较差的解。
2. 感知机优化的目标函数
最初的感知机论文并未正式提出损失函数,早期是通过硬件电路实现的,目标是通过启发式更新过程最小化分类错误。
对于二元分类问题,分类错误数量可以用 0/1 损失函数表示:
[L_{(0/1)i} = \frac{1}{2}(y_i - \text{sign}{W \cdot X_i})^2 = 1 - y_i \cdot \text{sign}{W \cdot X_i}]
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



