一、感知机
与输出实数的线性回归模型以及输出分布概率的Softmax多分类模型不同,感知机(神经元)模型使用Sign函数进行输出处理,输出结果是离散变量,本质属于二分类模型。
对于给定的一组输入特征向量 x i ∈ T x_{i \in T} xi∈T,权重 w w w以及偏差 b b b,感知机的输出如下:
O = σ ( ⟨ w , x i ⟩ + b ) σ ( x ) = { 1 i f x i > 0 − 1 o t h e r w i s e O=\sigma(\langle w,x_i \rangle + b) \qquad \qquad \sigma(x)= \begin{cases} 1 \quad if \ x_i>0 \\ -1 \quad otherwise \end{cases} O=σ(⟨w,xi⟩+b)σ(x)={
1if xi>0−1otherwise
感知机的迭代策略
Initialize w = 0 w=0 w=0and b = 0 b=0 b=0
repeat
if y i [ ⟨ w , x i ⟩ + b ] ≤ 0 y_i[\langle w,x_i\rangle + b] \leq 0 yi[⟨w,xi⟩+b]≤0then
w ← w + y i x i w \leftarrow w+y_ix_i w←w+yixiand b ← b + y i b \leftarrow b+y_i b←b+yi
end if
until all classified correctly
实际上,感知机算法可以理解为一个采用随机梯度下降法的误分类驱动算法,即根据错误分类样本去优化模型,算法尝试在每轮训练迭代中着重于对过去的错误分类结果进行修正,使得下一次预测结果更接近于真实情况。
在上述感知机迭代策略中, x i x_i xi为样本 i i i的特征向量, y i y_i yi为样本 i i i 的标签(-1或1), ⟨ w , x i ⟩ + b \langle w,x_i \rangle + b ⟨w,xi⟩+b为对应预测结果。当标签与预测值同号时,例如 y i > 0 y_i > 0 yi>0且 ⟨ w , x i ⟩ + b > 0 \langle w,x_i \rangle + b >0 ⟨w,xi⟩+b

文章介绍了感知机模型,作为二分类的线性模型,其输出通过Sign函数处理。感知机通过迭代策略不断优化权重和偏差,直至正确分类所有样本。当遇到非线性问题如XOR时,单层感知机无法解决,于是引出多层感知机,通过隐藏层和非线性激活函数(如Sigmoid和ReLU)来处理非线性问题。文章还讨论了不同激活函数的性质,以及学习率对模型训练的影响。最后,提到了超参数num_hiddens对模型性能的影响,以及隐藏层数量和学习率的选择策略。
最低0.47元/天 解锁文章
4272

被折叠的 条评论
为什么被折叠?



