感知器

最新推荐文章于 2024-06-10 15:29:22 发布

翻译最新推荐文章于 2024-06-10 15:29:22 发布 · 1k 阅读

·

0

·

概率论&数理统计同时被 2 个专栏收录

6 篇文章

订阅专栏

5 篇文章

订阅专栏

本文介绍了感知器算法的基本原理，包括其数学表示、决策规则及规范化增广样本向量的概念。通过对感知器准则函数的定义及最小化过程的解析，详细阐述了如何利用梯度下降法迭代求解解向量。

首先，我们对 $g(x)=w^Tx+w_0$ 做一些形式上的改变。定义：

y = [1, x 1, x 2, \dots, x d] T

$y=[1,x_1,x_2,\ldots,x_d]^T$

α = [w 0, w 1, w 2, \dots, w d] T

$\alpha=[w_0,w_1,w_2,\ldots,w_d]^T$
这样

g(x) $g(x)$ 就可以表示成：

g (x) = α T y

$g(x)=\alpha^Ty$
决策规则是：如果

g(y)>0 $g(y)>0$ ，则

y∈w1 $y\in w_1$ ；如果

g(y)<0 $g(y)<0$ ，则

y∈w2 $y\in w_2$ ;

现在我们定义一个新的变量 $y_i'$ （称为：规范化增广样本向量）：

y' i = {y i i f y i \in w 1 - y i i f y i \in w 2

$y_i'=\begin{cases}y_i\qquad if\;y_i\in w_1\\-y_i\;\quad if\;y_i\in w_2\end{cases}$
这样，样本可分的条件就变成了：

α T y' i > 0, i = 1, 2, \dots, N

$\alpha^Ty_i'>0,\quad i=1,2,\cdots,N$
对于线性可分的一组样本

y1,y2,⋯,yN $y_1,y_2,\cdots,y_N$ 满足上式的权向量

α∗ $\alpha^*$ 称为一个解向量，所有满足要求的

α∗ $\alpha^*$ 构成解区。解区中的每个解向量都能把样本没有错误的分开，但是考虑到噪声、数值计算误差等因素，靠近解区中间的解向量应该更加可靠，因此引入余量的概念，将解区向中间缩小。形式化描述就是，引入余量

b>0 $b>0$ 要求解向量满足：

α T y i > b i = 1, 2, \dots, N

$\alpha^Ty_i>b\quad i=1,2,\cdots,N$

下面来讲讲如何求解 $\alpha^*$ 。
对于权向量 $\alpha$ ，如果某个样本 $y_k$ 被错误分类，则 $\alpha^Ty_k\leq0$ 。因此我们可以定义所有样本中错误分类样本的惩罚：

J P (α) = \sum α T y k \leq 0 (- α T y k) (1)

$J_P(\alpha)=\sum_{\alpha^Ty_k\leq0}(-\alpha^Ty_k) \tag{1}$
公式(1)就是感知器准则函数。
当且仅当

JP(α∗)=minJP(α) $J_P(\alpha^*)=minJ_P(\alpha)$ 时

α∗ $\alpha^*$ 是解向量。
公式(1)的最小化可以用梯度下降法迭代求解：

α (t + 1) = α (t) - ρ t \nabla J P (α) (2)

$\alpha(t+1)=\alpha(t)-ρ_t∇J_P(\alpha)\tag{2}$
其中：

ρ t \nabla J P (α) = \partial J P ( α ) \partial α = \sum α T y k \leq 0 (- y k)

$ρ_t∇J_P(\alpha)=\frac{∂J_P(\alpha)}{∂\alpha}=\sum_{\alpha^Ty_k\leq0}(-y_k)$
因此公式(2)可写成：

α (t + 1) = α (t) + ρ t \sum α T y k \leq 0 (y k)

$\alpha(t+1)=\alpha(t)+ρ_t\sum_{\alpha^Ty_k\leq0}(y_k)$
即在每一步迭代时把错分的样本按照某个系数加到权向量上。

通常情况下，一次将所有错误样本都进行修正的做法效率不高，更常用的是每次只修正一个样本的固定增量法，步骤是：
(1)任意选择初始的权向量 $\alpha(0)$ ，置 $t=0$ ；
(2)考察样本 $y_j$ ，若 $\alpha(t)^Ty_j\leq0$ ，则 $\alpha(t+1)=\alpha(y)+y_j$ ，否则继续；
(3)考察另一个样本，重复(2)，直至对所有样本都有 $\alpha(y)^Ty_j>0$ ，即 $J_P(\alpha)=0$
如果考虑余量 $b$ ，只需将上面的算法中的错分判断条件改成 $\alpha(t)^Ty_j\leq b$ 即可。

这里修正步长 $ρ_t=1$ 是固定的，但是也可以使用可变步长，如绝对修正法的步长为 $ρ_t=\frac{|\alpha(k)^Ty_j|}{||y_j||^2}$

总结：感知器算法是最简单的可学习的机器，由于它只能解决线性可分的问题，所以在实际应用中直接使用感知器的场合并不多，但是它是很多复杂算法的基础，比如SVM和多层感知器人工神经网络。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。