第2章 感知机学习算法
依旧只记录重要的
感知器
感知器是神经网络和SVM的基础。
原始版算法(含作业)
先记录一下优化函数:
min
w
,
b
−
∑
x
i
∈
M
y
i
(
w
⋅
x
i
+
b
)
\min \limits_{w,b}-\sum\limits_{x_{i\in M}}{y_i(w·x_i+b)}
w,bmin−xi∈M∑yi(w⋅xi+b)
优化算法是随机梯度下降法(SGD):每次只用一个样本来跟新
w
,
b
w,b
w,b。
具体算法:
重点
:该算法是当训练集中没有误分类点时结束。
结论:作业在这里
根据我做的实验 Matlab感知器实现可知
- 算法中 w , b w,b w,b初始化以及样本顺序会影响网络收敛速度
- 算法结果不唯一
- 较优的超平面可以通过平均法来求得
- 离群点会影响感知器的性能,也就是说,当数据线性可分时,感知器表现较好,反之,则不然。
对偶形式
感知器的对偶形式是:将
w
,
b
w,b
w,b表示成
x
i
,
y
i
x_i,y_i
xi,yi的线性组合,再求解系数,进而求得
w
,
b
w,b
w,b。
重点
:对于梯度,会因为
x
i
x_i
xi而修改
n
i
n_i
ni次,所以
n
i
n_i
ni是针对不同样本而不同的。
n
i
n_i
ni越大,说明超平面因这个
x
i
x_i
xi修改的次数越多,说明这个
x
i
x_i
xi越难分类。
对偶形式算法
确实感觉
w
,
b
w,b
w,b就是所有样本的线性组合。。
看"对偶形式"那里,不懂为什么要弄个对偶形式出来。查了资料,
每一个线性规划问题都伴随有另一个线性规划问题,称为对偶问题.原来的线性规划问题则称为原始线性规划问题,简称原始问题.对偶问题有许多重要的特征,它的变量能提供关于原始问题最优解的许多重要资料,有助于原始问题的求解和分析.对偶问题与原始问题之间存在着下列关系:
①目标函数对原始问题是极大化,对对偶问题则是极小化.
②原始问题目标函数中的收益系数是对偶问题约束不等式中的右端常数,而原始问题约束不等式中的右端常数则是对偶问题中目标函数的收益系数.
③原始问题和对偶问题的约束不等式的符号方向相反.
④原始问题约束不等式系数矩阵转置后即为对偶问题的约束不等式的系数矩阵.
⑤原始问题的约束方程数对应于对偶问题的变量数,而原始问题的变量数对应于对偶问题的约束方程数.
⑥对偶问题的对偶问题是原始问题,这一性质被称为原始和对偶问题的对称性.
支持向量机的二次规划问题,如果转化为对偶问题,会将其求解问题简化.简化的道理,通过对偶理论就可以知道.例如,支持向量机的最大化分类间隔,可以通过对偶问题转为min形式.
总之,对偶形式有很多的优点,利于计算,方便推导等等.
总的来说,是为了简化问题,方便求解的。(具体可能要参考凸优化,#TODO)
《统计学习方法》第1版的参考附录C就写了对偶问题以及解决方法。。看到第6章才看到。。