PRML第五章读书笔记——Neural Networks 二次下降、Hessian矩阵的近似求解和精确求解、正切传播/Tikhonov正则化/软权值共享、混合密度网络、贝叶斯神经网络

最新推荐文章于 2024-07-21 07:45:00 发布

原创

最新推荐文章于 2024-07-21 07:45:00 发布 · 1.3k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #神经网络 #深度学习

本文精选神经网络发展中具有长期价值的概念和技术，涵盖单隐层神经网络拟合能力、训练技巧如逻辑回归中的损失函数选择、梯度下降方法比较、误差反向传播、Hessian矩阵及其近似计算、正则化策略等，特别强调了理论与实践相结合的重要性。

（神经网络发展很快，书中的思想停留在2006年左右那个时代。所以这里只对其中有价值的部分进行摘录。对于一般的知识略去，有更好的介绍书籍）

5.1 Feed-forward Network Functions

P231 单隐层神经网络的拟合能力

这里只用了三个隐层单元，tanh激活，就已经能拟合的这么好了。感受一下。
在这里插入图片描述
分类能力

5.2 Network Training

P235 逻辑回归中的交叉熵和平方损失

在逻辑回归中，用sum-of-squares做loss其实也还凑合（注意和感知机做区分，感知机因为没有sigmoid，所以直接用平方损失会受离群点影响）。不过Simard et al.(2003)指出，对分类问题，用交叉熵会比平方损失更快，也能提高泛化性

P239 梯度下降和二次下降的效率对比

如果参数量为 $W$ ，

二次下降：求Hessian矩阵需要 $\mathcal O(W^2)$ 的复杂度，目标优化中的 $H^{-1}g$ 一项又至少需要 $\mathcal O(W^3)$ 的复杂度
梯度下降：求梯度 $\mathcal O(W)$ 复杂度，找极小值需要 $\mathcal O(W)$ 的复杂度（待证明），所以一共只需要 $\mathcal O(W^2)$ 的复杂度

P241 随机梯度下降相比于梯度下降的优势

容易逃出局部最优解
更高效。想象数据集复制成原先两倍，梯度下降要全部过一遍，而随机梯度下降则不受影响。

5.3 Error Backpropagation

P246 梯度的数值解近似

方法1为
$\frac{\partial E_n}{ \partial w_{ji}} = \frac{E_n(w_{ji} + \epsilon)-E_n(w_{ji})}{\epsilon} + \mathcal O(\epsilon)$
方法2为
$\frac{\partial E_n}{ \partial w_{ji}} = \frac{E_n(w_{ji} + \epsilon)-E_n(w_{ji} - \epsilon)}{2\epsilon} + \mathcal O(\epsilon^2)$
方法2的无穷小项阶数更小，可以用泰勒展开进行证明。这好神奇啊。
不过方法2的计算量是方法1的两倍（在神经网络已知 $E_n(w_{ji})$ 的前提下）

P247 Jacobian矩阵

神经网络中可以计算jacobian矩阵，计算的时候可以前向计算，也可以反向计算。

5.4 The Hessian Matrix

计算Hessian矩阵时，通常考虑所有参数，包括weights和bias，一起算一个大的Hessian矩阵 $\textbf H$ .

P250 对角近似

考虑到有时候只是用Hessian矩阵的逆，所以更愿意估计一个对角阵 $\textbf H$ 。存在一种方法能让计算复杂度退化到 $\mathcal O(W)$ （Becker and Le Cun, 1989; Le Cun et al., 1990），具体计算过程略去，翻书……
如果损失函数 $E=\sum_n E_n$ ，是 $n$ 个样本相加，那么 $\textbf H$ 也可以每个样本单独算，最后加起来

P251 外积近似

考虑最小二乘为损失函数的回归问题，
$E=\frac{1}{2}\sum_{n=1}^N (y_n - t_n)^2$
$\textbf H = \nabla^2 E=\sum_{n=1}^N \nabla y_n^T \nabla y_n+\sum_{n=1}^N (y_n - t_n)\nabla^2 y_n$
如果 $y_n$ 和 $t_n$ 很接近，第二项很小，忽略。（或者假定第二项中 $y_n-t_n$ 与 $\nabla^2 y_n$ 无关，则求和后，因为 $y_n-t_n$ 的误差期望是0，苏所以也能忽略）
剩下
$\textbf H \simeq \sum_{n=1}^N \textbf b_n \textbf b_n^T$
其中 $\textbf b_n = \nabla a_n$ ， $a_n$ 是没有激活的网络最后一层（logit值）
对于逻辑回归，则有类似结论
$\textbf H \simeq \sum_{n=1}^N y_n(1-y_n)\textbf b_n \textbf b_n^T$
这种方式的计算，比较高效， $\mathcal O(W^2)$ 的复杂度发生在 $\textbf b_n$ 的矩阵乘法那里

用这种方式可以近似计算 $\textbf H^{-1}$ 。考虑数据是序列进来的，
$\textbf H _{L+1} = \textbf H_L + \textbf b_{L+1} \textbf b_{L+1}^T$
利用woodbury等式可以得到
$\textbf H_{L+1}^{-1} = \textbf H_{L}^{-1} - \frac{\textbf H_{L}^{-1} \textbf b_{L+1}\textbf b_{L+1}^T \textbf H_{L}^{-1}}{1+\textbf b_{L+1}^T\$

最低0.47元/天解锁文章

7 条评论

Susan秀 2020.12.30
楼主这两本书是自己买吗？
- Trade Off回复Susan秀 2020.12.30
  ESL是自己买的，PRML看的电子版

Susan秀 2020.12.30
楼主是哪个学校的学生呀？是博士生了吗？我是研一的小菜鸡，膜拜你以缓解我的焦虑~~~
- Trade Off回复Susan秀 2020.12.31
  我不是做时间序列的，只在我的认知范围内说一下：要看你的目的。如果你之前没有时间序列的基础，想补时间序列相关的知识，建议去找一些时间序列相关的书籍，尤其是豆瓣、知乎、Amazon给出的高分书，并不推荐这本书。如果你已经有一定的时间序列基础，并且发现你需要的知识和机器学习很相关，想提升机器学习方面的基础，那么这本书可以看，时序相关的重点看13章HMM和粒子滤波，如果13章直接看看不懂可以酌情看3、8、9、11这么几章。
- Susan秀回复Trade Off 2020.12.31
  楼主师兄，我的方向不是机器学习，是时间序列。我打算寒假看看这本书，但是不知道合不合适，你觉得适合吗？[face]monkey:43.gif[/face]
- Susan秀回复Trade Off 2020.12.31
  太强了吧呜呜呜
- Trade Off回复Susan秀 2020.12.30
  不是博士生，研二在读。一起加油！