机器学习V1.0—人工神经网络算法（ANN）

皮皮姑娘

已于 2023-12-01 17:10:23 修改

阅读量2.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习算法文章标签：机器学习人工智能算法

于 2019-12-24 08:43:32 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_44078774/article/details/103669053

机器学习算法专栏收录该内容

1 篇文章

订阅专栏

本文深入解析了人工神经网络(ANN)的关键概念，包括感知器、梯度下降、反向传播算法及隐藏层的作用。介绍了ANN如何逼近实数值、离散值或向量的目标函数，并详细阐述了单个感知器与多层网络的区别，以及反向传播算法如何解决非线性决策面的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ANN对于逼近实数值、离散值或向量的目标函数提供了一种健壮性很强的方法，即对于训练数据中的错误健壮性很好。
在这个算法中包含几个主要的概念：

1 感知器

一种类型的ANN系统是以被称为感知器的单元为基础的，如下图所示：
在这里插入图片描述
感知器以一个实数值向量作为输入，计算这些输入的线性组合，若结果大于某个阈值，就输入1，否则输出-1。

当训练样例线性可分时，感知器法则可以成功的找到一个权向量，否则不能收敛。

2 梯度下降和delta法则

如果训练样本不是线性可分，delta法则会收敛到目标概念的最佳近似，可以理解为训练一个无阈值的感知器，也就是一个线性单元。
delta法则的关键思想：使用梯度下降来搜索可能的权向量的假设空间，以找到最佳拟合训练样例的权向量。
梯度下降的意义是找到曲面最低的那个点，为全局最优点。
在这里插入图片描述
梯度下降的算法如下所示：

上述算法存在的缺点：1. 收敛过程缓慢；2. 若误差曲面上存在多个局部极小值，不能保证这个过程会找到全局最小值。
解决方法：采用增量梯度下降或随机梯度下降，过程为：
删除算法中（4.9），修改（4.8）为
在这里插入图片描述

3 反向传播算法

单个感知器仅能表示线性决策面，反向传播算法所学习的多层网络能够表示种类繁多的非线性曲面。如下图，多层网络可以表示高度非线性的决策面:
在这里插入图片描述
sigmod单元：是一种非常类似于感知器的单元，基于一个平滑的可微阈值函数。它的输出是输入的非线性函数，输出是输入的可微函数。
sigmod函数也称为logistics函数，输出范围为0到1，因为可以把非常大的输入值域映射到一个小范围的输出，经常被称为sigmod单元的挤压函数。它的导数很容易用它的输出表示。
双曲正切函数 tanh 也有这样的功能。
sigmod函数：
在这里插入图片描述
sigmod导数：

反向传播算法的如下所示：

反向传播算法的权值更新迭代会被重复上千次，终止判据的选择很重要，迭代太少可能无法有效的降低误差，迭代太多会导致对训练数据的过渡拟合。常见的解决方法有以下两种：

增加冲量项：
学习任意的无环网络：

4 隐藏层

在多层神经网络中，存在隐藏层，其在神经网络中的功能和步骤可以用下图展示：
在这里插入图片描述

5 总结

ANN感觉是在解多元组方程。
定义函数，权值（可以看做多元方程组的常量的值）。通过不断调整权值，得到最终的权重值，该过程有点像动态规划的过程。
我认为ANN的本质是通过定义函数，找到最终的权重。

[1]: 机器学习（第四章人工神经网络）
[2]: https://zhuanlan.zhihu.com/p/47519999
[3]: https://www.cnblogs.com/ranjiewen/p/6115272.html
[4]: https://zhuanlan.zhihu.com/p/29683837