机器学习之神经网络、前向传播

华彬

于 2019-03-19 06:07:27 发布

阅读量643

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/yhb1220_yhb/article/details/88610040

版权

机器学习专栏收录该内容

5 篇文章

订阅专栏

本文介绍了神经网络的基础知识，包括神经网络的结构和前向传播过程。首先，概述了神经网络由输入层、隐藏层和输出层组成，并解释了激活函数在模型中的作用。接着，详细阐述了前向传播的过程，描述了如何通过线性变换和非线性激活函数计算神经元的输出。最后，讨论了不同的激活函数，如Sigmoid、ReLU等，及其对模型泛化能力的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、神经网络概述

神经网络，简称NN，我们可以将一个最简单的神经网络表示如下图所示：

1、A部分是把样本 x_1,x_2,x_3 ，通过如下的线性处理 $z=\sum\limits_{i=1}^mw_ix_i + b$

2、再通过B部分一个激活函数，进行数据处理得到输出结果

我们将神经网络分为三层，一个输入层(inputs layer)

一个输出层(output layer)

中间加入多层的隐藏层(hidden layer)，以增加模型的泛化能力，如下图所示：

二、前向传播

将所有输入和神经元和神经元之间组成一个全连接网络，如下图所示，

图示说明：

1、黑色的标注，我们认为是第一层，红色标注，我们认为是第二层，等会会在上标上加以区别

2、 x_1,x_2,x_3 表示输入

3、 w_1_1,w_1_2,w_2_1,w_2_2,w_3_1,w_3_2 表示线性参数，若在第一层，加上上标 w_1_1^1 ，矩阵用W

4、 b_1,b_2 表示偏置值，若在第一层，加上上标 b_1^1

5、 a_1,a_2 表示一层的输出值，若在第一层，加上上标 a_1^1

6、 z_1,z_2表示线性变换的输出表示线性变换的输出，若在第一层，加上上标 z_1^1

7、每层的神经元，会通过激活函数 $\sigma$ (A)，进行非线性变换

则有如下公式：

$a_1^1=\sigma(z_1^1) = \sigma(w_{11}^1x_1 + w_{12}^1x_1 + w_{13}^1x_3 + b_1^{1})$

$a_2^1=\sigma(z_2^1) = \sigma(w_{21}^1x_1 + w_{22}^1x_1 + w_{23}^1x_3 + b_2^{1})$

$a_3^1=\sigma(z_3^1) = \sigma(w_{31}^1x_1 + w_{32}^1x_1 + w_{33}^1x_3 + b_3^{1})$

则每一层则归纳为如下：

第一层： $a_i^1 = \sigma(z_i^1) = \sigma(\sum\limits_{k=1}^mw_{ik}^1x_k + b_i^1)$

后续层： $a_i^l = \sigma(z_i^l) = \sigma(\sum\limits_{k=1}^mw_{ik}^la_k^{l-1} + b_i^l)$

三、关于激活函数 $\sigma$ ()

是对输出进行一次非线性变化，在感知机中用的是sign(z)，简单，但是处理能力有限，在神经网络中，引入了其他激活函数，比如有Sigmoid函数，还有tanx,softmax,ReLU函数等，每个函数对输出值进行进一步的改进。

(个人觉得是，线性函数对数据的划分能力非常有限，引入了Sigmoid等函数，加强了对模型的泛化能力！)

在前向传播中，参数w和b的值都是初始的某个数，我们需要通过后续介绍的反向传播对参数进行更新。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。