机器学习之神经网络、前向传播

本文介绍了神经网络的基础知识,包括神经网络的结构和前向传播过程。首先,概述了神经网络由输入层、隐藏层和输出层组成,并解释了激活函数在模型中的作用。接着,详细阐述了前向传播的过程,描述了如何通过线性变换和非线性激活函数计算神经元的输出。最后,讨论了不同的激活函数,如Sigmoid、ReLU等,及其对模型泛化能力的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、神经网络概述

神经网络,简称NN,我们可以将一个最简单的神经网络表示如下图所示:

 

1、A部分是把样本x_1,x_2,x_3,通过如下的线性处理z=\sum\limits_{i=1}^mw_ix_i + b

2、再通过B部分一个激活函数,进行数据处理得到输出结果

我们将神经网络分为三层,一个输入层(inputs layer)

一个输出层(output layer)

中间加入多层的隐藏层(hidden layer),以增加模型的泛化能力,如下图所示:

二、前向传播

将所有输入和神经元和神经元之间组成一个全连接网络,如下图所示,

图示说明:

1、黑色的标注,我们认为是第一层,红色标注,我们认为是第二层,等会会在上标上加以区别

2、x_1,x_2,x_3表示输入

3、w_1_1,w_1_2,w_2_1,w_2_2,w_3_1,w_3_2表示线性参数,若在第一层,加上上标w_1_1^1,矩阵用W

4、b_1,b_2表示偏置值,若在第一层,加上上标b_1^1

5、a_1,a_2表示一层的输出值,若在第一层,加上上标a_1^1

6、z_1,z_2表示线性变换的输出表示线性变换的输出,若在第一层,加上上标z_1^1

7、每层的神经元,会通过激活函数\sigma(A),进行非线性变换

则有如下公式:

a_1^1=\sigma(z_1^1) = \sigma(w_{11}^1x_1 + w_{12}^1x_1 + w_{13}^1x_3 + b_1^{1})

a_2^1=\sigma(z_2^1) = \sigma(w_{21}^1x_1 + w_{22}^1x_1 + w_{23}^1x_3 + b_2^{1})

a_3^1=\sigma(z_3^1) = \sigma(w_{31}^1x_1 + w_{32}^1x_1 + w_{33}^1x_3 + b_3^{1})

则每一层则归纳为如下:

第一层:a_i^1 = \sigma(z_i^1) = \sigma(\sum\limits_{k=1}^mw_{ik}^1x_k + b_i^1)

后续层:a_i^l = \sigma(z_i^l) = \sigma(\sum\limits_{k=1}^mw_{ik}^la_k^{l-1} + b_i^l)

三、关于激活函数\sigma()

是对输出进行一次非线性变化,在感知机中用的是sign(z),简单,但是处理能力有限,在神经网络中,引入了其他激活函数,比如有Sigmoid函数,还有tanx,softmax,ReLU函数等,每个函数对输出值进行进一步的改进。

(个人觉得是,线性函数对数据的划分能力非常有限,引入了Sigmoid等函数,加强了对模型的泛化能力!)

在前向传播中,参数w和b的值都是初始的某个数,我们需要通过后续介绍的反向传播对参数进行更新。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值