吴恩达深度学习复盘(3) 神经元层数学原理

简单例子

笔者注

一般神经网络结构是,1.输入层 ;2.隐藏层(基本上可以认为是解决思路层);3.输出层。而隐藏层是解决问题的关键。

比如输入的原始信息有价格,运费,市场,材料 - 这是输入层;而由输入层利用激活函数算法分别推算出接受度,关注度,预期品质等第二层信息(第二层是隐藏层),再根据隐藏层的信息最终输出则是畅销度预测。

概念解析

1. 神经元层结构

- 隐藏层:3个神经元,接收4维输入特征

- 输出层:1个神经元,接收3维输入

- 输入层:4维特征(未标注层号)

2. 符号体系

 - 上标方括号表示层号:

- W^{[1]}_1表示第1层第1个神经元的权重

- b^{[2]}表示第2层(输出层)的偏差

- 下标表示神经元序号:

- a^{[1]}_3表示第1层第3个神经元的激活值

计算流程详解

1. 隐藏层计算(第1层)

- 输入向量:\mathbf{X} = [x_1, x_2, x_3, x_4]

- 每个神经元计算:

a^{[1]}_i = \sigma\left( W^{[1]}_i \cdot \mathbf{X} + b^{[1]}_i \right) 笔者注:这里是举例,实际上的函数会因为需求而不同

其中\sigma(z) = \frac{1}{1+e^{-z}}为逻辑函数。

- 示例计算:

- 第1个神经元:a^{[1]}_1 = \sigma\left( W^{[1]}_1 \cdot \mathbf{X} + b^{[1]}_1 \right) \rightarrow 0.3

- 第2个神经元:a^{[1]}_2 = \sigma\left( W^{[1]}_2 \cdot \mathbf{X} + b^{[1]}_2 \right) \rightarrow 0.7

- 第3个神经元:a^{[1]}_3 = \sigma\left( W^{[1]}_3 \cdot \mathbf{X} + b^{[1]}_3 \right) \rightarrow 0.2

- 输出向量:\mathbf{A}^{[1]} = [0.3, 0.7, 0.2]

2. 输出层计算(第2层)

- 输入向量:\mathbf{A}^{[1]} = [0.3, 0.7, 0.2]

- 计算:a^{[2]} = \sigma\left( W^{[2]} \cdot \mathbf{A}^{[1]} + b^{[2]} \right) 同上:这里是举例,实际上的函数会因为需求而不同

- 示例计算:

- 假设 W^{[2]} = [w_1, w_2, w_3],

        b^{[2]} = 0.5

- 则 z = w_1 \cdot 0.3 + w_2 \cdot 0.7 + w_3 \cdot 0.2 + 0.5

- a^{[2]} = \frac{1}{1+e^{-z}} \rightarrow 0.84(示例值)

3. 预测决策

 - 最终输出:a^{[2]} = 0.84

- 阈值处理:0.84 > 0.5 \rightarrow \hat{y} = 1(表示"畅销书")

关键机制分析

1. 激活函数作用

 - 逻辑函数 \sigma(z)将线性组合转换为非线性输出,实现多层网络的非线性表达能力。

2. 层级传递特性

 - 权重矩阵维度匹配:

- 第1层:W^{[1]} \in \mathbb{R}^{3 \times 4}

- 第2层:W^{[2]} \in \mathbb{R}^{1 \times 3}

3. 参数学习过程

 - 通过反向传播调整 Wb,最小化损失函数(如交叉熵)。

实际应用场景 (简化)

1. 需求预测案例 

- 输入特征:价格、季节、促销等4维数据。

- 隐藏层抽象特征:

- 神经元1:价格敏感度

- 神经元2:季节影响

- 神经元3:促销效果

- 输出层综合判断:最终预测销量概率。

总结

1. 层级结构:模块化构建复杂网络。

2. 矩阵运算:高效实现并行计算。

3. 非线性变换:通过激活函数实现。

4. 符号规范:层号与神经元序号的双重索引。

5. 预测流程:从原始数据到最终决策的完整路径。

笔者注

\sigma表示逻辑函数,\cdot 表示点积,\\mathbb{R} 表示实数空间。上标方括号 [1] 表示层号,下标数字表示神经元序号。

稍微复杂一些的例子

核心概念

 1. 层级结构

 - 输入层(第0层):4维特征向量 \mathbf{X} = \mathbf{A}^{[0]}

- 隐藏层:3层(第1、2、3层),每层包含多个神经元

- 输出层(第4层):1个神经元(未在当前片段中展示)

2. 符号体系*

- 层号:用方括号上标表示,如 W^{[3]} 表示第3层权重

- 神经元序号:用下标表示,如 a^{[3]}_2 表示第3层第2个神经元的激活值

- 激活函数:默认使用逻辑函数 \sigma(z) = \frac{1}{1+e^{-z}}

计算流程详解

第3层(隐藏层)计算

 1. 输入:

第2层的激活向量 \mathbf{A}^{[2]} = [a^{[2]}_1, a^{[2]}_2, a^{[2]}_3]

2. 参数:

- 权重矩阵:W^{[3]} \in \mathbb{R}^{3 \times 3}

- 偏差向量:b^{[3]} \in \mathbb{R}^{3}

3. 激活计算:

a^{[3]}_j = \sigma\left( \sum_{i=1}^{3} W^{[3]}_{j,i} \cdot a^{[2]}_i + b^{[3]}_j \right) 对每个神经元  j 

- 示例:

a^{[3]}_2 = \sigma\left( W^{[3]}_2 \cdot \mathbf{A}^{[2]} + b^{[3]}_2 \right)

关键机制分析 

1. 层级传递规律 

- 第 L层的激活值 \mathbf{A}^{[L]} 由第 L-1 层的激活值计算得到:

\mathbf{A}^{[L]} = \sigma\left( W^{[L]} \cdot \mathbf{A}^{[L-1]} + b^{[L]} \right)

- 矩阵维度匹配:

- W^{[L]} \in \mathbb{R}^{n^{[L]} \times n^{[L-1]}}

- \mathbf{A}^{[L]} \in \mathbb{R}^{n^{[L]}}

2. 激活函数作用

 - 引入非线性变换,使网络能拟合复杂模式

- 输出范围 [0,1]便于概率解释

3. 参数共享机制

 - 同一层神经元共享相同的激活函数形式

- 不同神经元通过不同的 W^{[L]}_j, b^{[L]}_j 学习不同特征

符号体系扩展

1. 输入层的符号统一

 - 输入向量\mathbf{X} 记为 \mathbf{A}^{[0]}

- 第1层激活值: a^{[1]}_j = \sigma\left( W^{[1]}_j \cdot \mathbf{A}^{[0]} + b^{[1]}_j \right)

2. 通用公式

 - 第L 层第 j 个神经元:a^{[L]}_j = \sigma\left( \sum_{i=1}^{n^{[L-1]}} W^{[L]}_{j,i} \cdot a^{[L-1]}_i + b^{[L]}_j \right)

实际应用场景

1. 图像分类任务

 - 输入层:像素值(如 28 \times 28 灰度图像展开为784维向量)

- 隐藏层:逐层提取边缘、纹理、形状等抽象特征

- 输出层:概率分布(如10类数字的分类结果)

2. 语言处理任务

 - 输入层:词嵌入向量(如300维)

- 隐藏层:捕捉语法、语义关系

- 输出层:情感分析、命名实体识别等结果

注:很多情况代码库底层都封装了,有时候只掉用封装函数,但是原理需要知道。

总结

1. 层级计算模式:

\mathbf{A}^{[L]} = \sigma\left( W^{[L]} \cdot \mathbf{A}^{[L-1]} + b^{[L]} \right)

2. 符号规范:

- W^{[L]}: 第 L 层权重矩阵

- b^{[L]}: 第 L层偏差向量

- a^{[L]}_j: 第 L层第j个神经元的激活值

3. 激活函数选择:

- 逻辑函数(适用于二分类输出)

- ReLU、tanh等(适用于隐藏层)

笔者注:

\cdot表示点积,\mathbb{R}表示实数空间。 上标方括号 [L] 表示层号,下标 j 表示神经元序号。 激活函数 \sigma(z) 统一表示逻辑函数,实际应用中可能替换为其他函数(如ReLU)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值