吴恩达深度学习复盘(3) 神经元层数学原理

wgc2k

已于 2025-04-01 12:07:06 修改

阅读量1k

点赞数 19

分类专栏： # 深度学习文章标签：深度学习人工智能

于 2025-03-31 15:58:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wgc2k/article/details/146811440

版权

深度学习专栏收录该内容

13 篇文章

订阅专栏

简单例子

笔者注

一般神经网络结构是，1.输入层；2.隐藏层（基本上可以认为是解决思路层）;3.输出层。而隐藏层是解决问题的关键。

比如输入的原始信息有价格，运费，市场，材料 - 这是输入层；而由输入层利用激活函数算法分别推算出接受度，关注度，预期品质等第二层信息（第二层是隐藏层），再根据隐藏层的信息最终输出则是畅销度预测。

概念解析

1. 神经元层结构

- 隐藏层：3个神经元，接收4维输入特征

- 输出层：1个神经元，接收3维输入

- 输入层：4维特征（未标注层号）

2. 符号体系

- 上标方括号表示层号：

- $W^{[1]}_1$ 表示第1层第1个神经元的权重

- $b^{[2]}$ 表示第2层（输出层）的偏差

- 下标表示神经元序号：

- $a^{[1]}_3$ 表示第1层第3个神经元的激活值

计算流程详解

1. 隐藏层计算（第1层）

- 输入向量： $\mathbf{X} = [x_1, x_2, x_3, x_4]$

- 每个神经元计算：

$a^{[1]}_i = \sigma\left( W^{[1]}_i \cdot \mathbf{X} + b^{[1]}_i \right)$ 笔者注：这里是举例，实际上的函数会因为需求而不同

其中 $\sigma(z) = \frac{1}{1+e^{-z}}$ 为逻辑函数。

- 示例计算：

- 第1个神经元： $a^{[1]}_1 = \sigma\left( W^{[1]}_1 \cdot \mathbf{X} + b^{[1]}_1 \right) \rightarrow 0.3$

- 第2个神经元： $a^{[1]}_2 = \sigma\left( W^{[1]}_2 \cdot \mathbf{X} + b^{[1]}_2 \right) \rightarrow 0.7$

- 第3个神经元： $a^{[1]}_3 = \sigma\left( W^{[1]}_3 \cdot \mathbf{X} + b^{[1]}_3 \right) \rightarrow 0.2$

- 输出向量： $\mathbf{A}^{[1]} = [0.3, 0.7, 0.2]$

2. 输出层计算（第2层）

- 输入向量： $\mathbf{A}^{[1]} = [0.3, 0.7, 0.2]$

- 计算： $a^{[2]} = \sigma\left( W^{[2]} \cdot \mathbf{A}^{[1]} + b^{[2]} \right)$ 同上：这里是举例，实际上的函数会因为需求而不同

- 示例计算：

- 假设 $W^{[2]} = [w_1, w_2, w_3]$ ,

$b^{[2]} = 0.5$

- 则 $z = w_1 \cdot 0.3 + w_2 \cdot 0.7 + w_3 \cdot 0.2 + 0.5$

- $a^{[2]} = \frac{1}{1+e^{-z}} \rightarrow 0.84$ （示例值）

3. 预测决策

- 最终输出： $a^{[2]} = 0.84$

- 阈值处理： $0.84 > 0.5 \rightarrow \hat{y} = 1$ （表示"畅销书"）

关键机制分析

1. 激活函数作用

- 逻辑函数 $\sigma(z)$ 将线性组合转换为非线性输出，实现多层网络的非线性表达能力。

2. 层级传递特性

- 权重矩阵维度匹配：

- 第1层： $W^{[1]} \in \mathbb{R}^{3 \times 4}$

- 第2层： $W^{[2]} \in \mathbb{R}^{1 \times 3}$

3. 参数学习过程

- 通过反向传播调整 $W$ 和 $b$ ，最小化损失函数（如交叉熵）。

实际应用场景（简化）

1. 需求预测案例

- 输入特征：价格、季节、促销等4维数据。

- 隐藏层抽象特征：

- 神经元1：价格敏感度

- 神经元2：季节影响

- 神经元3：促销效果

- 输出层综合判断：最终预测销量概率。

总结

1. 层级结构：模块化构建复杂网络。

2. 矩阵运算：高效实现并行计算。

3. 非线性变换：通过激活函数实现。

4. 符号规范：层号与神经元序号的双重索引。

5. 预测流程：从原始数据到最终决策的完整路径。

笔者注

$\sigma$ 表示逻辑函数， $\cdot$ 表示点积， $\\mathbb{R}$ 表示实数空间。上标方括号 [1] 表示层号，下标数字表示神经元序号。

稍微复杂一些的例子

核心概念

1. 层级结构

- 输入层（第0层）：4维特征向量 $\mathbf{X} = \mathbf{A}^{[0]}$

- 隐藏层：3层（第1、2、3层），每层包含多个神经元

- 输出层（第4层）：1个神经元（未在当前片段中展示）

2. 符号体系*

- 层号：用方括号上标表示，如 $W^{[3]}$ 表示第3层权重

- 神经元序号：用下标表示，如 $a^{[3]}_2$ 表示第3层第2个神经元的激活值

- 激活函数：默认使用逻辑函数 $\sigma(z) = \frac{1}{1+e^{-z}}$

计算流程详解

第3层（隐藏层）计算

1. 输入：

第2层的激活向量 $\mathbf{A}^{[2]} = [a^{[2]}_1, a^{[2]}_2, a^{[2]}_3]$

2. 参数：

- 权重矩阵： $W^{[3]} \in \mathbb{R}^{3 \times 3}$

- 偏差向量： $b^{[3]} \in \mathbb{R}^{3}$

3. 激活计算：

$a^{[3]}_j = \sigma\left( \sum_{i=1}^{3} W^{[3]}_{j,i} \cdot a^{[2]}_i + b^{[3]}_j \right)$ 对每个神经元 j

- 示例：

$a^{[3]}_2 = \sigma\left( W^{[3]}_2 \cdot \mathbf{A}^{[2]} + b^{[3]}_2 \right)$

关键机制分析

1. 层级传递规律

- 第 $L$ 层的激活值 $\mathbf{A}^{[L]}$ 由第 $L-1$ 层的激活值计算得到：

$\mathbf{A}^{[L]} = \sigma\left( W^{[L]} \cdot \mathbf{A}^{[L-1]} + b^{[L]} \right)$

- 矩阵维度匹配：

- $W^{[L]} \in \mathbb{R}^{n^{[L]} \times n^{[L-1]}}$

- $\mathbf{A}^{[L]} \in \mathbb{R}^{n^{[L]}}$

2. 激活函数作用

- 引入非线性变换，使网络能拟合复杂模式

- 输出范围 $[0,1]$ 便于概率解释

3. 参数共享机制

- 同一层神经元共享相同的激活函数形式

- 不同神经元通过不同的 $W^{[L]}_j$ , $b^{[L]}_j$ 学习不同特征

符号体系扩展

1. 输入层的符号统一

- 输入向量 $\mathbf{X}$ 记为 $\mathbf{A}^{[0]}$

- 第1层激活值： $a^{[1]}_j = \sigma\left( W^{[1]}_j \cdot \mathbf{A}^{[0]} + b^{[1]}_j \right)$

2. 通用公式

- 第 $L$ 层第 $j$ 个神经元： $a^{[L]}_j = \sigma\left( \sum_{i=1}^{n^{[L-1]}} W^{[L]}_{j,i} \cdot a^{[L-1]}_i + b^{[L]}_j \right)$

实际应用场景

1. 图像分类任务

- 输入层：像素值（如 $28 \times 28$ 灰度图像展开为784维向量）

- 隐藏层：逐层提取边缘、纹理、形状等抽象特征

- 输出层：概率分布（如10类数字的分类结果）

2. 语言处理任务

- 输入层：词嵌入向量（如300维）

- 隐藏层：捕捉语法、语义关系

- 输出层：情感分析、命名实体识别等结果

注：很多情况代码库底层都封装了，有时候只掉用封装函数，但是原理需要知道。

总结

1. 层级计算模式：

$\mathbf{A}^{[L]} = \sigma\left( W^{[L]} \cdot \mathbf{A}^{[L-1]} + b^{[L]} \right)$

2. 符号规范：

- $W^{[L]}$ : 第 $L$ 层权重矩阵

- $b^{[L]}$ : 第 $L$ 层偏差向量

- $a^{[L]}_j$ : 第 $L$ 层第 $j$ 个神经元的激活值

3. 激活函数选择：

- 逻辑函数（适用于二分类输出）

- ReLU、tanh等（适用于隐藏层）

笔者注：

$\cdot$ 表示点积， $\mathbb{R}$ 表示实数空间。上标方括号 $[L]$ 表示层号，下标 $j$ 表示神经元序号。激活函数 $\sigma(z)$ 统一表示逻辑函数，实际应用中可能替换为其他函数（如ReLU）。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。