Recurrent Neural Network（李宏毅）机器学习 2023 Spring HW2 (Boss Baseline)

成贤街的猫

已于 2025-01-04 05:07:09 修改

阅读量992

点赞数 21

文章标签：机器学习 lstm rnn 循环神经网络人工智能神经网络深度学习

于 2025-01-03 03:47:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_66773231/article/details/144898687

版权

1. Recurrent Neural Network 介绍

1.1 Recurrent Neural Network (RNN)

RNN是一种适合处理序列数据的神经网络，可以通过隐藏层状态保存序列信息。它通过循环结构更新隐藏状态，捕获时间序列的依赖关系。

$h_t = f(W_h h_{t-1} + W_x x_t + b) \\$

其中：

$h_t$ ：当前时间步隐藏状态
$h_{t-1}$ ：上一时间步隐藏状态
$x_t$ ：当前输入
$W_h,W_x,b$ ：权重和偏置
$f$ ：激活函数（如tanh或ReLU）

Recurrent Neural Network (source: https://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/RNN%20(v2).pdf)标题

1.2 Long Short-Term Memory (LSTM)

LSTM是简单RNN模块的改进版本，解决了普通RNN的梯度消失问题。它引入了“门”机制（输入门、遗忘门、输出门）和细胞状态，用于长期依赖建模。

遗忘门： $f_t = \sigma(W_f [h_{t-1}, x_t] + b_f)$

输入门： $i_t = \sigma(W_i [h_{t-1}, x_t] + b_i), \quad \tilde{C}_t = \tanh(W_C [h_{t-1}, x_t] + b_C)$

Cell 状态更新： $C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$

输出门： $o_t = \sigma(W_o [h_{t-1}, x_t] + b_o), \quad h_t = o_t \odot \tanh(C_t)$

其中： $\sigma$ 是Sigmoid函数， $\odot$ 表示逐元素乘法。

标题LSTM (source: https://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/RNN%20(v2).pdf)

标题LSTM Detail (source: https://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/RNN%20(v2).pdf)

1.3 Bidirectional LSTM (BiLSTM)

BiLSTM是LSTM的扩展，结合了前向和后向两个方向的信息，适合捕获序列的全局上下文。它利用两个LSTM：前向（从左到右）和后向（从右到左），并在输出将前向和后向的隐藏状态拼接

$h_t = [\overrightarrow{h_t}; \overleftarrow{h_t}] \\$

其中 $\overrightarrow{h_t}$ 和 $\overleftarrow{h_t}$ 分别表示前向和后向隐藏状态。

标Bidirectional RNN (source: https://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/RNN%20(v2).pdf)题

2. Homework Results and Analysis

HW2 是一个多分类任务，我们将根据语音进行逐帧的音素预测。音素是语言中最小的语音单位，可以用来区分不同的单词。音素与字母不同，它们代表的是发音。在书写中，一个音素可能对应多个字母或字母组合。

task introduction (source: https://speech.ee.ntu.edu.tw/~hylee/ml/ml2023-course-data/HW02+%E8%81%BD%E6%B8%AC.pdf)标题

音频信号将被划分为重叠的帧，每帧持续 25 毫秒，相邻帧之间的间隔为 10 毫秒。

Acoustic Features (source: https://speech.ee.ntu.ed

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。