循环神经网络模型_循环神经网络语言模型-优快云博客

本文深入探讨了序列模型和语言模型的概念，强调了马尔科夫假设在建模中的应用。接着，详细介绍了循环神经网络（RNN）在语言模型中的运用，解释了困惑度和梯度裁剪的重要性。此外，还对比了门控循环单元（GRU）和长短期记忆网络（LSTM）在处理序列信息时的不同之处，强调了它们在记忆管理和信息选择上的机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

循环神经网络

提示：以下是本篇文章正文内容，下面案例可供参考

在时间 $t$ 观察到 $x_t$ ，那么得到 $T$ 个不独立的随机变量 $(x_1,x_2,...,x_T) \backsim p(\bf{X})$
使用条件概率展开 $p (a, b) = p (a) p (b ∣ a) = p (b) p (a ∣ b)$
推广到 $T$ 个随机变量有
$p(\bf{X})=$ $p(x_1)\cdot p(x_2|x_1)\cdot p(x_3|x_1,x_2)\cdot ...p(x_T|x_1,...x_{T-1})$

或者反过来
$p(\bf{X})=$ $p(x_T)\cdot p(x_{T-1}|x_T)\cdot p(x_{T-2}|x_T,x_{T-1})\cdot ...p(x_T|x_2,...x_T)$

反序的意义，例如知道未来的事情退过去的事情，物理上不一定可行是指如果未来的事情依赖于过去的事情而产生，那么就没法反推（这一点我还没有理解，既然未来的事情是作为已知条件，过去有和未来有联系，怎么就无法反推出过去的事情呢？）
对条件概率建模
$p(x_T|x_1,...x_{t-1}) = p(x_t|h(x_1,...,x_{t-1}))$
给定 $t - 1$ 个数据，求第 $t$ 个数据，假设用前 $t - 1$ 个数据建立一个函数 $h$ , $h$ 就是一个模型，通过 $h_{t-1}$ 求 $h_t$ 。通过对前面的数据建模，预测后一个数据，称为自回归模型，核心是求 $h$
如何求解 $f$
方案A-马尔科夫假设
假设当前数据只跟 $\tau$ 个过去数据点相关
$P(x_T|x_1,...x_{t-1}) =P(x_T|x_{t-\tau},...x_{t-1})= P(x_t|h(x_{t-\tau},...,x_{t-1}))$
方案B-潜变量模型
引入潜变量 $h_t$ 来表示过去的信息 $h_t=g(h_{t-1},x_{t-1})$
这样 $\hat{x_t}=P(x_t|h_t,x_{t-1})$

给定文本序列 $x_1,...,x_T$ , 语言模型的目标是估计联合概率 $p(x_1,...x_T)$
它的作用包括：做预训练模型（egBERT，GPT-3）;生成文本，给定前面几个词，不断的使用 $x_t \backsim p(x_t|x_1,...,x_{t-1})$ ; 判断多个序列中那个更常见，e.g “to recognize speech” vs “to wreck a nice beach”