RNN基础概念

RNN模型与语言评估指标解析

最新推荐文章于 2025-11-23 21:49:27 发布

原创最新推荐文章于 2025-11-23 21:49:27 发布 · 702 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#rnn #机器学习 #深度学习

文章介绍了潜变量回归模型在信息总结中的应用，详细阐述了RNN的工作机制，包括隐藏状态和输出的更新，并讨论了困惑度作为衡量语言模型性能的指标。此外，还提及了梯度裁剪在防止梯度爆炸问题上的重要性，这些内容主要聚焦于自然语言处理领域的理论和技术。

一、潜变量回归模型

使用潜变量 $h_{t}$ 总结过去的信息

在这里插入图片描述

二、RNN

更新隐藏状态： $h_{t}=φ(W_{hh}h_{t-1}+W_{hx}x_{t-1}+b_{h})$

更新输出： $o_{t}=W_{oh}h_{t}+b_{o}$

RNN的输出取决于当前输入和前一时间的隐变量
在这里插入图片描述

三、困惑度

衡量语言模型的好坏，可用平均交叉熵损失

$π=1n∑i=1n−logp(xi∣xi−1,...)π=\frac 1n \sum_{i=1}^n -logp(x_{i}|x_{i-1},...)$

$p$ 是语言模型的预测概率， $x_{i}$ 是真实词

NLP领域使用困惑度 $e x p (π)$ 来衡量语言模型的好坏，当 $e x p (π) = 1$ 时，结果完美；当 $e x p (π)$ 无穷大时，情况最坏

四、梯度裁剪

梯度裁剪可有效预防梯度爆炸，即如果梯度长度超过 $θ$ ，则将其赋值为 $θ$

$g=min(1,θ∣∣g∣∣)gg=min(1,\frac θ{||g||})g$

五、RNN的应用

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

晓shuo 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。