41、注意力与记忆增强网络：原理、应用与案例分析

秃然暴富

于 2025-11-03 12:05:15 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习赋能NLP与语音文章标签：注意力机制记忆增强网络神经栈

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/vscode6remote/article/details/155017210

深度学习赋能NLP与语音专栏收录该内容

57 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

注意力与记忆增强网络：原理、应用与案例分析

1. 循环网络、控制器与训练

1.1 神经栈的循环网络结构

神经栈作为循环网络逐渐扩展，其控制器的动作如图所示。整个架构（以虚线标记）是一个循环网络，输入为前一循环状态 (H_{t - 1}) 和当前输入 (i_t)，输出为下一循环状态 (H_t) 和 (o_t)。前一循环状态 (H_{t - 1}) 由三部分组成：
1. 来自 RNN 的前一状态向量 (h_{t - 1})；
2. 前一栈读取值 (r_{t - 1})；
3. 前一状态下栈的状态 ((V_{t - 1}, s_{t - 1}))。

在实现时，除了随机初始化的 (h_0) 外，所有向量初始都设为 0。

1.2 控制器与信号生成

当前输入 (i_t) 与栈的前一读取值 (r_{t - 1}) 拼接后输入到控制器，控制器根据自身前一状态 (h_{t - 1}) 生成下一状态 (h_t) 和输出 (o’_t)。输出 (o’_t) 会产生推信号标量 (d_t)、弹信号标量 (u_t) 和值向量 (v_t)，这些作为输入信号传入神经栈，同时还有整个网络的输出信号 (o_t)，具体方程如下：
[
\begin{align }
d_t &= \text{sigmoid}(W_d o’_t + b_d) \
u_t &= \text{sigmoid}(W_u o’_t + b_u) \
v_t &= \text{sigmoid}(W_v o’_t + b_v) \
o_t &= \text{sigmoid}(

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。