前向网络，两层MLP，可以作为未归一化的Key-Value记忆结构

Deno_V

于 2023-02-20 14:41:46 发布

阅读量235

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44839047/article/details/129123837

版权

前向网络，两层MLP，可以作为未归一化的Key-Value记忆结构

Feed-Forward Layers as Unmarlized Key-Value Memories.

前向传播结构

传统的两层神经网络可以被写为 $W_2\sigma(W_1x+b_1)+b_2$ ， $\sigma$ 是非线性激活函数。如果去掉偏置，可以改写成 $FF(x)=\sigma(x\cdot K^T)\cdot V$ 。

神经记忆

一个神经记忆模块有 $d_m$ 个key-value对，这个成对的kv就是记忆。每个key用一个d维的向量表示 $k_i$ ，同时 $d_m$ 个key就可以构成一个参数矩阵 $K\in\mathbb{R}^{d_m\times d}$ 。同样我们可以定义value矩阵 $V\in\mathbb{R}^{d_m\times d}$ ，对于一个输入向量 $x\in\mathbb{R}^{d}$ ，我们可以轻松的计算输入向量在 $d_m$ 个keys上的分布（伪分布）
$p(k_i|x)\propto \exp(x\cdot k_i)$
以此分布查询key对应value的值进行聚合得到输出结果
$MN(x)=\sum_{i=1}{d_m}p(k_i|x)v_i$
如果用矩阵表示
$softmax(x\cdot K^T)\cdot V$

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。