Transform

Transform模型解决了RNN的平行化问题,引入了Attention机制。Self-Attention层通过计算询问与键的匹配度,获取序列的全局信息。Multi-head Self-attention允许并行处理,增加模型的表达能力。同时,为了保留顺序信息,位置编码被加入。Seq2seq模型结合Attention,能有效地应用于序列到序列的任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Transform

顺序序列数据常用RNN进行训练,但是RNN又难以平行化,故催生出Attention机制的Transform
在这里插入图片描述
如图通过Self-Attention Layer可以平行化处理得到bi其中bi包含了整个序列的按权压缩的信息
该概念最早出现在google的一篇paper中【Attention is all you need】
在这里插入图片描述
首先我们将输入乘上一个matrix得到我们想要唯独的ai
之后分别乘以wq,wk,wv得到qi,ki,vi
其中qi可以看作询问,而ki则是被询问者详细可见如下图 d是q和k的维度
之所以除以根号d是为了控制不让数据过大【维度越大累加项越多和越大所以除以一个根号d】(维度的惩罚项)
在这里插入图片描述

询问匹配后进行soft-max
在这里插入图片描述

得到b1同理得到bi其中每个bi都考虑了整个序列的信息

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值