动手学注意力机制(Attention Is All You Need)

本文详细介绍了注意力机制的核心概念,包括注意力池化、注意力分数的计算方法(如高斯核和softmax),以及在seq2seq模型中的应用,如可加性和点积注意力。讨论了如何通过神经网络和多层感知机实现注意力权重的计算,以及注意力在序列到序列模型中的关键作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

注意力池化

  • f ( x ) = ∑ i α ( x , x i ) y i f(x)=\sum_i\alpha(x,x_i)y_i f(x)=iα(x,xi)yi 其中 α ( x , x i ) \alpha(x,x_i) α(x,xi)是注意力权重

  • NW核回归 注意对x接近的key K是核函数,离得越近越大

    f ( x ) = ∑ i = 1 n K ( x − x i ) ∑ j = 1 n K ( x − x j ) y i f(x)=\sum_{i=1}^n\frac{K(x-x_i)}{\sum_{j=1}^nK(x-x_j)}y_i f(x)=i=1nj=1nK(xxj)K(xxi)yi

  • 当使用高斯核 K ( u ) = 1 2 π exp ⁡ ( − u 2 2 ) K(u)=\frac1{\sqrt{2\pi}}\exp(-\frac{u^2}2) K(u)=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值