学习笔记_外部att

本文探讨了Self-Attention的高计算复杂度问题及忽略样本间联系的不足,提出了External Attention(EA)。通过使用两个串联MLP作为memory units,EA将计算复杂度降至O(n),并利用全训练数据学习,考虑了样本间联系,实现了多头外部注意力机制。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

External Attention(EA)详解
要解决的Self-Attention(SA)的两个痛点问题:
(1)O(n^2)的计算复杂度;
(2)SA是在同一个样本上根据不同位置计算Attention,忽略了不同样本之间的联系。
因此,本文采用了两个串联的MLP结构作为memory units,使得计算复杂度降低到了O(n);
此外,这两个memory units是基于全部的训练数据学习的,因此也隐式的考虑了不同样本之间的联系。
在这里插入图片描述

from model.a
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值