BERT or Transformer中,MHSA中为什么要分多个Head?

本文探讨了Transformer中的多头自注意力(Multi-Head Self-Attention,MHSA)机制。在MHSA中,输入数据被拆分为多个头进行独立的注意力计算,每个头可能学习到不同的特征,从而提升模型的表达能力。尽管增加了头部数量,计算复杂度仍保持与不分头时一致,没有额外开销。这一机制在理解和应用Transformer模型时至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前面试被问过的一道题,这里整理一下~

结论:模型的表达学习能力增强了

输入到MHSA中的数据的shape应该为B × L × Embedding,B是Batch,L是序列长度
而在MHSA中,数据的shape会被拆分为多个Head,所以shape会进一步变为:
B × L × Head × Little_Embedding

以Transformer为例,原始论文中Embedding为512,Head数为8,所以shape在进入MHSA中时,会变为:
B × L × 8 × 64

如果不分头,相当于对512*512的矩阵进行Attention计算;
而如果分头了,相当于8个头中,每个头彼此独立进行Attention计算,不同头学习到的特征也可能是不同的,相当于增强了模型的表达学习能力。
并且,8 次的 64 × 64,和 1 次的 512 × 512,两者的计算复杂度是一致的,并没有造成额外的计算开销。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Xu_Wave

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值