1. 多头注意力机制(MHA)回顾 Multi-Head Attention 是 Transformer 架构的核心组件。它的目标是通过多个注意力头并行计算,让模型能从不同子空间捕捉信息。 在面试中,如果让你手写实现,一般是基于 PyTorch。 我们直接上手代码: import torch import torchnn as nn import torch.nn.function as F class MultiHeadAttention(nn.Module)