目录: 原文 : 翻译: 流程: 原因: 原文(多头注意力部分) : 李沐b站论文精读 论文网盘下载:链接 提取码: vm3d 翻译: 在这项工作中,我们采用了 h=8 个并行注意力层,或称为头。对于每一层,我们使用 dk = dv = dmodel / h = 64。由于每个头的维度减少了,总的计算成本与具有完整维度的单头注意力相似。 即:dk = 512 / 8 = 64。 流程: 其前面的过程为:(batch_size, seq_len)-> &#x