Query-Key Normalization for Transformers

原创已于 2025-09-09 21:55:28 修改 · 152 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #人工智能

于 2025-09-09 15:33:57 首次发布

余弦相似注意力
论文：Query-Key Normalization for Transformers
「简介：」低资源语言翻译是一个具有挑战性但社会价值高的NLP任务。在最近针对这一设置调整Transformer规范化的工作基础上，作者提出了QKNorm，一种修改注意力机制的规范化技术，使得softmax函数不易受到任意饱和的影响，同时不牺牲表达能力。具体来说，作者在将查询和键矩阵相乘之前，沿着头部维度对它们应用ℓ2规范化，然后用一个可学习的参数进行放大，而不是除以嵌入维度的平方根。