余弦相似注意力
论文:Query-Key Normalization for Transformers
「简介:」 低资源语言翻译是一个具有挑战性但社会价值高的NLP任务。在最近针对这一设置调整Transformer规范化的工作基础上,作者提出了QKNorm,一种修改注意力机制的规范化技术,使得softmax函数不易受到任意饱和的影响,同时不牺牲表达能力。具体来说,作者在将查询和键矩阵相乘之前,沿着头部维度对它们应用ℓ2规范化,然后用一个可学习的参数进行放大,而不是除以嵌入维度的平方根。
Query-Key Normalization for Transformers
于 2025-09-09 15:33:57 首次发布
345

被折叠的 条评论
为什么被折叠?



