
Transformers
文章平均质量分 89
cv2016_DL
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
精通Transformer,要讲清QKV
对于文本生成任务,Query通常是模型已经生成的词,我们的目标是通过它来“询问”上下文,找出与它最相关的部分,以便生成下一个词。在文本生成任务中,Transformer的解码器会拿前面已经生成的词作为Query,去跟编码器的输出(或解码器自己的隐藏状态,作为Key和Value)互动,一步步生成后续的词。模型把“这里”的嵌入向量当作Query(Q),把前面的词“欢迎”、“关注”、“智能体”、“AI”、“公众号”的嵌入向量当作Key(K)。这个上下文表示融合了所有词的信息,但“公众号”的贡献最大。原创 2025-04-14 14:47:36 · 927 阅读 · 0 评论 -
为什么要用位置编码?
在 NLP 任务中(后续拓展为多模态任务),顺序信息至关重要,例如: 我借给你 300 块与你借给我 300 块具有完全不同的含义。对于 Transformer 模型来说,由于 Attention 模块的无序性(无法区分不同位置的 Token),必须加入额外的信息来记录顺序,这里引入了位置编码。位置编码在后续基于 Transformer 架构的文章中有很多不同的实现方式,尤其是在大语言模型大行其道的现在,在面对长 token 的输入时,挑选合适的位置编码也会提升训练的效果。原创 2025-05-26 14:19:29 · 850 阅读 · 0 评论