Transformer基础
文章平均质量分 94
详细解剖transformer的一切
kkcache
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
为什么需要Transformer:从“词”的编码到“序列”的革命
从独热编码到动态词向量——让机器理解语言的进化之路 文章系统梳理了机器理解语言的关键技术演进:从最初的独热编码(高维稀疏、无法表达语义关系),到Word2Vec通过上下文预测任务生成稠密词向量(解决语义关联但仍是静态表示),再到RNN引入时序处理能力(通过隐藏状态传递上下文信息,初步解决语序和多义问题)。双向RNN进一步突破单向局限,实现对词语义的完整上下文理解。这一进化路径揭示了语言模型从"词袋"到动态语义理解的核心跃迁,为后续Transformer等大模型奠定了理论基础。原创 2025-10-16 10:43:52 · 1054 阅读 · 0 评论 -
全网最通俗!对Attention机制的深度可视化解剖
摘要:Attention机制通过Query、Key、Value的交互,让模型能够同时关注句子中的所有词。每个词生成Q、K、V三种向量表示:Q用于查询相关词,K用于被查询匹配,V存储词的实际信息。通过Q与K的点积计算匹配分数,经Softmax归一化后得到注意力权重,再与V进行加权求和,最终生成融合全局信息的新词向量。整个过程并行计算,摆脱了传统RNN的顺序处理限制,实现了对句子的整体理解。原创 2025-10-25 20:08:59 · 806 阅读 · 0 评论 -
Transformer架构:组装我们的零件
万字长文!干货满满!数十个呕心沥血的配图!只为做出最通俗有趣的科普!原创 2025-11-20 15:59:24 · 704 阅读 · 0 评论
分享