- 博客(2)
- 收藏
- 关注
原创 datawhale nanochat中文版教程code-your-own-llm第二次学习总结:旋转位置编码
直观理解旋转位置编码把注意力头的维度视为若干二维平面;对每个位置 t、每个二维平面 i,按角度 (θtiθti) 旋转 Q/K;由于旋转矩阵的正交性,注意力分数对位置差 (i-j) 敏感,从而自然获得相对位置信息。数学与代码对应论文中的角度设计 (θtit⋅base−2iDkθtit⋅base−2iDk),在 nanochat 中由的inv_freq和outer直接实现;二维旋转公式在中通过对最后一维分成两半x1, x2并计算。
2025-11-16 21:51:54
618
原创 datawhale nanochat中文版教程code-your-own-llm第一次总结:概述与环境配置
早就听说过 Andrej Karpathy 更新了一个100美元内可以获得的最好的 LLM from scratch 项目nanochat,一直想有时间系统地啃一遍。现在大四稍有空闲,终于可以沉下心来,跟着 Datawhale 的 Code-Your-Own-LLM 共学教程,把 nanochat 的代码和背后的原理一步步摸清楚。这也是我第一次参加 Datawhale 的共学活动,能在这样一个准备充分、文档友好的平台上学习,真的很感谢 datawhale 社区 🙌。接下来我搬运一下该教程中最普适的linu
2025-11-14 02:51:20
808
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅