自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 datawhale nanochat中文版教程code-your-own-llm第二次学习总结:旋转位置编码

直观理解旋转位置编码把注意力头的维度视为若干二维平面;对每个位置 t、每个二维平面 i,按角度 (θtiθti​) 旋转 Q/K;由于旋转矩阵的正交性,注意力分数对位置差 (i-j) 敏感,从而自然获得相对位置信息。数学与代码对应论文中的角度设计 (θtit⋅base−2iDkθti​t⋅base−2iDk​),在 nanochat 中由的inv_freq和outer直接实现;二维旋转公式在中通过对最后一维分成两半x1, x2并计算。

2025-11-16 21:51:54 618

原创 datawhale nanochat中文版教程code-your-own-llm第一次总结:概述与环境配置

早就听说过 Andrej Karpathy 更新了一个100美元内可以获得的最好的 LLM from scratch 项目nanochat,一直想有时间系统地啃一遍。现在大四稍有空闲,终于可以沉下心来,跟着 Datawhale 的 Code-Your-Own-LLM 共学教程,把 nanochat 的代码和背后的原理一步步摸清楚。这也是我第一次参加 Datawhale 的共学活动,能在这样一个准备充分、文档友好的平台上学习,真的很感谢 datawhale 社区 🙌。接下来我搬运一下该教程中最普适的linu

2025-11-14 02:51:20 808 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除