大模型手撕代码合集
- Tokenizer
- 从零手撕 BPE 训练 Tokenizer
- 从零手撕 Tokenizer 解码
- 位置编码
- 绝对位置编码
- 旋转位置编码(RoPE)
- 长度外推技术
- 注意力机制
- Multi Head Attention (MHA)
- Multi Query Attention (MQA)
- Group Query Attention (GQA)
- Multi Head Latent Attention (MLA)
- 前馈网络
- FFN (ReLU)
- FFN (GeLU)
- SwiGLU
- 归一化技术
- LayerNorm
- RMSNorm
- BatchNorm
- 损失函数与度量
- 交叉熵损失函数
- 预训练损失函数
- 对比学习损失函数
- 信息论度量
- 熵
- KL散度
- 其他
- 用Numpy从零实现MLP反向传播
- 用Numpy实现K-means算法
- 实现Transformer Encoder
- Safe Softmax
答案链接:https://www.xiaohongshu.com/user/profile/5a9409554eacab27ee3c50b0
小飞侠AGI@小红书
找不到的直接私信!!!
1617

被折叠的 条评论
为什么被折叠?



