- 博客(7)
- 收藏
- 关注
原创 斯坦福CS336 assign 3 手搓大模型
本文介绍了斯坦福CS336课程作业3中手动实现大语言模型的关键模块。作业从基础组件开始构建,包括线性层(Linear)、嵌入层(Embedding)、归一化层(RMSNorm)、前馈网络(SwiGLU)和旋转位置编码(RoPE)。每个模块都详细说明了数学原理和实现方法,如SwiGLU激活函数采用(8/3)d_model的隐藏层维度,RoPE通过频率相关角度旋转实现位置编码。代码实现注重张量运算的维度管理和数值稳定性,使用einops库简化操作。这些组件最终将组合成完整的Transformer结构,为构
2025-10-09 15:59:16
685
原创 斯坦福CS336 assign1 实验2.6 分词器实现
本文档详细记录了Tokenizer类的实现过程,严格遵循CS336实验手册(§2.6)的要求。笔记将逐一解析每个核心方法,阐明其在BPE分词流程中的作用以及具体的代码实现逻辑。
2025-09-29 18:54:26
972
原创 c++类实现栈
自己设计的类实现栈;类的声明:class stack {private: char* p;//开辟空间的指针; char* top; char* base; //栈顶栈底指针; int stack_size;//记录栈的大小; int space_used;//记录已用空间大小;public: stack() { p = new char[1]; base = top = p; stack_size = 1; space_used = 0; *top = '
2022-05-03 16:17:38
703
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅