自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Bug_makerACE的博客

原创 Standford CS336 | Assignment 1 - Implementing the tokenizer

本次作业的核心任务是实现一个Tokenizer类，该类基于训练得到的词汇表（vocab）和合并规则（merges），能够将文本编码为整数 ID 序列，以及将整数 ID 序列解码为文本。同时，需要支持用户提供的特殊符号。编码（encode）：将输入的文本字符串转换为 token ID 列表。过程需先进行预分词，再应用 BPE 合并规则。解码（decode）：将 token ID 列表转换为文本字符串。对于无效的 token ID，需用 Unicode 替换字符（U+FFFD）处理。支持从文件加载：实现。

2025-07-11 17:01:07 483

原创 Stanford CS336 | Assignment 1 - BPE Tokenizer Training 实现

本次任务目标是在 TinyStories 数据集上训练一个字节级 BPE 分词器。如图所示，需要完成函数train_bpe。初始化：以所有可能的字节（0-255）作为初始词汇表；预处理：将文本分割为初始令牌（字节序列）；合并：统计所有字节对的频率，合并最频繁的对并更新词汇表，重复此过程直至达到目标词汇量。

2025-07-10 14:07:19 485

原创 ios::sync_with_stdio(false)和puts(“0“)会导致程序错误？谈C++输入输出同步的那些坑

谨慎对待输入输出流！

2025-04-10 19:48:21 718

原创大模型（LLM）微调方法分类框架

大模型微调方法可以按照多个维度进行分类。以下是一个系统化的分类框架，结合技术原理、应用场景和资源需求，帮助你理解不同方法的定位和特点

2025-03-10 08:00:00 632

原创大模型解码策略详解：top-k、top-p与temperature

在大模型中，top-k和top-p（核采样）是两种常用的解码策略参数，用于控制生成文本的多样性和随机性。

2025-02-28 11:31:17 615

原创 LLaMA论文+源码分享

含LLaMA论文地址+解读视频+源码地址分享！

2025-02-14 11:50:48 1264

原创一杯咖啡的时间学习大模型（LLM）：LLaMA解读之分组查询注意力（Grouped Query Attention）

一文读懂LLaMA核心架构之分组查询注意力（Grouped Query Attention）

2025-02-14 11:31:12 1150

原创一杯咖啡的时间学习大模型（LLM）：LLaMA解读之SwiGLU激活函数

一问读懂LLaMA核心架构之SwiGLU激活函数

2025-02-14 09:57:20 1206

原创一杯咖啡的时间学习大模型（LLM）：LLaMA解读之均方根误差标准化RMSNorm（含代码实现）

一文读懂LLaMA核心架构之均方根误差标准化RMSNorm（含代码实现）

2025-02-13 22:35:39 980

原创一杯咖啡的时间学习大模型（LLM）：LLaMA解读之旋转编码RoPE（含代码实现）

一问搞懂LLaMA的架构之旋转编码（RoPE, Rotary Position Embedding）

2025-02-13 22:01:09 706 1

原创大模型（LLM）入门学习路线分享（内含计划表和时间安排）

大模型（LLM）学习路线总结，快速入门大模型，一起成为LLM高手！

2025-02-08 23:16:33 1103

原创【Linux基础】关于Linux Shell中参数的引用（双引号““、反斜杠）的疑难杂症

通过上面的分析，我们可以总结出以下几点关键概念：双引号：当你使用双引号引用变量时，Shell 会保留其中的空格、换行符和其他特殊字符的格式，不会对它们进行修改。变量引用（$b）：当你引用变量时，Shell 会自动将其中的换行符替换为空格，除非你使用双引号来保留格式。转义字符（\n）：在双引号中，\n只是普通的字符序列，除非使用-e选项启用解析，才会被解释为换行符。

2024-11-26 02:30:51 999

原创深度学习基本功——自动微分的正向模式与反向模式：理解JVP与VJP

刚才介绍的JVP、VJP是不是听上去感觉和正向、方向模式似乎有些关系？没错！正向模式对应于利用 JVP来实现输出向量（所有输出）对单一参数的求导。特别的，正向模式适用于输入维度较小的情况，因为它可以有效地逐步计算出每个输入对输出的影响，从而得到雅可比矩阵的每一列。反向模式则对应于利用 VJP 来实现输出的某个分量对参数向量（所有参数）的求导。在这一模式下，我们从输出出发，计算输出变化相对于输入变化的灵敏度，使用雅可比矩阵的转置与输出变化的向量相乘。

2024-10-23 03:15:48 1903 4

原创 cs231n学习记录贴

最近尝试入门深度学习，系统性地学习这方面知识。目前正在看吴恩达在Coursera上的。，先占个坑，以后来更新！

2024-10-14 12:50:33 247

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除