- 博客(14)
- 收藏
- 关注
原创 Standford CS336 | Assignment 1 - Implementing the tokenizer
本次作业的核心任务是实现一个Tokenizer类,该类基于训练得到的词汇表(vocab)和合并规则(merges),能够将文本编码为整数 ID 序列,以及将整数 ID 序列解码为文本。同时,需要支持用户提供的特殊符号。编码(encode):将输入的文本字符串转换为 token ID 列表。过程需先进行预分词,再应用 BPE 合并规则。解码(decode):将 token ID 列表转换为文本字符串。对于无效的 token ID,需用 Unicode 替换字符(U+FFFD)处理。支持从文件加载:实现。
2025-07-11 17:01:07
483
原创 Stanford CS336 | Assignment 1 - BPE Tokenizer Training 实现
本次任务目标是在 TinyStories 数据集上训练一个字节级 BPE 分词器。如图所示,需要完成函数train_bpe。初始化:以所有可能的字节(0-255)作为初始词汇表;预处理:将文本分割为初始令牌(字节序列);合并:统计所有字节对的频率,合并最频繁的对并更新词汇表,重复此过程直至达到目标词汇量。
2025-07-10 14:07:19
485
原创 大模型(LLM)微调方法分类框架
大模型微调方法可以按照多个维度进行分类。以下是一个系统化的分类框架,结合技术原理、应用场景和资源需求,帮助你理解不同方法的定位和特点
2025-03-10 08:00:00
632
原创 大模型解码策略详解:top-k、top-p与temperature
在大模型中,top-k和top-p(核采样)是两种常用的解码策略参数,用于控制生成文本的多样性和随机性。
2025-02-28 11:31:17
615
原创 一杯咖啡的时间学习大模型(LLM):LLaMA解读之分组查询注意力(Grouped Query Attention)
一文读懂LLaMA核心架构之分组查询注意力(Grouped Query Attention)
2025-02-14 11:31:12
1150
原创 一杯咖啡的时间学习大模型(LLM):LLaMA解读之均方根误差标准化RMSNorm(含代码实现)
一文读懂LLaMA核心架构之均方根误差标准化RMSNorm(含代码实现)
2025-02-13 22:35:39
980
原创 一杯咖啡的时间学习大模型(LLM):LLaMA解读之旋转编码RoPE(含代码实现)
一问搞懂LLaMA的架构之旋转编码(RoPE, Rotary Position Embedding)
2025-02-13 22:01:09
706
1
原创 【Linux基础】关于Linux Shell中参数的引用(双引号““、反斜杠)的疑难杂症
通过上面的分析,我们可以总结出以下几点关键概念:双引号:当你使用双引号引用变量时,Shell 会保留其中的空格、换行符和其他特殊字符的格式,不会对它们进行修改。变量引用($b):当你引用变量时,Shell 会自动将其中的换行符替换为空格,除非你使用双引号来保留格式。转义字符(\n):在双引号中,\n只是普通的字符序列,除非使用-e选项启用解析,才会被解释为换行符。
2024-11-26 02:30:51
999
原创 深度学习基本功——自动微分的正向模式与反向模式:理解JVP与VJP
刚才介绍的JVP、VJP是不是听上去感觉和正向、方向模式似乎有些关系?没错!正向模式对应于利用 JVP来实现输出向量(所有输出)对单一参数的求导。特别的,正向模式适用于输入维度较小的情况,因为它可以有效地逐步计算出每个输入对输出的影响,从而得到雅可比矩阵的每一列。反向模式则对应于利用 VJP 来实现输出的某个分量对参数向量(所有参数)的求导。在这一模式下,我们从输出出发,计算输出变化相对于输入变化的灵敏度,使用雅可比矩阵的转置与输出变化的向量相乘。
2024-10-23 03:15:48
1903
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人