- 博客(480)
- 资源 (8)
- 收藏
- 关注
原创 Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models(超长文本模型论文HSA)
论文旨在解决 LLM 如何实现“无限”记忆的问题。稀疏性(不能全关注)、随机访问灵活性(能精准检索过去的信息)和长度外推性(从短训练推广到长推理)。现有的方法(如 Mamba、线性注意力、NSA)在检索精度或长距离外推上存在短板。HSA-UltraLong 通过结合滑动窗口注意力(SWA)和HSA,模仿了“混合专家模型(MoE)”的思路,实现了高效且精准的超长文本检索与生成。
2025-12-21 16:31:53
981
原创 Olmo3论文精读
整个管线极度依赖高质量数据工程(olmOCR、合成数据、微退火筛选)。将训练拆解为 Pretrain -> Midtrain -> LongContext -> SFT -> DPO -> RL,每个阶段都有明确的目标和特定的数据配比。大规模应用基于规则验证(如代码执行、数学答案匹配)的强化学习(RLVR),这是提升推理能力的关键。提供了复现上述所有步骤所需的工具链(Olmo-core, OlmoRL, Dolma3, Dolci)。Olmo 3 预训练详解在 Olmo 3 的。
2025-12-14 13:31:39
856
原创 BPB(Bits Per Byte)和 PPL(Perplexity,困惑度)的区别
PPLBPB关注点每 token 的预测不确定性每字节的信息编码效率是否受 tokenizer 影响是否在验证小模型时的优势传统、直观更公平、更适合数据策略比较本质关系都源于交叉熵,只是归一化方式和单位不同所以,在大规模训练前用BPB来验证数据清洗和混合策略,是一种更鲁棒、更底层的评估方法。
2025-12-14 12:27:50
515
原创 Token 和字节之间的换算
在大语言模型中,Token与字节的换算关系并非固定,主要取决于分词器和文本内容。以BPE分词器为例,英文字母通常1字节对应1Token,而中文汉字3字节通常对应1Token。具体换算需根据实际文本分析:英文"aaa"可能3字节对应1Token,中文"你好"6字节对应2Tokens。标点符号也存在差异,全角中文标点3字节对应1Token,而英文标点1字节对应1Token。精确计算需要使用分词器实测,总体而言英文1Token≈3-5字节,中文1Token≈1.5-3字节。
2025-12-14 12:23:57
820
原创 如何上传github和huggingface(解决git的时候输入正确的账号密码,但提示认证失败)
然后终端输入下面,clone到本地(完成后发现会发现本地有新的文件内容)配置ssh上传,终端输入下面命令,换为刚才第二步生成的密钥。把新文件移到clone下来的文件夹后,add+commit。新建仓库,建议直接网站上New1个。点击New SSH Key。名字随便取,可以自己方便记。然后push到github。点code,然后复制这里。删除文件夹,直接终端操作。删除文件,直接终端操作。
2025-07-18 22:07:49
660
原创 PyTorch Tensor 形状变化操作详解
在深度学习中,Tensor 的形状变换是非常常见的操作。PyTorch 提供了丰富的 API 来帮助我们调整 Tensor 的形状,以满足模型输入、计算或数据处理的需求。本文将详细介绍 PyTorch 中常见的 Tensor 形状变换操作,并通过示例代码进行说明。
2025-02-17 17:00:46
917
原创 使用deepspeed的zero3的offload参数时报错return tensor.pin_memory(), RuntimeError: CUDA error: invalid argument
是硬盘存储空间不够导致的,删掉些东西就好了。
2025-02-14 11:43:35
470
原创 DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解
相比较PPO,GRPO(Group Relative Policy Optimization)的训练成本会更低,更简单。通俗的理解,当两个分布一致时,下面的公式第一项为 1,第二项为0,计算后总的值为0,即惩罚项为0。散度,避免训练后的模型输出分布与之前的分布相差太大。模型会在一组输出上更新几轮,我们训练的目标是更新。的概率高),这样模型的第一项结果就更大(我们需要最大化这个公式)。:如下,KL散度用于避免训练后模型的输出分布和原模型相差太大(通过奖励模型获得的奖励值。的一项是优化模型能输出更高优势。
2025-02-12 16:37:08
1795
原创 Deepspeed的zero2和zero3的配置文件Demo
使用下面这个文件,在8*H100的机器上训练了Qwen2.5-32B模型。上下文窗口8K,batch_size = 8(num_gpu)*2(per_gpu_batch_size)*8(gradient_accumulation_steps) =128,deepspeed采用zero3,显存占用约65G,内存占用约653G(还有数据占的显存,数据量为0.06B tokens),训练时长2 hour。使用下面这个文件,在8*H100的机器上训练了Qwen2.5-7B模型。
2025-02-09 16:44:54
1104
原创 加快训练LLM速度的技巧笔记
解释:如下图,相比fp32,bf16的表示范围不变(还是e8),但精度从m23降到了m7,但在大模型训练时,这种精度损失是可接受的。需要注意,有些老的gpu不支持这个操作。一些新一点的4090,A100,H100等均支持。解释:python的gcc编译优化(优化代码底层执行指令,主要优化了代码中对gpu的读写操作,不影响任何性能),在训练前会花费时间进行编译,但大大加快训练时速度。需要注意,windows用不了。
2024-11-24 11:18:30
817
原创 ubuntu递归下载deb安装包,解决离线依赖问题
换成自己需要安装的包,虽然下面代码会递归下载依赖安装包,但是在离线环境下仍然可能会出现依赖包为配置问题。最后,把所有安装包移到离线电脑上的一个文件夹后,使用下面命令安装deb包。如果出现反配置问题,可以使用下面的命令自动反配置来强制安装某些包。主要针对离线环境的电脑安装deb包。所有安装包都不报错才能安装成功。
2024-07-25 16:17:46
1767
原创 大模型参数高效微调学习笔记
1.BitFit将模型的所有偏置bias设为可训练的参数,其他部分设置为不可训练的。将模型的所有注意力层Attention设为可训练的参数,其他部分设置为不可训练的。在模型的输入的prompt前面加入一个可训练Prompt embedding向量,模型的整个部分全部冻结,如下图。如果Prompt embedding向量参数是随机初始化的,则是soft prompt,如果使用一段文本初始化(例如,“下面是一个情感任务”),则是hard prompt。4.P-tuning。
2024-06-23 21:06:05
667
原创 Qwen2的各模型性能、占用显存和推理速度比较(摘自官方文档)
Qwen2的各模型性能、占用显存和推理速度比较(摘自官方文档)性能推理速度(从大到小)72B57B-A14B7B1.5B0.5B
2024-06-15 19:20:15
28411
1
原创 大模型单次预测下一个token的过程分析,帮助理解model.generate
【代码】大模型单次预测下一个token的过程分析,帮助理解model.generate。
2024-06-14 18:42:52
938
原创 GLM4-Chat-1M(号称可以输入200万字)的长文本测试结果(推理时间,推理效果)
vllm框架比普通的generate生成结果更快挺多的,设备受限,目前测试最大的长度为455731万个字符,大约22万个token,确实是能跑的,大概需要80.355秒,从结果来看是可以接受的。但是模型的输出看起来时好时坏,不稳定。
2024-06-12 22:06:34
1436
原创 大模型推理时model.generate的源码
文件路径:anaconda3/envs/环境名/lib/python3.10/site-packages/transformers/generation/utils.py。
2024-06-11 15:08:24
1599
原创 BrainGPT1,一个帮你b站点歌放视频的多模态多轮对话模型
BrainGPT1是一个工具调用多轮对话模型,与GPT-4o不同的是,模型通过调用多个工具模型实现了多模态的多轮对话。因此,模型具备有工具灵活更新,定制化使用的特点。通用问答:默认使用讯飞星火大模型提供的免费API(spark lite),也可以自行接入其他API或本地模型,项目中提供了接入本地ChatGLM3的API的demo。画图能力:默认使用模型。图片问答:默认使用模型。多媒体播放:默认代码查询并返回bilibili的搜索结果。天气查询:默认使用代码查询并返回API的结果。BrainGPT1。
2024-06-01 17:41:14
1358
原创 多模态数学推理数据集:MATH-V和MATHVISTA
这里选取了两篇多模态数学推理数据集的代表工作MATH-V和MATHVISTA,均是今年2024年发表的工作。前者是港中大的工作,后者是加利福尼亚大学洛杉矶分校的工作。
2024-05-18 12:26:39
3504
原创 Python画图时好看的颜色列表,7个颜色
在Python中,使用matplotlib库可以画出各种图表,并且可以自定义颜色。可以根据自己的喜好和图表的需求选择适合的颜色列表。
2024-05-06 20:11:55
4119
2
原创 Python实现将文件夹下的所有pdf文件合并成一个pdf文件,并用文件夹名字命名
【代码】Python实现将文件夹下的所有pdf文件合并成一个pdf文件,并用文件夹名字命名。
2024-04-19 21:59:46
831
原创 python调用Microsoft Word把文件夹下所有docx或doc批量转化为PDF
请注意,这个脚本会关闭Word应用程序,但在某些情况下,Word进程可能会留在后台。为了避免这种情况,你可以在转换完成后确保Word进程被完全关闭。此外,由于这个方法依赖于Microsoft Word的COM接口,它只能在安装了Microsoft Word的Windows系统上运行。函数接受一个目录路径作为参数,并遍历该目录中的所有DOC和DOCX文件,将它们转换为PDF文件。首先,确保你的系统上安装了Microsoft Word。库打开Word应用程序,打开指定的Word文档,并将其另存为PDF格式。
2024-04-14 13:27:01
806
大模型指令微调概述,大模型微调简单介绍ppt
2023-10-30
免费领取阿里云资源部署大模型ChatGLM2,可以训练
2023-10-30
NSGA-II多目标优化算法小白详细介绍ppt
2022-12-21
Transformer深度讲解,进一步给出其在NLP和CV下的发展,共95页ppt,全网最好的讲解,没有之一
2022-12-21
GNN,GCN,图神经网络深度讲解100页ppt 包括基础的GNN和其多个变体
2022-12-19
CNN卷积神经网络讲解50多页PPT 卷积核,感受野,池化核多原理讲解
2022-11-22
自动编码器,多种自编码器深入浅出介绍,包括SAE,CAE,DAE,VAE
2022-11-22
生成对抗网络GAN( Generative Adversarial Networks)63PPT,GAN原理,介绍,变体详细
2022-11-22
RNN循环神经网络PPT,涉及到LSTM,GRU、BRNN、BLSTM等等介绍,适合开会用,总共有50页,干货满满
2022-11-22
全连接神经网络(多层感知机)PPT,可以直接开会讲
2022-11-22
2009B眼科病床合理安排.rar
2020-08-22
2006B艾滋病疗法评价.rar
2020-08-22
最佳灾情巡视路线优秀论文.rar
2020-08-19
2016年国赛A题题目.rar
2020-08-16
2016年国赛A题“系泊系统的设计”附件
2020-08-16
PDF转换软件.zip
2020-06-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅