- 博客(473)
- 资源 (8)
- 收藏
- 关注
原创 PyTorch Tensor 形状变化操作详解
在深度学习中,Tensor 的形状变换是非常常见的操作。PyTorch 提供了丰富的 API 来帮助我们调整 Tensor 的形状,以满足模型输入、计算或数据处理的需求。本文将详细介绍 PyTorch 中常见的 Tensor 形状变换操作,并通过示例代码进行说明。
2025-02-17 17:00:46
382
原创 使用deepspeed的zero3的offload参数时报错return tensor.pin_memory(), RuntimeError: CUDA error: invalid argument
是硬盘存储空间不够导致的,删掉些东西就好了。
2025-02-14 11:43:35
168
原创 DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解
相比较PPO,GRPO(Group Relative Policy Optimization)的训练成本会更低,更简单。通俗的理解,当两个分布一致时,下面的公式第一项为 1,第二项为0,计算后总的值为0,即惩罚项为0。散度,避免训练后的模型输出分布与之前的分布相差太大。模型会在一组输出上更新几轮,我们训练的目标是更新。的概率高),这样模型的第一项结果就更大(我们需要最大化这个公式)。:如下,KL散度用于避免训练后模型的输出分布和原模型相差太大(通过奖励模型获得的奖励值。的一项是优化模型能输出更高优势。
2025-02-12 16:37:08
913
原创 Deepspeed的zero2和zero3的配置文件Demo
使用下面这个文件,在8*H100的机器上训练了Qwen2.5-32B模型。上下文窗口8K,batch_size = 8(num_gpu)*2(per_gpu_batch_size)*8(gradient_accumulation_steps) =128,deepspeed采用zero3,显存占用约65G,内存占用约653G(还有数据占的显存,数据量为0.06B tokens),训练时长2 hour。使用下面这个文件,在8*H100的机器上训练了Qwen2.5-7B模型。
2025-02-09 16:44:54
379
原创 加快训练LLM速度的技巧笔记
解释:如下图,相比fp32,bf16的表示范围不变(还是e8),但精度从m23降到了m7,但在大模型训练时,这种精度损失是可接受的。需要注意,有些老的gpu不支持这个操作。一些新一点的4090,A100,H100等均支持。解释:python的gcc编译优化(优化代码底层执行指令,主要优化了代码中对gpu的读写操作,不影响任何性能),在训练前会花费时间进行编译,但大大加快训练时速度。需要注意,windows用不了。
2024-11-24 11:18:30
529
原创 ubuntu递归下载deb安装包,解决离线依赖问题
换成自己需要安装的包,虽然下面代码会递归下载依赖安装包,但是在离线环境下仍然可能会出现依赖包为配置问题。最后,把所有安装包移到离线电脑上的一个文件夹后,使用下面命令安装deb包。如果出现反配置问题,可以使用下面的命令自动反配置来强制安装某些包。主要针对离线环境的电脑安装deb包。所有安装包都不报错才能安装成功。
2024-07-25 16:17:46
1201
原创 大模型参数高效微调学习笔记
1.BitFit将模型的所有偏置bias设为可训练的参数,其他部分设置为不可训练的。将模型的所有注意力层Attention设为可训练的参数,其他部分设置为不可训练的。在模型的输入的prompt前面加入一个可训练Prompt embedding向量,模型的整个部分全部冻结,如下图。如果Prompt embedding向量参数是随机初始化的,则是soft prompt,如果使用一段文本初始化(例如,“下面是一个情感任务”),则是hard prompt。4.P-tuning。
2024-06-23 21:06:05
547
原创 Qwen2的各模型性能、占用显存和推理速度比较(摘自官方文档)
Qwen2的各模型性能、占用显存和推理速度比较(摘自官方文档)性能推理速度(从大到小)72B57B-A14B7B1.5B0.5B
2024-06-15 19:20:15
24330
1
原创 大模型单次预测下一个token的过程分析,帮助理解model.generate
【代码】大模型单次预测下一个token的过程分析,帮助理解model.generate。
2024-06-14 18:42:52
708
原创 GLM4-Chat-1M(号称可以输入200万字)的长文本测试结果(推理时间,推理效果)
vllm框架比普通的generate生成结果更快挺多的,设备受限,目前测试最大的长度为455731万个字符,大约22万个token,确实是能跑的,大概需要80.355秒,从结果来看是可以接受的。但是模型的输出看起来时好时坏,不稳定。
2024-06-12 22:06:34
1190
原创 大模型推理时model.generate的源码
文件路径:anaconda3/envs/环境名/lib/python3.10/site-packages/transformers/generation/utils.py。
2024-06-11 15:08:24
1150
原创 BrainGPT1,一个帮你b站点歌放视频的多模态多轮对话模型
BrainGPT1是一个工具调用多轮对话模型,与GPT-4o不同的是,模型通过调用多个工具模型实现了多模态的多轮对话。因此,模型具备有工具灵活更新,定制化使用的特点。通用问答:默认使用讯飞星火大模型提供的免费API(spark lite),也可以自行接入其他API或本地模型,项目中提供了接入本地ChatGLM3的API的demo。画图能力:默认使用模型。图片问答:默认使用模型。多媒体播放:默认代码查询并返回bilibili的搜索结果。天气查询:默认使用代码查询并返回API的结果。BrainGPT1。
2024-06-01 17:41:14
1238
原创 多模态数学推理数据集:MATH-V和MATHVISTA
这里选取了两篇多模态数学推理数据集的代表工作MATH-V和MATHVISTA,均是今年2024年发表的工作。前者是港中大的工作,后者是加利福尼亚大学洛杉矶分校的工作。
2024-05-18 12:26:39
2321
原创 Python画图时好看的颜色列表,7个颜色
在Python中,使用matplotlib库可以画出各种图表,并且可以自定义颜色。可以根据自己的喜好和图表的需求选择适合的颜色列表。
2024-05-06 20:11:55
3374
2
原创 Python实现将文件夹下的所有pdf文件合并成一个pdf文件,并用文件夹名字命名
【代码】Python实现将文件夹下的所有pdf文件合并成一个pdf文件,并用文件夹名字命名。
2024-04-19 21:59:46
676
原创 python调用Microsoft Word把文件夹下所有docx或doc批量转化为PDF
请注意,这个脚本会关闭Word应用程序,但在某些情况下,Word进程可能会留在后台。为了避免这种情况,你可以在转换完成后确保Word进程被完全关闭。此外,由于这个方法依赖于Microsoft Word的COM接口,它只能在安装了Microsoft Word的Windows系统上运行。函数接受一个目录路径作为参数,并遍历该目录中的所有DOC和DOCX文件,将它们转换为PDF文件。首先,确保你的系统上安装了Microsoft Word。库打开Word应用程序,打开指定的Word文档,并将其另存为PDF格式。
2024-04-14 13:27:01
699
原创 计算机常见的六大会议介绍:CVPR/ICCV/ECCV;NeurIPS/ICML/ICLR
CVPR、ICCV和ECCV是计算机视觉领域顶级的三个国际会议,而NeurIPS、ICML和ICLR则是机器学习领域最具影响力的三个国际会议。
2024-04-13 22:34:56
4775
原创 Mathpix和Simpletex对比
在不超过 15 的素数中,随机选取 2 个不同的数,则这 2 个数的积是偶数的概率是 ( )\quad ( a\in \mathbb{R} $,i为虚数单位),的值为( ) A. l B.2 C.3 D.4。, 则实数 m 的值为( ) A.C.1 D.25. 已知向量。复数$z= \alpha+是 z 的共轭复数,若。
2024-04-09 13:00:23
1673
原创 基于频繁模式挖掘的 GCC 编译时能耗演化优化算法
基于频繁模式挖掘的 GCC 编译时能耗演化优化算法1.摘要18年我尊爱的导师发在软件学报上的一篇论文。演化算法通过搜寻 GCC 编译器最优编译选项集对可执行代码的能耗进行改进,以达到编译时优化嵌入式软件能耗的目的.但这类算法未考虑多个编译选项之间可能存在相互影响,导致了其解质量不高且收敛速度慢的问题.针对这一不足,本文设计了一种基于频繁模式挖掘的文化基因算法 MA-FP,在演化过程中利用频繁模式挖掘得到出现频度高且对能耗有显著改进效果的一组编译选项,并以此作为启发式信息设计了“增添”和“删减”两种变异算
2024-03-12 15:34:23
797
原创 (一区)基于模型的连续和离散全局优化方法
Model-based methods for continuous and discrete global optimization1.摘要本文综述了下基于模型的连续和离散全局优化方法,并提出了一种叠加替代信息的新方法。2.介绍比较水。。作者说,本文是首次尝试提供对连续和离散建模方法的可理解的调查和分类。由于离散领域的MBO是一个相对较新的研究课题,因此引入了处理离散结构的六种策略。在描述了这些策略如何作为应用MBO的指导方针之后,本文讨论了替代模型的集合作为MBO的最新和很有前途的方法。3.分
2024-03-12 15:33:33
416
原创 (顶会)组合结构的贝叶斯优化
Bayesian Optimization of Combinatorial Structures1.摘要本文提出了一个算法(BOCS),它基于一个自适应的、可扩展的模型,即使数据稀缺,也能识别有用的组合结构。我们的采集函数率先使用半定编程来实现效率和可伸缩性。实验结果表明,该算法的性能始终优于其他组合方法和贝叶斯优化方法。2.介绍本文的主要贡献是:一种获得获取函数近似优化器的新方法,利用凸优化的算法思想来实现可伸缩性和效率。该方法克服了许多采集函数对大型组合领域所固有的有限的可扩展性。我们提
2024-03-12 15:32:35
372
原创 垂直领域大模型搭建训练指南,ChemLLM论文介绍
论文是上海人工智能实验室的工作,想训练一个化学垂直领域的对话大模型,然而现有的化学数据往往是结构性的,所以这里论文提出了一套垂直领域数据制作和训练方法,为社区制作专有领域模型提供参考。ChemLLM在化学的三个主要任务上都超过了GPT-3.5,并且超过了GPT-3.5,在其中两个任务上都超过了GPT-4。值得注意的是,ChemLLM对相关的数学和物理任务也显示出了特殊的适应性,尽管它主要接受了以化学为中心的语料库的训练。原化学的表达是SMILES,不适合自然语言处理。
2024-02-27 16:46:36
2872
3
大模型指令微调概述,大模型微调简单介绍ppt
2023-10-30
免费领取阿里云资源部署大模型ChatGLM2,可以训练
2023-10-30
Transformer深度讲解,进一步给出其在NLP和CV下的发展,共95页ppt,全网最好的讲解,没有之一
2022-12-21
NSGA-II多目标优化算法小白详细介绍ppt
2022-12-21
GNN,GCN,图神经网络深度讲解100页ppt 包括基础的GNN和其多个变体
2022-12-19
CNN卷积神经网络讲解50多页PPT 卷积核,感受野,池化核多原理讲解
2022-11-22
生成对抗网络GAN( Generative Adversarial Networks)63PPT,GAN原理,介绍,变体详细
2022-11-22
自动编码器,多种自编码器深入浅出介绍,包括SAE,CAE,DAE,VAE
2022-11-22
RNN循环神经网络PPT,涉及到LSTM,GRU、BRNN、BLSTM等等介绍,适合开会用,总共有50页,干货满满
2022-11-22
全连接神经网络(多层感知机)PPT,可以直接开会讲
2022-11-22
2009B眼科病床合理安排.rar
2020-08-22
2006B艾滋病疗法评价.rar
2020-08-22
最佳灾情巡视路线优秀论文.rar
2020-08-19
2016年国赛A题“系泊系统的设计”附件
2020-08-16
2016年国赛A题题目.rar
2020-08-16
PDF转换软件.zip
2020-06-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人