- 博客(39)
- 收藏
- 关注
原创 配置晟腾910b的PyTorch torch_npu环境
1.1、新建conda环境。2、在新建好的conda环境中,安装基础的依赖。3.安装Pytoch:下面是对应pytorch版本链接,注意架构是x86还是aarch64,然后pip install4.安装pytorch-npu,找到自己适配的版本,然后pip install下载好指定版本后,使用pip install 安装下载好的包即可5、测试。使用以下命令测试,如果正常输出结果,说明环境搭建成功。
2025-04-02 16:36:58
320
原创 下载llama模型权重的两种方式
然后在https://github.com/meta-llama/llama.git 下载download.sh,并bash运行,输入发到邮箱的许可 链接。2.hugging-face,用snapshot_download。1.meta官网,申请权限。
2025-02-11 20:57:39
161
原创 项目上传github
查询IP地址,如果ping github.com无法解析域名,试试ping IP。-vT可以详细输出connecting步骤。
2024-12-29 13:57:34
107
原创 Accelerating the Training of Large Language Models using Efficient Activation Rematerialization
是 NVIDIA 提供的一种高速互连技术,主要用于连接多 GPU 系统,它提供比传统 PCIe 更高的带宽和更低的延迟,尤其适用于大规模深度学习训练任务。在跨机训练中,如果将网络通信改为更低带宽的传统网络,如以太网或 InfiniBand,训练的吞吐量和速度可能会大幅下降,而使用 NVLink 能够显著提高通信效率,减少性能瓶颈。在流水线启动阶段,由于模型被分成多个阶段(如 Transformer 的多个层分布在不同 GPU 上),流水线逐步填充数据。
2024-12-15 16:22:10
124
原创 FP16训练输出是nan
2.模型权重初始化:权重值过大或过小可能导致模型输出溢出或梯度消失。二、model.train() 没写这一步咋办。,模型可能会保持在评估模式。一、FP16训练输出是nan。: 如果没有显式调用。1.输入的数据有问题。
2024-12-05 22:53:39
354
原创 DP DDP的不同
1.使用场景不同:DP支持单机多 GPU和多线程是一个的框架;而DDP支持多机多 GPU,同时也是的,此外,DDP还与模型并行化(model parallelism)兼容2.GPU的时间节点不同:对于DDP,在开始的时候主GPU(GPU0)就将模型复制给各个GPU,这个复制只发生一次;因为DDP在对local梯度做all reduce后(相当于单节点reduce+brodcast),每个节点用当前的全局平均梯度更新模型参数,所以在下一个batch时,所有节点都是更新好的模型。
2024-12-04 15:41:33
536
1
转载 KVcache
自引发的KVCache问题减少推理过程中对的重复计算,实现kv cache的优化。目前减少KV cache的手段有许多,比如page attention、MQA、MGA等,另外可以通过硬件内存使用的优化。
2024-12-02 13:50:55
228
原创 11.28
4.把原来的整段checkpoint分段保存,因为如果一旦文件被损害,所有teacher_output的结果都没了。1.制作数据集,input->text label->llama_outpus['hidden_states']这样的好处:在训练时可以直接剔除一整条数据,无需在原文本数据集和llama输出数据集做两次剔除。2.在蒸馏py 设置模型fp16 with autocast看是否能运行。3 如果出现nan 修改esp值。
2024-11-28 22:45:03
217
原创 conda找不到对应版本的pytorch,就会自动下载cpu版本的
conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia 本人的服务器支持的。先nvidia-smi查看自己cuda支持的最高版本,然后去pytorch官网寻找对应的torch、torchaudio、torchvision。
2024-11-04 20:11:40
438
原创 10.10
方法二 右键打开git bash 运行git clone https:…用scp上传到远程服务器 (先拉取到本地,在上传到服务器)方法一 vscode terminal 直接运行git clone https:…(直接在服务器下载)win+e 打开我的电脑 在左下角网络那里输入ftp://1.vscode ssh远程服务如何clone。
2024-10-10 15:55:59
290
原创 Model Parallelism Optimization for DistributedInference Via Decoupled CNN Structure笔记
【注意:虽然普通卷积核分组卷积都需要6个卷积核,但他们卷积核的通道数是不一样的,对本列来说,普通卷积的卷积核通道数为12,而分组卷积的卷积核通道数为4。所以,filters numbers和input channels都需要能被groups整除。
2024-10-01 17:08:14
367
原创 ml sys+clipper优化策略
sys是为了ml落地:机器学习分为若干阶段:数据收集和标定,处理数据,特征工程,编写模型,训练模型,模型管理,模型部署,其实每个阶段都对应着一种或多种机器学习系统,另外还有一些边缘计算AI系统,强化学习系统,AI视频系统。
2024-09-27 18:47:36
236
原创 diffusion和vae
1、VAE预测的z和输入的x是有关的,映射关系需要学习参数;diffusion的xt不需要一步步迭代,最后xt符合一个正态分布,参数都是已知的2、VAE的z和x维度不一样;diffusion的xt和x0维度一样。
2024-09-19 16:01:51
377
转载 AE/VAE
举个栗子,抛一枚均匀的硬币,拋20次,问15次拋得正面的可能性有多大?而拋一枚硬币,拋20次,结果15次正面向上,问其为均匀的可能性?该模型通过限制隐藏层中同时激活的神经元数量,强制使大部分神经元大多数时间处于非激活状态。根据以往经验和分析得到的概率,如全概率公式,它往往作为“由因求果”问题中的“因”出现的概率。概率”描述了给定模型参数后,描述结果的合理性,而不涉及任何观察到的数据。VAE不仅能够进行数据重构,还能生成新的、与输入数据相似的数据。,从而提高模型对输入数据中噪声或缺失值的容忍度。
2024-09-11 17:53:05
99
原创 GAN(limu)
数据分布不同第一个期望是对真实数据分布 pdata(x)p_{data}(x)pdata(x) 取的,而第二个期望是对生成数据分布 pz(z)p_z(z)pz(z) 取的。由于这两个期望的输入来自不同的分布,因此不能简单地将其视为函数相加。每个期望都分别对应真实数据和生成数据的分布。不同目标生成器 GGG 和判别器 DDD 的目标不同。判别器 DDD 试图区分真实数据和生成数据,因而它的损失函数包括两部分:对真实数据进行判断(第一个期望)和对生成数据进行判断(第二个期望)。
2024-09-10 20:16:45
677
原创 固定linux ip地址,无法修改ifcfg-ens33
原因在于当前用户不是root,只有root能对该文件进行修改。su - root切换到root即可进行修改。
2024-09-04 14:56:04
432
1
原创 DiT精读
Diffusion Transformer(DiT):DiT结合了扩散模型和Transformer架构的优势,通过模拟从噪声到数据的扩散过程,DiT能够生成高质量、逼真的视频内容。图像或视频生成:在模型训练完成后,可以通过输入噪声数据(或随机生成的噪声)到模型中,经过模型的处理后生成新的图像或视频。数据预处理:将输入的图像或视频数据转换为模型可以处理的格式,如将图像切分成固定大小的patches(小块),然后将这些patches转换为特征向量。gpu2 样本2 操作2;t=1,gpu1对样本1进行操作1;
2024-08-29 16:08:34
950
原创 yolov5检测垃圾—加SE注意力训练心得
训练一个类别的话至少应该200张正样本200张负样本效果比较好 当某个类别的ap低时,可以在数据集里加点这个类别去训练 识别文字类的,关闭mosic增强效果比较好 修改lr epoch 0.001 300有不错的效果 【实验记录】yolov5的一些改进tricks总结--持续更ing_yolo active learning-优快云博客
2024-05-09 20:06:50
249
原创 autodl运行yolov5
tools->development->configuration->mappings 改root path到root/tmp/project/yolov5。
2024-03-27 15:03:46
431
原创 colab运行yolov4_tiny
从github clone到colab的,数据集太大了。先从百度网盘下载数据集,再上传到colab(zip形式,尝试用文件夹上传,太大了。g,先zip再解压,走了好多弯路呜呜,还尝试先上传到github,再clone到colab,失败。)注意最后一定要保存colab跑的项目,问就是血泪教训呜呜。
2024-03-14 16:39:26
425
1
原创 transformer李宏毅(二)
大多数nlp问题都可以变成QA问题,比如翻译,问题就是这些输入的翻译是什么?但是特定的任务还是要结合不同模型来解决,seq2seq像一个啥都能用的瑞士刀。。。但是切水果肯定还是水果刀用的好。。。
2024-03-13 14:32:37
421
1
转载 transformer李宏毅(一)
你会注意什么?大数据(什么数据都有,重要的,不重要的)对于重要的数据,我们要使用对于不重要的数据,我们不太想使用但是,对于一个模型而言(CNN、LSTM),很难决定什么重要,什么不重要由此,注意力机制诞生了(有人发现了如何去在深度学习的模型上做注意力)红色的是科学家们发现,如果给你一张这个图,你眼睛的重点会聚焦在红色区域人--》看脸文章看标题段落看开头后面的落款这些红色区域可能包含更多的信息,更重要的信息注意力机制:我们会把我们的焦点聚焦在比较重要的事物上。
2024-03-09 14:04:25
56
原创 中科大并行计算第二章
①mpicc是C语言编译器的包装脚本(wrapper script),包装脚本的主要目的是运行程序;②所有 MPI定义的标识符都由字符串 MPI_开始。
2024-01-28 00:55:11
402
原创 esmfold基于现有方法的优化
CUDA是NVIDIA独有的GPU并行计算平台,必须有NVIDIAGPU才能运行CUDA程序。更专注于 Python 软件包。选择使用哪个工具通常取决于您的环境和项目需求。都是流行的包管理工具,但它们在环境管理和软件包解析方面存在一些区别。还能够处理非 Python 软件包,而。
2023-12-18 23:12:09
1347
1
原创 【无标题】
是一个命令行工具和库,用于传输数据,支持各种协议,如HTTP、HTTPS、FTP等。它的名字来源于"Client for URLs",表示它是一个用于处理URL的客户端工具。monomeric proteins 单体蛋白 prerequisite前提条件。in collaboration with 与什么合作。integrated 整合的" 或 "集成的。state-of-the-art 最先进的。simultaneous 同时。open atlas 开放图谱。repository 仓库。
2023-12-17 17:43:27
66
1
原创 Fastfold:将训练时间从11天减少到67hours
1.:数据并行是最基本、应用最广泛的并行方法。每个设备都有一套,并处理。在训练阶段,每个设备使用自己的小批量计算,然后使用 all-reduce 通信对全局梯度进行平均。然后根据平均梯度更新模型参数。2.模型并行将,根据分布方式可分为。2.1在管道并行中,模型在设备之间。然而,由于不同设备上的计算之间的依赖性,该方法引入了。为了提高资源利用率,小批量通常分为微批量,这允许不同设备上的计算之间有更多的重叠。
2023-12-10 17:56:33
145
1
转载 精读transformer模型(limu)
循环层是要我们知道,如果你的序列是长的 N 话,它就一个一个做运算,每个里面它的主要的计算就是一个 N 乘以 N 的矩阵,一个你就是一个 dance layer 然后再乘以你一个长为 D 的一个输入,所以它是一个 N 平方,然后要做 N 次,所以是 N 乘 D 平方。2 种常见的注意力机制:加性的注意力机制(它可以处理你的 query 和 key 不等长的情况,点积 dot-product 的注意力机制 (本文采用 scaled,➗ sqrt(dk) ),所以你可以看到它的名字它叫做 scale 的。
2023-12-04 15:11:21
475
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人