hxxjxw-优快云博客

原创 Paged Attention

Paged Attention 是一种在大语言模型（LLM）推理中优化注意力机制内存管理的技术，由 vLLM 团队提出。是 vLLM 系统的核心。

2025-12-19 14:32:49 246

原创 Pytorch分布式训练/多卡训练(六) —— Expert Parallelism (MoE的特殊策略)

MoE 区别于传统的 Transformer 是其参数分布极为不均如果使用 ZeRO-3，当计算的时候all-gather 所有模型参数，如果 expert 数量很多，例如 64 个，那么总显存可能带 256G, 远超一个 GPU所能承载的。

2025-12-13 00:27:25 284

原创 huggingface的生成模型

【代码】huggingface的生成模型。

2023-05-31 17:31:24 2686

原创 google drive谷歌云盘 linux下载(gdown)

得到一个类似https://drive.google.com/file/d/1wCthhCvLh_Usa9f6EVStdhsEcdgo7zlY/view?usp=sharing的链接。其中d/到/view之间的部分是ID。

2023-05-19 17:50:14 3264 1

原创 Pytorch amp(混合精度)的bfloat16和float16

bfloat16 格式使用 16 位表示浮点数，其中 1 位用于符号，8 位用于指数，7 位用于尾数。float16 格式使用 16 位表示浮点数，其中 1 位用于符号，5 位用于指数，10 位用于尾数。bfloat16 的表示范围比 float16 更广，但是精度更低。

2023-03-30 20:12:58 4713

Sacred提供了一种轻量级的解决方案，以便更好地跟踪机器学习实验的运行情况、超参数配置以及模型结构等信息。使用Sacred可以使得研究人员更容易地重现他们的实验结果，并加速迭代过程中新想法的测试和实验。它还提供了许多特性，例如自动记录和可视化实验结果、在云上进行远程实验运行、与TensorBoard集成等。它也是许多研究实验的标准工具之一，已经被许多知名的机器学习项目所采用。Python Sacred是一个用于管理实验流程和参数配置的开源框架，它可以帮助研究人员更好地组织和记录机器学习实验。

2023-03-23 19:57:04 1294

原创 Pytorch transformers库(huggingface)(bert)

这就是hugging face的库。

2023-03-23 13:19:55 4621

原创 torch.backends(torch.backends.cudnn.allow_tf32)(torch.backends.cuda.matmul.allow_tf32)

作用是是否允许PyTorch在内部使用TensorFloat32（TF32）的 tensor core (在NVIDIA GPU的新的Ampere架构开始使用) 来计算matmul（矩阵乘法和分批矩阵乘法）和卷积。TF32 tensor core的设计是为了在torch.float32张量上实现更好的matmul和卷积性能（它将输入数据四舍五入到有10比特的尾数，并以FP32精度累积结果，保持FP32动态范围）在torch1.7-1.11默认是True, 在1.12及以后默认是False。

2023-03-13 23:51:57 4008

原创 OmegaConf (yaml文件)

OmegaConf (yaml文件)

2023-03-06 21:41:18 1247

原创 Python hydra库(OmegaConf)(yaml)

Python hydra库

2023-03-06 15:56:54 5117

原创 Conditional DETR spatial attention & content attention可视化(二)

Conditional DETR spatial attention & content attention可视化(二)

2022-11-01 19:24:00 1248 2

原创 ReLU6

ReLU6

2022-10-28 13:08:35 836

原创 Pytorch FrozenBatchNorm (BN)

Pytorch FrozenBatchNorm (BN)

2022-10-05 12:04:43 2221

原创 gumbel-softmax(替代argmax)

gumbel-softmax(替代argmax)

2022-09-14 16:11:47 3254

原创 linux 比较两文件的差异(diff & vimdiff)

linux 比较两文件的差异(diff & vimdiff)

2022-08-21 16:42:22 1166

原创 Python typing模块(类型标注)(type hints)(一) —— NewType & Callable可调/回调 & Union或 & Any & Optional

Python typing模块(类型标注)(type hints)(一) —— (NewType & Callable可调/回调 & Union或 & Any & Optional)

2022-08-15 16:00:43 2635

原创 Pytorch中数据采样方法Sampler(torch.utils.data)(二) —— WeightedRandomSampler & SubsetRandomSampler

Pytorch中数据采样方法Sampler(torch.utils.data)(二) —— (WeightedRandomSampler&SubsetRandomSampler)

2022-08-14 16:35:31 6574 5

原创 Pytorch分布式训练/多卡训练DDP——模型初始化(torch.distribute 与 DDP的区别)

Pytorch分布式训练/多卡训练DDP——模型初始化(torch.distribute 与 DDP的区别)

2022-08-09 12:14:14 1686

原创 torch.distributed多卡/多GPU/分布式DPP(二)—torch.distributed.all_reduce(reduce_mean)barrier控制进程执行顺序&seed随机种子

torch.distributed多卡/多GPU/分布式DPP(二) —— torch.distributed.all_reduce & barrier

2022-08-09 00:15:18 7235 1

原创 NestedTensor(DETR)

NestedTensor

2022-08-06 15:50:47 6672

原创 Pytorch分布式训练/多卡/多GPU训练DDP的torch.distributed.launch和torchrun

Pytorch分布式训练/多卡训练DDP的torch.distributed.launch和torchrun

2022-08-03 16:43:05 3243

原创 X2Go连接WSL2 (linux远程服务器)

X2Go连接WSL2

2022-07-27 22:36:58 1090

原创 Python numpy array设置输出数组的宽度

Python numpy array设置输出数组的宽度

2022-07-26 18:45:45 1342

原创 PVT的spatial reduction attention(SRA)

PVT的spatial reuction attention(SRA)

2022-07-12 13:27:30 2892

原创 Pytorch 实现position embedding位置编码(三)——DETR中的位置编码(2d的绝对位置编码)(PositionEmbeddingSine正余弦位置编码)

Pytorch 实现position embedding位置编码(三)——DETR中的位置编码

2022-07-11 17:32:25 4451

原创 Pytorch C Extension(C拓展)(即时编译JIT)(pybind11)(torch.utils.cpp_extension)

Pytorch C Extension(C拓展)(即时编译JIT)(pybind11)(torch.utils.cpp_extension)

2022-06-25 18:59:26 1818

原创 docker cuda的devel和runtime包

docker cuda的devel和runtime包

2022-06-20 12:59:25 1081

原创 SWIG & Python调用C代码

SWIG

2022-06-19 18:28:50 459

原创使用Python加载C语言代码(ctypes)

使用Python加载C语言代码(ctypes)

2022-06-19 00:41:32 539

原创 Cython的使用(一)(.so文件)

Cython的使用

2022-06-09 23:12:24 2048 1

原创 numpy array中的浅拷贝与深拷贝

numpy array中的浅拷贝与深拷贝

2022-06-02 22:27:22 274

原创 Python Wheels(.whl文件)(轮子)(取代egg)(egg格式与wheel格式的区别)(伪装zip)(二进制文件)

Egg 格式是由setuptools在 2004 年引入，而 Wheel 格式是由 PEP427 在 2012 年定义。Wheel 的出现是为了替代 Egg，它的本质是一个zip包，现在被认为是 Python 的二进制包的标准格式。

2022-05-24 21:23:51 1780

原创 ssh通过跳板机连接远程服务器重启后连接被拒(ECDSA key change)

之前是可以正常连接的，服务器reboot之后报错说ECDSA的key变了，连接拒绝但是我先连到跳板机，后连到服务器的话是可以的解决方案将本地的.ssh/known_hosts中的关于远程服务器(不是跳板机)的的项删掉，再连，它就会重新添加新的ECDSA key了，就可以了...

2022-05-20 09:49:38 1268

原创 TTA 测试时数据增强(multi-scale testing)(TEST.AUG)

TTA,Test-Time Augmentation，测试时数据增强测试时将原始数据做不同形式的增强,然后取结果的平均值作为最终结果。可以进一步提升最终结果的精度

2022-05-13 20:42:18 2699 1

原创 vscode tensorboard打开错误

经常会有黑屏的情况，像一只直是这种这种情况下通常是因为端口的问题，很有可能是你另一个打开的本台服务器上的vscode文件也用过tensorboard而且转发过端口，容易造成冲突一般把其他本服务器的vscode文件转发的端口关掉，然后重新打开界面就好了...

2022-05-12 16:46:49 2091

原创 Pytorch预训练模型的加载路径catalog://ImageNetPretrained/MSRA(detectron2://ImageNetPretrained/MSRA)是什么意思

还遇见过 ’detectron2://ImageNetPretrained/MSRA/R-101.pkl‘这种的话，一般在框架中用的居多，属于一种简写方式，而框架中是有专门的path解析程序来替换或者添加前缀等来使其变成真正的URL然后去下载的如在mask-rcnn下配置文件中是而在数据集路径文件（/maskrcnn_benchmark/config/paths_catalog.py# Copyright (c) Facebook, Inc. and its affiliat..

2022-05-08 20:27:13 3045

原创 linux(ubuntu)没有在/etc/passwd里的用户如何修改默认 shell(zsh)

这样的话，只能在.bashrc最后，添加exec -l zsh

2022-05-07 20:14:16 2347

原创 Pytorch量化(torch.quantization)

在深度学习中，量化指的是使用更少的bit来存储原本以浮点数存储的tensor，以及使用更少的bit来完成原本以浮点数完成的计算。这么做的好处主要有如下几点：更少的模型体积，接近4倍的减少；可以更快的计算，由于更少的内存访问和更快的int8计算，可以快2~4倍。一个量化后的模型，其部分或者全部的tensor操作会使用int类型来计算，而不是使用量化之前的float类型。当然，量化还需要底层硬件支持，x86 CPU（支持AVX2）、ARM CPU、Google TPU、Nvi...

2022-04-22 10:51:58 8059 2

原创 R-Dropout

R-Drop是Regularized Dropout为了解决Dropout中训练和测试(推理)不一致的问题Dropout本质上是一种集成学习，即在训练的时候同时训练多个神经网络R-Drop使得通过Drop产生的不同的子模型，它们输出的分布要彼此一致。具体来说，对每个训练样本，R-Dropout都会将两个子模型的KL散度进行一个最小化in each mini-batch training, each data sample goes through the forward pas.

2022-04-21 14:48:02 914

原创 Pytorch autograd机制(三) —— torch.autograd.Function 自定义求导/反向传播方式

虽然pytorch可以自动求导，但是有时候一些操作是不可导的，这时候你需要自定义求导方式。也就是所谓的 "Extending torch.autograd"。Function与Module的差异与应用场景Function与Module都可以对pytorch进行自定义拓展，使其满足网络的需求，但这两者还是有十分重要的不同：Function一般只定义一个操作，因为其无法保存参数，因此适用于激活函数、pooling等操作；Module是保存了参数，因此适合于定义一层，如线性层，卷积层，也适用于定.

2022-04-20 21:00:53 3663 1

空空如也

空空如也