万年枝-优快云博客

原创 SummaryWriter 记录和保存训练日志

SummaryWriter 是 PyTorch 中用于记录训练日志的工具，通常与 TensorBoard 配合使用。如果你看到类似 omnisky 的文件（可能是 events.out.tfevents.xxxxxx.omnisky），说明 SummaryWriter 正在向该文件写入日志数据。

2025-05-17 10:08:37 262

若a是tensor,b是tensor，则torch.mul(a, b)会先对a、b进行广播，保持a、b维数一致，然后实现a和b elem-wise相乘；若a是tensor,b是标量，则torch.mul(a, b)=b乘a中每个元素，得到与a一样的tensor；torch.bmm 不可广播，(B×M×N) × (B×N×P) → (B×M×P)，二维矩阵相乘。, M, N), b.shape == (…torch.mm 不可广播，(M×N) × (N×P) → (M×P)，二维矩阵相乘。

2025-05-15 11:50:40 1301

原创 python的图像读取与保存

RGBA：带透明通道的彩色图像。RGB：彩色图像，三通道。L：灰度图（单通道）1：二值图像（黑白）

2025-05-13 11:04:24 336

原创如何根据pid知道用户信息

根据如上命令，就知道 816850 进程是 usr111用户运行的了。

2025-05-07 17:38:12 199

原创 torchrun单机多卡运行

运行如上sh命令发现，即为父进程，并根据父进程生成三个子进程，

2025-05-06 16:03:09 794

原创 Python中的join函数

join(): 将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成新字符串。os.path.join(): 用于路径拼接并返回。参数说明sep：分隔符。可以为空seq：要连接的元素序列、字符串、元组、字典操作：以sep作为分隔符，将seq所有的元素合并成一个新的字符串返回值：返回一个以分隔符sep连接各个元素后生成的字符串'''

2025-04-29 09:35:40 547

原创 nohup命令使用说明

如果程序不需要交互输入且输出已正确重定向，nohup: ignoring input 仅是一个警告，不影响程序运行。如果程序需要交互输入，必须修改程序逻辑或使用 screen/tmux 替代 nohup。>> 是追加模式，表示将程序的输出追加到文件末尾，不覆盖原有内容。> 是覆盖模式，每次运行命令时会清空文件再写入新内容。始终显式重定向输出（> output.log 2>&1）以避免日志丢失。> 表示重定向标准输出到 output.log。

2025-04-17 10:14:14 1093

原创 ValueError: attempted relative import beyond top-level package

X import Y， . 代表当前包， …代表上上层包，依次类推。2、不能作为顶层模块来执行该文件夹中的py文件（即不能作为主函数的入口）。如果想要导入顶层包更上层的包或者模块，需要将包路径添加到sys.path中。原因：Python 的模块查找路径 sys.path 默认不包含项目根目录 project/，导致无法正确导入 utils 包。对于原因二，由于全文添加路径和导入数据包用的都是绝对路径，故排除。(3) 安装包为可编辑模式（推荐长期项目）文件，该文件可以为空，但必须存在该文件。

2025-03-27 17:30:59 762

原创 AAAI 2025: IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and

零样本引用图像分割（Zero-shot Referring Image Segmentation， RIS）***无需训练和微调***，即可识别与指定引用表达式最匹配的实例掩码，大大减少了劳动密集型的注释过程。尽管取得了值得称赞的结果，但以前基于clip的模型有一个关键的缺点：模型在**识别物体相对空间关系**的能力上显着降低。此外，大多数方法在处理**基本词与其上下文之间的关系**方面能力较弱，导致混淆，降低了识别正确目标区域的准确性。

2025-03-11 11:43:31 1034

原创 torch中维度操作总结(repeat,squeeze,unsqueeze,flatten,transpose)

python里的flatten(dim)表示，从第dim个维度开始展开，将后面的维度转化为一维.也就是说，只保留dim之前的维度，其他维度的数据全都挤在dim这一维。即repeat的参数是对应维度的复制个数，上段代码为0维复制两次，1维复制两次，则得到以上运行结果。如果指定位置参数，执行 torch.squeeze(A，1) ，A的维度变为（1，3），中间的维度被删除。如果执行 torch.unsqueeze(A，1)，数据的维度就变为了（2，1，3）flatten() 是对多维数据的降维函数。

2025-02-28 14:55:51 956

原创 VSCode连接远程服务器报错：vscode-remote://ssh-remote%2B%E5%AE%9E%E9%AA%8C%E5%AE%A4/data 的文件系统提供程序不可用。

1.使用本地ssh连接，判断是否能够正常连接,样例如下，请修改成个人的端口号和 root@ip 形式。然后重新尝试在 VS Code 中连接，VS Code 会自动重新安装服务器。确保本地和远程的这个端口未被占用。2.更新 VS Code 和插件。

2025-02-28 10:19:03 960

原创 RuntimeError: Couldn‘t load custom C++ ops.This can happen if your PyTorch and torchvision versions

PyTorch 2.2.0 支持 CUDA 12.1，适用于 CUDA 12.4（向下兼容）。1.卸载现有 PyTorch 和 torchvision。2.安装支持 CUDA 12.x 的版本。我的torch版本为。

2025-02-25 16:55:32 713

原创 from PIL import Image ModuleNotFoundError: No module named ‘PIL‘

已知环境为 python=3.7.16， Pillow=9.0.1；最终pillow成功安装。

2024-09-24 14:56:31 655 1

原创如何使用torch.DataParallel

【代码】如何使用torch.DataParallel。

2024-07-25 15:00:44 206

原创 ICCV2023：Weakly Supervised Referring Image Segmentation with Intra-Chunk and Inter-Chunk Consistency

参考图像分割的目的是通过自然语言表达来定位图像中的对象。以往的研究大多是利用包含分割标签的大规模数据集来学习参考图像分割，但成本较高。我们提出了一种弱监督学习方法用于参考图像分割，该方法仅使用现成的图像-文本对。我们首先训练一个图像-文本匹配的视觉语言学模型，并通过Grad-CAM提取视觉显著性图来识别每个单词对应的图像区域。然而，我们发现了Grad-CAM的两个主要问题。

2024-05-09 10:54:21 1046

原创 TransVG++:End-to-End Visual Grounding with Language Conditioned Vision Transformer

凭经验判断，Transformer的stack越多效果越好。然而，TransVG中的核心融合变压器是独立于单模态编码器的，因此应该在有限的视觉接地数据上从头开始训练，这使得难以优化并导致次优性能。为此，我们进一步引入TransVG++来进行两方面的改进。首先，我们通过利用视觉转换器(Vision Transformer, ViT)进行视觉特征编码，将我们的框架升级为纯粹基于Transformer的框架。另一方面，我们设计了语言条件视觉转换器，

2024-04-30 17:10:45 511

原创 RefCLIP 和 ReCLIP（for REC）

这篇论文介绍了ReCLIP，这是一个用于指代表达理解（Referring Expression Comprehension，简称ReC）任务的强零样本基线方法。ReCLIP的核心思想是利用CLIP（一种先进的大规模预训练模型），通过零样本学习（zero-shot learning）的方式，来解决ReC任务，而不需要针对特定视觉领域的额外训练数据。

2024-03-26 11:13:37 1721

原创解决：让Chatgpt在聊天界面直接显示公式，而不是那种$C_a$代码！！！

解决：让Chatgpt在聊天界面直接显示公式，而不是那种$C_a$代码！！！

2024-03-13 16:11:59 11283 4

原创服务器cuda版本控制

cuda和nvidia driver的关系；cuda版本控制；cuda驱动下载地址

2024-03-08 15:53:28 461

原创 ICCV2023：FLatten Transformer: Vision Transformer using Focused Linear Attention

self-attention 的二次计算复杂度一直是将Transform模型应用于视觉任务时面临的一个持续挑战。另一方面，线性注意力通过精心设计的映射函数逼近Softmax操作，以其线性复杂性提供了一种更有效的替代方案。然而，当前的线性注意力方法要么遭受显着的性能下降，要么引入了映射函数的额外计算开销。在本文中，我们提出了一种新颖的聚焦线性注意力模块，以实现高效率和表现力。具体而言，我们首先从两个视角分析了导致线性注意力性能下降的因素：聚焦能力和特征多样性。为了克服这些限制，我们引入了一个简单而有效的映射函

2024-03-01 15:48:33 1844

原创 ICCV2023:A Dynamic Dual-Processing Object Detection Framework Inspired by the Brain‘s Recognition Me

目标检测的两种方法：CNN-based 和 Transformer-based, 前者将该任务视为 a dense local matching problem, and the latter sees it as s sparse global retrieval problem.Research in neuroscience has shown that the recognition decision in the brain is based on two processes, namely f

2024-03-01 11:17:08 1110

原创 python爬虫入门（一）

【代码】python爬虫入门（一）

2024-02-05 10:10:24 911

原创 Docker使用

请确保你有足够的权限来运行这些命令，通常需要具有 sudo 或 docker 组的权限。替换为你要查看的容器的实际 ID，这会显示有关容器的详细信息。这会列出当前系统中所有的 Docker 镜像，包括镜像的 ID、仓库名、标签、大小等信息。这会显示当前正在运行的 Docker 容器的列表，包括容器的 ID、名称、状态等信息。这会显示所有的 Docker 容器，包括正在运行的和已经停止的。这会实时显示正在运行的容器的资源使用情况，包括 CPU、内存等。

2024-01-26 00:26:23 588 1

原创 CVPR2023|Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in Ecommerce

本文旨在建立一个通用的多模态基础模型，该模型具有可扩展的电子商务中大规模下游应用的能力。近年来，大规模视觉语言预训练方法在通用领域取得了显著进展。然而，由于自然图像和产品图像之间的显着差异，将这些框架直接应用于电子商务的图像级表示建模将不可避免地次优。为此，我们在这项工作中提出了一种以实例为中心的多模态预训练范式，称为ECLIP。具体来说，我们设计了一个解码器架构，该架构引入了一组可学习的实例查询，以显式聚合实例级语义。

2024-01-25 13:49:36 948

原创音乐数据集+大模型相关（一）

下图来自 llark论文。对于音频领域，Mubert和Riffusion是近期热门的两个文本到音乐的生成模型。Mubert是一个文本到音乐的演示界面，能够根据输入的文本生成高质量的音频音乐。不过由于所有的声音都是由音乐家和声音设计师事先创造的，因此Mubert更像是在生成声音的组合，而不是音乐。Riffusion使用与Stable Diffusion相同的模型，从文本中生成频谱图，然后将其转换为音频片段。

2024-01-24 16:10:49 4570 2

原创 CVPR 2023|FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation

最近出现了开放词汇学习来完成任意类别的基于文本的描述的分割，这将分割系统推广到更通用的应用场景。然而，现有的方法致力于为特定的分割任务设计专门的架构或参数。这些定制的设计范式导致各种分割任务之间的碎片化，从而阻碍了分割模型的统一性。因此，在本文中，我们提出了FreeSeg，这是一个通用框架来完成统一、通用和开放词汇的图像分割。FreeSeg通过一次性训练优化了一个一体化网络，并采用相同的架构和参数在推理过程中无缝处理不同的分割任务。

2024-01-23 20:07:35 1360

原创 CVPR 2023 Universal Instance Perception as Object Discovery and Retrieval

所有的实例感知任务都旨在寻找由类别名称、语言表达式和目标注释等查询指定的某些对象，但是这个完整的字段被分成了多个独立的子任务。在这项工作中，我们提出了下一代的通用实例感知模型，称为UNINEXT。UNINEXT将不同的实例感知任务重新制定为统一的对象发现和检索范式，并且可以通过简单地改变输入提示来灵活地感知不同类型的对象。这种统一的公式带来了以下好处：（1）来自不同任务和标签词汇表的大量数据可以被利用来联合训练通用实例级表示，这对于缺乏训练数据的任务特别有益。

2024-01-23 17:04:27 1277

原创 conda使用，pip使用

这个时候，两个numpy可能就打架了。pip install xxx：分两种情况，一种情况就是当前conda环境的python是conda安装的，和系统的不一样，那么xxx会被安装到anaconda3/envs/current_env/lib/python3.x/site-packages文件夹中，如果当前conda环境用的是系统的python，那么xxx会通常会被安装到~/.local/lib/python3.x/site-packages文件夹中。商业转载请联系作者获得授权，非商业转载请注明出处。

2024-01-22 17:00:25 737

原创 ICLR2023: What do vision transformers learn? A visual exploration

视觉转换器（ViT）正迅速成为计算机视觉事实上的架构，但我们对它们的工作原理和学习内容知之甚少。虽然现有的研究直观地分析了卷积神经网络的机制，但对ViT的类似探索仍然具有挑战性。在本文中，我们首先解决了在ViT上执行可视化的障碍。在这些解决方案的帮助下，我们观察到使用语言模型监督（例如，CLIP）训练的ViT中的神经元是由语义概念而不是视觉特征激活的。我们还探索了ViT和CNN之间的潜在差异，我们发现transformer检测图像背景特征，就像它们的卷积对应物一样，但它们的预测对高频信息的依赖要小得多。

2023-12-28 12:39:01 1268

北邮809数据结构面试题

空空如也