- 博客(49)
- 收藏
- 关注
原创 ValueError: attempted relative import beyond top-level package
X import Y, . 代表当前包, …代表上上层包,依次类推。2、不能作为顶层模块来执行该文件夹中的py文件(即不能作为主函数的入口)。如果想要导入顶层包更上层的包或者模块,需要将包路径添加到sys.path中。原因:Python 的模块查找路径 sys.path 默认不包含项目根目录 project/,导致无法正确导入 utils 包。对于原因二,由于全文 添加路径 和 导入数据包 用的都是绝对路径,故排除。(3) 安装包为可编辑模式(推荐长期项目)文件,该文件可以为空,但必须存在该文件。
2025-03-27 17:30:59
573
原创 AAAI 2025: IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and
零样本引用图像分割(Zero-shot Referring Image Segmentation, RIS)***无需训练和微调***,即可识别与指定引用表达式最匹配的实例掩码,大大减少了劳动密集型的注释过程。尽管取得了值得称赞的结果,但以前基于clip的模型有一个关键的缺点:模型在**识别物体相对空间关系**的能力上显着降低。此外,大多数方法在处理**基本词与其上下文之间的关系**方面能力较弱,导致混淆,降低了识别正确目标区域的准确性。
2025-03-11 11:43:31
793
原创 torch中维度操作总结(repeat,squeeze,unsqueeze,flatten,transpose)
python里的flatten(dim)表示,从第dim个维度开始展开,将后面的维度转化为一维.也就是说,只保留dim之前的维度,其他维度的数据全都挤在dim这一维。即repeat的参数是对应维度的复制个数,上段代码为0维复制两次,1维复制两次,则得到以上运行结果。如果指定位置参数,执行 torch.squeeze(A,1) ,A的维度变为 (1,3),中间的维度被删除。如果执行 torch.unsqueeze(A,1),数据的维度就变为了 (2,1,3)flatten() 是对多维数据的降维函数。
2025-02-28 14:55:51
639
原创 VSCode连接远程服务器报错:vscode-remote://ssh-remote%2B%E5%AE%9E%E9%AA%8C%E5%AE%A4/data 的文件系统提供程序不可用。
1.使用本地ssh连接,判断是否能够正常连接,样例如下,请修改成个人的端口号 和 root@ip 形式。然后重新尝试在 VS Code 中连接,VS Code 会自动重新安装服务器。确保本地和远程的这个端口未被占用。2.更新 VS Code 和插件。
2025-02-28 10:19:03
253
原创 RuntimeError: Couldn‘t load custom C++ ops.This can happen if your PyTorch and torchvision versions
PyTorch 2.2.0 支持 CUDA 12.1,适用于 CUDA 12.4(向下兼容)。1.卸载现有 PyTorch 和 torchvision。2.安装支持 CUDA 12.x 的版本。我的torch版本为。
2025-02-25 16:55:32
319
原创 from PIL import Image ModuleNotFoundError: No module named ‘PIL‘
已知环境为 python=3.7.16, Pillow=9.0.1;最终pillow成功安装。
2024-09-24 14:56:31
427
1
原创 ICCV2023:Weakly Supervised Referring Image Segmentation with Intra-Chunk and Inter-Chunk Consistency
参考图像分割的目的是通过自然语言表达来定位图像中的对象。以往的研究大多是利用包含分割标签的大规模数据集来学习参考图像分割,但成本较高。我们提出了一种弱监督学习方法用于参考图像分割,该方法仅使用现成的图像-文本对。我们首先训练一个图像-文本匹配的视觉语言学模型,并通过Grad-CAM提取视觉显著性图来识别每个单词对应的图像区域。然而,我们发现了Grad-CAM的两个主要问题。
2024-05-09 10:54:21
923
原创 TransVG++:End-to-End Visual Grounding with Language Conditioned Vision Transformer
凭经验判断,Transformer的stack越多效果越好。然而,TransVG中的核心融合变压器是独立于单模态编码器的,因此应该在有限的视觉接地数据上从头开始训练,这使得难以优化并导致次优性能。为此,我们进一步引入TransVG++来进行两方面的改进。首先,我们通过利用视觉转换器(Vision Transformer, ViT)进行视觉特征编码,将我们的框架升级为 纯粹基于Transformer的框架。另一方面,我们设计了语言条件视觉转换器,
2024-04-30 17:10:45
342
原创 RefCLIP 和 ReCLIP(for REC)
这篇论文介绍了ReCLIP,这是一个用于指代表达理解(Referring Expression Comprehension,简称ReC)任务的强零样本基线方法。ReCLIP的核心思想是利用CLIP(一种先进的大规模预训练模型),通过零样本学习(zero-shot learning)的方式,来解决ReC任务,而不需要针对特定视觉领域的额外训练数据。
2024-03-26 11:13:37
1465
原创 解决:让Chatgpt在聊天界面直接显示公式,而不是那种$C_a$代码!!!
解决:让Chatgpt在聊天界面直接显示公式,而不是那种$C_a$代码!!!
2024-03-13 16:11:59
9005
2
原创 ICCV2023:FLatten Transformer: Vision Transformer using Focused Linear Attention
self-attention 的二次计算复杂度一直是将Transform模型应用于视觉任务时面临的一个持续挑战。另一方面,线性注意力通过精心设计的映射函数逼近Softmax操作,以其线性复杂性提供了一种更有效的替代方案。然而,当前的线性注意力方法要么遭受显着的性能下降,要么引入了映射函数的额外计算开销。在本文中,我们提出了一种新颖的聚焦线性注意力模块,以实现高效率和表现力。具体而言,我们首先从两个视角分析了导致线性注意力性能下降的因素:聚焦能力和特征多样性。为了克服这些限制,我们引入了一个简单而有效的映射函
2024-03-01 15:48:33
1677
原创 ICCV2023:A Dynamic Dual-Processing Object Detection Framework Inspired by the Brain‘s Recognition Me
目标检测的两种方法:CNN-based 和 Transformer-based, 前者将该任务视为 a dense local matching problem, and the latter sees it as s sparse global retrieval problem.Research in neuroscience has shown that the recognition decision in the brain is based on two processes, namely f
2024-03-01 11:17:08
939
原创 Docker使用
请确保你有足够的权限来运行这些命令,通常需要具有 sudo 或 docker 组的权限。替换 为你要查看的容器的实际 ID,这会显示有关容器的详细信息。这会列出当前系统中所有的 Docker 镜像,包括镜像的 ID、仓库名、标签、大小等信息。这会显示当前正在运行的 Docker 容器的列表,包括容器的 ID、名称、状态等信息。这会显示所有的 Docker 容器,包括正在运行的和已经停止的。这会实时显示正在运行的容器的资源使用情况,包括 CPU、内存等。
2024-01-26 00:26:23
538
1
原创 CVPR2023|Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in Ecommerce
本文旨在建立一个通用的多模态基础模型,该模型具有可扩展的电子商务中大规模下游应用的能力。近年来,大规模视觉语言预训练方法在通用领域取得了显著进展。然而,由于自然图像和产品图像之间的显着差异,将这些框架直接应用于电子商务的图像级表示建模将不可避免地次优。为此,我们在这项工作中提出了一种以实例为中心的多模态预训练范式,称为ECLIP。具体来说,我们设计了一个解码器架构,该架构引入了一组可学习的实例查询,以显式聚合实例级语义。
2024-01-25 13:49:36
865
原创 音乐数据集+大模型相关(一)
下图来自 llark论文。对于音频领域,Mubert和Riffusion是近期热门的两个文本到音乐的生成模型。Mubert是一个文本到音乐的演示界面,能够根据输入的文本生成高质量的音频音乐。不过由于所有的声音都是由音乐家和声音设计师事先创造的,因此Mubert更像是在生成声音的组合,而不是音乐。Riffusion使用与Stable Diffusion相同的模型,从文本中生成频谱图,然后将其转换为音频片段。
2024-01-24 16:10:49
3544
1
原创 CVPR 2023|FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation
最近出现了开放词汇学习来完成任意类别的基于文本的描述的分割,这将分割系统推广到更通用的应用场景。然而,现有的方法致力于为特定的分割任务设计专门的架构或参数。这些定制的设计范式导致各种分割任务之间的碎片化,从而阻碍了分割模型的统一性。因此,在本文中,我们提出了FreeSeg,这是一个通用框架来完成统一、通用和开放词汇的图像分割。FreeSeg通过一次性训练优化了一个一体化网络,并采用相同的架构和参数在推理过程中无缝处理不同的分割任务。
2024-01-23 20:07:35
1174
原创 CVPR 2023 Universal Instance Perception as Object Discovery and Retrieval
所有的实例感知任务都旨在寻找由类别名称、语言表达式和目标注释等查询指定的某些对象,但是这个完整的字段被分成了多个独立的子任务。在这项工作中,我们提出了下一代的通用实例感知模型,称为UNINEXT。UNINEXT将不同的实例感知任务重新制定为统一的对象发现和检索范式,并且可以通过简单地改变输入提示来灵活地感知不同类型的对象。这种统一的公式带来了以下好处:(1)来自不同任务和标签词汇表的大量数据可以被利用来联合训练通用实例级表示,这对于缺乏训练数据的任务特别有益。
2024-01-23 17:04:27
1167
原创 conda使用,pip使用
这个时候,两个numpy可能就打架了。pip install xxx:分两种情况,一种情况就是当前conda环境的python是conda安装的,和系统的不一样,那么xxx会被安装到anaconda3/envs/current_env/lib/python3.x/site-packages文件夹中,如果当前conda环境用的是系统的python,那么xxx会通常会被安装到~/.local/lib/python3.x/site-packages文件夹中。商业转载请联系作者获得授权,非商业转载请注明出处。
2024-01-22 17:00:25
631
原创 ICLR2023: What do vision transformers learn? A visual exploration
视觉转换器 (ViT) 正迅速成为计算机视觉事实上的架构,但我们对它们的工作原理和学习内容知之甚少。虽然现有的研究直观地分析了卷积神经网络的机制,但对ViT的类似探索仍然具有挑战性。在本文中,我们首先解决了在ViT上执行可视化的障碍。在这些解决方案的帮助下,我们观察到使用语言模型监督(例如,CLIP)训练的ViT中的神经元是由语义概念而不是视觉特征激活的。我们还探索了ViT和CNN之间的潜在差异,我们发现transformer检测图像背景特征,就像它们的卷积对应物一样,但它们的预测对高频信息的依赖要小得多。
2023-12-28 12:39:01
1141
原创 One Wide Feedforward is All You Need -- working
transformer网络结构下,为减少参数量和计算量,如何优化FFN呢?
2023-10-31 15:14:14
204
原创 Error: import nltk import-im6.q16: unable to open X server `‘ @ error/import.c...
要 先进入python,后导入;
2023-07-09 09:30:17
959
原创 数据结构的一些算法
**内容**1.BM算法2.栈的使用3.利用哈弗曼树实现文件压缩4.约瑟夫问题5.链表的相关操作6.栈、队列的相关操作7.树的相关操作
2022-02-07 11:06:46
443
原创 30天自制操作系统笔记
注意:第八天之后才开始动手写程序,要将之前的运算过程添加到后面开发操作系统,步骤:1 在Windows或其他系统上编写源代码2 用C语言编译器编译源代码,生成机器语言文库3 对机器语言文件进行加工,生成软盘映像文件4 对映像文件写入磁盘,做成含操作系统的启动盘启动区 软盘的第一个扇区(扇区为512个字节)叫做启动区。计算机从最初一个扇区开始读软盘,最后去检查这个扇区最后两个字节的内容,如果不是55AA,就会认为这张盘上没有所需的启动程序。IPL 启动程序加载器16位寄存器ax accum
2021-12-31 21:57:03
671
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人