自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 【Image Captioning】DynRefer

区域级多模态任务模仿人类认知过程,根据特定的任务要求(开放词汇检测、属性识别、字幕生成等)将参考的图像区域翻译为语言输出。现有的方法以固定的分辨率作为输入,限制模型对于丰富分辨率的处理能力且难以捕获上下文信息。人类的认知系统可以根据特定的语言描述(任务要求)通过注视和调整眼动的过程来调整视觉输入,形成非均匀的分辨率。现存的多模态大语言模型不具备视觉区域选择能力,导致应用于具体任务时缺乏特异性。受视觉认知机制的启发,即增加聚焦区域的分辨率,同时抑制不相关的背景区域,提出动态分辨率方法,如下图所示。​。

2025-01-23 18:20:00 987

原创 【行为识别】ST-GCN

近年来,人类动作识别已成为活跃的研究领域,因为它在视频理解中起着重要作用。一般而言,人类行为可以从多种形式中识别,例如外观、深度、 光流和人体骨架。在这些方式中,动态的人体骨架通常传达重要的信息,这些信息是其他信息的补充。但是,与外观和光流相比,动态骨架的建模受到的关注相对较少。动态骨架模态可以由人类关节位置的时间序列,以2D或3D坐标的形式自然地表示,然后可以通过分析其动作模式来识别其动作。大多数现有方法都依靠手工制作的身体部位或规则来分析空间模式。结果,为特定应用设计的模型很难推广到其他应用。

2025-01-22 01:04:25 1159

原创 【强化学习】POMO

介绍1种适用于广泛的组合优化问题(Combinatorial Optimization,CO)的多优化策略优化(Policy Optimization with Multiple Optima,POMO)方法。POMO使用1种改进的REINFORCE算法,与以前的方法相比,更能抵抗局部极小值。

2025-01-17 15:30:52 1112

原创 【模型部署】实例(附代码)

保持模型的版本控制。像MLflow和DVC(数据版本控制)可以帮助跟踪模型的不同版本,从而在必要时更容易回滚到之前的版本。:如果应用程序需要处理大量请求,Kubernetes 或 AWS Auto Scaling 等自动扩展工具可帮助管理负载。:使用监控工具跟踪模型在生产中的性能。部署后,需要监控模型的性能,处理扩展问题,并在新数据可用时定期更新模型。(2)创建 Dockerfile:定义模型的运行环境。(3)构建 Docker 映像。(4)运行 Docker 容器。(1)安装docker:详见。

2025-01-06 11:06:41 297

原创 【路径跟踪】PID&MPC

路径跟踪(Path Tracking)是指在实际行驶过程中,根据预先规划好的路径进行控制,能够沿着设定的路径行驶。常见的路径跟踪算法包括基于模型的控制方法(如PID控制器)、模型预测控制(Model Predictive Control, MPC)等。

2025-01-04 21:59:31 1020 1

原创 【路径规划】原理及实现

路径规划(Path Planning)是指在给定地图、起始点和目标点的情况下,确定应该采取的最佳路径。常见的路径规划算法包括A* 算法、Dijkstra 算法、RRT(Rapidly-exploring Random Tree)等。

2024-12-20 15:25:57 3697

原创 【模型压缩】原理及实例

在移动智能终端品类越发多样的时代,为了让模型可以顺利部署在算力和存储空间都受限的移动终端,对模型进行压缩尤为重要。模型压缩(model compression)可以降低神经网络参数量,减少延迟时间,从而实现提高神经网络推理速度、节省存储空间等目的。

2024-12-19 11:29:08 970

原创 【图像配准】方法总结

图像配准(Image registration)就是将不同时间、不同传感器(成像设备)或不同条件下(天候、照度、摄像位置和角度等)获取的两幅或多幅图像进行匹配、叠加的过程,就是找到1幅图像像素到另1幅图像像素间的空间映射关系它已经被广泛地应用于遥感数据分析、计算机视觉、图像处理等领域。图像之间的空间关系可以表示为刚性(rigid,如平移和旋转),仿射(affine,如剪切),单应性(homographies)或复杂的大变形模型(complex large deformations models)。​。

2024-12-16 19:17:43 2007

原创 【行人属性识别】数据集汇总

数据来自10个小的行人重识别数据集,19000张图像,分辨率从17*19~169*365,来自8705个人,61个二分类属性和4个多分类属性。PETA的缺点在于:对同一个人的不同图像标注完全相同的属性,即便在某些区域不可见的情况下,依然保持属性不变。41585张图像,分辨率36*92~344*554,72个属性(69个二分类属性,3个多分类属性)。采集自720P的室内监控场景,2589个人的84928幅图像,分辨率从33*81到415 * 583,属性标签和RAP一致。(2)4个多分类属性。

2024-12-16 17:10:39 547

原创 【目标跟踪】SiamCAR

通过将视觉跟踪任务分解为像素类别分类和边界框回归2个子问题,提出1种新颖的全卷积Siamese网络,以逐像素方式解决端到端视觉跟踪问题。与基于区域提议的Siamese-RPN、SiamRPN++和SPM等最先进的跟踪器不同,所提出的框架proposal 和anchor free。因此,能够避免棘手的超参数调整锚,减少人为干预。提出的框架简单、简洁、有效。

2024-12-10 18:54:21 1240 1

原创 【行人重识别】MGN

行人重识别(Person Re-idenfication,Person ReID)是判断图像或者视频序列中,是否存在特定行人的技术,也称跨境追踪技术。尽管人脸识别技术已经十分成熟,但在人群密集、监控摄像头分辨率低、拍摄角度较偏等情况下,人脸无法被有效识别。行人重识别变成了重要补充。Multiple Granularity Network (MGN)是1个将全局信息和各粒度局部信息结合的端到端特征学习策略。

2024-12-09 17:00:21 913

原创 【机器学习】分类器

在机器学习(Machine Learning,ML)中,分类器泛指算法或模型,用于将输入数据分为不同的类别或标签。分类器是监督学习的一部分,它依据已知的数据集中的特征和标签进行训练,并根据这些学习到的知识对新的未标记数据进行分类。分类器的目标是从输入数据中提取有用的特征,并根据这些特征对数据进行分类。这些特征可以是数值型、类别型或其他类型的数据。分类器可以根据数据的属性和学习算法的选择,采用不同的方法进行分类。本文介绍4种常见的分类器:SVM、KNN、RF、NB。

2024-12-05 11:42:03 1856

原创 【行人属性识别】数据构建+训练+测试

pa100k数据集中包含了26种属性,从中选择其中18个属性进行训练,标注txt数据如下。(1)生成训练所需的.pkl文件根据dataset/pedes_attr/preprocess/format_pa100k.py编写format_mydata.py文件。import os,'ShortSleeve','LongSleeve','LongCoat','Trousers','Shorts','Skirt&Dress'] # 属性类别# 需要对新属性进行重排,属性重排后的索引顺序pass。

2024-12-03 15:02:51 933 3

原创 【深度网络】GCN

cora.cites共5429行,每1行有2个论文编号,表示第1个编号的论文先写,第2个编号的论文引用第1个编号的论文。每篇论文都由1个1433维的词向量表示,词向量的每个元素都对应1个词,只有0(不在论文中),1(在论文中)2个取值。cora.content共有2708行,每行即1篇论文,由3部分组成,分别是论文编号、论文词向量、论文的类别。2. 邻居聚合:对于每个节点,将其自身特征与邻居节点的特征进行加权平均或拼接,得到聚合后的特征。如果将论文看作图中的节点,那么5429行便是节点之间的5429条边。

2024-11-29 15:38:56 1221

原创 【Docker】常用命令汇总

Docker 是1个开源的应用容器引擎,基于Go 语言并遵从 Apache2.0 协议开源。可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口(类似 iPhone 的 app),更重要的是容器性能开销极低。

2024-11-26 16:38:51 1084

原创 【Git】常用命令汇总

其实就是 git fetch 和 git merge 的简写,先从远程仓库获取最新的提交记录,然后将这些提交记录合并到你当前的分支中。选项,更改的是位于用户主目录下的配置文件,以后所有的项目都会默认使用这里配置的用户信息。第1种是在现存的目录下,通过导入所有文件来创建新的 Git 仓库。的目录,用于保存下载下来的所有版本记录,然后从中取出最新版本的文件拷贝。目录,你会看到项目中的所有文件已经在里边了,准备好后续的开发和使用。•git status:查看仓库当前的状态,显示有变更的文件。

2024-11-26 14:09:49 1425

原创 【语音识别】Zipformer

除了残差连接,每个 Zipformer block 使用2个 Bypass 模型,用于结合 block 输入和中间模块的输出,分别位于 block 的中间和尾部。随后,利用了一个类似于Nextformer的ConvNeXt层,该层由1个kernel大小为7×7的深度卷积、1个具有384个输出通道的点卷积、1个SwooshL激活函数和1个具有128个输出通道的点卷积组成。最后,使用1个线性层,后面跟着1个BiasNorm,以调整特征维度,使其与第1个stack相匹配。表示控制动量更新的系数。

2024-11-25 17:03:08 1865

原创 【OCR】PGNet

PGNet是百度于2021年提出的1种网络结构-全卷积点聚集网络(fully convolutional Point Gathering Network-PGNet),实现了实时检测与识别任意形状的文本,同时避免了NMS(Non-Maximum Suppression),ROI(Region-of-Interest)和字符集标注操作。

2024-11-22 13:37:59 1259

原创 【Crowd Localization】IIM

人群定位是人群分析中的1个子任务,其目的是预测每个实例的位置。传统的基于密度的方法只能进行粗略预测,而基于分割/检测的方法无法处理极其密集的场景和大范围尺度变化的人群。为此,提出一种用于人群定位的端到端且简单的框架,称为独立实例图分割(Independent Instance Map segmentation,IIM)。下图显示4种传统标签和所提出的IIM标签。IIM具有更好的独立性和规模。

2024-11-21 11:39:44 456

原创 【图像分割】SAM

SAM(Segment Anything Model),为分割一切,由Facebook的Meta AI实验室在2023年发布,能够根据文本指令或图像识别,实现对任意物体的识别与分割。论文地址:https://arxiv.org/abs/2304.02643项目地址:https://github.com/facebookresearch/segment-anythingSAM从任务(task)、模型(model)、数据(data)3部分展开。

2024-11-19 17:44:24 1448

原创 【目标跟踪】DeepSORT

(Deep Simple Online and Realtime Tracking)是一种基于深度学习的(Multi-Object Tracking, MOT)算法,在准确性和实时性之间取得了良好的平衡,适用于各种场景下的多目标跟踪任务。之前的SORT算法使用简单的kalman滤波处理逐帧数据的关联性,使用匈牙利算法进行关联度量。但由于SORT忽略了被检物体的表面特征,因此SORT算法只适用于遮挡情况少的、运动比较稳定的对象。

2024-11-04 19:10:42 1069

原创 【YOLO系列】YOLOv7论文解读

YOLOv7于2022年发布的,由YOLOv4团队的原班人马提出,在YOLOv5的基础上改进了网络结构,使网络更加高效。论文做出的贡献如下:1. 设计几种可训练的bag-of-freebies,使实时检测器可以在不提高推理成本的情况下大大提高检测精度;2. 提出动态的高效替代原始模块;以及处理好不同输出层的分配。

2024-11-03 16:20:16 1048

原创 ImageFont.truetype时,报错:OSError: cannot open resource

2.将simsun.tcc复制到 "/usr/share/fonts/truetype/simsun/"文件夹下面(ubuntu)。1.下载simsun.tcc。

2024-03-20 15:53:01 725

原创 docker: Error response from daemon: Unknown runtime specified nvidia 报错解决方法

1.离线下载nvidia-container-runtime及其依赖。docker 创建容器,加入gpu时出现报错信息。网址上搜索离线包,并安装。

2024-03-20 14:10:21 1448

原创 ERROR:Could not build wheels for tensorflow-gpu, which is required to install pyproject.toml-based

1.安装tensorflow-gpu时报错,报错信息如下。2.查看python版本,下载对应的.whl文件。3.pip install .whl,安装。

2024-03-05 12:52:51 1401

原创 VLC media player 使用

(1) 打开VLC media player,点击“工具”->“自定义界面”。(2) 将“工具栏元素”中的“逐帧”拖到“工具栏”中的“第一行”。(3) 播放视频时点击“逐帧”按钮,或键E则可实现逐帧播放。快捷键shift+s。

2024-02-06 16:26:01 3020

原创 index_select()运行报错RuntimeError: Expected all tensors to be on the same device, but found at least

发现inputs在GPU,torch.arange(inputs.size(3) - 1, -1, -1)在cpu。:python 运行tensor的index_select()函数时,报错信息如下。查看参数是否都在GPU/CPU上。用以下代码替换错误代码即可。:定位错误出现代码行,如下。

2024-01-09 18:08:12 578

原创 Word文档恢复

使用Microsoft Word编辑内容时,意外操作把文档清空。点击文件->信息->管理文档->选择你需要的版本。:通过管理文档恢复以前版本的文档。

2023-12-29 19:32:10 398

原创 Python如何将控制台输出另存为日志文件

方法适用于Windows以及Linux。

2023-12-22 17:45:34 518

原创 “[mov,mp4,m4a,3gp,3g2,mj2 @ 000001f35f9ee340] moov atom not found”解决办法

2. 点击truncated file,选择待修复视频;点击reference file,选择参照视频(与待修复视频宽高、编码方式、帧率相同);最后点击repair,即可完成视频修复。用python+opencv 方法生成mp4格式视频时,程序异常退出,未能release。导致文件格式有误,文件打不开。1.下载untrunc软件,解压缩后,双击untrunc-gui.exe,界面如下。注:untrunc软件压缩包获取链接。

2023-12-15 14:50:38 2398 1

原创 快速下载/上传google drive文件的方法

google drive文件的快速下载与上传,无需安装。

2023-01-30 18:17:53 2576

原创 ImportError: cannot import name ‘add_newdocs‘解决方法

ImportError: cannot import name 'add_newdocs'解决方法import numpy 时报错:解决方法:在C:\Users\29214目录下,找到.condarc文件,改动成如下内容然后,conda install numpy,报错:解决方法:conda install tqdm -fimport numpy成功...

2020-12-24 16:14:18 2134 1

PA100K人员属性图像数据集

PA100K人员属性图像数据集

2024-12-16

repvgg相关资源文件

repvgg网络及权重文件

2024-12-02

Cora数据-文章图数据

Cora数据-文章图数据

2024-11-29

视频修复软件(MP4视频修复)

视频修复软件(MP4视频修复)

2023-12-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除