得逞-优快云博客

原创卡尔曼滤波【Kalman Filter】详解

对于卡尔曼滤波器，我们几乎可以下这么一个定论：只要是存在不确定信息的动态系统，卡尔曼滤波就可以对系统下一步要做什么做出有根据的推测。即便有噪声信息干扰，卡尔曼滤波通常也能很好的弄清楚究竟发生了什么，找出现象间不易察觉的相关性。因此卡尔曼滤波非常适合不断变化的系统，它的优点还有内存占用较小（只需保留前一个状态）、速度快，是实时问题和嵌入式系统的理想选择。

2024-04-20 16:30:27 4360

目标检测领域：从目标检测开始火到 detr 都很少有端到端的方法，大部分方法最后至少需要后处理操作（NMS, non-maximum suppression 非极大值抑制）。有了 NMS，模型调参就会很复杂，而且即使训练好了一个模型，部署起来也非常困难（NMS 不是所有硬件都支持）。贡献：把目标检测做成一个端到端的框架，把之前特别依赖人的先验知识的部分删掉了（NMS 部分、anchor）。DETR提出。

2024-04-02 00:14:01 1419 1

原创【论文阅读】Transformer 论文逐段精读

主流的序列转录模型包括一个 encoder 和一个 decoder 的 RNN 或者 CNN 架构。sequence transduction: 序列转录，序列到序列的生成。input 一个序列，output 一个序列。e.g. 机器翻译：输入一句中文，输出一句英文。表现好的序列转录模型：用了 attention，本文提出仅仅基于 attention 的 Transformer。实验总结 - 并行化、更少时间训练。2 个机器翻译任务的实验结果达到 SOTA。并且能很好的泛化到其他任务。

2024-04-02 00:09:08 3289 2

原创【深度学习】YOLO检测器家族所有版本（2024最新汇总、详细介绍）

YOLO检测器的发展历程展示了计算机视觉领域在实时对象检测方面的快速进步。从YOLOv1到YOLOv5，我们看到了速度和准确性的不断提升，以及对不同应用场景的适应性。随着技术的不断发展，我们期待YOLO检测器在未来能够带来更多的创新和突破。

2024-03-28 23:56:53 10490

原创 ByteTrack多目标跟踪——yolox_model代码详解

在计算损失时，yolox 需要做标签分配，这是 yolox 的重要思想。主要是创建特征图网络坐标点，并把神经网络前向推理的 bbox 投影输入图像的尺寸上。举例：输入为 torch.Size ([1, 3, 896, 1600])Fg_mask: in_boxes 与 in_center 的并集,即此时正样本框数量为 num_in_boxes_anchor个。Is_in_boxes_and_center 为交集。先计算 bbox 的边界框损失与类别损失。具体网络结构参见附录部分。将三个分支输出结果合并。

2024-03-28 16:05:43 1651

原创 ByteTrack多目标跟踪——YOLOX详解

项目地址：ByteTrack使用的检测器是YOLOX，是一个目前非常流行并且效果非常好的检测器，ByteTrack的跟踪效果也完全离不开YOLOX的检测性能。

2024-03-21 13:04:41 3093 1

原创【Python基础】collections.Counter()

Counter()函数是 collections 库中内置函数，collections 库主要是提供处理数据结构的一些容器以及操作，其中最常见的功能就是Counter()以及，本文主要介绍。这个函数刷 leetcode 的时候经常用到，非常重要！

2024-03-21 00:34:52 657 1

原创【深度学习】线性回归

梯度下降最简单的用法是计算损失函数（数据集中所有样本的损失均值）关于模型参数的导数（在这里也可以称为梯度）。，它是由固定数量的训练样本组成的。然后，我们计算小批量的平均损失关于模型参数的导数（也可以称为梯度）。（sample），也可以称为数据点（data point）或数据样本（data instance）。在机器学习领域，我们通常使用的是高维数据集，建模时采用线性代数表示法会比较方便。事实上，更难做到的是找到一组参数，这组参数能够在我们从未见过的数据上实现较低的损失，这一挑战被称为。

2024-03-19 16:29:26 725

原创【深度学习】NestedTensors

比如 masks 大小为 (1, 800, 1440)，tensor 大小为 (1, 3, 800, 1440)。例如，在一批句子中，每个句子都有不同数量的单词。处理变化序列的一种常见技术是手动将每个数据张量填充到相同的形状，以形成一个批。，那么 batch 中的每一张图都有一个 mask 矩阵，在 img 有值的地方是 1，补零的地方是 0。例如，我们有两个不同长度的句子和一个词汇表。为了将其表示为单个张量，我们将 0 填充到批中的最大长度。当数据是连续的时，通常情况下每个样本都有不同的长度。

2024-03-19 10:31:10 1270

原创【ECCV2020视频行人重识别】论文阅读笔记：AP3D

1.发现现有的 3D 卷积在存在错位时提取外观表示存在问题； 2. 提出一种AP3D方法来解决这个问题，在卷积操作之前根据语义相似度对齐像素级的特征图； 3. 与最先进的方法相比，在基于视频的 ReID 上实现了卓越的性能。

2024-03-17 22:20:05 785 1

原创【CVPR2022】论文阅读笔记：SINet：Salient-to-Broad Transition for Video Person Re-identification

视频行人重识别 video-based person re-IDCVPR2022论文阅读笔记Salient-to-Broad Transition for Video Person Re-identification

2024-03-17 22:12:55 1185 1

原创【深度学习】入门预备知识大全

调用求和函数会沿所有的轴降低张量的维度，使它变为一个标量。然而，虽然这些更奇特的对象确实出现在高级机器学习中（包括深度学习中），但当调用向量的反向计算时，我们通常会试图计算一批训练样本中每个组成部分的损失函数的导数。使用自动微分的一个好处是：即使构建函数的计算图需要通过 Python 控制流（例如，条件、循环或任意函数调用），我们仍然可以计算得到的变量的梯度。X 、Y 形状均为（3，4），沿行（轴-0，形状的第一个元素）和按列（轴-1，形状的第二个元素）连结分别得到（6，4）以及（3，8）。

2024-03-13 22:50:53 1174

原创论文阅读笔记：FairMOT

以前的工作通常将 re-ID 视为次要任务，其准确性受检测任务的影响很大。为了解决这个问题，提出了一种基于无锚对象检测架构CenterNet的简单而有效的方法FairMOT。

2024-03-13 22:43:59 2098 1

原创【ICCV2023】MOT论文阅读笔记：MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking

大多数现有的 MOT 方法只利用相邻帧之间的对象特征，而缺乏对长期时间信息建模的能力。行人跟踪数据集（如 MOT17）的运动模式几乎是线性的，因此在目标关联方面没有足够的挑战。在一些复杂的场景中，如集体舞者和体育运动员，将目标联系起来成为一项关键挑战。这些相似的外观和不稳定的运动可能会导致现有方法失败。

2024-03-12 14:37:52 2548 1

原创 Obsidian实用插件推荐【2025最新】

作为笔记软件，个人觉得obsidian远远好于其他任何一款软件，其中一个主要原因就是因为obsidian。我主要从外观和功能两方面进行推荐。该文章也会不断更新。大多数插件都是即安装即用，一些简单的使用方法也会附带在后面。

2024-03-12 13:22:47 23523 1

原创 ByteTrack多目标跟踪数据集预处理——COCO格式详解

根据 gt.txt 和 det.txt 中第一列 (帧数)，选取一半图片，即第一列在 0-一半图片之间的图片注释，将数据写入 gt 文件夹下的新建的 gt_train_half.txt 和 det 文件夹下的 det_train_half.tx 中。先把视频文件夹放入 videos[]，这里视频一共 30 个，就是视频的序号和名字。需要注意的是，计算评价指标时 test 是需要 gt 的。为当前视频序列中的图片编号，从 1 开始，为整个训练集中的图片编号，从 1 开始，数据集预处理中常见的做法。

2024-03-11 16:39:23 2261 1

原创解决TypeError: unsupported operand type(s) for |: ‘type‘ and ‘type‘

及以上才有，主要是在函数注释部分，更新python到最新版本即可。如果不方便更新，可以修改代码。python版本原因。

2024-03-11 16:21:10 15204 1

原创解决ImportError: cannot import name ‘ResNet50_Weights‘ from ‘torchvision.models‘

最后我又检查了一下代码，并且修改了一下代码就好了。经过网上搜索，有一个方法是使用以下代码将。（看来自己还是没有跟上时代潮流）版本不匹配的问题，所以该方法行不通。当然，更新到最新的版本也可以！于是乎我检查了一下我的版本。更新到最新版本，但是。版本太新了也会导致和。

2024-03-11 11:10:06 4028 2

原创 CVPR2021跟踪算法TransT代码详解（Transformer Tracking）

此外，我们将第四阶段的3×3卷积修改为步长为2的扩张卷积，以增加感受野。-“pred_boxes”：所有特征向量的归一化框坐标，表示为（center_x，center_y，高度，宽度）。：形状为[batch_size x H_template x W_template]的二进制掩码，在填充像素上包含1。：形状为[batch_size x H_search x W_search]的二进制掩码，在填充像素上包含1。设置训练工作区的路径，即保存权重文件的目录，还有设置要使用到的数据集在本地的路径。

2024-03-08 11:05:49 2988 1

原创【2024最新】多目标跟踪MOTchallenge数据集格式介绍

2024最新multi-object tracking多目标跟踪MOTchallenge数据集格式介绍

2024-03-08 11:01:28 3054 6

原创【最新视频行人重识别综述】Deep Learning for Video-based Person Re-Identification: A Survey

视频重识别流行的主要原因是为公共安全提供广泛的服务，如跟踪每个具有唯一ID的人，预防犯罪，行为分析，法医调查等。在智能视频监控应用中，视频重识别被定义为从大量图库图像中通过各种不重叠的摄像机识别单个人。视频重识别算法的核心和重要任务是从视频序列中获取时间特征。与基于图像的信息相比，视频自然包含了比单个图像更多的信息。现有的方法大多强调提取视频中存在的时空特征，然后对得到的特征进行re-ID算法。

2024-03-07 16:03:45 2557

原创【MOT】多目标跟踪任务详细入门介绍（评价指标、数据集等）

多目标跟踪，即 MOT（Multi-Object Tracking），顾名思义，就是在一段视频中同时跟踪多个目标。而由于是多目标，自然就会产生新目标进入与旧目标消失的问题，这就是与单目标跟踪算法区别最大的一点。而由于这一点区别，也就导致跟踪策略的不同。在单目标跟踪中，我们往往会使用给定的初始框，在后续视频帧中对初始框内的物体进行位置预测。而多目标跟踪算法，大部分都是不考虑初始框的，原因就是上面的目标消失与产生问题。取而代之，在多目标跟踪领域常用的跟踪策略是。

2024-03-07 10:52:10 6248

原创 python中numpy库的使用简明基础教程（巨简洁实用）

python中numpy库的使用NumPy 是一个 Python 包。它代表 “Numeric Python”。它是一个由多维数组对象和用于处理数组的例程集合组成的库。

2023-03-09 18:08:54 1031

原创【ECCV2022】SOMPT22: A Surveillance Oriented Multi-Pedestrian Tracking Dataset（SOMPT22数据集）

ECCV2022---SOMPT22: A Surveillance Oriented Multi-Pedestrian Tracking Dataset SOMPT22:一个面向监视的多行人跟踪数据集论文翻译提供SOMPT22数据集百度网盘下载，适用于多目标跟踪、行人搜索、视频行人检测等等

2023-03-07 20:45:35 1242 1

weixin_44606353的博客