ImageNet VID数据集中慢速、中速、快速目标

WFFYFLUNWEN

于 2024-10-25 10:20:31 发布

阅读量335

点赞数 2

文章标签： YOLO

本文链接：https://blog.youkuaiyun.com/WFFYFLUNWEN/article/details/143227637

版权

如上图所示，看来几篇论文，发现有一个共性，就是把数据集ImageNet VID数据集中的目标分为慢速中速和快速，但是这个数据集非常大，有现成的文件已经把这个三个速度分好的吗？

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

WFFYFLUNWEN

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

目标检测YOLO实战应用案例100讲-安防监控系统中视频目标检测（续）

qq_36130719的博客

02-05

300

在经典的图像目标检测算法中，一步式目标检测算法网络相对较为简单，检测步骤较为直接，通常在特征图上操作，例如单阶段目标检测。分步式目标检测算法通常将网络划分多个子网，分阶段对特征图进行处理。典型的就是两阶段检测算法，因其更为细致的网络划分，性能相对于单阶段普遍表现优异。其中最具代表性的就是Faster RCNN算法。有研究表明，单阶段目标检测网络在正负样本的划分上表现出严重的不平衡性，因而影响其性能表现[ 18]，通过改进这一缺点，单阶段检测表现出了趋近于双阶段检测的性能；

Tensorflow_Object_Tracking_Video：为参与ImageNET VID竞争而开发的Tensorflow中的对象跟踪（本地化检测分类）

02-06

Tensorflow_Object_Tracking_Video （版本0.3，最新更新10-03-2017）该项目遵循以下指标： ; ; ; 。 ; 。 ; ; ; 。。。。 1.引言该存储库是我的硕士论文项目：“使用Tensorflow技术开发视频对象跟踪”，并且仍在开发中，因此将进行许多更新。在这项工作中，我使用了去年赢得的论文T-CNN（）的体系结构和问题解决策略。因此，整个脚本体系结构将由级联的几个组件组成：静止图像检测（单帧返回跟踪结果）；时间信息检测（在DET结果中引入时间信息）；上下文信息检测（将上下文信息引入到DET结

参与评论您还未登录，请先登录后发表或查看评论

ImageNet VID

qq_45765076的博客

09-04

194

有谁知道ImageNet VID数据集在哪可以下载吗。

【小白笔记】目标跟踪 Real-Time MDNet

Tominute的博客

11-01

3021

占坑，这是ECCV18的一篇文章，更快的MDNet，主要使用了Mask-RCNN的ROIalign的方法加速。等我读完后奉上笔记

SiameseFC-TensorFlow 代码详细注解（二）：训练数据VID2015预处理

StayHappy_Fan的博客

05-27

9741

说明：该系列博客源码链接为：https://github.com/bilylee/SiamFC-TensorFlow，是实验室同小组的师兄用TensorFlow实现SiameseFC算法的最终公开版本，经过了长时间的打磨，各个模块功能明确，整体可读性和可移植性极好，我相信这对做Tracking的小伙伴来说，是个入门SiameseFC Tracker的特别好的选择。哈哈，觉得代码很棒的小伙伴们可以点...

ImageNet大规模视觉识别竞赛 ILSVRC 2015-VID数据集

热门推荐

沈春旭的博客

07-11

3万+

数据主页：http://bvisionweb1.cs.unc.edu/ilsvrc2015/download-videos-3j16.php#vidObject detection from video 视频中的目标检测，简称VID。目前官方已经完全开放了数据集包括3862 snnipets用于训练，555 snippets用于验证， 937 snippets用于测试。数据下载地址：http://...

ImageNet VID数据集 / ILSVRC 2015-VID数据集

qq_40535862的博客

05-18

7107

ImageNet VID数据集 / ILSVRC 2015-VID数据集介绍：研究方向为视频目标检测，需要使用视频目标检测数据集，发现关于介绍ImageNet VID数据集的博客不多，就自己记录一下类别该数据集一共有30个类别，是ImageNet DET数据集200个类别的子集。ImageNet VID数据集一共有3862个视频片段用于训练，555个视频片段用于验证，937个视频片段用于测试。 30个类别为： n02691156 1 airplane n02419796 2 antelope n021

将多个文件夹或单文件夹内的xml文件转换为一个json标签（imagenet VID等视频目标检测数据集）简单易改，有注释

weixin_41023856的博客

12-21

2184

该代码主要针对视频目标检测需要训练基础的yolox检测器所写（需要VID的json标签文件），鉴于网上没有公开的代码，根据自己的数据集写了一个。

视频分类数据集

Cheese_pop的博客

10-08

5226

近年来为推动视频分类的研究，陆续发布了相关的视频数据集。小型标注良好的数据集如KTH，Hollywood2，Weizmann；中型的数据集如UCF101，Thumos’14和HMDB51，这些数据集超过了50类行为类别；大型数据集如Sports-1M，YFCC-100M，FCVID数据集，ActivityNet数据集，YouTube-8M等。

ILSVRC2015-VID数据集结构一览图

qq_40313336的博客

04-14

1430

整理了一下VID数据集的结构，方便后续使用自己的数据集训练SiamRPN++网络

Python-端到端视频目标检测ImageNetVID2017优胜方案

08-10

端到端视频目标检测(ImageNet VID 2017优胜方案)

Python-TensorFlowImageNETVID竞赛目标跟踪实现方案

08-11

开发了用于参与ImageNET VID竞赛的Tensorflow中的对象跟踪（本地化检测分类）

ILSVRC2015_VID数据集说明

du的博客

11-20

1万+

occuluded></occuluded>表示物体是否被遮挡，如果为 0 表示图像中物体未被遮挡，为 1 表示当前物体被某些物体遮挡住。Data文件夹中存放的是对应视频和每帧图片：视频存放于snippets文件夹，snippets文件夹也分为test，train，val三个文件夹，存放对应视频格式（.mp4）。每帧图片分为test，train，val三个文件夹存放。每个snippet包括56~458帧图像不等。所有的train类文件夹都被分为了0000，0001，0002，0003四个类别。

深度学习数据集

Leo的博客

01-27

1万+

海量数据（又称大数据）已经成为各大互联网企业面临的最大问题，如何处理海量数据，提供更好的解决方案，是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普遍推广，大家都在构建自己的大数据处理，大数据分析平台。相应之下，目前对于海量数据处理人才的需求也在不断增多，此类人才可谓炙手可热！越来越多的开发者把目光转移到海量数据的处理上。但是不是所有人都能真正接触到，或者有机会去处

InternVid：用于多模态视频理解与生成的大规模视频-文本数据集 | ICLR Spotlight

OpenGVLab的博客

08-02

1982

我们从ATUS[6]、公共视频数据集和文本语料库中定义了大约6.1K个动作短语。然后它们经过模型的精炼和手动的剔除。我们利用2017年至2022年的ATUS动作，将它们合并并去除重复项。对于参考的公共视频数据，我们利用了Kinetics [7]、SomethingSomething系列 [8,9]、UCF101 [10]等。这为我们提供了1103个动作标签。此外，我们还访问了几个grounding的数据集。

目标跟踪领域的数据集(Lasot，Got10k，TrackingNet, ImageNet-VID(ILSVRC 2015-VID)）有多大

页页读

06-14

9448

目标跟踪领域的数据集（Lasot，Got10k，TrackingNet）有多大 Lasot 一共有56个压缩包，共192.3GB. 压缩包中是啥呢？以airplane为例，它是这样的：再往里是这样的：再往里img中是这样的： groundtruth.txt是这样的： Got10k Got10k link address 可以看到Full data一个是66GB. 文件结构是这样的： TrackingNet TrackingNet google云盘共有13个压缩包，Train每个基本

论文阅读：YOLOV: Making Still Image Object Detectors Great at Video Object Detection

a486259的博客

11-15

1853

发表时间：2023年3月5日论文地址：https://arxiv.org/abs/2208.09686项目地址：https://github.com/YuHengsss/YOLOV视频物体检测（VID）具有挑战性，因为物体外观的高度变化以及一些帧的不同恶化。有利的信息是，与静止图像相比在视频的某一帧中检测，可以从其他帧中获得支持。因此，如何在不同的框架之间聚合特性是VID问题的关键。。本文提出了一个简单而有效的策略来解决上述问题，该问题会带来微量计算量，但使准确性有显著提高。

视频目标检测(video object detection)简单综述

sjtutsb的博客

10-08

1769

详细分析：https://blog.youkuaiyun.com/breeze_blows/article/details/104533004。先提取出帧的feature和用FlowNet提取出帧间的光流信息，完成pixel-level的calibration，接着通过预测出来的instance的movement，其实就是R-FCN得到的proposal，进行instance-level的calibration，最后融合pixel-level和instance-level得到的feature用于训练和测试。

【论文笔记】视频物体检测(VID)系列 FGFA：Flow-Guided Feature Aggregation for Video Object Detection

elaine_bao的专栏

11-05

7839

1.Abstract视频中的物体检测会受到诸如运动模糊、视频散焦、奇特姿态等的影响。现有的工作尝试从box-level使用temporal信息，但是这种方法不能端到端地进行训练。我们提出了FGFA，在frame-level使用temporal信息。它将相邻帧在motion paths上的特征聚合到当前帧的特征中，因此提高了视频识别的精度。我们的方法极大地提升了ImageNet VID上的single

imagenet vid 动作识别

最新发布

12-28

### 使用 ImageNet VID 数据集进行动作识别的方法 #### 了解 ImageNet VID 数据集 ImageNet VID (Video ImageNet Detection) 是 ImageNet 的扩展部分，专注于视频中的目标检测任务。该数据集不仅提供了大量的图像标注信息，还包含了同一对象在连续帧之间的跟踪信息[^1]。 #### 准备工作为了有效地利用 ImageNet VID 进行动作识别，前期准备工作至关重要： - **硬件配置**：由于 ImageNet 数据量庞大，建议使用 GPU 加速计算过程以提高效率。 - **软件环境搭建**：安装必要的依赖库如 PyTorch 或 TensorFlow，并确保可以访问 CUDA 和 cuDNN 来加速训练过程。 ```bash pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113 ``` #### 方法概述一种常见的做法是从现有的卷积神经网络模型出发，通过迁移学习的方式调整其结构使之适应于视频序列分析的任务需求。具体来说： - **特征提取层设计**：采用预训练好的 CNN 架构作为基础框架，比如 ResNet、InceptionV3 等，在此基础上构建适合处理时空维度输入的新模块。 - **时间上下文建模**：引入 LSTM 或 GRU 单元捕捉相邻帧间的变化规律；或者应用 3D-CNN 对整个片段做整体感知。 - **多尺度融合策略**：考虑到不同长度的动作可能存在于不同的时间窗口内，因此可以通过多种方式组合短期与长期的记忆机制来增强表达能力。 #### 实践案例分享下面给出一段基于 Faster R-CNN 结合 I3D（ inflated 3D ConvNets）架构实现物体检测并进一步拓展到动作分类的例子代码片段: ```python import torch from torchvision import models, transforms from pyaction.i3d import Inflated3d as I3D # 初始化I3D模型用于特征抽取 i3d_model = I3D(num_classes=400) # 载入预训练权重文件 state_dict = torch.load('path_to_pretrained_i3d_weights') i3d_model.load_state_dict(state_dict['model_state_dict']) def extract_features(video_clips): features = [] with torch.no_grad(): for clip in video_clips: output = i3d_model(clip.unsqueeze_(0)) features.append(output.squeeze()) return torch.stack(features).mean(dim=-1) video_tensor = ... # 假设这里已经准备好了一个batch大小为BxCxTxHxW格式的tensor表示的一组短视频剪辑 feature_vectors = extract_features(video_tensor) ``` 此段代码展示了如何加载预先训练过的 I3D 模型并对给定视频片段执行前向传播操作从而获得高层次语义表征的过程。