Video Representation Learning Using Discriminative Pooling 阅读

最新推荐文章于 2022-06-21 11:31:11 发布

原创最新推荐文章于 2022-06-21 11:31:11 发布 · 513 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#cvpr #vision #video #pooling #cnn

CVPR2018 专栏收录该内容

7 篇文章

订阅专栏

本文探讨了在某些问题中时序不重要的情况下，如何改进现有的池化方法使其更具辨别力。文中提到通过修改损失函数为铰链损失，并怀疑当前提出的SVM池化方法是否适用于复杂背景或动态场景。

It enables MIL into the hinge loss.

他们觉得有些问题，时序不那么重要，pooling本身也不够discriminative，但是可以改进。怎么改，改loss

I suspect if the proposed SVM pooling methods work for complex backgrounds, say, dynamic scenes.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

eglxiang

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

A Survey on Deep Learning Techniques Applied to medical image analysis

AI天才研究院

08-13

633

作者：禅与计算机程序设计艺术 Introduction:Deep learning techniques have recently gained popularity in medical image analysis because they are capable of accurately identifying disease markers without relying on human intervention, enabling better decision-making and tre

Image Segmentation Using Deep Learning: A Survery

Fantastic

09-23

4080

图像分割综述–论文翻译论文地址：https://arxiv.org/pdf/2001.05566.pdf 摘要图像分割是图像处理以及计算机视频的关键内容，其应用场景非常广泛，如场景理解、医学图像分析、机器人感知、视频监控、增强显示和图像压缩等。目前关于图像分割的算法论文数量非常多。最近，由于深度学习模型在计算机视频任务中的出色表现，大量的图像分割研究工作都在开发深度学习模型在图像分割中的应用。在本次调查综述中，我们提供全面的图像分割的文献综述，涵盖了语义分割和实例分割的广泛开创性工作，其中包括全卷机像素

参与评论您还未登录，请先登录后发表或查看评论

【论文笔记】Video2Vec: Learning Semantic Spatial-Temporal Embeddings for Video Representation

迷川浩浩的博客

03-13

2842

摘要翻译这篇论文我们提出了一种视频片段的语义和时空信息嵌入(embedding)方法。视频作为语义连续的时序列帧，我们借助视频的这个特点来表达视频的高层特征（备注，视频和图像的高层特征通常就是指understanding层面）。我们的网络提取CNN的特征并且训练了两个学习视频的文本信息地独立GRU编码器，此外我们还把视频的彩色图像序列和光流序列嵌入到相同尺寸的表征向量(representation)

Towards Discriminative Representation Learning for Unsupervised Person Re-identification(ICCV2021)

yqiongqian的博客

11-15

1019

Abstract 本文针对无监督域自适应re-ID问题展开研究（源域数据有标注，目标域没有）。之前的工作通常采用两阶段的优化，首先在源域预训练，然后在目标域利用聚类生成的伪标签进行在线微调。这样的方式存在一些局限：标签噪声会限制对于目标类别特征学习的判别性，目标域与源域间的域间差异会影响性能。提出的方法： CCL算法迭代优化特征学习与聚类过程，以学习耐噪声的特征表达 PDA策略消除域间差异 Introduction 结合对抗学习算法 ...

Self-supervised Temporal Discriminative Learning for Video Representation Learning---2020论文阅读

李加贝的博客

09-06

486

主要是针对于视频中重要的时间线索所提出一个学习框架这篇论文提出了一种基于视频的时间判别学习(VTDL)框架。在没有网络预训练标记数据的情况下，利用相同或不同时间间隔的片段对每个anchor视频生成时间三元组，以增强时间特征表示能力，时间一致增强(TCA)旨在确保增强的positive的时间导数(任何顺序)是不变的，除了一个缩放常数。最后，通过最小化每个Anchor与其增强的positive之间的距离来学习时间区分特征，同时最大化每个anchor与其增强的positive之间的距离以及存储在memor

《End-to-end Video-level Representation Learning for Action Recognition》论文解读之DTPP

Gavinmiaoc的博客

07-25

3625

paper: DTPP code:DTPP End-to-end Video-level Representation Learning for Action Recognition 用于动作识别的端到端视频级表示学习概要从帧/剪贴式特征学习到视频层表示构建，动作识别的深度学习方法近年来得到了快速发展。然而，目前的方法受到部分观测训练或没有端到端学习的困扰，或...

Towards Discriminative Representation Learning for Unsupervised Person Re-identification论文解读

sdsfddfw的博客

01-05

734

ICCV 2021 论文地址：https://openaccess.thecvf.com/content/ICCV2021/papers/Isobe_Towards_Discriminative_Representation_Learning_for_Unsupervised_Person_Re-Identification_ICCV_2021_paper.pdf 动机采用一般的UDA方法：源域预训练+目标域伪标签微调，这种方法有2个缺点：（1）伪标签噪声；（2）两个域的gap。思路三种方法：聚类对比

《Knowledge Transfer from Multiple Self-supervised Learning Tasks via Graph Distillation 对于视频分类》论文笔记

klrp95的博客

03-20

651

北京大学视频表示学习是提出有区别性的（discriminative）特征，是视频分类的一个重要问题。自监督学习提取了raw visual数据的结构信息作为监督信息，从而在不实用人工标注的情况下得到transferable representation。具体来说，是机器通过使用self-supervision 而不是labels 解决了一个auxiliary task，这个过程可以得到有用的...

CVPR 2021最全论文开放下载！附pdf下载链接！

热门推荐

中科院AI算法工程师的博客

06-18

1万+

CVPR 2021最全论文开放，附所有pdf下载链接！

DCGAN论文翻译

qq_43668591的博客

05-15

1870

UNSUPERVISED REPRESENTATION LEARNING WITH DEEP　CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS （使用DCGAN的无监督表示学习） ABSTRACT（摘要） In recent years, supervised learning with convolutional networks (CNNs) has seen huge adoption in computer vision applications. Comp

论文阅读《Discriminative-Generative Representation Learning for One-Class Anomaly Detection》CVPR2021

qq_45496282的博客

12-06

2984

论文阅读《Discriminative-Generative Representation Learning for One-Class Anomaly Detection》CVPR2021 研究背景：生成式对抗网作为一种生成式自监督学习方法，在异常检测领域得到了广泛的研究。然而，由于生成器过于关注像素级的细节，因此它的表示学习（representation learning ability）能力有限，并且生成器难以从像鉴别器一样有效的标签预测借口任务中学习抽象的语义表示。研究的目的：为了提高生成器

Anticipating Visual Representations from Unlabeled Video

cv_family_z的博客

08-01

1339

CVPR 2016 Anticipating Visual Representations from Unlabeled Videohttp://www.guokr.com/article/441589/预测未来？本文使用CNN网络，通过学习大量未标记视频数据，来预测未来发生的事情。虽然效果不完美，但是方向还是很吸引人的，相信不远的将来该方向会有更大的进步。本文的网络结构如下：因为未来具有多

(CVPR 2021)Self-supervised Video Representation Learning by Context and MotionDecoupling

wenniebear的博客

08-16

780

目前video understanding 中存在一个context bias的一个问题，即网络判断动作的时候并不是根据动作motion信息判断，而是根据context 静态场景判断。故本文提出了一个pretext task，直接使用compressed video中的key frame 和motion vector来进行对比学习，以此摆脱context bias这个问题。任务有两部分，context matching 和motion prediction两部分。主要框架： ...

论文阅读：(CVPR 2022) Motion-Adjustable Neural Implicit Video Representation

mqy19960330的博客

06-21

1473

CVPR 2022 Motion-Adjustabe Neural Implicit Video Representation

论文阅读：Self-Supervised Video Representation Learning With Odd-One-Out Networks

qq_36627158的博客

05-27

962

目录 Contributions Method 1、Model 2、Three sampling strategies. 3、Video frame encoding. Results More Reference to Follow 论文名称：Self-Supervised Video Representation Learning With Odd-One-Out Networks（2017 CVPR）论文作者：Basura Fernando, Hakan Bilen, ..

论文阅读：Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

qq_37246721的博客

02-12

2256

题目：Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting 作者：Martine Toering 一、研究背景传统的自监督对比学习不适用于视频：实例级的对比学习取得了很大进展，但是由于操作是用于经过增强的实例集上的，所以并不适用于探索视频的丰富动态结构。视频本身提供的数据增强，如：视角变化，光线，形变，运动等，却没有被充分利用。传统对比学习忽视了实例间的语义相似性：在负样本对

Evolving Losses for Unsupervised Video Representation Learning

weixin_40240831的博客

12-09

558

这是google发在CVPR 2020上的文章，链接为：论文链接实验结果就不放了

【研一小白论文速览2】

weixin_46235765的博客

05-21

1007

Evolving Losses for Unsupervised Video Representation Learning 这篇论文把非监督学习定义成一个多模态，多任务的学习，希望结合不同非监督学习的学习方法来综合学习到一个好的特征。 Intuition 如何构造定义这个unsupervised learning这样一个问题，以及为了达成这样的任务，中间解决了哪些问题？首先本文想要学习到一个好的video representation，那什么样的represention是一个好的video repre

多头注意力机制_【论文分享】语音情感识别中基于自注意力机制和全局上下文感知的表征学习研究...

weixin_39675926的博客

12-14

2320

大家好，本周的论文分享是发表在 IJCAI 2019中情感识别的相关工作：Runnan Li, Zhiyong Wu, Jia Jia, Yaohua Bu, Sheng Zhao, and Helen Meng, “Towards discriminative representation learning for speech emotion recognition,” in Proceedi...

netvlad

最新发布

03-29

### NetVLAD 算法概述 NetVLAD 是一种基于深度学习的场景识别算法，最初由 Arandjelović 等人在 2016 年提出。它是一种改进版的 VLAD (Vector of Locally Aggregated Descriptors)，旨在通过卷积神经网络（CNN）提取特征并对其进行编码[^1]。 #### 原理 NetVLAD 的核心在于设计了一个特殊的网络层——NetVLAD 层，用于替代传统 VLAD 方法中的手动特征处理过程。具体来说，NetVLAD 将 CNN 提取的局部特征映射到多个聚类中心，并计算这些特征相对于各自最近邻聚类中心的距离和方向偏差。这种操作使得原始高维特征被压缩成一个固定长度的描述符，同时保留了丰富的空间信息。为了支持端到端训练，研究者还开发了针对 NetVLAD 层的反向传播算法，允许整个网络从头至尾联合优化。此外，论文提出了基于三元组损失函数（Triplet Loss）的学习策略，即使面对含噪声标签的数据集也能有效提升模型性能。 #### 实现细节以下是 NetVLAD 的主要实现步骤： 1. **输入准备**: 使用预训练好的 CNN 模型（如 VGG 或 ResNet），获取图片的最后一层卷积输出作为初始特征图。 2. **特征量化**: 对上述特征图执行降采样操作后送入 NetVLAD 层。此过程中会定义 K 个可学习的聚类中心 {c_k} 和对应的权重矩阵 W_a, W_b 来完成软分配任务。 3. **残差累积**: 计算每个局部特征与其最接近聚类中心之间的差异向量，并按类别累加形成最终全局表示 v ∈ R^(d×K) ，其中 d 表示原特征维度大小而 K 则代表簇的数量设置值。 4. **标准化处理**: 最终得到的结果需经过 L2 正则化以及幂次变换等后续调整措施以增强鲁棒性和泛化能力。下面是一个简单的 PyTorch 实现片段展示如何构建自定义模块 `NetVLAD`: ```python import torch.nn as nn import torch class NetVLAD(nn.Module): def __init__(self, num_clusters=64, dim=128): super(NetVLAD, self).__init__() self.num_clusters = num_clusters self.dim = dim # 可学习参数初始化部分省略... def forward(self, x): N, C, H, W = x.shape flattend_x = x.view(N,C,-1).permute(0,2,1) soft_assignments = F.softmax(torch.matmul(flattend_x,self.cluster_weights)+self.bias,dim=-1) residual = flattend_x.unsqueeze(-1)-(soft_assignments.unsqueeze(-2)*self.centroids) cluster_res = residual.sum(dim=1) vlad = cluster_res.permute(0,2,1).contiguous().view(N,-1) return F.normalize(vlad,p=2,dim=1) ``` #### 应用领域由于具备强大的表达能力和高效的存储需求特性，NetVLAD 已广泛应用于多种计算机视觉任务之中，包括但不限于地方重定位(place recognition), 图像检索(image retrieval), 视频摘要(video summarization)等领域。例如 Patch-NetVLAD 方法即是在原有基础上进一步提升了大规模地理环境下的位置辨识精度；而在 NeXtVLAD 中，则探索出了更加紧凑且高效的时间序列建模方式以便应对海量多媒体数据分析挑战][^[^23]。 ---