Hierarchical Vector Quantization for Unsupervised Action Segmentation

Hierarchical Vector Quantization for Unsupervised Action Segmentation

1.题目理解

题目涉及了向量量化:​​向量量化(Vector Quantization, VQ)​​ 是一种将连续向量映射到有限离散码本(codebook)的方法,具有代表性的模型是VQ-VAE,由三部分组成:编码器-向量量化和码本-解码器。编码器一般是卷积神经网络映射出的高维(连续)特征,然后再把高维特征映射到码本最近的低维的码字中,让码字代表高维特征,输入到解码器里,再重建出特征。损失函数一般是均方损失+码本损失+承诺损失。
在这里插入图片描述
(向量量化)离散化的核心优势:
(1) 更强的语义表达能力​:
​​离散码字 = 离散语义单元​​
每个码字可以对应一个具体的语义概念(如“猫耳”“奔跑动作”),而连续空间无法直接表达这种“原子级”语义。
​​例子​​:在图像生成中,离散码本可以明确区分“猫”和“狗”,而连续空间可能混淆两者。

2.提出背景

同一类别内时间片段间的大范围变化问题:即使属于同一动作类别,不同视频中的动作片段在执行方式、持续时间、外观等方面可能存在显著差异。例如:同一动作在不同环境中进行时,外观特征(如光线、背景)也会发生变化。无监督动作分割的原理是对视频帧做聚类,但是因为同一类别内时间片段间的大范围变化问题,会导致本应该属于一类的帧被分配给不同类。

因此本文提出了方法:层次聚类来代替原来的K-means聚类,因为本应该属于一类的帧被分配给不同类,这样的话再第一次聚类的基础上再进行一次聚类,即层次聚类。

3.主要贡献

1.本文提出基于端到端的无监督时间动作分割方法.层次化方法能够捕捉动作聚类的可变性,并且在性能上大大优于非层次化变体。
2.我们引入了一种新的度量的基础上的JensenShannon距离的预测段长度的偏差进行评估。
3.我们的方法在召回率和F1分数方面实现了无监督时间动作分割的最新结果,并且偏差较小。

4.框架

在这里插入图片描述
1. 编码器:
编码器将视频帧作为输入,并将其编码成嵌入向量。编码器使用轻量级的 MS-TCN 结构,包含两个阶段,每个阶段包含10层。
每个阶段都包含时间卷积层,卷积核大小为3,步长为1,膨胀因子逐层翻倍。编码器输出的嵌入向量包含了视频帧的时空特征。

2. 第一层向量量化:
第一层向量量化将编码器输出的嵌入向量分配到第一层码本中的原型向量上(实际上就是K-means:随机初始化聚类中心。即初始化码本,然后K-means不断更新)。第一层码本包含了 αK 个原型向量(聚类中心),其中 α 是超参数,数值为2,意义是第一层聚类中心个数是第二层的α倍;K 是动作类别数。每个原型向量代表一个子动作的聚类中心,第一层有αK 个,第二层是K个。第一层向量量化的目的是将动作片段分割成更精细的子动作,从而更好地捕捉同一类别内动作片段的内在变化。公式如下:
在这里插入图片描述
在这里插入图片描述
公式1是算每一帧和每个聚类中心的最大余弦相似度,从而确定哪一帧属于哪个聚类中心;
公式3是动态稳定更新聚类中心,在更新聚类中心时,不仅考虑聚类中心所有样本,还需要着重考虑原始聚类中心。以下图为例:若是不考虑原始聚类中心,则更新的会特别快。
在这里插入图片描述

3. 第二层向量量化:
第二层向量量化将第一层向量量化输出的嵌入向量分配到第二层码本中的原型向量上。第二层码本包含了 K 个原型向量,每个原型向量代表一个动作的聚类中心。第二层向量量化的目的是将子动作聚类成更粗粒度的动作,从而对子动作的内在变化具有一定的鲁棒性。公式如下:
在这里插入图片描述
在这里插入图片描述
公式解释和第一层量化一样,不同仅仅是第一层输入的是视频帧,第二层的输入是第一层聚出来的簇

4. 解码器:
解码器将第二层向量量化输出的嵌入向量作为输入,并尝试重建原始视频帧。解码器使用与编码器相同的 MS-TCN 结构,但最后一个阶段被移除。解码器的目标是生成与原始视频帧尽可能接近的重建帧。
5. 损失函数:
5.1均方损失:重建损失函数使用均方误差 (MSE) 来计算差异,用于衡量解码器重建帧与原始视频帧之间的差异。
在这里插入图片描述

5.2第一层向量量化承诺函数:如果没有承诺损失,编码器可能生成的视频帧特征故意远离所有聚类中心(比如在两个聚类中心中间),最小化承诺损失则强制视频帧特征尽可能靠近某个聚类中心,确保量化操作有效。
5.3第二层向量量化承诺函数:和第一层类似。
在这里插入图片描述

6. 推理过程:
在推理过程中,模型使用编码器和两个层次的向量量化来预测每个视频帧的动作类别。
模型还使用 FIFA 解码器来平滑预测结果,并生成最终的动作分割结果。

### Hierarchical Consistency Learning in Unsupervised Domain Adaptation for Object Detection 无监督域适应(Unsupervised Domain Adaptation, UDA)是一种重要的机器学习技术,旨在解决当训练数据和测试数据来自不同分布时模型性能下降的问题。在目标检测领域,UDA 的研究主要集中在如何减少源域和目标域之间的差异,从而提高模型在未标注的目标域上的泛化能力。 #### 方法概述 Hierarchical Consistency Learning 是一种针对无监督域适应设计的方法,其核心思想在于通过多层次的一致性约束来增强特征表示的学习效果[^1]。具体来说,该方法利用了以下两个层次的一致性: 1. **像素级一致性**:通过对输入图像应用不同的变换(如旋转、缩放等),并强制要求这些变换后的预测结果保持一致,以此提升局部特征的鲁棒性和不变性。 2. **实例级一致性**:对于同一对象的不同视图或上下文变化,算法会施加额外的约束条件以确保它们对应相同的类别标签。这种机制有助于捕获更高级别的语义信息,并进一步缩小跨域差距[^3]。 此外,在实际实现过程中,通常还会引入对抗训练策略或者熵最小化原则作为辅助手段,共同促进全局最优解的收敛过程[^2]。 #### 技术细节 以下是 hierarchical consistency learning 中涉及的一些关键技术点及其作用说明: - **结构正则化的深度聚类 (Structurally Regularized Deep Clustering)** 此部分负责构建紧凑且分离良好的簇空间,使得相似样本能够聚集在一起而相异样本彼此远离。这一步骤可以看作是从低维嵌入向量中提取潜在模式的过程之一。 - **自监督预训练 (Self-Supervised Pretraining)** 使用大量未标记的数据预先训练网络参数,以便更好地初始化后续微调阶段所需的权重矩阵。这种方法不仅减少了对手动标注的需求,同时也提高了最终系统的稳定性与效率。 - **多视角推理 (Multi-view Inference)** 基于多个随机采样的子区域生成独立但互补的信息片段集合;随后将其组合起来形成完整的物体描述符。此操作有效缓解了因遮挡等因素引起的误判风险。 下面给出一段简单的伪代码展示上述流程的核心逻辑: ```python def hierarchical_consistency_learning(source_data, target_data): # Step 1: Initialize model with self-supervision pretrained_model = pretrain_on_unlabeled(target_data) # Step 2: Perform clustering and alignment clustered_features = structurally_regularize(pretrained_model.extract_features(target_data)) # Step 3: Enforce pixel-level & instance-level consistencies for epoch in range(num_epochs): for batch in zip(source_data, target_data): loss_pixel = compute_pixel_level_loss(batch) loss_instance = compute_instance_level_loss(clustered_features, batch) total_loss = loss_pixel + lambda * loss_instance optimizer.zero_grad() total_loss.backward() optimizer.step() return pretrained_model.finetune_with_alignment(total_loss) ``` #### 实验验证 为了评估所提方案的有效性,研究人员选取了几组公开可用的大规模视觉基准集进行了对比实验。结果显示,在多种复杂场景下(例如白天到夜晚转换、晴天转雨天等情况),采用 hierarchical consistency learning 后取得显著优于传统迁移学习基线的结果。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值