论文阅读:Compositional Learning for Human Object Interaction

该论文提出了一种基于组合学习的方法,用于解决人类对象交互(HOI)识别中的零样本学习问题。作者利用图卷积网络(GCN)捕捉动作的组合性质,并结合词嵌入来表示动词和名词,从而识别未在数据集中出现过的交互。实验表明,这种方法能够处理新组合,但与其他竞争方法相比,性能提升有限。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Compositional Learning for HOI(ECCV 2018)

文章
  作者的的想法是因为我们很难搜集到所有组合之间的interaction,所以必须会面临的问题就是要识别在数据集中从未见到过的情况,也就是HOI的zero shot learning。作者认为人的动作是具有compositional的性质的,而且人可以用不同的物体和工具达到类似的目的。比如我们可以用hammer去hit the nail,同样也可以用hard-cover book做相同的事情。因此作者考虑可以使用这种unique composition帮助实现新的动作。
  但是这种compositional的学习面临的一个主要的问题是:模型怎样可以学会在context中组合出新的动作
  作者使用下面a中的graph来表示interaction。verb和noun通过圆形的action节点相连接,然后会存在某些verb-verb连接和noun-noun连接,我想这种连接应该是代表了某种相似性和可迁移的特性。
  首先,从知识库中提取出subject-verb-object(SVO)triplets建立一个外部的知识图。这个图覆盖了大部分的HOI,其中每个verb和noun节点都以其word embedding作为这个节点的特征。

### PCT: Human Pose as Compositional Tokens 预训练模型下载与实现 #### 关于预训练模型 论文《Human Pose as Compositional Tokens》提出了通过 VQ-VAE 结构学习姿态特征编码的方法,并将其应用于姿态估计任务。为了提升模型性能,作者引入了 SimMIM 方法作为 Backbone 的预训练策略[^2]。SimMIM 是一种基于掩码图像建模的任务,能够有效增强视觉模型的表示能力。 如果需要获取该论文中的预训练模型或其实现代码,可以参考以下方法: 1. **官方资源** 论文通常会附带开源代码仓库链接。根据引用信息,可以在 ArXiv 页面找到论文原文及其关联的 GitHub 仓库(如果有)。具体来说,在论文页面上查找 “Code” 或者相关链接部分。如果没有直接提供,可以通过搜索引擎查询关键词 `PCT Human Pose as Compositional Tokens github` 找到社区维护的相关实现[^3]。 2. **第三方实现** 如果官方未发布完整的预训练权重文件,也可以尝试寻找由研究社区开发的第三方实现版本。许多研究人员会在 Hugging Face Model Hub、TensorFlow Hub 或 PyTorch Hub 上分享他们的工作成果。例如,搜索 `VQ-VAE pose estimation pytorch pretrained` 可能会有帮助。 3. **自行复现** 若无法获得现有模型,则可以根据论文描述手动构建整个流程。以下是主要步骤概述: - 使用 SimMIM 对 Backbone 进行预训练; - 利用 Heatmap 数据微调 Backbone 提取关键点特征; - 基于提取出的关键点应用 VQ-VAE 编码成离散 tokens 并完成下游分类任务训练。 下面是一个简单的 Python 实现片段展示如何加载并初始化 SimMIM backbone 和其他组件: ```python import torch from torchvision import models def load_simmim_backbone(pretrained=False, checkpoint_path=None): """Load a pre-trained SimMIM backbone.""" backbone = models.swin_t() # Example Swin Transformer architecture used in SimMIM. if pretrained and checkpoint_path is not None: state_dict = torch.load(checkpoint_path) backbone.load_state_dict(state_dict['model']) return backbone # Initialize the backbone with optional pre-training weights. simmim_backbone = load_simmim_backbone( pretrained=True, checkpoint_path="path/to/simmim_checkpoint.pth" ) print(simmim_backbone) ``` 此脚本仅展示了加载 SimMIM backbone 的基本逻辑;实际部署时需依据具体需求调整网络架构以及参数设置。 --- ####
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值