论文阅读：Reasoning about Object Affordances in a Knowledge Base Representation

最新推荐文章于 2021-11-23 14:28:53 发布

Kivee123

最新推荐文章于 2021-11-23 14:28:53 发布

阅读量972

点赞数 2

文章标签： visual reasoning

本文链接：https://blog.youkuaiyun.com/qq_37014750/article/details/84029346

版权

该论文提出利用知识库表示对物体功能（affordance）进行推理的方法，结合图片和元数据构建Markov Logic Network（MLN）知识库。通过对视觉、物理和类别属性的建模，预测未知物体的功能，同时考虑属性之间的关系以及人类与物体的交互模式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Reasoning about Object Affordances in a Knowledge Base Representation（ECCV2014）

文章
本论文使用了知识库表示来对物体的affordance进行推理。首先从图片或者其他meta-data的数据中获得大量的关于物体的信息，然后使用Markov Logic Network（MLN）学习一个知识库（Knowledge Base，KB）。
首先定义什么是affordance，Gibson在他的书The Ecological Approach to Visual Perception 中定义了affordance是“properties of an object that determine what actions a human can perfrom on them”。本文用3个信息的组合来定义affordance：一个affordance的标签（如edible）；一个人体姿态的表示（如骨架表示）；物体相对于人的位置（如next to）。
Knowledge base可以看做是一个用于解决问题推理的实体和规则的集合，本文中KB是一个很重要的部分，本文的KB中的实体包含了物体属性以及affordance。本文用了3中属性：视觉属性（由视觉感知获得的知识），物理属性（主要是重量和尺寸），类别属性（反映了语义含义）。通过将这些属性作为物体的中间表示，可以在物体间进行知识的迁移，使得我们可以预测没有见过的物体的affordance，包括affordance label，human pose，human-object relative location。
规则描述了实体之间的关系，体现在知识图谱上的话就是边。由于实体有多种类型，因此本文也对几种不同的规则进行了建模：

最低0.47元/天解锁文章