Reasoning about Object Affordances in a Knowledge Base Representation(ECCV2014)
文章
本论文使用了知识库表示来对物体的affordance进行推理。首先从图片或者其他meta-data的数据中获得大量的关于物体的信息,然后使用Markov Logic Network(MLN)学习一个知识库(Knowledge Base,KB)。
首先定义什么是affordance,Gibson在他的书The Ecological Approach to Visual Perception 中定义了affordance是“properties of an object that determine what actions a human can perfrom on them”。本文用3个信息的组合来定义affordance:一个affordance的标签(如edible);一个人体姿态的表示(如骨架表示);物体相对于人的位置(如next to)。
Knowledge base可以看做是一个用于解决问题推理的实体和规则的集合,本文中KB是一个很重要的部分,本文的KB中的实体包含了物体属性以及affordance。本文用了3中属性:视觉属性(由视觉感知获得的知识),物理属性(主要是重量和尺寸),类别属性(反映了语义含义)。通过将这些属性作为物体的中间表示,可以在物体间进行知识的迁移,使得我们可以预测没有见过的物体的affordance,包括affordance label,human pose,human-object relative location。
规则描述了实体之间的关系,体现在知识图谱上的话就是边。由于实体有多种类型,因此本文也对几种不同的规则进行了建模: