从 2D 图像中学习 3D 人机交互关系

winxp-pic

于 2025-01-09 11:02:18 发布

阅读量644

点赞数 4

文章标签：学习 3d 人机交互

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/luhuillll/article/details/145028195

版权

一、论文背景与动机

理解3D人类与物体的交互关系（3D Human-Object Interaction Relation, 3D HOI）对于具身智能和交互建模至关重要。然而，现有的大多数方法通常通过单独预测某些交互元素（如人类接触点、物体可供性、人-物空间关系）来尝试解决这个问题，这些方法往往忽略了交互双方（人类和物体）之间的深层联系，导致模型在实际应用中表现不佳。因此，论文作者提出了一种新的方法，旨在从2D图像中学习3D人类与物体的交互关系。

二、LEMON模型介绍

LEMON（LEarning 3D huMan-Object iNteraction relation）模型是一个统一的框架，它通过联合预测人类接触点、物体可供性和人-物空间关系这三个交互元素，来捕捉人类与物体在3D空间中的交互关系。LEMON模型的核心思路是利用交互中人和物体的语义与几何上的关联去建模这些交互表征。

1. 交互意图挖掘

LEMON利用多分支注意力机制来模拟图像内容与人类和物体几何结构之间的交互意图相关性，揭示与几何结构相对应的交互意图表示。通过余弦相似性进一步确保语义一致性。

2. 曲率引导的几何相关性

LEMON编码物体和人类的法向曲率到几何特征中，并利用交互意图作为条件来捕捉人类和物体几何结构之间的亲和力。通过交叉注意力机制相互执行曲率编码，以引导几何相关性的计算。

3. 接触感知的空间关系

人类与物体的交互极其多样，使得推理它们的3D空间关系非常具有挑战性。LEMON利用人类接触隐含地约束物体的位置，帮助推断可能的人类-物体空间关系。

三、3DIR数据集

为了支撑LEMON模型的训练和评估，作者收集了一个名为3DIR的3D交互关系数据集。该数据集包含了高质量的交互图像和多种交互相关的

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。