在三维场景中构造关系

原创

已于 2023-11-05 21:45:17 修改 · 267 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2023-05-20 20:13:21 首次发布

文章介绍了两种方法用于3D场景理解：一种是基于自由形式描述的3D视觉图网络用于点云中的对象定位，通过语言场景图和提案关系增强来理解复杂文本；另一种是MORE模型，通过多阶关系挖掘改进3D密集描述，构建一阶和高阶空间关系以理解复杂对象间关系。

文章目录

1.《Free-form Description Guided 3D Visual Graph Network for Object Grounding in Point Cloud》【ICCV'2021】
2.《MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes》【ECCV'2022】

1.《Free-form Description Guided 3D Visual Graph Network for Object Grounding in Point Cloud》【ICCV’2021】

Code：https://github.com/PNXD/FFL-3DOG

3DVG任务有以下三个挑战：

在复杂、多样的文本描述中找到主要的重点，即找到主语（目标对象）；
理解点云场景；
定位目标对象；

为了解决这些问题，这篇文章分别设计了以下三个模块：

首先，提出了一个语言场景图模块来从复杂的文本描述中，捕捉丰富的结构和短语相关性；
其次，引入proposals之间的关系，并加强了初始proposals的视觉特征；
最后，开发了一个文本描述来引导的三维可视化图模块，通过节点匹配策略对短语和建议的全局上下文进行编码。

图形摘要如下所示：
在这里插入图片描述

直白来讲，本文就是做了以下三件事：

首先，将复杂的文本描述划分为三类短语：名词短语、代词和关系短语，基于这些短语构造一个语言场景图 $G^l$ ，其中节点和边缘分别对应于名词短语+代词和关系短语；
其次，基于VoteNet给出的proposals构造出一个proposal relation 图 $G^o$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。