PointNet论文笔记

最新推荐文章于 2025-04-18 09:52:43 发布

不知道叫啥好一点

最新推荐文章于 2025-04-18 09:52:43 发布

阅读量770

点赞数 1

分类专栏： 3D点云处理文章标签： PointNet 论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/A_A666/article/details/108568059

版权

（一）摘要

对于点云数据的处理：将点云数据转到3D voxel grids或者collections of data
本文直接处理点云，充分考虑了输入点的置换不变性，即PointNet
从经验上表现出与state of art 相当或者更好；从理论上讲，我们分析了网络已经学习了什么，以及为什么网络对于输入扰动和破坏具有鲁棒性。

（二）介绍

在设计针对点云的新型网络架构时，需要考虑点云对其成员的排列不变性(invariant to permutations of its members)，在网络计算中需要某些对称(certain symmetrizations)。进一步的刚性运动不变性(invariances to rigid motions)也需要考虑
PointNet输入输出

输入：直接将点云作为输入

输出：整个输入的类标签(分类任务)，或者每个point所属的类（分割任务）
本文对于神经网络无序集的处理，并且希望可以扩展到其他领域

（三）相关工作

3.1 点云特征Point Cloud Features

什么是点云特征？
1. 针对特定任务手动制作的(handcrafted)
2. 编码点的统计特征，对于特定变换具有不变性
3. 可以分为内在特征和外在特征，或者分为局部特征和全局特征
4. 对于特定任务，找到最优的特征组合是很重要的

3.2 3D数据的深度学习方法

Volumetric CNNs，受限制于数据稀疏性以及3D卷积的计算消耗
FPNN和Vote 3D用于解决稀疏问题，但是无法处理大规模点云
Multiview CNNs：将3D转成2D图像序列，使用2D卷积网络分类，好处是可以使用工程化的CNN网络。但是这种方法无法扩展到场景理解，point classification 以及shape completion
Spectral CNNs：use spectral CNNs on meshes，但是受限于manifold meshes。并且无法扩展到non-isometric形状上
Feature-based DNNs:首先将三维数据转化为矢量，提取传统的形状特征，然后利用全连通网络进行形状分类。我们认为它们受到了提取特征的表示能力的限制。

3.3 Deep Learning on Unordered Sets

集中在point sets上无序集的工作很少

Oriol Vinyals et al [25]：They use a read-process-write network with attention mechanism to consume unordered input sets and show that their network has the ability to sort numbers.他们的工作集中在generic sets和NLP。数据集中缺乏几何结构

（四）问题描述

点云的数学形式化表示

$\left\{P_{i} \mid i=1, \ldots, n\right\}$ ，其中 $P_{i}$ 是一个向量，包含 $(x, y, z)$ 坐标以及额外的特征通道：color和normal
点云处理的任务

目标分类(数据来源 directly sampled from a shape or pre-segmented from a scene point cloud)，然后目标是输出 $k$ 个分数。

分割任务，输出 $\times m$ 个，其中 $n$ 为点的数量， $m$ 为分割子类（点分割任务需要combination of global and local knowledge）

（五）点集上的深度学习

5.1 在 $\mathbb{R}^{n}$ 空间中Point Sets的特征

无序性，对N个元素进行排序，有N!种方式，然而这些不同的排序对结果没有影响
邻居点的相互作用，相邻的点形成一个有意义的子集。因此，该模型需要能够从附近的点获取局部结构
在transformation下的不变性：一起旋转和平移的点不应该改变全局点云类别，也不应该改变点的分割。

给我的感觉就是迫切需要针对这种结构的深度学习网络架构，比如说：图神经网络

最低0.47元/天解锁文章

不知道叫啥好一点

博客等级

码龄8年

131
原创

257
点赞

823
收藏

124
粉丝

关注

私信

热门文章

分类专栏

最新评论

Learning to Track with Object Permanence阅读笔记
laser_yusuru: 写的太好了，但是这个疑问就是说有没有大佬解决一下
MOTR: End-to-End Multiple-Object Tracking with TRansformer阅读笔记
坚持努力不放弃: 现在有GTs,track queries,detect queries。Track queries不需要使用bipartite matching进行匹配,follow the same assignment of previous frames(这里说的比较抽象，实际上应该是当前已有的track queries中在之前已经将gt的label给到这儿了，接只需要确定当前track queries中和gt id对应上的那个就是要track queries需要对应的gt，如果GTs中没有能够同track queries对应上的,则将当前的track queries设置成无效，应该是将该track query删除)，接着剩下的没有匹配上的就看成是detect queries，将detect queries同剩下的GTs做一次匈牙利匹配，也就是一一对应上。 ———————————————— 你好，你说的这段内容，我还是有些没看明白，我想分享一下我的见解，你看我说的是否是你表达的这个意思在经过编码器之后，提取了图像的特征，同时初始化了固定长度的检测查询，再加上上一帧的跟踪查询，一同输入到解码器，通过自注意力的查询交互，跟踪查询首先已经跟真实框匹配了，检测查询只会和剩下的真实框进行匹配最后输出跟踪查询，以及只有新生目标的检测查询这大概就是我的理解，你能再说说你的看法吗
Verilog刷题-10-Wire_dec
zzzzzzzzzzzzzzzzh: 下午学习了一下综合软件，这个题目用三条wire和两条wire综合出来的RTL网表是一样的。没有节约什么资源。
Verilog刷题-10-Wire_dec
zzzzzzzzzzzzzzzzh: 少写一个wire有少用资源吗，我记得有工具可以综合出来实际电路图，2个wire和3个wire应该没差吧，我还不会用综合工具，以上是我的猜测。
Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection阅读笔记
李小小.: 原论文中说了，训练到一半的时候切换到L1损失。For the experiments with our loss functions, we defined a default setup where we start training with L2 loss for half of the total iterations, and then switch to L1.

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。