论文学习 --- RL Contact-GraspNet Efficient 6-DoF Grasp Generation in Cluttered Scenes

最新推荐文章于 2025-08-24 09:00:02 发布

原创

最新推荐文章于 2025-08-24 09:00:02 发布 · 1.5k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#学习

前言及研究目的

个人拙见，如果我的理解有问题欢迎讨论 (●′ω`●)
文章出处：NVlabs/contact_graspnet: Efficient 6-DoF Grasp Generation in Cluttered Scenes (github.com)

随着机器人在家庭和工业环境中的广泛应用，如何在复杂和动态的环境中实现高效、准确的物体抓取成为一个重要的研究课题。抓取任务不仅要求机器人能够识别物体，还需要生成适当的抓取姿态来确保操作的成功。传统的抓取方法通常依赖于精确的模型和先验知识，这在实际应用中存在很大的局限性。为了解决这些问题，本文提出了Contact-GraspNet，一个基于点云处理的端到端深度学习模型，用于生成六自由度（6-DoF）的抓取姿态。本文的研究目的是在无需物体类别标签和先验知识的情况下，实现对未知物体的高效抓取。

原理部分

点云多视角融合原理：

获取多视角点云：使用多个虚拟相机从不同视角获取场景的RGB-D图像，每个图像包含颜色（RGB）和深度（D）信息。
坐标变换：将不同视角下的点云数据变换到统一的全局坐标系中，利用相机的内参和外参进行转换。
融合点云：将所有视角的点云数据合并，形成一个综合的点云数据集，确保覆盖场景的全貌。

点云预处理：

下采样：对点云数据进行随机下采样，将点的数量减少到20000个，以降低计算复杂度。
法向量计算：通过K近邻算法计算每个点的法向量，用于描述点的表面方向。
点云分割：使用区域生长或聚类方法分割点云，提取感兴趣的区域。

预处理后的PointNet++处理及其网络结构：

输入点云：预处理后的点云数据输入到PointNet++网络结构中。
特征提取：通过层次化抽象和特征传播层，逐层提取点云的局部和全局特征。
U型网络架构：网络采用非对称的U型结构，包括四个头部，每个头部分别预测接触点分类、抓取方向和基线方向的特征向量，以及抓取宽度。

处理后得到的位姿及关键点获取：

抓取姿态预测：网络输出包括抓取接触点（(s)）、抓取方向（(a)和(b)向量）以及抓取宽度（(w)）。
关键点定义：五个三维点 (\mathbf{v}) 表示抓取器的关键位置，用于描述抓取器在空间中的姿态。

关键点与位姿之间的映射关系：

真实抓取姿态中的关键点：通过真实抓取姿态的旋转矩阵 (R_g) 和平移向量 (t_{g,i}) 将关键点 (\mathbf{v}) 变换到真实姿态下，公式为：
[
\mathbf{v}i^{gt} = \mathbf{v} R_g^T + t{g,i}
]
预测抓取姿态中的关键点：通过预测抓取姿态的旋转矩阵 (\hat{R}g) 和平移向量 (\hat{t}{g,i}) 将关键点 (\mathbf{v}) 变换

最低0.47元/天解锁文章