15、探索Mesh R - CNN：实现3D物体检测与建模的融合

redis7keeper

于 2025-11-03 09:24:22 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏： PyTorch3D实战3D深度学习文章标签： Mesh R-CNN 3D物体检测 3D建模

本文链接：https://blog.youkuaiyun.com/redis7keeper/article/details/154336332

PyTorch3D实战3D深度学习专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

探索Mesh R - CNN：实现3D物体检测与建模的融合

1. 引言

在计算机视觉领域，物体检测和3D模型构建是两个重要的任务。传统上，这两个任务往往是分开处理的。而Mesh R - CNN模型的出现，将这两个任务巧妙地融合在一起，为我们提供了一个端到端的解决方案。它不仅能够检测图像中的物体，还能输出这些物体的3D网格模型，使我们对物体的理解从2D层面提升到了3D层面。

2. 技术要求

要运行Mesh R - CNN相关的代码示例，理想情况下需要一台配备GPU的计算机，但仅使用CPU运行代码也并非不可能。以下是推荐的计算机配置：
- GPU ：例如NVIDIA GTX系列或RTX系列，至少8GB内存。
- Python ：Python 3。
- 库：PyTorch库和PyTorch3D库、Detectron2。
- 代码仓库 ：Mesh R - CNN仓库，可在https://github.com/facebookresearch/meshrcnn 找到；本章的代码片段可在https://github.com/PacktPublishing/3D-Deep-Learning-with-Python 找到。

3. 网格和体素概述

Mesh R - CNN使用了两种不同的3D数据表示方式：网格（meshes）和体素（voxels），以获得更高质量的3D结构预测。
- 网格（Meshes） ：是3D模型的表面，以多边形表示，通常每个多边形为三角形。网格由通过边连接的顶点组成，边和顶点的连接形成了通常为三角形的面。这种表示方式有利于快速变换和渲染。
- 体素（Voxels） ：是2D像素的3D类比。每个体素是一个立方体，每个物体由一组立方体组成，其中一些是外部可见部分，一些在物体内部。体素便于可视化3D物体，在深度学习问题中，还可作为3D卷积神经网络的输入。

Mesh R - CNN结合使用这两种3D数据表示方式。实验表明，先预测体素，然后将其转换为网格，再对网格进行细化，有助于网络更好地学习。

4. Mesh R - CNN架构

4.1 背景与动机

3D形状检测一直是研究热点，许多模型在合成基准和孤立物体上取得了不错的精度。同时，2D物体检测和图像分割问题也有了快速发展，Mask R - CNN就是其中一种最先进的物体检测和实例分割模型，具有广泛的实际应用。然而，我们生活的世界是3D的，因此Mesh R - CNN的作者决定将这两种方法结合起来，创建一个能够在真实图像上检测物体并输出3D网格的模型。

4.2 架构组成

Mesh R - CNN在Mask R - CNN的基础上进行了扩展，添加了一个负责预测高分辨率三角形网格的新分支。下面我们先来回顾一下Mask R - CNN的结构：
- Mask R - CNN ：以RGB图像为输入，输出边界框、类别标签和实例分割掩码。图像首先通过基于ResNet（如ResNet - 50 - FPN）的骨干网络，输出特征图，该特征图作为区域提议网络（RPN）的输入，RPN输出提议。然后，物体分类和掩码预测分支分别处理这些提议并输出类别和掩码。
- Mesh R - CNN ：在Mask R - CNN的基础上，增加了一个网格预测器。网格预测器由两个分支组成：体素分支和网格细化分支。
- 体素分支 ：以提议和对齐的特征为输入，输出粗略的体素预测。使用Cubify操作对体素占用进行二值化，每个占用的体素被替换为一个具有8个顶点、18条边和12个面的长方体三角形网格。体素损失采用二元交叉熵，用于最小化预测的体素占用概率与真实占用情况之间的差异。
- 网格细化分支 ：是一个由顶点对齐、图卷积和顶点细化三个不同操作组成的序列。顶点对齐为每个网格顶点生成图像对齐的特征；图卷积沿着网格边传播信息；顶点细化更新顶点位置，旨在在保持拓扑结构固定的情况下更新顶点几何形状。
- 网格损失函数 ：使用了倒角（chamfer）和法线（normal）损失，但仅使用这两种损失会导致网格退化，因此添加了形状正则化器，即边损失（edge loss）。最终的网格损失是这三种损失的加权平均值。

以下是Mesh R - CNN的架构流程图：

graph LR
    A[RGB图像] --> B[骨干网络（ResNet）]
    B --> C[区域提议网络（RPN）]
    C --> D[物体分类分支]
    C --> E[掩码预测分支]
    C --> F[体素分支]
    F --> G[Cubify操作]
    G --> H[网格细化分支]
    D --> I[类别标签]
    E --> J[分割掩码]
    H --> K[3D网格]

5. 图卷积

早期的神经网络主要用于处理结构化的欧几里得数据，但现实世界中的大多数数据是非欧几里得的，具有图结构。图卷积神经网络（GCNs）就是为了适应这种图数据而发展起来的。网格具有图结构，因此GCNs适用于3D结构预测问题。

GCNs的基本操作与CNN类似，都是卷积，但主要区别在于节点数量可以变化，且节点是无序的。在图卷积层中，输入是图和邻接矩阵，该矩阵表示前向传播中节点之间的边。卷积层通过聚合节点邻域的信息来封装每个节点的信息，然后进行非线性变换，其输出可用于不同的任务，如分类。

6. 网格预测器

网格预测器模块的目标是检测物体的3D结构，它是RoIAlign模块的逻辑延续，负责预测和输出最终的网格。由于从真实图像中获取的3D网格不能使用固定拓扑的固定网格模板，因此网格预测器由体素分支和网格细化分支组成，这种组合有助于减少固定拓扑带来的问题。

7. 训练实验

进行了两种类型的训练实验：
- ShapeNet数据集实验 ：用于检查网格预测器分支。ShapeNet数据集包含55个常见类别的CAD模型，广泛用于3D形状预测的基准测试。该实验使网格预测器模型达到了最先进的水平，并且能够解决先前模型难以检测的带孔物体的问题。
- Pix3D数据集实验 ：使用包含不同IKEA家具真实图像的Pix3D数据集对整个Mesh R - CNN进行端到端评估。由于这是首次尝试这种技术，目前没有可用的基准结果，但可以通过观察训练输出结果来评估模型性能。

8. Mesh R - CNN的演示

8.1 安装

安装Mesh R - CNN相对简单，需要先安装Detectron2和PyTorch3D，然后构建Mesh R - CNN。具体步骤如下：
1. 安装Detectron2：

python -m pip install 'git+https://github.com/facebookresearch/detectron2.git'

如果上述命令不起作用，可以查看网站获取替代安装方法。
2. 安装PyTorch3D（参考之前介绍的方法）。
3. 构建Mesh R - CNN：

git clone https://github.com/facebookresearch/meshrcnn.git
cd meshrcnn && pip install -e .

8.2 运行演示

仓库中包含一个 demo.py 文件，用于演示Mesh R - CNN的端到端流程。该文件位于 meshrcnn/demo/demo.py ，其中包含 VisualizationDemo 类，该类有两个主要方法： run_on_image 和 visualize_prediction 。前者以图像为输入，输出模型的预测结果；后者可视化掩码检测结果，并保存最终的网格和带有预测结果及置信度的图像。

运行演示的命令如下：

python demo/demo.py \
--config-file configs/pix3d/meshrcnn_R50_FPN.yaml \
--input /path/to/image \
--output output_demo \
--onlyhighest MODEL.WEIGHTS meshrcnn://meshrcnn_R50.pth

命令参数说明：
- --config-file ：配置文件的路径，可在 configs 目录中找到。
- --input ：输入图像的路径。
- --output ：预测结果保存的目录路径。
- --onlyhighest ：如果为 True ，则仅输出置信度最高的一个网格和掩码。

8.3 渲染3D物体

演示完成后，会得到一个 .obj 格式的网格文件，需要对其进行渲染以查看3D物体。以下是从 chapt10/viz_demo_results.py 文件中提取的渲染代码：

import torch
import numpy as np
import matplotlib.pyplot as plt
from pytorch3d.io import load_obj
from pytorch3d.structures import Meshes
from pytorch3d.renderer import (
    FoVPerspectiveCameras, look_at_view_transform, look_at_rotation,
    RasterizationSettings, MeshRenderer, MeshRasterizer, BlendParams,
    SoftSilhouetteShader, HardPhongShader, PointLights, TexturesVertex,
)
import argparse

# 定义参数
parser = argparse.ArgumentParser()
parser.add_argument('--path_to_mesh', default="./demo_results/0_mesh_sofa_0.887.obj")
parser.add_argument('--save_path', default='./demo_results/sofa_render.png')
parser.add_argument('--distance', default=1, help='distance from camera to the object')
parser.add_argument('--elevation', default=150.0, help='angle of elevation in degrees')
parser.add_argument('--azimuth', default=-10.0, help='rotation of the camera')
args = parser.parse_args()

# 加载和初始化网格对象
verts, faces_idx, _ = load_obj(args.path_to_mesh)
faces = faces_idx.verts_idx
verts_rgb = torch.ones_like(verts)[None]  # (1, V, 3)
textures = TexturesVertex(verts_features=verts_rgb.to(device))
sofa_mesh = Meshes(
    verts=[verts.to(device)],
    faces=[faces.to(device)],
    textures=textures
)

# 初始化透视相机
cameras = FoVPerspectiveCameras(device=device)
blend_params = BlendParams(sigma=1e-4, gamma=1e-4)

# 定义光栅化和着色设置
raster_settings = RasterizationSettings(
    image_size=256,
    blur_radius=np.log(1. / 1e-4 - 1.) * blend_params.sigma,
    faces_per_pixel=100,
)
silhouette_renderer = MeshRenderer(
    rasterizer=MeshRasterizer(
        cameras=cameras,
        raster_settings=raster_settings
    ),
    shader=SoftSilhouetteShader(blend_params=blend_params)
)

raster_settings = RasterizationSettings(
    image_size=256,
    blur_radius=0.0,
    faces_per_pixel=1,
)
lights = PointLights(device=device, location=((2.0, 2.0, -2.0),))
phong_renderer = MeshRenderer(
    rasterizer=MeshRasterizer(
        cameras=cameras,
        raster_settings=raster_settings
    ),
    shader=HardPhongShader(device=device, cameras=cameras, lights=lights)
)

# 创建相机位置
R, T = look_at_view_transform(args.distance, args.elevation, args.azimuth, device=device)
silhouette = silhouette_renderer(meshes_world=sofa_mesh, R=R, T=T)
image_ref = phong_renderer(meshes_world=sofa_mesh, R=R, T=T)

# 可视化结果
plt.figure(figsize=(10, 10))
plt.subplot(1, 2, 1)
plt.imshow(silhouette.squeeze()[..., 3])
plt.grid(False)
plt.subplot(1, 2, 2)
plt.imshow(image_ref.squeeze())
plt.grid(False)
plt.savefig(args.save_path)

通过上述步骤，我们可以看到Mesh R - CNN在实际图像上的检测和3D建模效果。从渲染结果来看，模型输出的3D网格与实际物体非常相似，尽管在一些不可见部分可能存在一些缺陷。我们还可以通过调整相机位置和光照条件，从不同角度渲染物体图像。

9. 实验重现

仓库还提供了重现Mesh R - CNN论文中实验的机会，包括Pix3D实验和ShapeNet实验。

9.1 Pix3D实验

下载数据 ：

datasets/pix3d/download_pix3d.sh

数据包含名为S1和S2的两个分割，仓库提供了这两个分割的权重。
- 重现训练 ：

python tools/train_net.py \
--config-file configs/pix3d/meshrcnn_R50_FPN.yaml \
--eval-only MODEL.WEIGHTS /path/to/checkpoint_file

需要注意配置文件的设置，原模型是在8GB GPU上分布式训练的。如果GPU容量不足，可能无法达到相同的精度，需要调整超参数以提高精度。也可以使用自己训练的权重，或者直接对作者提供的预训练模型进行评估。

9.2 ShapeNet实验

下载数据 ：

datasets/shapenet/download_shapenet.sh

这将下载训练集、验证集和测试集。
- 数据预处理 ：

python tools/preprocess_shapenet.py \
--shapenet_dir /path/to/ShapeNetCore.v1 \
--shapenet_binvox_dir /path/to/ShapeNetCore.v1.binvox \
--output_dir ./datasets/shapenet/ShapeNetV1processed \
--zip_output

预处理可以减少数据加载时间，输出的压缩数据便于在集群中进行训练。
- 重现实验 ：

python tools/train_net_shapenet.py --num-gpus 8 \
--config-file configs/shapenet/voxmesh_R50.yaml

最后，可以使用以下命令评估模型或作者提供的检查点：

python tools/train_net_shapenet.py --num-gpus 8 \
--config-file configs/shapenet/voxmesh_R50.yaml

并将结果与论文中提供的结果进行比较。

Mesh R - CNN为我们提供了一个强大的工具，能够将2D图像中的物体检测与3D模型构建相结合。通过深入了解其架构、训练方法和实验过程，我们可以更好地应用这一模型，推动计算机视觉领域在3D物体理解方面的发展。

探索Mesh R - CNN：实现3D物体检测与建模的融合

10. 技术点分析

10.1 3D数据表示的优势

Mesh R - CNN采用网格和体素两种3D数据表示方式，这种组合具有显著优势。网格适合快速变换和渲染，能够高效地处理3D模型的表面信息；而体素便于可视化3D物体，并且可以作为3D卷积神经网络的输入，为网络提供更丰富的空间信息。通过先预测体素，再转换为网格并细化的方式，网络能够更好地学习物体的3D结构，提高预测的准确性。

10.2 图卷积的作用

图卷积神经网络（GCNs）在Mesh R - CNN中起到了关键作用。由于网格具有图结构，GCNs能够有效地处理这种非欧几里得数据。在网格细化分支中，图卷积通过聚合节点邻域的信息，沿着网格边传播信息，从而更新顶点位置，使模型能够更好地捕捉物体的几何形状和拓扑结构。与传统的CNN相比，GCNs更适合处理节点数量可变且无序的图数据，为3D结构预测提供了更强大的工具。

10.3 损失函数的设计

Mesh R - CNN的损失函数设计考虑了多个方面。体素损失采用二元交叉熵，用于最小化预测的体素占用概率与真实占用情况之间的差异，确保体素预测的准确性。在网格细化分支中，使用了倒角和法线损失，但为了避免网格退化，还添加了边损失作为形状正则化器。最终的网格损失是这三种损失的加权平均值，通过综合考虑不同方面的信息，使模型能够生成高质量的3D网格。

11. 应用场景

Mesh R - CNN的出现为多个领域带来了新的应用可能性：
- 虚拟现实（VR）和增强现实（AR） ：在VR和AR应用中，需要准确的3D物体模型来实现沉浸式体验。Mesh R - CNN能够从真实图像中快速生成高质量的3D网格，为虚拟场景的构建提供了丰富的素材，使虚拟世界更加逼真。
- 机器人视觉 ：机器人在执行任务时，需要对周围环境中的物体进行准确的识别和理解。Mesh R - CNN的3D物体检测和建模能力可以帮助机器人更好地感知环境，提高其操作的准确性和效率。
- 工业设计和制造 ：在工业设计和制造过程中，需要对产品进行3D建模和分析。Mesh R - CNN可以从产品的图像中提取3D结构信息，为设计和制造提供参考，缩短产品开发周期。

12. 总结与展望

Mesh R - CNN是一种将2D物体检测和3D模型构建相结合的先进模型，通过引入网格和体素两种3D数据表示方式、图卷积神经网络和合理的损失函数设计，实现了从真实图像中准确预测物体3D网格的目标。通过在ShapeNet和Pix3D等数据集上的实验，证明了该模型的有效性和先进性。

然而，Mesh R - CNN仍然存在一些不足之处。例如，在处理复杂场景和具有遮挡的物体时，模型的性能可能会受到影响；模型的训练需要大量的计算资源和时间，对于一些资源有限的应用场景可能不太适用。

未来的研究可以从以下几个方面进行改进：
- 提高模型的鲁棒性 ：通过引入更多的上下文信息和注意力机制，提高模型在复杂场景和遮挡情况下的性能。
- 优化模型的效率 ：研究更高效的算法和架构，减少模型的计算量和训练时间，使其能够在资源有限的设备上运行。
- 拓展应用领域 ：将Mesh R - CNN应用到更多的领域，如医学图像分析、自动驾驶等，为这些领域带来新的解决方案。

以下是Mesh R - CNN的应用和发展展望流程图：

graph LR
    A[Mesh R - CNN] --> B[应用场景]
    B --> C[虚拟现实和增强现实]
    B --> D[机器人视觉]
    B --> E[工业设计和制造]
    A --> F[存在问题]
    F --> G[复杂场景性能受限]
    F --> H[计算资源需求大]
    A --> I[未来研究方向]
    I --> J[提高鲁棒性]
    I --> K[优化效率]
    I --> L[拓展应用领域]

附录：关键技术点总结

技术点	描述
网格（Meshes）	3D模型的表面，以多边形表示，便于快速变换和渲染
体素（Voxels）	2D像素的3D类比，便于可视化3D物体，可作为3D卷积神经网络的输入
图卷积神经网络（GCNs）	适用于处理具有图结构的非欧几里得数据，在3D结构预测中发挥重要作用
网格预测器	由体素分支和网格细化分支组成，负责预测和输出最终的3D网格
损失函数	包括体素损失、倒角损失、法线损失和边损失，综合考虑不同方面的信息，确保模型生成高质量的3D网格

通过对Mesh R - CNN的深入研究和实践，我们可以更好地理解其原理和应用，为计算机视觉领域的发展做出贡献。同时，随着技术的不断进步，相信Mesh R - CNN将会在更多的领域得到广泛应用，为我们的生活带来更多的便利和创新。