【第五章:计算机视觉-计算机视觉在自动驾驶领域的应用】1.雷达点云3D目标检测-(3)基于Point/Point-Voxel的雷达点云3D目标检测实战：：数据读取、模型搭建、训练与测试

原创于 2025-10-13 11:05:42 发布 · 733 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #自动驾驶 #3d

人工智能课程专栏收录该内容

225 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

第五章：计算机视觉-计算机视觉在自动驾驶领域的应用

第一部分：雷达点云3D目标检测

第三节：基于Point/Point-Voxel的雷达点云3D目标检测实战：：数据读取、模型搭建、训练与测试

一、引言：从理论到实战的过渡

在前两节中，我们系统讲解了雷达点云3D目标检测的基本原理以及基于Point与Point-Voxel的经典算法体系（如 PointNet、PointNet++、PV-RCNN）。
本节将从实战角度出发，带你完整实现一个基于Point/Point-Voxel混合结构的3D目标检测任务。

我们将依次介绍：

数据准备与读取；
网络模型搭建；
模型训练与验证；
模型测试与结果可视化。

通过这一节，你将掌握点云3D目标检测从数据到模型部署的完整流程。

二、实验环境准备

1. 环境配置

建议的开发环境如下：

模块	版本
Python	3.9+
PyTorch	2.0+
CUDA	11.7+
Open3D	最新版
TorchVision	0.15+
NumPy	≥ 1.22
Matplotlib	≥ 3.5

安装依赖：

pip install torch torchvision torchaudio open3d numpy matplotlib tqdm

三、数据准备与读取模块搭建

1. 数据集选择

本实战选用自动驾驶常用的开源数据集：

KITTI 3D Object Detection Dataset

它包含：

点云数据（Velodyne LiDAR）；
图像数据（RGB）；
3D 边界框标注。

2. 数据格式结构

KITTI 数据目录结构如下：

├── training/
│   ├── image_2/         # 左摄像头图像
│   ├── velodyne/        # 雷达点云文件（.bin）
│   ├── label_2/         # 标签文件（.txt）
│   ├── calib/           # 相机/雷达标定文件
└── testing/
    ├── velodyne/
    └── image_2/

3. 读取点云数据

每个 .bin 文件包含一帧的雷达扫描数据，结构为 N×4 矩阵：
$x, y, z, reflectance$

示例代码：

import numpy as np
import open3d as o3d

def load_point_cloud(file_path):
    pc = np.fromfile(file_path, dtype=np.float32).reshape(-1, 4)
    pcd = o3d.geometry.PointCloud()
    pcd.points = o3d.utility.Vector3dVector(pc[:, :3])
    return pc, pcd

pc, pcd = load_point_cloud("data/training/velodyne/000001.bin")
o3d.visualization.draw_geometries([pcd])

四、模型搭建：基于 PointNet / Point-Voxel 的混合架构

本节我们以 简化版 PointNet 为基础，演示点云输入与特征提取模块的搭建，并说明如何在此基础上引入 Point-Voxel 融合机制。

1. PointNet 基础结构搭建

核心思想：对每个点独立提取特征，然后聚合全局信息。

import torch
import torch.nn as nn
import torch.nn.functional as F

class PointNet(nn.Module):
    def __init__(self, num_classes=10):
        super(PointNet, self).__init__()
        self.conv1 = nn.Conv1d(3, 64, 1)
        self.conv2 = nn.Conv1d(64, 128, 1)
        self.conv3 = nn.Conv1d(128, 1024, 1)
        self.fc1 = nn.Linear(1024, 512)
        self.fc2 = nn.Linear(512, 256)
        self.fc3 = nn.Linear(256, num_classes)
        self.bn1 = nn.BatchNorm1d(64)
        self.bn2 = nn.BatchNorm1d(128)
        self.bn3 = nn.BatchNorm1d(1024)
    
    def forward(self, x):
        x = x.transpose(2, 1)
        x = F.relu(self.bn1(self.conv1(x)))
        x = F.relu(self.bn2(self.conv2(x)))
        x = self.bn3(self.conv3(x))
        x = torch.max(x, 2)[0]
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

2. Point-Voxel 融合结构（简化思路）

为了结合空间稀疏结构，我们在输入阶段对点云进行体素化（Voxelization）。

def voxelization(pc, voxel_size=0.2):
    coords = np.floor(pc[:, :3] / voxel_size)
    unique_voxels, indices = np.unique(coords, axis=0, return_inverse=True)
    voxel_features = []
    for i in range(len(unique_voxels)):
        voxel_points = pc[indices == i, :3]
        voxel_features.append(voxel_points.mean(axis=0))
    return np.array(voxel_features)

将体素特征输入 PointNet，可以得到一种“轻量级 Point-Voxel 检测结构”。

五、训练与验证

1. 损失函数与优化器

对于分类任务（检测前阶段），我们使用交叉熵损失：

criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

2. 训练过程示例

for epoch in range(50):
    model.train()
    total_loss = 0
    for pc, label in train_loader:
        optimizer.zero_grad()
        pred = model(pc)
        loss = criterion(pred, label)
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
    print(f"Epoch [{epoch+1}/50], Loss: {total_loss/len(train_loader):.4f}")

3. 验证与性能指标

在 3D 检测任务中，常用指标包括：

mAP (mean Average Precision)：检测准确率；
IoU (Intersection over Union)：目标框与预测框重叠率；
Recall/Precision 曲线：整体检测性能可视化。

绘制验证曲线示例：

import matplotlib.pyplot as plt

plt.figure(figsize=(6,4))
plt.plot(range(epochs), train_loss, label='Training Loss')
plt.plot(range(epochs), val_loss, label='Validation Loss')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.legend()
plt.title('Point-Voxel Detection Training Curve')
plt.show()

六、模型测试与可视化

利用 Open3D 可视化预测结果：

def visualize_prediction(pcd, boxes):
    vis = o3d.visualization.Visualizer()
    vis.create_window()
    vis.add_geometry(pcd)
    for box in boxes:
        vis.add_geometry(box)
    vis.run()
    vis.destroy_window()

你可以在预测阶段输出 3D 边界框并叠加在点云上，实现检测效果直观展示。