13、3D人体建模与视图合成技术解析

redis7keeper

于 2025-11-01 09:26:52 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏： PyTorch3D实战3D深度学习文章标签： 3D人体建模视图合成 SMPLify

本文链接：https://blog.youkuaiyun.com/redis7keeper/article/details/154336318

PyTorch3D实战3D深度学习专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

3D人体建模与视图合成技术解析

在计算机视觉和深度学习领域，3D人体建模和视图合成是非常重要的研究方向。3D人体建模可以帮助我们从2D图像中推断出人体的3D形状和姿态，而视图合成则可以根据给定的图像和视角，生成从另一个视角渲染的新图像。下面将详细介绍这两项技术。

3D人体建模：使用SMPLify估计3D人体姿态和形状

在很多实际应用中，我们希望能够从2D图像中拟合出3D人体模型，比如理解人类动作、从2D视频创建动画等。然而，从2D图像估计3D形状并非易事，这是因为人体结构复杂、存在关节活动、遮挡、衣物、光照等因素，而且从2D推断3D本身存在固有歧义（多个3D姿态投影后可能具有相同的2D姿态）。

为了解决这个问题，研究人员发明了SMPLify方法，该方法主要包括以下两个阶段：
1. 自动检测2D关节 ：使用已有的姿态检测模型，如OpenPose或DeepCut，自动检测2D关节。只要能预测相同的关节，任何2D关节检测器都可以使用。
2. 使用SMPL模型生成3D形状 ：直接优化SMPL模型的参数，使SMPL模型的关节投影到前一阶段预测的2D关节上。

SMPL模型通过关节来捕捉人体形状，其中身体形状参数用β表示，它是PCA形状模型中主成分的系数；姿态由运动树中23个关节的相对旋转和theta参数化。我们需要拟合这些参数β和theta，以最小化一个目标函数。

定义优化目标函数

目标函数的形式如下：
[E_J(\beta, \theta; K, J_{est}) + \lambda_{\theta}E_{\theta}(\theta) + \lambda_{a}E_{a}(\theta) + \lambda_{sp}E_{sp}(\theta; \beta) + \lambda_{\beta}E_{\beta}(\beta)]

这个目标函数由五个部分组成，每个部分的含义如下：
| 部分 | 含义 |
| ---- | ---- |
| (E_J(\beta, \theta; K, J_{est}) = \sum_{joint\ i} w_i\rho(\pi_K(R_{\theta}(J((\beta) i)) - J {est,i})) | 基于关节的项，惩罚SMPL模型的2D投影关节与2D关节检测器预测的关节位置之间的距离。(w_i)是2D关节检测模型提供的每个关节的置信度分数。 |
| (E_{\theta}(\theta) = \sum_{i} \exp(\theta_i)) | 惩罚关节之间大角度的姿态项，确保肘部和膝盖不会不自然地弯曲。 |
| (E_{a}(\theta)) | 基于高斯混合模型的项，该模型拟合了从CMU Graphics Lab Motion Capture Database（包含近一百万个数据点）中获得的自然姿态，确保姿态参数接近现实中观察到的情况。 |
| (E_{sp}(\theta; \beta)) | 自穿透误差项，避免出现肘部和手部扭曲并穿透胃部等不自然的自穿透情况。 |
| (E_{\beta}(\beta) = \beta^T \sum_{\beta}^{-1} \beta) | 从SMPL模型获得的形状项，主成分矩阵是SMPL模型在训练数据集上训练得到的。 |

代码实践

我们将使用Leeds Sports Pose (LSP) 数据集的两个2D图像来拟合3D人体形状。代码结构如下：

chap8
  -- smplify
    -- code
      -- fit3d_utils.py
      -- run_fit3d.py
      -- render_model.py
      -- lib
      -- models
    -- images
    -- results

运行代码的步骤如下：
1. 设置PYTHONPATH，指向chap8文件夹：

export PYTHONPATH=$PYTHONPATH:<user-specific-path>/3D-Deep-Learning-with-Python/chap8/

进入正确的文件夹：

cd smplify/code

运行以下命令将3D人体拟合到images文件夹中的图像上：

python run_fit3d.py --base_dir ../ --out_dir .

这个运行过程不会使用任何自穿透误差，以加快优化迭代速度。最终，我们将拟合出一个中性的人体形状，并可以可视化3D人体的投影姿态。

代码解析

在 run_fit3d.py 文件中，主要步骤如下：
1. 导入所需的模块：

from os.path import join, exists, abspath, dirname
from os import makedirs
import cPickle as pickle
from glob import glob
import cv2
import numpy as np
import matplotlib.pyplot as plt
import argparse
from smpl.serialization import load_model
from smplify.code.fit3d_utils import run_single_fit

定义SMPL模型的位置：

MODEL_DIR = join(abspath(dirname(__file__)), 'models')
MODEL_NEUTRAL_PATH = join(
    MODEL_DIR, 'basicModel_neutral_lbs_10_207_0_v1.0.0.pkl')

设置优化方法所需的参数，并定义图像和结果的存储目录：

viz = True
n_betas = 10
flength = 5000.0
pix_thsh = 25.0
img_dir = join(abspath(base_dir), 'images/lsp')
data_dir = join(abspath(base_dir), 'results/lsp')
if not exists(out_dir):
    makedirs(out_dir)

加载性别中性的SMPL模型到内存中：

model = load_model(MODEL_NEUTRAL_PATH)

加载LSP数据集中图像的关节估计：

est = np.load(join(data_dir, 'est_joints.npz'))['est_joints']

加载数据集中的图像，并获取相应的关节估计和置信度分数：

img_paths = sorted(glob(join(img_dir, '*[0-9].jpg')))
for ind, img_path in enumerate(img_paths):
    img = cv2.imread(img_path)
    joints = est[:2, :, ind].T
    conf = est[2, :, ind]

对于数据集中的每个图像，使用 run_single_fit 函数拟合参数β和theta：

params, vis = run_single_fit(img, joints, conf, model, 
                             regs=sph_regs, n_betas=n_betas, flength=flength, pix_thsh=pix_thsh, 
                             scale_factor=2, viz=viz, do_degrees=do_degrees)

可视化拟合的3D人体与2D RGB图像：

if viz:
    import matplotlib.pyplot as plt
    plt.ion()
    plt.show()
    plt.subplot(121)
    plt.imshow(img[:, :, ::-1])
    for di, deg in enumerate(do_degrees):
        plt.subplot(122)
        plt.cla()
        plt.imshow(vis[di])
        plt.draw()
        plt.title('%d deg' % deg)
        plt.pause(1)
        raw_input('Press any key to continue...')

保存参数和可视化结果到磁盘：

with open(out_path, 'w') as outf:
    pickle.dump(params, outf)
if do_degrees is not None:
    cv2.imwrite(out_path.replace('.pkl', '.png'), vis[0])

需要注意的是，拟合的3D人体的准确性取决于2D关节的准确性。在某些情况下，估计2D关节容易出错，例如关节不完全可见、左右关节混淆、模型未针对不寻常姿态进行训练等。

视图合成：使用SynSin进行端到端视图合成

视图合成是3D深度学习的一个主要研究方向，可应用于AR、VR、游戏等多个领域。其目标是根据给定的图像作为输入，重建从另一个视角的新图像。

视图合成的挑战

视图合成面临两个主要挑战：
1. 理解3D结构 ：当改变视角时，有些物体离我们更近，有些更远。好的模型应该通过渲染图像来处理这种情况，使一些物体看起来更大，一些更小。
2. 理解语义信息 ：模型应该能够区分物体，并理解图像中呈现的物体是什么。在重建过程中，模型需要理解物体的语义，以便知道如何重建物体的延续部分。

SynSin模型架构

SynSin是一种端到端的视图合成模型，由三个主要模块组成。通过这些模块，SynSin可以在没有任何3D数据的情况下解决视图合成问题。

技术要求

运行相关代码示例，理想情况下需要一台配备GPU的计算机，推荐的计算机配置如下：
- 一个GPU，例如Nvidia GTX系列或RTX系列，至少有8GB内存
- Python 3
- PyTorch和PyTorch3D库

代码示例可以在https://github.com/PacktPublishing/3D-Deep-Learning-with-Python找到。

综上所述，3D人体建模和视图合成技术在计算机视觉和深度学习领域具有重要的应用价值。通过SMPLify方法，我们可以从2D图像中拟合出3D人体模型；而SynSin模型则为视图合成提供了一种有效的解决方案。随着技术的不断发展，这些技术有望在更多领域得到应用。

3D人体建模与视图合成技术解析

视图合成实践：训练与测试SynSin模型

在了解了视图合成的概念、挑战以及SynSin模型的架构后，接下来我们将进行实际的训练和测试操作，以更好地理解整个视图合成过程。

训练模型

训练SynSin模型的主要步骤如下：
1. 数据准备 ：收集合适的数据集，确保数据集中包含不同视角的图像对，以便模型学习到视图之间的转换关系。
2. 环境搭建 ：按照前面提到的技术要求，配置好Python 3环境，并安装PyTorch和PyTorch3D库。
3. 模型初始化 ：根据SynSin的架构，初始化模型的参数。
4. 定义损失函数 ：选择合适的损失函数来衡量模型预测结果与真实图像之间的差异。常见的损失函数包括均方误差（MSE）、结构相似性指数（SSIM）等。
5. 训练循环 ：
- 从数据集中批量加载图像对。
- 将输入图像和目标视角信息输入到模型中，得到预测的新视角图像。
- 计算预测图像与真实目标图像之间的损失。
- 使用反向传播算法更新模型的参数，以最小化损失。
- 重复上述步骤，直到模型收敛或达到预设的训练轮数。

以下是一个简化的训练代码示例：

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader
from dataset import ViewSynthesisDataset  # 自定义数据集类
from synsin_model import SynSinModel  # 自定义SynSin模型类

# 数据准备
train_dataset = ViewSynthesisDataset('path/to/train/data')
train_loader = DataLoader(train_dataset, batch_size=16, shuffle=True)

# 模型初始化
model = SynSinModel()

# 定义损失函数和优化器
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 训练循环
num_epochs = 10
for epoch in range(num_epochs):
    running_loss = 0.0
    for inputs, targets in train_loader:
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, targets)
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
    print(f'Epoch {epoch+1}/{num_epochs}, Loss: {running_loss/len(train_loader)}')

测试模型

训练完成后，我们需要对模型进行测试，以评估其在新数据上的性能。测试步骤如下：
1. 加载测试数据集 ：使用与训练数据集相同的方式加载测试数据集。
2. 模型评估 ：
- 将模型设置为评估模式，以避免在测试过程中进行不必要的参数更新。
- 从测试数据集中批量加载图像对。
- 将输入图像和目标视角信息输入到模型中，得到预测的新视角图像。
- 计算预测图像与真实目标图像之间的评估指标，如PSNR（峰值信噪比）、SSIM等。
3. 可视化结果 ：将预测的新视角图像与真实目标图像进行可视化对比，直观地观察模型的性能。

以下是一个简化的测试代码示例：

import torch
import torch.nn as nn
from torch.utils.data import DataLoader
from dataset import ViewSynthesisDataset  # 自定义数据集类
from synsin_model import SynSinModel  # 自定义SynSin模型类
from skimage.metrics import peak_signal_noise_ratio as psnr
from skimage.metrics import structural_similarity as ssim

# 数据准备
test_dataset = ViewSynthesisDataset('path/to/test/data')
test_loader = DataLoader(test_dataset, batch_size=16, shuffle=False)

# 加载训练好的模型
model = SynSinModel()
model.load_state_dict(torch.load('path/to/trained/model.pth'))
model.eval()

# 评估指标
total_psnr = 0.0
total_ssim = 0.0
with torch.no_grad():
    for inputs, targets in test_loader:
        outputs = model(inputs)
        outputs = outputs.cpu().numpy()
        targets = targets.cpu().numpy()
        for i in range(outputs.shape[0]):
            total_psnr += psnr(targets[i].transpose(1, 2, 0), outputs[i].transpose(1, 2, 0))
            total_ssim += ssim(targets[i].transpose(1, 2, 0), outputs[i].transpose(1, 2, 0), multichannel=True)

avg_psnr = total_psnr / len(test_dataset)
avg_ssim = total_ssim / len(test_dataset)
print(f'Average PSNR: {avg_psnr}, Average SSIM: {avg_ssim}')

使用预训练模型进行推理

如果不想自己训练模型，也可以使用预训练的SynSin模型进行推理。步骤如下：
1. 下载预训练模型 ：从官方或其他可靠渠道下载预训练的SynSin模型。
2. 加载预训练模型 ：将预训练模型的参数加载到模型中。
3. 输入图像 ：准备要进行视图合成的输入图像和目标视角信息。
4. 进行推理 ：将输入数据输入到模型中，得到预测的新视角图像。
5. 可视化结果 ：将预测的新视角图像进行可视化展示。

以下是一个简化的推理代码示例：

import torch
import cv2
import numpy as np
from synsin_model import SynSinModel  # 自定义SynSin模型类

# 加载预训练模型
model = SynSinModel()
model.load_state_dict(torch.load('path/to/pretrained/model.pth'))
model.eval()

# 准备输入图像
input_image = cv2.imread('path/to/input/image.jpg')
input_image = cv2.cvtColor(input_image, cv2.COLOR_BGR2RGB)
input_image = np.transpose(input_image, (2, 0, 1))
input_image = torch.tensor(input_image, dtype=torch.float32).unsqueeze(0)

# 目标视角信息（示例）
target_view = torch.tensor([[0.5, 0.5, 0.5]], dtype=torch.float32)

# 进行推理
with torch.no_grad():
    output_image = model(input_image, target_view)

# 可视化结果
output_image = output_image.squeeze(0).cpu().numpy()
output_image = np.transpose(output_image, (1, 2, 0))
output_image = cv2.cvtColor(output_image.astype(np.uint8), cv2.COLOR_RGB2BGR)
cv2.imshow('Output Image', output_image)
cv2.waitKey(0)
cv2.destroyAllWindows()

总结

通过以上内容，我们详细介绍了3D人体建模和视图合成技术。在3D人体建模方面，SMPLify方法为我们提供了一种从2D图像拟合3D人体模型的有效途径，其通过自动检测2D关节和优化SMPL模型参数的方式，实现了较为准确的3D人体重建。同时，我们也看到了该方法在实际应用中可能遇到的问题，如2D关节检测的准确性对最终结果的影响。

在视图合成方面，SynSin模型作为一种端到端的解决方案，能够在没有3D数据的情况下解决视图合成问题。我们了解了视图合成的挑战，包括理解3D结构和语义信息，并通过实际的训练、测试和推理操作，深入体验了SynSin模型的工作流程。

总的来说，这些技术在计算机视觉和深度学习领域具有广阔的应用前景，未来有望在更多领域得到进一步的发展和应用，如增强现实、虚拟现实、游戏开发等。希望本文能够帮助读者更好地理解和掌握这些技术，为相关领域的研究和开发提供一定的参考。

以下是一个简单的mermaid流程图，展示了SynSin模型的训练和推理流程：

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;

    A([开始]):::startend --> B(数据准备):::process
    B --> C(环境搭建):::process
    C --> D(训练模型):::process
    D --> E(模型评估):::process
    E --> F{评估结果是否满意?}:::decision
    F -->|否| D(训练模型):::process
    F -->|是| G(保存模型):::process
    G --> H(推理):::process
    H --> I([结束]):::startend

通过这个流程图，我们可以清晰地看到SynSin模型从数据准备到最终推理的整个过程，以及在训练过程中如何根据评估结果进行迭代优化。