AI论文探讨室·A+·第5期 Human Synthesis and Scene Compositing

本文介绍了一种参数化控制人体姿态与形状,并将其自然嵌入3D场景中的技术框架。该方法通过统一的人像模型,结合3D场景的几何和语义信息,实现了人体与场景的无缝融合,有效避免了视觉伪影。实验在DeepFashion数据集上的表现良好。

《Human Synthesis and Scene Compositing》

论文链接

主要解决的问题:参数化控制人体姿态和形状,并将生成的人体嵌入到3D背景中

主要描述

       本论文提出的框架主要包含三部分:(1)一个人像图像统一模型在控制姿态和外观,基于一个参数的展示;(2)一个人像插入处理,利用几何和语义的3D场景;(3)一个现实组成处理来创造一个无缝的融合在场景颜色和生成人体图像,以及避免视觉伪影。并在DeepFashion数据集上进行测试,得到比较好的结果。

系统框架

框架流程:输入一张人体的前景图,一个背景场景包含深度图和语义标签,以及一个目标的3D身体模型。首先,本论文使用北京场景来估计地面模板。在几何合成阶段,本论文给目标人体确定一个固定的3D位置,以及进行相关的视点转换,使用支持面法向进行对齐。通过HUSC-S网络,将新更新的目标人体形状和输入图像一起进行编码到目的表面。统一的前景图像结果在背景图中进行渲染,通过适当考虑深度排序约束。最后,它的外观使用论文中的外观组成网络来选择,为了得到最终的结果。

HUSC-S网络详解

指标对比

实验效果

主要工作

(1)在3D背景空间进行处理和操作;

(2)为解决空间尺度和模型闭合,引入场景的语义信息;

(3)使用参数化的3D人体和稠密几何对应关系,来较好的控制外观转化处理;

了解更多关于《计算机视觉与图形学》相关知识,请关注公众号:

下载我们视频中代码和相关讲义,请在公众号回复:计算机视觉课程资料

内场景布局生成(Indoor Scene Layout Generation)是计算机视觉和人工智能领域的重要研究方向,尤其在内设计、增强现实、机器人导航等应用场景中具有重要意义。近年来,随着大规模语言模型(LLM)的发展,基于LLM驱动的场景生成方法逐渐成为研究热点。该方法结合了自然语言理解和空间推理能力,能够根据文本描述或用户偏好生成符合语义和空间逻辑的内布局。 在基于大规模人类对齐数据合成(scaled human-aligned data synthesis)的方法中,研究人员通常利用大量真实场景数据或人工标注数据,构建具有语义一致性的训练集。这些数据集不仅包含物体的位置、尺寸和类别信息,还包含人类对场景合理性的判断,从而提升模型对人类偏好的理解能力[^1]。此外,通过合成数据增强技术,可以进一步扩展训练样本的多样性,提高模型泛化能力。 多阶段偏好优化(multi-stage preference optimization)则是在模型训练和推理过程中引入多个优化阶段,逐步提升生成布局的质量。例如,在初始阶段,模型可能基于语言描述生成粗略的布局;在后续阶段,结合用户反馈或预设偏好(如风格、功能分区等),对布局进行精细化调整。这种方法通常采用强化学习或对比学习策略,以优化布局的视觉合理性、功能性和用户满意度[^2]。 一种典型的实现方式是将语言模型与场景图(scene graph)生成结合,首先解析输入文本生成对象关系图,然后通过图神经网络(GNN)或Transformer结构生成3D布局。此外,一些研究引入对抗生成网络(GAN)或扩散模型(Diffusion Models)来提高生成质量,并结合偏好模型(Preference Model)进行排序和优化[^3]。 以下是一个简化版的基于LLM和图结构生成内布局的伪代码示例: ```python # 基于LLM解析输入文本并生成场景图 def generate_scene_graph(text_description): # 使用LLM解析文本描述,提取对象及其关系 scene_graph = llm.parse(text_description) return scene_graph # 基于场景图生成布局 def generate_layout(scene_graph): # 使用图神经网络预测对象位置和方向 layout = gnn_model.predict(scene_graph) return layout # 多阶段优化:结合用户偏好调整布局 def optimize_layout(layout, user_preferences): # 使用强化学习或对比学习优化布局 optimized_layout = rl_optimizer.optimize(layout, user_preferences) return optimized_layout # 整体流程 text_input = "A living room with a sofa, coffee table, and TV." scene_graph = generate_scene_graph(text_input) layout = generate_layout(scene_graph) final_layout = optimize_layout(layout, user_preferences) ``` 该方法在多个基准数据集(如3D-FRONT、ScanNet)上取得了良好的实验结果,并在人机交互评估中展现出优于传统方法的表现[^4]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值