论文不记之《Action-Driven 3D Indoor Scene Evolution》

3D场景进化框架
本文提出了一种基于动作驱动的3D室内场景演化框架,利用标注照片学习动作模型,包括物体摆放、空间配置及人与物的关系,实现场景的动态变化和物体的重新定位。此方法能生成更真实、复杂的场景,与手动创建或数据驱动的方法相比,具有更高的自然性和真实性。

论文主页

标题:Action-Driven 3D Indoor Scene Evolution
作者:Rui Ma, Honghua Li, Changqing Zou, Zicheng Liao, Xin Tong, Hao Zhang
来源:SIGGRAPH Asia 2016
翻译:change_things

摘要

这篇文章目的是介绍一个3D室内场景的动作驱动的演化框架,目标是模拟场景如何被人类的行为改变的过程,特指实现某个动作必要的物体摆放位置。最后,本文开发了一个动作模型,每类动作结合一个或多个人类姿势,一类或多类物体以及物体的空间配置,这些物体属于为某个动作的物-物和物-人关系总结出的物体种类(这一段很长很绕口)。重要的是,所有的信息都是从标注的图片中学到的。通过分析学到的动作之间的关系,可以指导动作图的构建。从初始的三维场景开始,本文根据概率从动作图中采样出一个动作序列用于驱使渐进式的场景演化。每个动作会触发适当的物体放置,这种放置是基于从动作模型中学到的物体共现和空间配置。本文展示了通过这种演化得到的真实且混乱的场景,以及通过用户进行的定量评估,就场景的真实性和自然性而言,与手动制造场景以及数据驱动的方法进行了比较。

主要贡献

1)一种逐步生成场景的方法,一个演变和颗粒的3D场景,和之前的工作相比,在不牺牲可信性和自然性的前提下,本文展示了一个更高复杂性和混乱程度的场景 。

2)从带注释的照片而不是像以前工作一样从3D场景的范例中学习动作。这使我们能够把更丰富的数据源用于动作驱动的场景处理。

3)一个更完整的动作模型,该模型考虑了一组动作,以及多个物体的同时发生和联合放置,允许物体重新定位和插入。

概览

本文首先介绍动作模型和动作图的概念,展示了两阶段学习的概况和场景合成框架,如图所示:

 

 

 

内容概要:本文提出了一种基于融合鱼鹰算法和柯西变异的改进麻雀优化算法(OCSSA),用于优化变分模态分解(VMD)的参数,进而结合卷积神经网络(CNN)与双向长短期忆网络(BiLSTM)构建OCSSA-VMD-CNN-BILSTM模型,实现对轴承故障的高【轴承故障诊断】基于融合鱼鹰和柯西变异的麻雀优化算法OCSSA-VMD-CNN-BILSTM轴承诊断研究【西储大学数据】(Matlab代码实现)精度诊断。研究采用西储大学公开的轴承故障数据集进行实验验证,通过优化VMD的模态数和惩罚因子,有效提升了信号分解的准确性与稳定性,随后利用CNN提取故障特征,BiLSTM捕捉时间序列的深层依赖关系,最终实现故障类型的智能识别。该方法在提升故障诊断精度与鲁棒性方面表现出优越性能。; 适合人群:具备一定信号处理、机器学习基础,从事机械故障诊断、智能运维、工业大数据分析等相关领域的研究生、科研人员及工程技术人员。; 使用场景及目标:①解决传统VMD参数依赖人工经验选取的问题,实现参数自适应优化;②提升复杂工况下滚动轴承早期故障的识别准确率;③为智能制造与预测性维护提供可靠的技术支持。; 阅读建议:建议读者结合Matlab代码实现过程,深入理解OCSSA优化机制、VMD信号分解流程以及CNN-BiLSTM网络架构的设计逻辑,重点关注参数优化与故障分类的联动关系,并可通过更换数据集进一步验证模型泛化能力。
室内场景布局生成(Indoor Scene Layout Generation)是计算机视觉和人工智能领域的重要研究方向,尤其在室内设计、增强现实、机器人导航等应用场景中具有重要意义。近年来,随着大规模语言模型(LLM)的发展,基于LLM驱动的场景生成方法逐渐成为研究热点。该方法结合了自然语言理解和空间推理能力,能够根据文本描述或用户偏好生成符合语义和空间逻辑的室内布局。 在基于大规模人类对齐数据合成(scaled human-aligned data synthesis)的方法中,研究人员通常利用大量真实场景数据或人工标注数据,构建具有语义一致性的训练集。这些数据集仅包含物体的位置、尺寸和类别信息,还包含人类对场景合理性的判断,从而提升模型对人类偏好的理解能力[^1]。此外,通过合成数据增强技术,可以进一步扩展训练样本的多样性,提高模型泛化能力。 多阶段偏好优化(multi-stage preference optimization)则是在模型训练和推理过程中引入多个优化阶段,逐步提升生成布局的质量。例如,在初始阶段,模型可能基于语言描述生成粗略的布局;在后续阶段,结合用户反馈或预设偏好(如风格、功能分区等),对布局进行精细化调整。这种方法通常采用强化学习或对比学习策略,以优化布局的视觉合理性、功能性和用户满意度[^2]。 一种典型的实现方式是将语言模型与场景图(scene graph)生成结合,首先解析输入文本生成对象关系图,然后通过图神经网络(GNN)或Transformer结构生成3D布局。此外,一些研究引入对抗生成网络(GAN)或扩散模型(Diffusion Models)来提高生成质量,并结合偏好模型(Preference Model)进行排序和优化[^3]。 以下是一个简化版的基于LLM和图结构生成室内布局的伪代码示例: ```python # 基于LLM解析输入文本并生成场景图 def generate_scene_graph(text_description): # 使用LLM解析文本描述,提取对象及其关系 scene_graph = llm.parse(text_description) return scene_graph # 基于场景图生成布局 def generate_layout(scene_graph): # 使用图神经网络预测对象位置和方向 layout = gnn_model.predict(scene_graph) return layout # 多阶段优化:结合用户偏好调整布局 def optimize_layout(layout, user_preferences): # 使用强化学习或对比学习优化布局 optimized_layout = rl_optimizer.optimize(layout, user_preferences) return optimized_layout # 整体流程 text_input = "A living room with a sofa, coffee table, and TV." scene_graph = generate_scene_graph(text_input) layout = generate_layout(scene_graph) final_layout = optimize_layout(layout, user_preferences) ``` 该方法在多个基准数据集(如3D-FRONT、ScanNet)上取得了良好的实验结果,并在人机交互评估中展现出优于传统方法的表现[^4]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值