Constrained Graphic Layout Generation via Latent Optimization(2021)

本文介绍了一种新的图形布局生成方法,通过潜在优化在现有深度学习模型的潜在空间内执行约束,以生成符合设计语义的布局。方法将布局生成转化为一个优化问题,能处理用户隐式或明确指定的约束,如元素对齐和避免重叠。实验表明,该方法在无约束和有约束任务中均表现出色,且仅需单个预训练模型就能适应多种约束。

[Paper] Constrained Graphic Layout Generation via Latent Optimization
[Code] ktrk115/const_layout

通过潜在优化生成约束图形布局
在这里插入图片描述

摘要

在平面设计中,人类根据设计意图和语义在视觉上排列各种元素是很常见的。例如,标题文本几乎总是出现在文档中其他元素的顶部。在这项工作中,我们生成的图形布局可以灵活地结合这种设计语义,无论是由用户隐式指定还是明确指定。我们使用现成的布局生成模型的潜在空间进行优化,允许我们的方法与现有的布局生成模型互补并使用。我们的方法建立在基于 Transformer 架构的生成布局模型上,并将布局生成公式化为一个约束优化问题,其中设计约束用于元素对齐、避免重叠或任何其他用户指定的关系。我们在实验中表明,我们的方法能够使用单个模型在受约束和不受约束的生成任务中生成逼真的布局。

CCS 概念

  • 以人为本的计算→交互设计过程和方法;
  • 应用计算 → 计算机辅助设计。

介绍

视觉媒体内容使用设计布局进行组织,以促进信息的传达。设计布局包括要显示的元素的大小和位置的排列,是平面设计的关键部分。通常,文章以文本标题开头,然后是标题和正文,通常按从上到下的顺序排列。移动用户界面以给定的显示分辨率和流畅的布局清晰地排列导航、图像、文本或按钮。元素的语义关系、优先级和阅读顺序是由平面设计师在考虑设计的整体视觉美感的同时谨慎决定的。缺乏经验的设计师经常面临制作高质量演示文稿的困难,同时传达指定的信息并保持基本的设计考虑,例如对齐或重叠。设计约束可以是内部的,源自个人的设计经验和偏好,也可以是外部的,例如视觉媒体法规和客户要求。自动搜索合理的布局候选,例如我们在本文中提出的,可以极大地帮助设计过程。

在计算机图形社区 [23, 24] 中,已经进行了几次尝试来自动生成图形布局。最近的研究 [1, 12, 17] 使用无约束的深度生成模型表明能够生成合理的布局,这要归功于设计示例的大规模数据集。一些工作明确引入了设计约束,例如通过额外的损失或调节来避免对齐或重叠 [16, 18]。然而,在学习目标中集成约束的一个缺点是,当出现用户希望合并的新约束时,模型必须适应新条件或新损失。相反,我们选择在生成模型的潜在空间中执行优化,以补充并允许使用现有的现成模型。

在这项工作中,我们提出了一个新的框架,我们称之为通过潜在优化生成约束布局 (CLG-LO),它将约束布局生成定义为模型潜在空间中的约束优化问题。所提出的框架的概述如图 1 所示。在我们的方法中,我们使用在无约束设置和模型用户规范中训练的生成对抗网络 (GAN) 作为约束优化程序。我们使用迭代算法优化无约束模型的潜在代码,以找到满足指定约束的布局。我们的框架允许用户使用单个预训练的 GAN,并根据需要将各种约束合并到布局生成中,从而消除了重新训练模型的计算成本高昂的需求。

尽管我们的方法可以与现成的生成布局模型一起使用,但除了 CLG-LO 框架之外,我们还提出了一个基于 Transformer [32] 的布局 GAN 模型,我们将其命名为 LayoutGAN++。生成器和判别器中的 Transformers 都可以很好地捕获元素之间的关系。借助辅助布局重建[19]对鉴别器的表示学习的帮助,LayoutGAN++显着提高了LayoutGAN [17]在无约束布局生成方面的性能。

我们使用三个图形布局的公共数据集验证了我们提出的方法。我们设计了两个类似于实际用例的约束生成设置。在无约束的生成任务中,LayoutGAN++ 获得了与现有方法相当或更好的结果。使用 LayoutGAN++ 作为后端模型,CLG-LO 在约束生成任务中显示出显着的改进。

我们将我们的贡献总结如下:

  • 通过优化潜在代码来生成满足给定约束的布局的框架。
  • 一种用于布局 GAN 的架构和方法,可实现稳定的训练和生成高质量的布局。
  • 使用公共数据集进行无约束和约束布局生成的广泛实验和最先进的结果。

相关工作

布局生成

有几项关于生成布局的研究,无论是否有用户规范。经典优化方法 [23, 24] 手动设计具有大量约束的能量函数,布局应满足这些约束。最近的工作利用神经网络来学习布局的生成模型。LayoutVAE 训练了两种类型的变分自动编码器 (VAE) 来生成给定标签集的边界框 [12]。LayoutGAN 通过使用线框渲染器来训练关系生成器,该渲染器对边界框进行光栅化,并允许使用基于像素的鉴别器进行训练 [17]。后来,LayoutGAN 被扩展为包括属性条件[18]。郑等人[37] 报告了一个以给定图像、关键字和属性为条件的光栅布局生成器。READ [27] 训练了一个分层自动编码器来生成文档布局结构。李等人[16] 提出了基于图的网络,称为神经设计网络 (NDN),它从部分用户规范中明确推断元素关系。最近,Gupta 等人[8] 描述了一个基于 Transformer 的模型来生成各个领域的布局。此外,Arroyo 等人 [1] 报告了一个 VAE 模型,该模型使用自注意力网络生成布局。除了平面设计布局外,还研究了生成室内场景布局[10,29,35]。

我们的工作同时考虑了无约束的生成 [1, 8] 和约束的生成 [16, 18]。我们基于 LayoutGAN [17] 构建不受约束的布局生成器,并将用户布局规范作为约束应用于学习生成器。与 NDN [16] 不同,我们只需要一个模型来生成约束布局。

潜在空间开发

随着使用深度生成模型 [13, 14] 在图像合成方面的最新进展,许多利用潜在空间的研究都是在图像领域进行的。在实际图像编辑中,主流研究涉及将目标图像投影到潜在空间中,并在学习的流形上使用用户输入执行非平凡的图像编辑 [2, 39, 40]。潘等人[25] 还使用了 GAN 学习到的自然图像先验,并以统一的方式将它们应用于各种图像恢复任务,例如修复和着色。梅农等人[21] 搜索高分辨率人脸照片的潜在空间,实现低质量照片的超分辨率。

深度生成模型中潜在变量的利用在非图像领域的研究较少。Umetani [31] 提出了一种交互式界面,该界面使用学习的自动编码器通过调整潜在变量来查找 3D 模型的形状。施鲁姆等人[30] 提出了一个由交互式进化搜索和直接操纵潜在变量组成的界面,用于游戏关卡设计。邱等人[5] 提出了一种使用学习生成模型以人类在环方式有效探索潜在空间的方法,并在生成图像、声音和 3D 模型的任务中对其进行了验证。

我们的布局生成方法共享潜在空间探索的概念,并且我们寻求找到布局的潜在表示,以使生成的布局满足用户指定的约束。

方法

我们的目标是从用户指定的一组元素标签和约束中生成语义上合理且高质量的设计布局。我们首先训练了一个无约束的布局生成模型,称为 LayoutGAN++,然后将该模型用于约束生成任务。

LayoutGAN++

在无约束生成中,我们采用一组元素并为每个元素分配大小和位置。我们遵循 LayoutGAN [17] 并在下面制定我们的模型,我们将其称为 LayoutGAN++。形式上,我们的生成器 𝐺 : ( 𝑍 , 𝐿 ) ↦ 𝐵 𝐺 : (𝑍, 𝐿) ↦ 𝐵 G:(Z,L)B 采用一组随机生成的代码 𝑍 = { z 𝑖 } 𝑖 = 1 𝑁 𝑍 = \{z_𝑖 \}^𝑁_{ 𝑖=1} Z={ zi}i=1N 和一组条件标签 𝐿 = { { 𝑙 𝑖 } } 𝑖 = 1 𝑁 𝐿 = \{\{𝑙_𝑖 \}\}^𝑁_{𝑖=1} L={ { li}}i=1N 作为输入 , 并输出一组边界框 𝐵 = { b 𝑖 } 𝑖 = 1 𝑁 𝐵 = \{b_𝑖 \}^𝑁_{𝑖=1} B={ bi}i=1N ,其中 b 𝑖 ∈ [ 0 , 1 ] 4 b_𝑖 ∈ [0, 1]^4 bi[0,1]4 表示元素在归一化坐标中的位置和大小。 𝑁 𝑁 N 是布局中元素的数量, 𝑍 、 𝐿 𝑍、𝐿 ZL 𝐵 𝐵 B 中的下标 𝑖 𝑖 i 指的是相同的第 𝑖 𝑖 i 元素。标签 𝑙 𝑙 l的定义取决于数据集; 例如,PubLayNet 数据集中的文本或表格元素。我们的鉴别器 𝐷 : ( 𝐵 , 𝐿 ) ↦ 𝑟 ∈ [ 0 , 1 ] 𝐷 : (𝐵, 𝐿) ↦ 𝑟 ∈ [0, 1] D:(B,L)r[0,1] 将生成的边界框 𝐵 𝐵 B 和条件标签 𝐿 𝐿 L 作为输入,并输出一个量化布局真实性的标量值,并尝试重建 给定内部表示的边界框。我们在图 2 中展示了我们模型的整体架构。

在这里插入图片描述

Generator

我们的生成器由以下部分组成:
在这里插入图片描述
其中 𝑓 e n c 𝑓_{enc}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值