自动排版布局-Layout GAN

LayoutGAN布局生成

最新推荐文章于 2025-07-06 02:13:18 发布

原创

最新推荐文章于 2025-07-06 02:13:18 发布 · 2.4k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#生成对抗网络 #深度学习 #人工智能

提出LayoutGAN，一种生成对抗网络，能直接输出一组图形元素布局。适用于平面设计、文档布局及场景生成等多种任务，通过可微分线框渲染层优化布局。

[PDF]LayoutGAN: Generating graphic layouts with wireframe discriminatiors(2019)

文章

摘要

布局对图像设计和场景生成非常重要。我们提出了一种新的生成对抗网络，称为Layout GAN，它通过建模不同类型的2D元素的几何关系来综合布局。Layout GAN的生成器将一组随机放置的2D图形元素作为输入，并使用自我注意力模块来细化它们的标签和几何参数，生成逼真的布局。精确布局对于良好布局至关重要。因此我们提出了一种新的可微线框渲染层，该层将生成的布局映射到线框图像，在此基础上，使用基于CNN的鉴别器来优化图像空间的布局。在MNIST数字生成、文档布局生成、剪贴画抽象场景生成、七巧板图形设计等实验中验证了Layout GAN的有效性。

说明

平面设计是现代世界中一种重要的视觉传达工具，涵盖了书籍封面、杂志布局、网页设计的一切。尽管生成逼真自然图像的方法最近取得了重大进展，特别是生成性对抗网络（GAN）（Karras等人，2018），但用于创建设计的方法要原始的多。这部分是由于难以找到适合学习的数据表示。图形设计通常由基本对象（如多边形、曲线和椭圆）的矢量表示组成，而不是放置在规则网格上的像素。设计的质量和内容取决于元素的存在、它们的属性以及它们与其它元素的关系。设计的视觉感受取决于这些元素的排列；只有几毫米的两个原件的错位会破坏设计。使用传统GAN从设计图像中进行训练，会合成像素空间中的布局，从而混淆布局及其渲染，因此不太可能很好的捕捉布局样式。使用神经网络对这种高度结构化的数据进行建模非常有趣，因为它们通常表示人类关于视觉世界的抽象知识（Zitnick&Parikh，2013；Song等人，2017），以及这些知识如何通过文档和设计表达（Deka等人，2017；Yang等人，2018）。

本文介绍了LayoutGAN，一种新颖的GAN，它直接在设计中合成一组图形元素。在给定的设计问题中，预先指定了一组固定的元素类（例如，“title”、“figure”）。在我们的网络中，每个元素由其类概率和几何参数表示，即边界框关键点。生成器将具有随机采样的类概率和几何参数的图形元素作为输入，并将它们排列在设计中；输出是设计元素的细化类概率和几何参数。生成器具有置换不变的理想特性：如果我们对输入元素重新排序，它将生成相同的布局。

我们针对这种结构化数据提出了两种鉴别器网络。第一个在结构上类似于生成器：它直接根据元素的类概率和几何参数进行操作。虽然有效，但它对元素之间的错位和遮挡不够敏感。第二鉴别器在视觉域中工作。就像人类观察者通过观察光栅化的图像来判断设计一样，通过将不同元素映射到2D布局，可以很好地评估它们之间的关系。然后卷积神经网络（CNN）可以用于布局优化，因为它们专门用于区分视觉模式，包括但不限于未对准和遮挡。然而，关键的挑战是如何将几何参数差异化地映射到像素级布局。一种方法是使用空间变换器网络将图形元素渲染为位图掩码（Jaderberg等人，2015）。但我们发现，设计元素中填充的像素会导致遮挡，并且对反向传播无效，例如，当一个小多边形隐藏在一个大多边形后面时。我们尝试了位图蒙版渲染，但没有成功。在本文中，我们提出了一种新的可微分线框渲染层，该层将图形元素的合成和真实结构数据光栅化为线框图像，在此基础上，可以使用标准CNN来优化视觉和图形领域的布局。线框渲染鉴别器有几个优点。首先，卷积层非常擅长提取图像的空间模式，因此它们对对齐更敏感。第二，渲染的线框使元素即使在重叠时也可见，因此网络可以从推断其他渲染（如遮罩）中可能出现的遮挡中得到缓解。

我们为几个不同的任务评估LayoutGAN，包括对MNIST数字的健全性测试、从标记的边界框生成页面布局、生成剪贴画抽象场景、七巧板图形设计和移动应用程序设计布局。在每种情况下，我们的方法都成功地生成了关于问题域的元素类型及其关系的布局。

总之，LayoutGAN包括以下贡献：1.直接合成结构化数据的生成器，表示为设计中独立于分辨率的标记图形元素集。2.可微分线框渲染层，其允许鉴别器根据离散元素排列判断对齐。

相关工作

结构化数据生成。结构化数据生成。卷积网络已被证明成功地在规则格子中生成数据，如图像(Radford 等，2015) ，视频(Vondrick 等，2016)和3D 卷(Yan 等，2016; Wu 等，2016)。当生成高度结构化的数据(如文本(Donahue 等，2015)和程序(Reed & De Freitas，2015))时，循环网络通常是首选(Sutskever 等，2014) ，特别是配备了注意力(Bahdanau 等，2014)和记忆模块(Graves 等，2014)。最近，研究人员表明，卷积网络也可以用来合成序列(Oord 等，2016; van den Oord 等，2016)使用自回归模型。然而，在许多情况下，一个对象没有顺序(Vinyals et al。，2015) ，而是一组元素，例如点云。Fan 等人(2017)提出了一种从单幅图像合成物体形状的三维点云的点集生成网络。它进一步与自动编码3D 点云的点集分类网络(Charles et al。，2017)配对(Achlioptas et al。，2017)。我们的工作将集合表示扩展到更一般的原始对象，即标记多边形。同时，研究人员还使用图卷积对连接元素的结构化数据进行建模(Kipf & Welling，2017)。

数据驱动图形设计。自动布局是平面设计中的一个经典问题（Hurst等人，2009）。ODonovan等人（2014）通过组合各种启发式视觉线索和设计原则来制定能量函数，以优化单页布局，并将其扩展到交互式工具（O’Donovan等人，2015）。模型参数是从少量示例设计中学习的。Pang等人（2016）针对期望的注视方向优化布局。Deka等人（2017）收集了一个用于利用数据驱动应用程序的移动应用程序设计数据库，并给出了用于设计搜索的像素级纹理/非文本掩码相似性学习的初步结果，但没有从该数据中学习模型。Swearngin等人（2018）提出了一种交互式系统，将示例设计截图转换为矢量图形，供设计师重复使用和编辑。Bylinskii等人（2017）分析了图形设计的视觉重要性，并使用显著性地图作为驱动力来辅助重定目标和缩略图。以前的方法已经学习了其他图形设计元素的模型，例如字体（O’Donovan等人，2014）和颜色（O’Donovan et al.，2011）。这些与布局问题正交，可以在未来的工作中结合起来。以前的方法还没有学会从大型数据集创建设计或布局，以前的工作也没有将GAN应用于布局。

3D场景合成。室内场景合成和家具布局生成引起了图形社区的极大兴趣。由于数据有限，早期方法侧重于优化手工设计原则（Merrell等人，2011）和学习成对对象关系的统计先验（Fisher等人，2012）。Wang等人（2018a）最近提出了一种室内场景合成的顺序决策方法。在每个步骤中，训练CNN通过查看渲染的自上而下视图来预测一个对象的位置或类别。这类似于我们的线框渲染鉴别器，在使用卷积来捕获布局的空间模式的意义上。

Layout GAN

这部分描述我们的数据和模型表示。

设计表示

在我们的模型中，平面设计由一组 $N$ 个原始设计元素 ${（p1，θ1），··，（pN，θN）\}$ 组成。每个元素都有一组几何参数θ和一个类概率向量p。这些变量的条目与问题有关。例如，文档布局包括6个类，例如“标题”和“图片”，而剪贴画布局包括6类，例如，“男孩”和“帽子”。对于二维点集生成（MNIST数字）， $θ \equiv [x ， y]$ ，表示每个点的坐标；对于文档布局中的边界框生成， $θ≡ [x^ L、y^T、x^R、y^B]$ ，表示每个边界框的左上和右下坐标；对于具有缩放和翻转的布局（剪贴抽象场景）， $θ \equiv [x ， y ， s ， l]$ ，表示每个元素的中心坐标、比例和翻转。

结构生成器

在Layout GAN中，Generator是一个以布局为输入的函数 $G (z)$ ，其中 $z＝\{（p_1，θ_1），··，（p_N，θ_N）\}$ ，由具有随机采样几何参数 $θ_i$ 的初始图形元素和随机采样类 $p_i$ 的一个热编码组成。生成器输出精确的布局 $G（z）=\{（p'_1，θ'_1），··，（p'_N，θ'_N）\}$ ，这意味着类似于真实的图形设计。请注意，与 $z$ 表示低维潜在变量的传统GAN不同，我们的 $z$ 表示初始随机图形布局，其结构与实际布局相同。鉴别器学习捕捉不同类型元素之间的几何关系，以便从图形和视觉领域进行布局优化。接下来，我们将详细介绍生成器和鉴别器的设计。
在这里插入图片描述

如图1所示，生成器将分别从均匀分布和高斯分布中采样的具有随机类概率和几何参数的一组图形元素作为输入。由多层感知器网络（实现为多个完全连接的层）组成的编码器首先嵌入每个图形元素的第一类热矢量和几何参数。由Wang等人（2018b）启发实现为自我关注的关系模块随后用于嵌入每个图形元素的特征，作为其空间上下文的函数，即其与设计中所有其他元素的关系。将 $f（p_i，θ_i）$

最低0.47元/天解锁文章