
机器学习
文章平均质量分 94
努力学图像处理的小菜
博1
展开
-
LayoutTransformer: Layout Generation and Completion with Self-attention
我们解决了在各种领域中(如图像、移动应用、文档和3D对象)进行场景布局生成的问题。大多数复杂场景,无论是自然场景还是人工设计的场景,都可以用简单组合的图形基元的有意义排列来表示。生成新的布局或扩展现有布局需要理解这些基元之间的关系。为此,我们提出了LayoutTransformer,这是一个新颖的框架,利用自注意力来学习布局元素之间的上下文关系,并在给定领域中生成新的布局。我们的框架可以从空集或初始种子基元集生成新的布局,并且可以轻松扩展以支持每个布局中的任意数量的基元。原创 2023-06-11 15:52:38 · 1316 阅读 · 0 评论 -
GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures in Text-to-Image Generation
近期,在语言引导图像生成领域取得了令人瞩目的突破,实现了基于用户指令生成高质量和多样化图像。虽然合成效果令人惊叹,但当前图像生成模型的一个重要局限是其在图像中连贯生成文本的能力不足,尤其是对于复杂的字形结构,如中文字符。为了解决这个问题,我们引入了GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型以生成嵌入文本的图像的能力,适用于任何特定语言。原创 2023-05-31 18:26:57 · 443 阅读 · 0 评论 -
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (Paper reading)
我们提出了Imagen,一个文本到图像的扩散模型,具有前所未有的写实主义程度和深度的语言理解。Imagen建立在理解文本的大型变压器语言模型的基础上,并依赖于在高保真图像生成中扩散模型的强度。我们的关键发现是,在纯文本语料库上预训练的通用大型语言模型(例如T5)在编码用于图像合成的文本方面惊人地有效:在Imagen中增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像文本对齐。原创 2023-04-14 00:22:28 · 1482 阅读 · 0 评论 -
Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data (Paper reading)
尽管已经在盲超分辨率方面进行了许多尝试来恢复具有未知和复杂退化的低分辨率图像,但它们仍然远远不能解决一般的真实世界退化图像。在这项工作中,我们将强大的ESRGAN扩展到一个实际的恢复应用程序(即Real ESRGAN),该应用程序使用纯合成数据进行训练。具体而言,引入了高阶退化建模过程,以更好地模拟复杂的现实世界退化。我们还考虑了合成过程中常见的振铃和过冲伪影。此外,我们使用了具有频谱归一化的U-Net鉴别器来提高鉴别器的能力并稳定训练动态。广泛的比较表明,它在各种真实数据集上的视觉性能优于先前的工作。原创 2023-04-13 15:50:38 · 340 阅读 · 0 评论 -
卷积神经网络去噪
这是第一个应用卷积神经网络去噪的模型作者是麻省理工的大佬原创 2020-12-09 15:35:25 · 2204 阅读 · 0 评论