AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort

828 篇文章

已下架不支持订阅

AutoStory是一个故事可视化系统,使用大型语言模型进行布局规划,并借助文本到图像模型生成高质量、一致性的故事图像。该系统减少了人机交互,通过边界框进行布局,用草图或关键点控制条件提升图像质量,实现人物多视角一致性,无需大量用户输入或预收集数据。实验证明其在故事可视化质量和主题保持方面的优越性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort》的翻译。

AutoStory:用最少的人力生成多样化的故事图像

摘要

故事可视化旨在生成一系列与文本中描述的故事相匹配的图像,它要求生成的图像满足高质量、与文本描述一致以及角色身份的一致性。考虑到故事可视化的复杂性,现有的方法通过只考虑几个特定的角色和场景,或者要求用户提供每个图像的控制条件(如草图),大大简化了问题。然而,这些简化使得这些方法不能用于实际应用。
为此,我们提出了一种自动化的故事可视化系统,该系统可以有效地生成多样化、高质量和一致的故事图像集,而人机交互最少。具体来说,我们利用大型语言模型的理解和规划能力进行布局规划,然后利用大型文本到图像模型基于布局生成复杂的故事图像。我们根据经验发现,稀疏控制条件(如边界框)适用于布局规划,而密集控制条件(例如草图和关键点)适用于生成高质量的图像内容。为了两全其美,我们设计了一个密集条件生成模块,将简单的边界框布局转换为草图或关键点控制条件,用于最终图像生成,这不仅提高了图像质量,还允许简单直观的用户交互。
此外,我们提出了一种简单而有效的方法来生成多视角一致的人物图像,消除了对人力收集或绘制人物图像的依赖。这

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值