AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort

最新推荐文章于 2025-11-22 00:46:12 发布

UnknownBody

最新推荐文章于 2025-11-22 00:46:12 发布

阅读量342

点赞数 1

CC 4.0 BY-SA版权

文章标签：计算机视觉

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/134552454

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

AutoStory是一个故事可视化系统，使用大型语言模型进行布局规划，并借助文本到图像模型生成高质量、一致性的故事图像。该系统减少了人机交互，通过边界框进行布局，用草图或关键点控制条件提升图像质量，实现人物多视角一致性，无需大量用户输入或预收集数据。实验证明其在故事可视化质量和主题保持方面的优越性。

本文是LLM系列文章，针对《AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort》的翻译。

摘要

故事可视化旨在生成一系列与文本中描述的故事相匹配的图像，它要求生成的图像满足高质量、与文本描述一致以及角色身份的一致性。考虑到故事可视化的复杂性，现有的方法通过只考虑几个特定的角色和场景，或者要求用户提供每个图像的控制条件（如草图），大大简化了问题。然而，这些简化使得这些方法不能用于实际应用。
为此，我们提出了一种自动化的故事可视化系统，该系统可以有效地生成多样化、高质量和一致的故事图像集，而人机交互最少。具体来说，我们利用大型语言模型的理解和规划能力进行布局规划，然后利用大型文本到图像模型基于布局生成复杂的故事图像。我们根据经验发现，稀疏控制条件（如边界框）适用于布局规划，而密集控制条件（例如草图和关键点）适用于生成高质量的图像内容。为了两全其美，我们设计了一个密集条件生成模块，将简单的边界框布局转换为草图或关键点控制条件，用于最终图像生成，这不仅提高了图像质量，还允许简单直观的用户交互。
此外，我们提出了一种简单而有效的方法来生成多视角一致的人物图像，消除了对人力收集或绘制人物图像的依赖。这使得我们的方法即使在只提供文本作为输入的情况下也能获得一致的故事可视化。定性和定量实验证明我们方法的优越性。
项目网页：https://aim-uofa.github.io/AutoStory/