本文是LLM系列文章,针对《AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort》的翻译。
摘要
故事可视化旨在生成一系列与文本中描述的故事相匹配的图像,它要求生成的图像满足高质量、与文本描述一致以及角色身份的一致性。考虑到故事可视化的复杂性,现有的方法通过只考虑几个特定的角色和场景,或者要求用户提供每个图像的控制条件(如草图),大大简化了问题。然而,这些简化使得这些方法不能用于实际应用。
为此,我们提出了一种自动化的故事可视化系统,该系统可以有效地生成多样化、高质量和一致的故事图像集,而人机交互最少。具体来说,我们利用大型语言模型的理解和规划能力进行布局规划,然后利用大型文本到图像模型基于布局生成复杂的故事图像。我们根据经验发现,稀疏控制条件(如边界框)适用于布局规划,而密集控制条件(例如草图和关键点)适用于生成高质量的图像内容。为了两全其美,我们设计了一个密集条件生成模块,将简单的边界框布局转换为草图或关键点控制条件,用于最终图像生成,这不仅提高了图像质量,还允许简单直观的用户交互。
此外,我们提出了一种简单而有效的方法来生成多视角一致的人物图像,消除了对人力收集或绘制人物图像的依赖。这