图片速览 AI动漫创作平台 To Infinity and Beyond: SHOW-1 and Showrunner Agents in Multi-Agent Simulations

  • 在这项工作中,我们展示了我们生成高质量剧集内容的方法,该方法结合了大型语言模型(LLMs)、定制的最先进扩散模型,以及用于语境化、故事推进和行为控制的多智能体模拟。强大的语言模型(如 GPT-4)在大量电视剧数据上进行了训练,这使我们相信,只要有合适的引导,用户将能够重写整整一季的剧情。“这就是未来娱乐的模样。也许人们至今仍对《权力的游戏》最后一季感到不满。想象一下,如果你能让你的人工智能重新编一个不同结局,甚至还能把你自己设定成主角之类的角色。”
    在这里插入图片描述

1 Creative limitations of existing generative AI Systems

  • 当前的生成式人工智能系统,如 Stable Diffusion(图像生成器)和 ChatGPT(大型语言模型),在通过提示工程完成短期的通用任务方面表现出色。然而,它们并不能为用户或自动化的生成型故事系统(即“节目统筹者”)提供语境引导或创作意图,而这些在长期的创作过程中往往是至关重要的,特别是在已有知识产权(IP)的背景下,创作高质量作品时尤为重要。

1.1 Living with uncertainty

  • 通过在创作过程中引入多智能体模拟,我们可以利用诸如角色的背景、目标和情绪,模拟中的事件和地点等数据点,更连贯且一致地生成符合 IP 故事世界的场景和图像素材。基于 IP 的模拟还为用户提供了一个清晰、广为人知的语境,使他们更容易判断生成的故事内容。此外,允许用户对智能体行为进行控制、观察其行动并参与互动对话,有助于形成用户的期望和意图,而我们则将这些意图转化为一个简洁的提示语,用以启动生成过程。
  • 我们的模拟系统具有足够的复杂性和非确定性,从而有利于实现“积极的违背预期”(positive disconfirmation)效果。放大效应(amplification effects)有助于缓解我们所认为的一种不良现象,即“老虎机效应”(slot machine effect),我们稍后会简要提及这一点。人们习惯于被动观看剧集,并且从输入到“场景/剧集结束”的时间跨度较长,这会抑制用户立即做出判断的倾向,从而减少他们“重试”的欲望。这种用户投入的最小提示(prompt)与最终产出的高质量长篇内容(如一整集剧集)之间的不对称性,是实现积极违背预期效果的关键因素。
  • 在创作过程中使用并提示大型语言模型可能会带来“若干挑战”4。其中一些问题,例如幻觉(hallucinations)所带来的不确定性,或者用更具创意的说法是“意外性”,可以被视为有助于推动预期故事走向积极变化的创意副产物。只要这些由幻觉引入的随机性不会导致情节或角色行为的不合理,而且系统能够自我修复,它们就可以被视为“美丽的意外”5 —— 这是创作过程中常用的一个术语,能够进一步提升用户体验。
    在这里插入图片描述

1.2 The Issue of ‘The Slot Machine Effect’ in current Generative AI tools

  • “老虎机效应”指的是一种情境,其中由 AI 生成的内容更像是一场随机的碰运气游戏,而不是一个有意图的创作过程6。这种感觉源于生成过程通常具有不可预测性和瞬时性的特点。
  • 当前市面上的生成式 AI 系统,并不支持或鼓励围绕长期创意目标进行多步骤的创作评估过程。它们的界面通常提供各种设置,比如滑块和输入字段,以增加控制力度和生成内容的多样性。然而,最终的内容往往是通过点击一个按钮几乎瞬间生成的。这种即时生成过程会带来即时满足感,为用户带来多巴胺冲击。这种奖励机制本应有助于维持一个长期的、多步骤的创作过程,但由于当前界面的设计、奖励出现的频率以及缺乏明确的进展路径(用户可能陷入无限重复循环),反而可能带来负面影响,例如挫败感、意图与行动之间的落差7,以及对创作过程的控制感丧失。这种“意图-行动差距”源于人类行为上的偏好——倾向于追求即时满足,这可能对实现长期创作目标产生不利影响。
  • 虽然我们并未直接通过界面设计来解决这些问题,但通过在模拟环境中对创作过程进行语境化处理,以及前文提到的“输入与输出之间的不对称性和时间跨度”,有助于缓解这些问题。此外,我们还看到了在模拟中引入“角色内判别器”(in-character discriminators)的机会——这些智能体可以参与创意评估过程,例如由一个角色反思自己所被赋予的角色身份,或者对其即将参与表演的场景进行反馈,从而增强整体的创作连贯性与深度。
  • 生成型故事系统的多步骤“试错”过程并不会直接呈现给用户,因此用户无法干预或进行即时判断,这避免了用户通过“接受或拒绝”决策所带来的即时满足感的负面影响。对用户体验来说,AI 系统需要尝试多少次不同的提示链并不重要,只要生成过程不会被用户视为空闲等待时间,而是能够与模拟游戏玩法无缝结合即可。用户仅在观看完生成的场景或剧集后,才作为最终的判别者进行评价。这也为利用“通过人类反馈的强化学习”(Reinforcement Learning through Human Feedback,简称 RLHF)提升多步骤创作过程,以及自动生成剧集质量,提供了良好契机。

1.3 Large Language Models

  • 大型语言模型(LLMs)代表了自然语言处理和机器学习研究的前沿,展现出卓越的理解和生成类人文本的能力。它们通常基于Transformer架构——一种依赖自注意力机制(self-attention)9的模型类别。Transformer架构能够高效利用计算资源,从而支持训练规模更大、参数更多的语言模型。例如,GPT-4拥有数十亿个参数,经过大量数据集的训练,模型权重中有效地编码了大量的世界知识。
  • 大型语言模型(LLMs)运作的核心概念是向量嵌入(vector embeddings)。向量嵌入是将单词或短语在高维空间中的数学表示,这些表示能够捕捉单词之间的语义关系,使得含义相近的词在嵌入空间中彼此靠近。对于大型语言模型来说,词汇表中的每个单词最初都被表示为一个密集向量,也称为嵌入向量。随着训练过程的进行,这些向量会不断调整,其最终值——“嵌入”——代表了单词之间学得的关系。在训练过程中,模型通过调整嵌入向量和其他参数,来最小化预测词与真实词之间的差异,从而学会预测句子中的下一个词。这使得嵌入向量反映了模型对单词及其上下文的理解。此外,由于 Transformer 架构能够关注句子中任意位置的词语,模型能够形成对句子意义更全面的理解。这相比旧模型只能在有限窗口内考虑词语的做法,是一大进步。向量嵌入与基于 Transformer 的架构结合,使得大型语言模型能够实现对语言的深层次、细致入微的理解,这也正是它们能够生成高质量、类人文本的关键所在。
  • 如前所述,基于 Transformer 的语言模型在短期的通用任务中表现出色,被认为是“快速思考者”[Kahneman]12。快速思考指的是本能的、自动的、通常基于启发式的决策过程,而慢速思考则涉及有意识的、分析性的、费力的思维过程。大型语言模型能够基于训练数据中学到的模式迅速生成回答,但它们缺乏内省能力,也无法理解其输出背后的逻辑。然而,这也意味着大型语言模型无法像慢速思考的主体(如人类)那样进行深度推理、仔细思考或从单一经验中学习13。虽然这些模型在文本生成任务中取得了显著进展,但它们的快速思考特性可能限制了它们在需要深刻理解或灵活推理的任务中的潜力。近期一些模仿慢速思考能力的方法,如提示链(prompt-chaining,见 Auto-GPT),展现了良好的效果。大型语言模型似乎足够强大,可以在多步骤过程中充当自身的判别者,这能够显著提升它们在不同语境下的推理能力,例如解决数学问题14
  • 我们大量使用 GPT-4 来影响模拟中的智能体行为,同时生成《南方公园》剧集的场景。由于大部分《南方公园》剧集的转录文本已包含在 GPT-4 的训练数据集中,模型对角色个性、说话风格以及整部剧的整体幽默感已有较好的理解,因此无需专门进行定制微调模型
  • 然而,我们确实在多步骤创作过程中模拟慢速思考。为此,我们使用不同的提示链/思维链(prompt chains)来比较和评估不同场景的事件,以及它们如何推动整体故事向一个令人满意且符合知识产权(IP)设定的结果发展。我们尝试通过提示链生成剧集,正是因为故事生成属于高度不连续的任务15。这类任务的内容生成无法通过渐进或连续的方式完成,而是需要某种“顿悟”式的灵感——一种在解决任务过程中实现飞跃式进展的关键想法。内容生成涉及发现或创造一种全新的视角或问题框架,从而促使剩余内容得以生成。不连续任务的例子包括:需要创新或创造性地应用公式来解决数学问题,编写笑话或谜语,提出科学假说或哲学论证,或者创造新的写作体裁或风格。

1.4 Diffusion Models

  • 扩散模型的原理是通过逐步向数据中添加或去除随机噪声来生成或重建输出。图像从一开始的随机噪声状态,经过多次迭代逐渐转变为一个连贯的画面,反之亦然。
  • 为了训练我们的定制扩散模型,我们收集了一个全面的数据集,包含大约1200个人物形象和600张《南方公园》电视剧的背景图片。这个数据集作为原始素材,使我们的模型能够学习该剧的风格。
  • 为了训练这些模型,我们采用了 Dream Booth 方法16。这一训练阶段的结果是创建了两个专门的扩散模型。
  • 第一个模型专注于生成单个角色,背景为可调节的纯色。这便于后续对生成角色进行提取和处理与动画制作,使我们能够将新生成的角色无缝地整合到各种场景和环境中。
    在这里插入图片描述
  • 此外,角色扩散模型还允许用户通过 Stable Diffusion 的图像到图像(image-to-image)过程,基于自己的外貌创建一个《南方公园》角色,并以同等身份加入模拟,成为参与的智能体。结合克隆用户自身声音的能力,我们很容易想象一个完全自主的角色,其外貌、写作风格和声音均基于用户的特征而打造。
  • 第二个模型专门训练用于生成干净的背景,特别关注室外和室内环境。该模型提供了一个“舞台”,供我们生成的角色进行互动,从而能够创造出各种丰富多样的场景和情境。

在这里插入图片描述

  • 然而,需要注意的是,由于输出本质上是基于像素的,这些模型生成的图像在分辨率上存在一定的限制。为了解决这一问题,我们对生成的图像进行后处理,采用 AI 超分辨率技术,具体使用的是 R-ESRGAN-4x±Anime6B,该方法能够优化并提升图像质量。

  • 对于未来的二维交互式作品,训练能够生成矢量图输出的定制 Transformer 模型将具有多项优势。与像素图像不同,矢量图在缩放或放大时不会损失质量,因此具备实现“无限分辨率”的潜力。这将使我们能够生成在任何缩放尺度下都能保持高质量和细节的图像。此外,矢量图形的各个形状本身就是分离的部分,从而解决了像素图在后处理时遇到的透明度和分割问题,这些问题通常会妨碍生成素材在程序化世界构建和动画系统中的整合。

在这里插入图片描述

2 Episode Generation

  • 为了生成一整集《南方公园》剧集,我们会以一个高层次的创意来提示故事系统,通常以标题、简介以及我们希望在模拟时间一周内发生的主要事件的形式呈现(相当于约 3 小时的模拟游戏时间)。
  • 在此基础上,故事系统会借助模拟数据,通过提示链(prompt chain)自动推演出多达 14 个场景。**节目统筹系统(showrunner)**负责为每个场景分配角色,并决定故事应如何按照某种情节模式推进。每个场景都会被关联一个情节标识字母(例如 A、B、C),节目统筹系统通过这些标识在不同角色小组之间进行切换,跟随各自的故事线推进,从而在整集剧集中维持观众(用户)的兴趣与参与感。

在这里插入图片描述

  • 最终,每个场景只需定义地点角色阵容以及每位角色的对话内容。在舞台布置系统AI 摄像系统完成初始设置后,场景将按照特定的情节模式(例如 ABABC)进行播放。每个角色的声音事先已被克隆,并且每句新的对话语音都是实时生成的语音片段。

2.1 Reducing Latency

  • 在我们的实验中,生成一个单独的场景可能会花费相当多的时间,最长可达 一分钟。下表展示了 GPT-3.5-turboGPT-4 在响应时间上的对比。随着模型和服务基础设施的不断优化,以及由于用户需求过高所导致的 人工限速(artificial throttling) 等因素被逐步消除,生成速度将在短期内得到提升

  • 由于我们是在游戏过程中实时生成剧集,因此可以通过一些方式将大部分生成时间“隐藏”在用户仍在与模拟系统或其他界面互动的时刻,从而避免打断体验。另一种减少生成场景或整集所需时间的方法是:在提示链中某些对质量和准确性要求不那么高的环节,使用更快速的模型(例如 GPT-3.5-turbo)来替代更慢但更强大的模型。这样可以在保证整体效果的同时提升生成效率。
    在这里插入图片描述

  • 在场景播放过程中,我们通过一个简单的缓冲系统来避免与音频生成相关的对话间不必要的停顿。详见图 11。具体而言,当一位角色正在播放语音片段时,我们会提前发起下一句语音的网络请求,等待生成,下载音频文件,并在当前角色完成发言之前完成这一系列操作。这样,下一句对话的语音片段总能无延迟播放。随着文本生成和语音克隆服务的速度不断提升,这种方式能够实现高度自适应、近乎实时的语音对话体验

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/db2300e4331d4b8a8da1bc06e2c7a7e1.pngv

  • 通过一系列相关提示(prompts)的连续调用,模型可以模拟出一种连续的思考过程。在这个过程中,它有时会在每一步中扮演不同的角色,对前一个提示和生成结果进行判别和评估,从而形成一种自我反馈、自我修正的能力。

在这里插入图片描述

  • 在我们的案例中,我们尝试模拟一种不连续的创造性思维过程。例如,生成14个独立的《南方公园》场景,最初会通过一个宽泛的提示来概述整体叙事,然后通过具体的提示对每个场景的角色阵容、地点和关键情节点进行细化和评估。这种方法模仿了人类头脑风暴的过程,即在多个常常不连续的步骤中,逐步构建和完善创意。通过结合大型语言模型的生成能力与提示链(prompt-chaining)带来的迭代精炼,我们能够高效地构建出一个动态、细致且引人入胜的叙事内容。
  • 此外,我们还探索了剧情模式(plot patterns)和戏剧操作符(dramatic operators,简称 DrOps)等新概念,以整体提升剧集结构,同时强化各场景之间的连接。诸如情节反转、伏笔和悬念等风格手法,作为提示链的一部分难以有效评估。而没有写作背景的用户同样难以判断这些风格手法的效果及其合理位置。为此,我们提出了一种程序化的方法,将这些特定剧集的模式和风格手法以剧情模式和戏剧操作符的形式,编入提示链程序中,作用于剧幕结构、场景结构乃至单句对话层面。我们正在研究未来的可能性,提取所谓的“戏剧指纹”(dramatic fingerprint),这一指纹对每个知识产权(IP)和格式都是特定的,并基于这些数据训练定制的 SHOW-1 模型。结合整体的人类反馈,这一数据集有望进一步协调用户与指定 IP 之间的语调、风格和娱乐价值,同时为持续进行的模拟系统提供一个高度自适应且互动性强的故事生成平台。

2.3 Blank Page Problem

  • 如前所述,模拟系统的一个优势是通过提供创意“燃料”22,避免了用户和大型语言模型都可能遇到的“空白页”难题。即使是有经验的作家,有时在没有任何相关素材预热的情况下,被要求想出标题或故事创意时也会感到压力重重。大型语言模型同样如此。模拟系统在开始创作提示链之前,提供了丰富的语境和数据点,为创作过程打下坚实基础。
    在这里插入图片描述
    在这里插入图片描述

2.4 Who is driving the story

  • 在我们的方法中,故事生成过程是由模拟系统、用户和 GPT-4 共同承担的。三者各有优势与不足,并根据我们希望他们参与整体创作过程的程度,扮演独特的角色,贡献的比重也有所不同。通常,模拟系统提供基于知识产权(IP)的基础语境,包括角色背景、情感、事件和地点,为初始创作过程奠定基础。用户则引入自身的意图,行使对智能体的行为控制,并提供启动生成过程的初始提示。同时,用户也是最终的判别者,负责在过程结束时评估生成的故事内容。而 GPT-4 则作为主要的生成引擎,基于来自用户和模拟系统的提示,创造并推演场景和对话。这是一个共生的过程,各参与者的优势共同促成一个连贯且引人入胜的故事。值得强调的是,我们采用的多步骤提示链(prompt-chain)方法,也提供了制衡机制,减少不必要的随机性,使生成内容更稳定地与 IP 故事世界保持一致。

2.5 SHOW-1 and Intentionality

  • 节目的公式(创意特征)和格式(技术特征)通常是现实世界限制和制作流程的产物。即使经过多季的演变,这些特征通常也不会发生太大变化(例如《南方公园》目前已有26季、325集)23

  • 一个剧集的“戏剧指纹”,用于训练我们提出的 SHOW-1 模型,可以被视为一个高度可变的模板或“公式”,用于程序化生成类似《南方公园》风格的剧集。

  • 为了训练像 SHOW-1 这样的模型,我们需要收集大量相互关联的数据点来刻画一个剧集。电视剧并非仅由观众看到的最终对白和场景描述组成。现有用于训练大型语言模型的数据集通常只包含最终的剧本,里面有演员阵容、对白,有时还有简短的场景标题,但缺少很多信息,比如时间安排、情绪状态、主题、编剧室讨论的背景以及详细的导演笔记等等。角色的发展和细化也是这一持续过程的重要组成部分。虚构角色拥有个性、背景故事和日常生活,这些帮助创作者塑造不仅仅是单个场景,还有整个季度的故事线。即使在剧集播出期间,角色也会根据观众反馈或创作方向的变化不断演变。通过模拟系统,我们可以持续收集来自用户输入和模拟智能体的数据。随着剧集的创作、精炼和用户评价的积累,我们可以开始训练针对特定剧集的模型,并将其作为一个检查点部署,允许用户继续完善和迭代自己原创的剧集,或者将现有剧集(如《南方公园》)推向原剧组和版权持有人之前未曾设想的方向。举例来说,假设用户生成多集《南方公园》剧集,其中主角之一、以暴脾气著称的卡特曼(Cartman)逐渐变得害羞且天真,而其他角色如巴特斯(Butters)则被调整为更为主导和好斗的性格。随着时间推移,这种与 SHOW-1 模型互动和微调的反馈循环,可以带来对现有剧集的新诠释,更令人兴奋的是,基于用户意图产生全新的原创剧集。要让这一反馈循环既有趣又令人满意,面临的挑战之一是模型训练的频率。一个基于实时模拟数据和用户输入的模型,不应显得僵化或需要昂贵的资源来进行适应,否则它所生成的内容也会显得静态且缺乏响应性。

  • 当一个生成系统能够快速产出大量内容,且用户可以即时甚至同时大量消费这些内容时,就可能出现所谓的“10,000碗燕麦粥”问题24。所有内容开始显得千篇一律,甚至更糟,用户会察觉到重复的模式,从而降低参与度,因为他们期待新生成的剧集和之前的没什么区别,缺乏任何惊喜。

  • 这与可预测的剧情有着显著不同。结合前文提到的复杂生成系统中的“积极幻觉”(positive hallucinations)或“意外之喜”,这种不确定性反而是一种优势。通过在确定性与不确定性之间平衡和变化,能够给用户带来惊喜,从而提升他们的整体参与感。如果用户什么都不期待或无法预测,就不会有令人愉悦的惊喜体验。

  • 我们的工作旨在实现感知上的独特性。通过利用一个持续运行的模拟系统(一个隐藏的生成器)以及每隔约3小时生成一次的22分钟长篇内容,有效缓解了程序化生成器中常见的“燕麦粥问题”。这样一来,用户通常不会在短时间内或同时消费大量内容。这种人为制造的稀缺性、自然的游戏玩法限制以及模拟时间的设定,共同起到了缓解内容同质化的作用。

  • 另一个能让观众在观看剧集时保持投入并使剧集独具特色的因素是创作者的意图性。对于《南方公园》来说,讽刺性的道德主题、扭曲的社会评论、时事热点或名人客串等,都是重要元素。而其他类型的剧集,比如情景喜剧,通常主要通过人物关系的变化(其中一些变化可能永远不会实现)来推动剧情发展,尽管遵循相同的格式和公式,依然能吸引观众持续关注。

  • 用户为了生成高质量剧集而展现出的意图性,是我们内部研究的另一个重点领域。即使没有戏剧写作背景的用户,也应能够提出他们希望在模拟中呈现的故事、主题或主要戏剧性问题9。为了支持这一点,节目统筹系统(showrunner)可以通过分享自身的创作思路来引导用户,给予鼓励性的建议,或者通过提出恰当的问题来激发用户思考。这种方式类似于“反向提示工程”,即用户通过回答问题来参与创作。

  • 在关于意图性的讨论中,仍有一个未解答的问题是:娱乐价值(或整体创意价值)在多大程度上直接归因于在世作者和导演的创作人格。知名大牌通常能够带动票房销售,但观众在欣赏作品时给予的创意认可似乎有所不同。比如观看迪士尼电影,尽管配音演员是否知名并非主要因素,观众仍会因为品牌的积淀和历史而感受到作品的创意品质。

  • 人工智能生成的内容通常被认为质量较低,而且其大量生成的特性进一步降低了其价值。如果迪士尼公开自豪地宣称自己制作了一部完全由 AI 生成的电影,这种认知会发生多大改变尚难以预测。又比如,如果史蒂文·斯皮尔伯格亲自操刀制作了一部 AI 电影,我们推测公众对 AI 生成内容的认可度和感知价值肯定会显著提升。

  • 一种有趣的新方法是让像 SHOW-1 这样的创意 AI 模型具象化,使它们能够在模拟世界之外建立人格形象,并通过社交媒体25或现实世界事件与观众建立关系26。只要 AI 模型仍被视为“黑箱”,且无法以人性化、易于理解的方式分享其创作过程和推理,就像现存的作家和导演那样,它很难获得真正的创意价值认可。不过,目前这更多是人工通用智能(AGI)领域中的哲学性问题。

3 Conclusion

  • 我们采用多智能体模拟和大型语言模型相结合的方法来生成高质量的剧集内容,为当前 AI 系统在创意故事讲述中面临的诸多限制提供了一种新颖且有效的解决方案。通过整合模拟系统、用户与 AI 模型的优势,我们打造了一个丰富、互动且引人入胜的故事体验,且始终与知识产权(IP)故事世界保持一致。我们的方法还有效缓解了传统生成式 AI 系统常见的“老虎机效应”、“燕麦粥问题”以及“空白页问题”等困扰。随着我们不断完善这一方法,有信心进一步提升生成内容的质量、用户体验,以及生成式 AI 系统在故事创作中的创意潜力。

  • 致谢:感谢 Lewis Hackett 在定制 Stable Diffusion 模型训练方面提供的帮助与专业指导。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值