简介 OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经问世或未来将出现的文本转视频模型,是继大型语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。在本博客中,我们将从头开始构建一个小规模的文本转视频模型。我们将输入一个文本提示,我们训练过的模型将根据该提示生成视频。本博客将涵盖从理解理论概念到编码整个架构并生成最终结果的所有内容。 由于我没有高端的 GPU,因此我编写了小规模架构。以下是在不同处理器上训练模型所需时间的比较: 推荐文章 《如何使用 Code Llama 构建您自己的 LLM 编码助手 ,使用 CodeLlama-7b-Instruct-hf 和 Streamlit 创建本地 LLM 聊天机器人》 权重1,编程类,CodeLlama 《赋能知识图谱形成:利用 BERTopic、DataMapPlo