AI 观察：生成式视频腾飞

最新推荐文章于 2025-12-01 19:45:15 发布

转载最新推荐文章于 2025-12-01 19:45:15 发布 · 629 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ3NzE2Mw==&mid=2247485999&idx=2&sn=864a9b908898cab6720f2512b1fd2279&chksm=e89dac8847edd96a7b29839f1edc2d976c9e6b60182719092c2df11c8915a79f38cb86ce4ef0&scene=126&sessionid=0

文章标签：

#人工智能 #音视频 #计算机视觉

视频生成在大量强大的模型中蓬勃发展。

发生了什么：大大小小的公司都推出了新的或更新的文本转视频生成器。一些公司增加了图像转视频和/或视频转视频功能。虽然大多数模型专注于生成电影剪辑，但有些模型专门为社交媒体制作视频。

故事发展：即使最近人工智能发展速度惊人，过去一年的视频生成器也以惊人的速度成熟。几乎每个主要模型都能生成令人信服、细节丰富的场景，既逼真又奇幻，同时提高了图像分辨率、速度、输出长度和用户控制输出的能力。

• OpenAI Sora 在年初设定了一个高标准。它于 2 月推出并私下向好莱坞创作者展示，尽管只对特定用户开放，但仍引起了巨大的轰动。未经授权的用户在 11 月获得了访问权限，OpenAI 于次月推出了该模型。Sora 建立在扩散变压器上，可生成长达 1 分钟的一致（有点梦幻般的）场景。

• Runway Gen 3 Alpha 和 Gen 3 Alpha Turbo 在其前身的基础上进行了改进，可以生成更高分辨率的视频（分辨率高达 1,280x768 像素），并引入了 API。Runway 与电影制片厂 Lionsgate 达成协议，后者将使用在其档案上经过微调的自定义版本来实现视觉效果和预览。

• Adobe 对其 Firefly Video 模型采取了不同的方法。除了提供 Web 应用程序外，该公司还将该模型直接整合到其最畅销的 Adobe Premiere Pro 视频编辑套件中。通过集成，视频艺术家可以生成剪辑、扩展或增强现有剪辑，并在程序中添加效果。

• Meta 推出了 Movie Gen，这是一套由四个系统组成的套件。虽然其视频输出可与竞争对手相媲美，但它尤其以生成音轨的能力而脱颖而出。一个系统可以生成与视频相匹配的音效和音乐。另一个系统专门制作角色面部保持一致的视频，还有一个系统执行视频到视频的更改。 Movie Gen 将于 2025 年在 Instagram 上推出。

• 中国的模型构建者为制作社交媒体量身定制了他们的模型。Kling AI 强调制作 TikTok 和 Instagram Reels。PixVerse 和 Jimeng AI 同样推出了专为社交媒体用户设计的视频生成器。10 月，TikTok 的母公司字节跳动增加了两个视频生成模型 PixelDance 和 Seaweed，分别制作 10 秒和 30 秒的短片。

新闻背后：视频生成已经重塑了电影行业。2 月，在看过 Sora 的预告片后，美国电影制片人 Tyler Perry 停止了其制作工作室的扩张计划，他认为几年内，人工智能视频可能会让传统工作室破产。《The Late Show with Stephen Colbert》的视频图形团队成员使用 Runway 的技术为传统数字视频添加特效，将编辑时间从几小时缩短到几分钟。

现状：视频生成在 2024 年取得了长足进步，但仍有很大的改进空间。由于大多数模型一次只能生成少量帧，因此它们很难跟踪物理和几何形状，也很难随着时间的推移生成一致的角色和场景。保持帧间一致性的计算需求意味着生成的剪辑很短。即使是短输出也需要大量时间和资源来生成：Sora 可能需要 10 到 20 分钟才能渲染短至 3 秒的剪辑。OpenAI 和 Runway 发布了更快的版本——Sora Turbo 和 Gen-3 Alpha Turbo——来应对这一挑战。

（本文系翻译，内容来自DeepLearning.AI，文章内容不代表本号立场）

觉得文章不错，顺手点个“点赞”、“在看”或转发给朋友们吧。