文本转图像AI的快速发展与文本转视频AI的突破
尽管像Dolly这样的文本转图像AI技术仅仅出现不到一年,但人们已经对其产生了“审美疲劳”。这似乎是由于互联网用户对文本转图像AI已经习以为常,而忘记了仅仅两年前,我们无法想象AI能够拥有如此强大的能力。人类对于技术的进步很容易适应,即使是像文本转图像AI这样革命性的技术,也很快被我们接受。
另一方面,文本转视频合成技术的发展似乎被文本转图像AI的光芒所掩盖。这可能是因为文本转图像AI在短时间内取得了惊人的进步,而文本转视频合成技术在生成令人惊叹的体验方面存在不足。
然而,Meta最近发布的一篇名为“Make a Video: Text-to-Video Generation Without Text Video Data”的论文,让文本转视频合成技术有了突破性的进展。与Cogvideo等早期文本转视频AI相比,“Make a Video”具有显著优势,能够像Dolly和Stable Diffusion生成图像一样,使用文本生成视频。
“Make a Video”的突破主要体现在三个方面:
- 文本生成视频: 它能够根据文本描述生成各种视频,包括超现实场景(如泰迪熊画肖像、机器人跳舞)和现实场景(如马喝水、画家作画)。尽管视频是合成的,但其质量已经达到了前所未有的水平。
- 视频变体生成: 与文本转图像AI类似,“Make a Video”可以根据现有视频生成不同变体,例如,根据兔子吃草的视频,生成各种兔子舞蹈的变体。
- 图像生成视频: 它可以根据初始图像生成视频,例如,根据一幅画作或一张帆船照片生成相应的视频。
“Make a Video”的出现,标志着文本转视频合成技术取得了重大进展,也让我们对未来AI技术的发展充满了期待。