随着大型模型技术的持续发展,视频生成技术正逐步走向成熟。以Sora、Gen-3等闭源视频生成模型为代表的技术,正在重新定义行业的未来格局。
而近几个月,国产的AI视频生成模型也是层出不穷,像是快手可灵、字节即梦、智谱清影、Vidu、PixVerse V2 等。
就在近日,智谱AI秉承“以先进技术,服务全球开发者”的理念,宣布将与“清影”同源的视频生成模型——CogVideoX开源,以期让每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型,从而推动整个行业的快速迭代与创新发展。
CogVideoX是什么?
CogVideoX是智谱AI最新推出的开源AI视频生成模型,与智谱AI的商业产品“清影”同源。
CogVideoX支持英文提示词,能生成6秒长、每秒8帧、分辨率为720*480的视频。模型推理需16—36GB显存,目前不支持量化推理和多卡推理。项目还包括3D Causal VAE组件用于视频重建,以及丰富的示例和工具,包括CLI/WEB Demo、在线体验、API接口示例和微调指南。
CogVideoX-2B的提示词上限为226个token,视频长度为6秒,帧率为8帧/秒,视频分辨率为720*480。现在主流的AI视频,全部都是闭源的,有一个说是开源的Open-Sora,说实话实测下来的效果也是差强人意。而CogVideoX的效果虽然和主流的闭源模型尚存在一些差距,但是总的来讲还是值得使用的。
简单来说,CogVideoX是一个能够将你的文字直接转换成视