智谱AI算法工程师带你上手实践CogVideoX 视频生成开源模型

部署运行你感兴趣的模型镜像

关注公众号:青稞AI,第一时间学习最新AI技术
🔥青稞Talk主页:qingkelab.github.io/talks

在这里插入图片描述
CogVideoX是智谱开源的与 清影 同源的开源版本视频生成模型,是一个大规模DiT(diffusion transformer)模型。其主要采用了以下技术:

  • 3D causal VAE:通过压缩视频数据到latent space,并在时间维度上进行解码来实现高效的视频重建。
  • 专家Transformer:将文本embedding和视频embedding相结合,使用3D-RoPE作为位置编码,采用专家自适应层归一化处理两个模态的数据,以及使用3D 全注意力机制来进行时空联合建模。

渐进式训练技术,让 CogVideoX 能够根据文本提示生成具有显著运动特征、连贯且长时间的高质量视频。

在这里插入图片描述

模型名CogVideoX-2BCogVideoX-5B
模型介绍入门级模型,兼顾兼容性。运行,二次开发成本低。视频生成质量更高,视觉效果更好的更大尺寸模型。
推理精度FP16*(推荐), BF16, FP32,FP8*,INT8,不支持INT4BF16(推荐), FP16, FP32,FP8*,INT8,不支持INT4
单GPU显存消耗
SAT FP16: 18GB
diffusers FP16: 4GB起*
diffusers INT8(torchao): 3.6G起*
SAT BF16: 26GB
diffusers BF16 : 5GB起*
diffusers INT8(torchao): 4.4G起*
多GPU推理显存消耗FP16: 10GB* using diffusers
BF16: 15GB* using diffusers
推理速度
(Step = 50)
FP16: ~90* sBF16: ~180* s
微调精度FP16BF16
微调显存消耗(每卡)47 GB (bs=1, LORA)
61 GB (bs=2, LORA)
62GB (bs=1, SFT)
63 GB (bs=1, LORA)
80 GB (bs=2, LORA)
75GB (bs=1, SFT)
提示词语言English*
提示词长度上限226 Tokens
视频长度6 秒
帧率8 帧 / 秒
视频分辨率720 * 480,不支持其他分辨率(含微调)
位置编码3d_sincos_pos_embed3d_rope_pos_embed
Paper:CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
Abs:https://arxiv.org/abs/2408.06072
Code:https://github.com/THUDM/CogVideo

9月23日20点,青稞Talk 第23期,智谱AI算法工程师,CogVideoX作者之一张昱轩,将直播分享《CogVideoX 视频生成开源模型上手实践

Talk 信息

主讲嘉宾

张昱轩,智谱AI算法工程师,CogVideoX作者之一;智谱多个开源仓库的核心贡献者。

主题提纲

CogVideoX 视频生成开源模型上手实践

1、CogVideoX-2B / 5B 模型详解

2、CogVideoX 代码架构解析

3、基于 CogVideoX 的基础调用及微调

4、CogVideoX-2B / 5B 工程适配实践

直播时间

9月23日(周一)19:00-20:00

参与方式

Talk 将在青稞·知识社区上进行,添加【ai_qingke113】对暗号:" 0923 ",报名进群!

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值