CogVideoX v1.5重磅开源:引领AIGC视频生成技术革新,多模态创作迈入新阶段
【免费下载链接】CogVideoX1.5-5B-SAT 项目地址: https://ai.gitcode.com/zai-org/CogVideoX1.5-5B-SAT
近日,备受行业关注的CogVideoX系列模型迎来重大更新,最新版本CogVideoX v1.5正式对外发布并开源。作为该系列的又一力作,CogVideoX v1.5在视频生成能力、模型性能及应用体验上实现了全面升级,进一步巩固了其在开源视频生成模型领域的领先地位。自今年8月初以来,CogVideoX系列已先后推出2B、5B、5B-I2V等多个版本,凭借出色的性能和易用性赢得了广大开发者的青睐。此次发布的CogVideoX v1.5,旨在为开发者和创作者提供更强大、更灵活的视频生成工具。
CogVideoX v1.5版本在原有基础上进行了多项关键改进,显著提升了视频生成的质量和效率。该版本包含两个核心模型:CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V。其中,基础视频生成模型支持生成5秒或10秒时长、分辨率高达768P、包含16帧的视频内容;而图生视频(I2V)模型则实现了对任意尺寸比例图片的支持,大幅提升了从图片到视频的生成质量,并强化了对复杂语义指令的理解能力,能够更精准地将文本描述转化为符合预期的视觉动态效果。
与此同时,集成了CogVideoX v1.5的“新清影”平台(https://chatglm.cn/video)也同步上线。该平台创新性地与新推出的CogSound音效模型相结合,为用户带来了全新的AI视频创作体验。“新清影”平台的特色服务包括:在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面实现显著增强;支持生成长达10秒、4K超高清分辨率、60帧的流畅视频;提供任意比例的视频尺寸生成,以适应不同的播放场景和设备需求;具备多通道输出功能,可根据同一指令或图片一次性生成4个不同风格或细节的视频版本;最引人注目的是,“新清影”能够为生成的视频自动匹配高质量音效,实现了视觉与听觉的一体化AI创作。
高质量的训练数据是支撑大型视频生成模型性能的核心基础。然而,现有视频数据普遍存在分布噪声问题,如人工编辑导致的真实动态扭曲、拍摄质量不佳引起的视频降质等,这些问题严重影响了模型的训练效果。此外,许多视频数据缺乏准确、详尽的描述文本,也制约了模型对语义信息的理解和应用。为解决这些挑战,研发团队构建了一套完善的数据处理流程。首先,将缺乏动态连通性的视频判定为有害数据,并开发了自动化筛选框架对其进行有效过滤,确保训练数据的质量。其次,针对视频数据描述文本不足的问题,专门开发了端到端的视频理解模型CogVLM2-caption,该模型能够为视频内容生成精准、丰富的描述文本,显著提升了模型对文本指令的理解和遵循能力,确保生成的视频内容与用户输入的文本描述高度一致。
在算法层面,CogVideoX v1.5的核心突破在于高效的三维变分自编码器(3D VAE)的研发。该编码器能够将原始视频数据压缩至原来的2%,极大地降低了模型的训练成本和计算难度。团队采用因果三维卷积作为3D VAE的核心组件,摒弃了传统的注意力模块,这一设计不仅增强了模型的分辨率迁移能力,还确保了模型在时间维度上的序列独立性,为后续扩展到更高帧率和更长时长的视频生成奠定了坚实基础。在模型部署方面,通过引入时间序列并行技术对变分自编码器进行优化,在有效减少显存占用的同时,成功支持了高帧率视频的实时编解码操作。
如上图所示,该架构图全面呈现了CogVideoX从数据输入到最终视频输出的完整技术路径。这一系统化的架构设计充分体现了CogVideoX在处理文本、时间和空间信息融合方面的技术创新,为开发者理解模型原理、进行二次开发提供了清晰的技术蓝图。
在模型架构上,CogVideoX v1.5采用了自主研发的融合文本、时间和空间三维度的Transformer架构。该架构的一大创新点是取消了传统的跨注意力模块,通过在输入阶段直接将文本嵌入与视频嵌入进行拼接,从根本上加强了文本与视频两种模态信息的深度交互。同时,引入专家自适应层归一化(expert adaptive layernorm)技术,有效缩小了文本与视频特征空间的差异,优化了扩散模型中时间步信息的利用效率,提高了参数使用效率,并实现了视觉信息与语义信息的精准对齐。在注意力机制方面,架构采用了创新的3D全注意力机制,相较于传统的空间和时间注意力分离或分块时空注意力方法,该机制减少了视觉信息在传递过程中的隐式损失,降低了模型的整体建模复杂度,并且能够兼容高效的训练框架。此外,团队还设计了3D旋转位置编码(3D RoPE),显著提升了模型在时间维度上捕捉帧间动态关系的能力,有效建立了视频内容中的长期依赖关系,使得生成的视频在连贯性和逻辑性上得到极大改善。
为了支持大规模视频数据的高效训练,研发团队构建了一套先进的扩散模型训练框架。该框架整合了多种并行计算技术和时间优化策略,显著提升了对长视频序列的训练速度。借鉴NaViT方法的思想,CogVideoX v1.5模型能够直接处理不同分辨率和时长的视频数据,无需进行裁剪操作,从而避免了因裁剪导致的信息丢失和分布偏差,同时也赋予了模型生成任意分辨率视频的能力。通过大量实验验证,团队证实了scaling law(规模定律)在视频生成领域同样具有有效性,为模型的持续优化和规模扩展提供了理论指导。
展望未来,CogVideoX团队将继续致力于推动视频生成技术的前沿发展。在现有基础上,团队将进一步扩大训练数据量和模型规模,同时积极探索创新的模型架构设计,以实现对视频信息更高效的压缩,并加强文本与视频内容的深度融合。通过持续的技术创新和开源共享,CogVideoX系列模型有望为AIGC视频创作领域带来更多可能性,赋能更多开发者和创作者。
感兴趣的开发者可以通过以下链接获取开源代码和模型: 开源代码:https://github.com/thudm/cogvideo 模型地址:https://gitcode.com/zai-org/CogVideoX1.5-5B-SAT
【免费下载链接】CogVideoX1.5-5B-SAT 项目地址: https://ai.gitcode.com/zai-org/CogVideoX1.5-5B-SAT
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



