mochi：实时视频生成与编辑的先进技术-优快云博客

mochi：实时视频生成与编辑的先进技术

【免费下载链接】mochi The best OSS video generation models 项目地址: https://gitcode.com/gh_mirrors/mochi9/mochi

项目介绍

mochi 是由 Genmo 团队开发的一种领先的视频生成模型，其预览版具备高保真动态效果和强大的提示词遵循能力。mochi 1 预览版显著缩小了封闭与开放视频生成系统之间的差距，并且以宽松的 Apache 2.0 许可证发布。用户可以在 Genmo 的在线 playground 上免费尝试这一模型。

项目技术分析

mochi 基于一种新颖的 Asymmetric Diffusion Transformer (AsymmDiT) 架构，这是一种具有 10 亿参数的扩散模型。从零开始训练，mochi 是迄今为止公开发布的最大视频生成模型。AsymmDiT 能够高效处理用户提示和压缩视频令牌，通过流式文本处理和视觉推理的神经网络容量聚焦，实现了模态的自我关注。

此外，mochi 配备了 AsymmVAE，这是一种高效的压缩模型，通过不对称的编解码器结构，将视频压缩至原来的128分之一大小，具有8倍的空间压缩和6倍的时态压缩。

mochi 技术规格

AsymmVAE 模型规格：362M 参数，编码器基础通道 64，解码器基础通道 128，潜在维度 12，空间压缩 8x8，时态压缩 6x。
AsymmDiT 模型规格：10B 参数，48 层，24 头，视觉维度 3072，文本维度 1536，视觉令牌 44520，文本令牌 256。

项目及技术应用场景

mochi 的应用场景广泛，适用于实时视频生成、编辑和转换。该项目特别适合以下几种使用情况：

内容创作：为视频创作者提供高保真的视频生成工具，帮助他们快速制作具有专业级别的视频内容。
游戏开发：游戏开发者可以利用 mochi 实时生成游戏中的动态场景，提升游戏体验。
教育应用：教师可以利用 mochi 创建教学视频，增强互动性和视觉效果。

项目特点

高保真动态效果：mochi 在初步评估中显示出强大的运动保真度和提示词遵循能力。
开放性：与封闭系统相比，mochi 大大缩小了两者之间的差距，提供了更多的开放性和灵活性。
高效压缩：AsymmVAE 的高效压缩技术使得视频在传输和存储上更加高效。
单机和多GPU支持：mochi 支持单GPU和多GPU操作，提供了更灵活的部署选项。
易用API：项目提供了简单的可组合 API，方便用户以编程方式调用模型。

mochi 的推出为视频生成领域带来了新的可能性，其高效的模型和开放性为开发者提供了强大的工具。尽管目前存在一些局限性，如分辨率限制和动态内容生成的挑战，但随着社区的进一步优化和微调，mochi 有望成为视频生成领域的突破性技术。

【免费下载链接】mochi The best OSS video generation models 项目地址: https://gitcode.com/gh_mirrors/mochi9/mochi

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考