mochi:实时视频生成与编辑的先进技术

mochi:实时视频生成与编辑的先进技术

【免费下载链接】mochi The best OSS video generation models 【免费下载链接】mochi 项目地址: https://gitcode.com/gh_mirrors/mochi9/mochi

项目介绍

mochi 是由 Genmo 团队开发的一种领先的视频生成模型,其预览版具备高保真动态效果和强大的提示词遵循能力。mochi 1 预览版显著缩小了封闭与开放视频生成系统之间的差距,并且以宽松的 Apache 2.0 许可证发布。用户可以在 Genmo 的在线 playground 上免费尝试这一模型。

项目技术分析

mochi 基于一种新颖的 Asymmetric Diffusion Transformer (AsymmDiT) 架构,这是一种具有 10 亿参数的扩散模型。从零开始训练,mochi 是迄今为止公开发布的最大视频生成模型。AsymmDiT 能够高效处理用户提示和压缩视频令牌,通过流式文本处理和视觉推理的神经网络容量聚焦,实现了模态的自我关注。

此外,mochi 配备了 AsymmVAE,这是一种高效的压缩模型,通过不对称的编解码器结构,将视频压缩至原来的128分之一大小,具有8倍的空间压缩和6倍的时态压缩。

mochi 技术规格

  • AsymmVAE 模型规格:362M 参数,编码器基础通道 64,解码器基础通道 128,潜在维度 12,空间压缩 8x8,时态压缩 6x。
  • AsymmDiT 模型规格:10B 参数,48 层,24 头,视觉维度 3072,文本维度 1536,视觉令牌 44520,文本令牌 256。

项目及技术应用场景

mochi 的应用场景广泛,适用于实时视频生成、编辑和转换。该项目特别适合以下几种使用情况:

  • 内容创作:为视频创作者提供高保真的视频生成工具,帮助他们快速制作具有专业级别的视频内容。
  • 游戏开发:游戏开发者可以利用 mochi 实时生成游戏中的动态场景,提升游戏体验。
  • 教育应用:教师可以利用 mochi 创建教学视频,增强互动性和视觉效果。

项目特点

  1. 高保真动态效果:mochi 在初步评估中显示出强大的运动保真度和提示词遵循能力。
  2. 开放性:与封闭系统相比,mochi 大大缩小了两者之间的差距,提供了更多的开放性和灵活性。
  3. 高效压缩:AsymmVAE 的高效压缩技术使得视频在传输和存储上更加高效。
  4. 单机和多GPU支持:mochi 支持单GPU和多GPU操作,提供了更灵活的部署选项。
  5. 易用API:项目提供了简单的可组合 API,方便用户以编程方式调用模型。

mochi 的推出为视频生成领域带来了新的可能性,其高效的模型和开放性为开发者提供了强大的工具。尽管目前存在一些局限性,如分辨率限制和动态内容生成的挑战,但随着社区的进一步优化和微调,mochi 有望成为视频生成领域的突破性技术。

【免费下载链接】mochi The best OSS video generation models 【免费下载链接】mochi 项目地址: https://gitcode.com/gh_mirrors/mochi9/mochi

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值