阿里开源Wan 2.1视频大模型:多模态生成能力突破,性能超越Sora
【免费下载链接】Wan2.1-I2V-14B-480P 项目地址: https://ai.gitcode.com/hf_mirrors/Wan-AI/Wan2.1-I2V-14B-480P
2025年2月26日深夜,阿里巴巴宣布开源旗下最新视频生成大模型——Wan 2.1(通义万相2.1),采用Apache 2.0开源协议。全球开发者现已可通过GitCode(https://gitcode.com/hf_mirrors/Wan-AI/Wan2.1-I2V-14B-480P)及HuggingFace平台获取完整代码与模型权重,直接体验文本到视频(T2V)和图像到视频(I2V)的全场景生成能力。
本次开源的Wan 2.1套件包含四大模型,覆盖14B与1.3B两个参数量级,构建起从学术研究到产业落地的完整技术链条。其中,图生视频领域推出Wan2.1-I2V-14B-480P与Wan2.1-I2V-14B-720P两款14B参数模型,官方测试显示其综合性能已超越当前主流闭源方案及所有开源竞品,达成该领域SOTA水平。这两款模型能基于单张图像与文本描述,生成包含复杂动态场景的480P/720P视频内容,在运动连贯性与场景一致性上实现突破。
文生视频产品线则呈现梯度布局:14B参数的Wan2.1-T2V-14B模型不仅创造开源领域性能新标杆,更具备中英双语文本理解能力,成为目前唯一支持跨语言视频生成的基础模型;而轻量化的Wan2.1-T2V-1.3B模型则实现了消费级硬件的适配,仅需8.19GB显存即可在普通GPU上生成5秒480P视频,在RTX 4090显卡上的渲染耗时仅4分钟。通过预训练蒸馏技术,这款小参数模型的表现已超越部分更大规模的开源竞品,甚至可与商业闭源模型比肩,为二次开发与学术研究提供高效工具。
在权威评测机构VBench发布的视频生成质量排行榜中,Wan 2.1在主题一致性、运动平滑度、时空连贯性等16项核心指标上全面领先,综合得分超越OpenAI的Sora模型,标志着中国团队在视频生成领域的技术实力已跻身全球第一梯队。
Wan 2.1的突破性表现源于其创新的技术架构。该模型基于Diffusion Transformer范式,通过四大技术创新实现性能跃升:时空变分自编码器(VAE)、可扩展训练策略、大规模数据构建体系与自动化评估系统。其中,3D因果VAE架构"Wan-VAE"的设计尤为关键,其融合特征缓存机制与因果卷积模块,能在保持时间序列完整性的前提下,高效编码1080P任意长度视频。实测显示,该VAE在A800 GPU上的视频重建速度达到HunYuanVideo的2.5倍,且分辨率越高优势越显著。
如上图所示,气泡图清晰呈现了Wan-VAE与同类技术在图像质量(PSNR)和生成效率上的对比关系。这一可视化结果直观展示了阿里团队在视频压缩编码领域的技术突破,为开发者选择高效视频生成方案提供了数据参考。
模型主体采用视频专用DiT(Diffusion Transformer)结构,通过Full Attention机制建模长时序依赖关系,结合Flow Matching优化框架与T5文本编码器,实现了语义理解到视觉生成的精准映射。在数据层面,团队构建了包含超千万级高质量样本的训练集,并开发自动化质量评估体系,确保模型在复杂场景下的鲁棒性。
【免费下载链接】Wan2.1-I2V-14B-480P 项目地址: https://ai.gitcode.com/hf_mirrors/Wan-AI/Wan2.1-I2V-14B-480P
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



