git链接:https://github.com/WanX-Video/WanX2.1
近日,阿里巴巴即将发布开放版 Wanx 2.1, 其在 VBench 视频模型排名中的排名已经超过了Sora。
在2024年1月的时候,阿里云推出了多模态大模型“通义万相”(Wanx)的最新版本Wanx 2.1,该模型最初于2023年7月首次亮相。Wanx 2.1旨在根据文本输入生成高质量的图像和视频,代表了人工智能驱动的视觉内容创作领域的重大飞跃。
新模型在生成逼真视觉效果方面表现出色,能够准确处理复杂动作、提升像素质量、遵循物理规则,并优化指令执行的精确度。其在指令执行方面的精确度使Wanx 2.1登上了VBench排行榜的榜首,VBench是一个全面的视频生成模型基准测试套件。根据VBench的数据,Wanx 2.1以84.7%的总分在动态程度、空间关系和多对象交互等关键维度上领先。
为了最大限度地提升视觉生成质量,Wanx 2.1背后的研究团队在多个技术领域取得了显著进展:首先,通过利用专有的VAE(变分自编码器)和DiT(去噪扩散Transformer)框架,Wanx 2.1在增强时间和空间关系方面表现出色,从而在处理涉及复杂运动场景和物理规则时实现了更高的视觉真实感。
通过采用全时空注意力机制,该模型还能够以极高的准确性模拟现实世界中的复杂动态。
Text Prompt:「平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后倾斜,展现了她的技巧和优雅」。English translation: “A panoramic shot of a female figure skater performing on an ice rink. She is wearing a purple skating outfit and white skates, executing a spinning move. Her arms are outstretched, and her body leans backward, showcasing her skill and grace.”
研究团队还采用了创新方法,利用超长上下文加速模型的训练过程。这确保了文本指令能够无缝集成到视频生成中,从而实现更快、更直观的内容创作。
此外,Wanx 2.1还实现了一个突破性里程碑,成为首个支持中英文字幕特效的视频生成模型,满足了广告设计和短视频制作等行业多样化的创意需求。
得益于这些创新方法,Wanx 2.1展现了其生成具有大规模肢体运动和复杂旋转视频的能力。即使在花样滑冰、游泳和跳水等具有挑战性的场景中,该模型也能保持身体协调性并遵循真实的运动轨迹,为视频生成树立了新的标杆。
目前,Wanx 2.1已在其中国官方网站上免费开放。个人开发者和企业用户可以通过阿里云的生成式AI平台Model Studio探索其潜力。这使用户能够根据自身需求创建高质量的视觉内容,进一步缩小了人工智能技术与创意产业之间的差距。
参考文献 [1] https://www.alibabacloud.com/blog/alibaba-cloud-unveiled-wanx-2-1-redefining-ai-driven-video-generation_601930