阿里开源Wan2.2-S2V模型：语音驱动静态图像生成电影级数码人视频-优快云博客

阿里开源Wan2.2-S2V模型：语音驱动静态图像生成电影级数码人视频

【免费下载链接】Wan2.2-S2V-14B 【Wan2.2 全新发布｜更强画质，更快生成】新一代视频生成模型 Wan2.2，创新采用MoE架构，实现电影级美学与复杂运动控制，支持720P高清文本/图像生成视频，消费级显卡即可流畅运行，性能达业界领先水平项目地址: https://ai.gitcode.com/hf_mirrors/Wan-AI/Wan2.2-S2V-14B

阿里巴巴集团（股票代码：09988）于本周二正式发布并开源了全新的「通义万相（WanAI）」Wan2.2-S2V模型，该模型实现了仅通过一张静态图片和一段音频输入，即可生成面部表情自然且口型与语音精准同步的电影级数码人视频。这一技术突破被业内视为内容创作领域的重要进展，有望显著提升多个行业的视频生产效率。

据阿里官方介绍，通义万相Wan2.2-S2V模型支持单次生成分钟级时长的视频内容，这一能力将极大优化数码人直播、影视后期制作、在线教育等场景的内容创作流程。作为一款语音驱动生视频（Speech-to-Video）模型，其核心优势在于能够通过音频信号直接驱动静态图像产生动态效果，并且支持多样化的主体形象创作，包括卡通角色、动物形象以及各类风格化设计的虚拟人物。

在技术演示中，阿里展示了将普通静态照片转化为音乐MV的实例，生动呈现了模型在创意内容生成方面的潜力。该模型还提供480P和720P两种分辨率输出选项，能够满足从社交媒体短视频到专业展示内容的不同画质需求。值得关注的是，研发团队采用创新的帧处理技术，通过将任意长度的历史帧信息压缩为单一紧凑的隐层特征，有效降低了计算资源消耗，成功实现了长视频的稳定生成，这一技术方案解决了长期困扰动画制作领域的长时段内容生成难题。

受此消息影响，阿里巴巴股价在周三早盘表现活跃，一度逆市上涨2.5%，最高触及124.3港元。不过，随着午后大盘整体走弱，股价出现回落并一度转跌。市场同时关注到，此前因视频模型「可灵AI（KlingAI）」商业化进程受到追捧的快手（股票代码：01024），当日午后跌幅扩大至3.6%，截至发稿报76.25港元。阿里巴巴将于本周五公布最新季度业绩，市场期待在财报中获得更多关于该模型商业化进展的信息。

此次通义万相Wan2.2-S2V模型的开源，不仅展现了阿里在人工智能生成内容（AIGC）领域的技术实力，也为行业提供了重要的技术基础设施。随着模型的普及应用，预计将推动数字内容创作行业向更高效、更低成本的方向发展，同时为虚拟偶像、智能客服、互动娱乐等领域带来更多创新可能。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考