阿里开源Wan2.2-S2V模型:语音驱动静态图像生成电影级数码人视频
阿里巴巴集团(股票代码:09988)于本周二正式发布并开源了全新的「通义万相(WanAI)」Wan2.2-S2V模型,该模型实现了仅通过一张静态图片和一段音频输入,即可生成面部表情自然且口型与语音精准同步的电影级数码人视频。这一技术突破被业内视为内容创作领域的重要进展,有望显著提升多个行业的视频生产效率。
据阿里官方介绍,通义万相Wan2.2-S2V模型支持单次生成分钟级时长的视频内容,这一能力将极大优化数码人直播、影视后期制作、在线教育等场景的内容创作流程。作为一款语音驱动生视频(Speech-to-Video)模型,其核心优势在于能够通过音频信号直接驱动静态图像产生动态效果,并且支持多样化的主体形象创作,包括卡通角色、动物形象以及各类风格化设计的虚拟人物。
在技术演示中,阿里展示了将普通静态照片转化为音乐MV的实例,生动呈现了模型在创意内容生成方面的潜力。该模型还提供480P和720P两种分辨率输出选项,能够满足从社交媒体短视频到专业展示内容的不同画质需求。值得关注的是,研发团队采用创新的帧处理技术,通过将任意长度的历史帧信息压缩为单一紧凑的隐层特征,有效降低了计算资源消耗,成功实现了长视频的稳定生成,这一技术方案解决了长期困扰动画制作领域的长时段内容生成难题。
受此消息影响,阿里巴巴股价在周三早盘表现活跃,一度逆市上涨2.5%,最高触及124.3港元。不过,随着午后大盘整体走弱,股价出现回落并一度转跌。市场同时关注到,此前因视频模型「可灵AI(KlingAI)」商业化进程受到追捧的快手(股票代码:01024),当日午后跌幅扩大至3.6%,截至发稿报76.25港元。阿里巴巴将于本周五公布最新季度业绩,市场期待在财报中获得更多关于该模型商业化进展的信息。
此次通义万相Wan2.2-S2V模型的开源,不仅展现了阿里在人工智能生成内容(AIGC)领域的技术实力,也为行业提供了重要的技术基础设施。随着模型的普及应用,预计将推动数字内容创作行业向更高效、更低成本的方向发展,同时为虚拟偶像、智能客服、互动娱乐等领域带来更多创新可能。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



