5月28日,腾讯混元正式对外发布语音数字人模型HunyuanVideo-Avatar,并同步开启开源进程。这款模型由腾讯混元视频大模型(HunyuanVideo)与腾讯音乐天琴实验室MuseV技术团队联合打造,具备强大的场景适配能力,可支持头肩、半身乃至全身等多种景别,同时兼容多风格、多物种及双人互动场景。其核心目标是为视频创作者提供兼具高一致性与高动态性的视频生成解决方案,通过上传人物图像与音频文件,模型能够智能解析图像中的环境特征与音频中的情感元素,驱动静态人物实现自然的说话、唱歌等动态行为,最终生成包含细腻表情、精准唇形同步及连贯全身动作的视频内容。例如,当用户输入一张“沙滩吉他手”的静态图片与一段抒情音乐时,系统会自动构建“海边弹唱”的场景认知,生成人物怀抱吉他、随旋律轻吟的动态画面。
HunyuanVideo-Avatar在应用场景上展现出广泛的适用性,涵盖短视频创作、电商营销、广告制作等多个领域。创作者可借助该模型快速生成人物在不同场景下的对话、表演片段,有效降低产品介绍视频、多人互动广告的制作成本与时间周期。目前,该技术已在腾讯音乐旗下多个产品中落地应用:在QQ音乐“AI歌手”项目中(由腾讯音乐与音乐人工作室联合开发的全AI歌手),虚拟形象能根据歌曲节奏实时呈现演唱状态;酷狗音乐的长音频绘本功能则通过AI虚拟人“讲述”童话故事,增强内容的沉浸式体验;全民K歌用户上传个人照片后,可一键生成专属演唱MV,实现“照片唱歌”的创意效果。
相较于传统数字人生成工具,HunyuanVideo-Avatar在核心性能上实现了多维度突破。其不仅能精准驱动人物图像,更能在生成过程中保持主体一致性与视频整体动态性。即使面对复杂场景输入——如“森林篝火边的女孩”照片与歌曲音频,模型也能准确理解“篝火跳跃的光影效果”“人物沉浸演唱的情感状态”,最终生成主体清晰、动作自然、背景动态丰富的视频内容。技术测评数据显示,该模型在主体一致性、音画同步精度上已超越现有开源与闭源方案,处于行业领先水平;在画面动态效果与肢体自然度方面,虽与部分闭源方案持平,但显著优于开源工具。值得注意的是,不同于传统工具局限于头部驱动的短板,HunyuanVideo-Avatar支持半身及全身动作生成,大幅提升了视频内容的真实感与表现力。
在场景扩展性上,HunyuanVideo-Avatar创新性地支持多风格、多物种及多人互动场景。风格化生成覆盖赛博朋克、2D动漫、中国水墨画等多元美学风格,物种类型则包含机器人、动物等非人类形象,满足动漫、游戏等垂直领域的创作需求。例如,创作者上传卡通角色图片后,可直接生成符合原作风格的动态视频。在多人互动场景中,模型展现出卓越的协同驱动能力,无论是日常对话、相声表演还是双人对唱,均能精准控制每个角色的唇形、表情与动作,确保音频与画面的高度同步,实现自然流畅的互动效果。
这些技术突破源于腾讯混元团队与腾讯音乐天琴实验室联合组建的混元MuseV项目组的持续创新。核心技术架构包含三大模块:角色图像注入模块基于多模态扩散Transformer(MM-DiT)架构,通过跨模态特征融合确保角色一致性与视频动态性;音频情感模块从音频与参考图像中提取情感特征,驱动生成细腻的表情与动作变化;面部感知音频适配器则利用人脸掩码技术隔离不同角色的音频信号,实现多人场景下的精准驱动。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



