在线教程丨微软开源VibeVoice，可实现90分钟4角色自然对话

原创于 2025-12-16 12:05:07 发布 · 527 阅读

CC 4.0 BY-SA版权

文章标签：

119 篇文章

订阅专栏

近年来，文本转语音（TTS）合成技术进展显著，已能够为单一说话者合成高保真、听觉自然的短话语。然而，在面对长格式、多说话人对话音频的可扩展合成时，仍存在重要挑战，限制了诸如播客与多角色有声书场景下的应用边界。

传统方法即使通过串联独立合成的话语来生成此类音频，但在实现自然的对话轮流和内容感知生成方面依然不尽人意。随着行业应用需求的不断提升，行业领域已陆续出现针对多说话人长会话语音生成的研究，但多数成果尚未开源，或在生成长度与稳定性方面仍存在待解决的难题。

在此背景下，微软开源了 VibeVoice，旨在实现可扩展的长格式、多说话人语音合成。 VibeVoice 采用基于下一 token 扩散（next-token diffusion）的方法来合成多说话人长语音，这是一种通过扩散自回归生成潜在向量以建模连续数据的统一方法。

为此，研究团队首创了一种新颖的连续语音分词器，与当前流行的 Encodec 模型相比，在保持相当性能的前提下，实现了 80 倍的数据压缩提升，即可实现高达 3200× 的压缩率（对应 7.5 Hz 帧率），在保障音频保真度的同时，显著提高了长序列处理的计算效率。

在这里插入图片描述

VibeVoice 架构图

尽管架构简洁，VibeVoice 却展现出极强的能力 ，能够在 64K 上下文窗口中合成长达 90 分钟、包含最多 4 名说话人的语音，音色更为丰富、语调更趋自然，并捕捉真实对话氛围， 在跨语言应用中表现出更强的迁移能力，综合表现已超越现有的开源与专有对话模型。

在这里插入图片描述

「VibeVoice-Realtime TTS：实时语音合成服务」已上线 HyperAI 官网（hyper.ai）的教程版块，一键跳转即可部署体验！

教程链接：

https://go.hyper.ai/jdZrA

1.进入 hyper.ai 首页后，选择「VibeVoice-Realtime TTS：实时语音合成服务」，或进入「教程」页面选择。进入点击「在线运行此教程」。

在这里插入图片描述

2.页面跳转后，点击右上角「Clone」，将该教程克隆至自己的容器中。

注：页面右上角支持切换语言，目前提供中文及英文两种语言，本教程文章以英文为例进行步骤展示。

在这里插入图片描述

3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像，按照需求选择「Pay As You Go（按量付费）」或「Daily Plan/Weekly Plan/Monthly Plan（包日/周/月」，点击「Continue job execution（继续执行）」。

HyperAI 为新用户准备了注册福利，仅需 $1，即可获得 5 小时 RTX 5090 算力（原价 $2.45），资源永久有效。

在这里插入图片描述

4.等待分配资源，首次克隆需等待 3 分钟左右的时间。当状态变为「Running（运行中）」后，点击「API address」旁边的跳转箭头，即可跳转至 Demo 页面。

在这里插入图片描述

进入 Demo 运行页面后，将测试视频上传后，在「Text to Convert」处输入文本，「Speaker Voice」选项中提供了 7 种可选择的音色，调整「CFG Scale」可以控制语音风格强度，数值越大情感越强。最后点击「Generate Speech」，稍等片刻即可生成音频。

在这里插入图片描述

以上就是 HyperAI超神经本期推荐的教程，欢迎大家前来体验！

教程链接：

https://go.hyper.ai/jdZrA