UniVoice论文核心内容与创新点总结
该论文提出了UniVoice,这是一个基于大型语言模型(LLMs)的统一框架,首次在连续表示空间内整合自动语音识别(ASR)与基于流匹配(Flow-Matching)的语音合成(TTS)任务,解决了现有离散表示方法的信息损失问题,且在两项任务上均实现了与单任务模型相当或更优的性能。
一、主要内容
- 研究背景
- 现有LLM在ASR和TTS任务中多单独应用,缺乏统一框架;离散语音 token 化虽支持联合建模,但会损失关键声学信息,限制性能。
- 扩散模型与流匹配模型在TTS领域表现出色,能直接建模连续语音表示,为统一框架提供技术基础。
- 模型架构
- 双分支结构:ASR分支采用因果Transformer,结合Whisper编码器提取语音特征与适配器实现语义对齐;TTS分支基于流匹配的扩散Transformer,接收文本转录、带噪语音、掩码语音三类输入。
- 统一训练目标:总损失为ASR的自回归损失(LLML_{LM}
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



