UniVoice: Unifying Autoregressive ASR and Flow-Matching based TTS with Large Language Models

UniVoice论文核心内容与创新点总结

该论文提出了UniVoice,这是一个基于大型语言模型(LLMs)的统一框架,首次在连续表示空间内整合自动语音识别(ASR)与基于流匹配(Flow-Matching)的语音合成(TTS)任务,解决了现有离散表示方法的信息损失问题,且在两项任务上均实现了与单任务模型相当或更优的性能。

一、主要内容

  1. 研究背景
    • 现有LLM在ASR和TTS任务中多单独应用,缺乏统一框架;离散语音 token 化虽支持联合建模,但会损失关键声学信息,限制性能。
    • 扩散模型与流匹配模型在TTS领域表现出色,能直接建模连续语音表示,为统一框架提供技术基础。
  2. 模型架构
    • 双分支结构:ASR分支采用因果Transformer,结合Whisper编码器提取语音特征与适配器实现语义对齐;TTS分支基于流匹配的扩散Transformer,接收文本转录、带噪语音、掩码语音三类输入。
    • 统一训练目标:总损失为ASR的自回归损失(LLML_{LM}
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值