UniVoice: Unifying Autoregressive ASR and Flow-Matching based TTS with Large Language Models

UniVoice论文核心内容与创新点总结

该论文提出了UniVoice,这是一个基于大型语言模型(LLMs)的统一框架,首次在连续表示空间内整合自动语音识别(ASR)与基于流匹配(Flow-Matching)的语音合成(TTS)任务,解决了现有离散表示方法的信息损失问题,且在两项任务上均实现了与单任务模型相当或更优的性能。

一、主要内容

  1. 研究背景
    • 现有LLM在ASR和TTS任务中多单独应用,缺乏统一框架;离散语音 token 化虽支持联合建模,但会损失关键声学信息,限制性能。
    • 扩散模型与流匹配模型在TTS领域表现出色,能直接建模连续语音表示,为统一框架提供技术基础。
  2. 模型架构
    • 双分支结构:ASR分支采用因果Transformer,结合Whisper编码器提取语音特征与适配器实现语义对齐;TTS分支基于流匹配的扩散Transformer,接收文本转录、带噪语音、掩码语音三类输入。
    • 统一训练目标:总损失为ASR的自回归损失(LLML_{LM}
### CVPR2024 统一自上而下和自下而上的扫描路径预测使用 Transformers 的研究 在计算机视觉领域,特别是针对人类注视点预测的任务中,统一自上而下的目标驱动注意力机制与自下而上的显著性检测是一个重要的研究方向。HAT (Hierarchical Attention Transformer) 是一种基于变换器架构设计的新颖模型,在此背景下被提出并应用于扫描路径预测任务[^3]。 #### Hierarchical Attention Transformer (HAT) 该模型旨在通过多层次特征融合来捕捉图像中的复杂结构信息,并利用序列建模能力模拟人眼移动过程中的时间依赖关系。具体来说: - **多尺度特征提取**:采用预训练卷积神经网络作为骨干网,获取不同层次的空间表征; - **全局上下文感知模块**:引入位置编码技术增强对绝对坐标的敏感度; - **局部细节聚焦机制**:借助于自注意层内部节点间交互作用突出重要区域; - **行为克隆策略指导学习**:以专家示范数据集为基础优化参数配置,使得最终输出更贴近真实用户的浏览习惯。 为了实现高效推理计算,还特别考虑到了轻量化部署需求,采取了一系列加速措施如剪枝、量化等操作确保实际应用性能不受影响。 ```python import torch.nn as nn class HATT(nn.Module): def __init__(self, backbone='resnet50', num_heads=8, hidden_dim=512): super(HATT, self).__init__() # Backbone network for multi-scale feature extraction self.backbone = get_backbone(backbone) # Global context aware module with positional encoding self.pos_encoder = PositionalEncoding(hidden_dim) # Local detail focus mechanism via self-attention layers transformer_layer = nn.TransformerEncoderLayer( d_model=hidden_dim, nhead=num_heads ) self.transformer = nn.TransformerEncoder(transformer_layer, num_layers=6) # Behavior cloning strategy guided learning process self.regressor = nn.Sequential( nn.Linear(hidden_dim * 7*7, 256), nn.ReLU(), nn.Dropout(0.5), nn.Linear(256, 2), # Predicting gaze coordinates ) def forward(self, x): features = self.backbone(x).flatten(start_dim=2).transpose(-2,-1) encoded_features = self.pos_encoder(features) attended_features = self.transformer(encoded_features) pred_gaze = self.regressor(attended_features.mean(dim=1)) return pred_gaze ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值