合成语音训练语音识别器的技术突破

近年来,大多数商业自动语音识别(ASR)系统已开始从混合系统(包含独立的声学模型、词典和语言模型)转向端到端神经网络模型,这些模型以声学信号作为输入并输出文本。端到端模型在性能和灵活性方面具有优势,但需要比混合系统更多的训练数据。在训练数据稀缺的情况下(例如当前事件引入新术语"冠状病毒"或模型适配新应用时),这可能成为问题。

在此类情况下,使用合成语音作为补充训练数据是一种可行的解决方案。在某国际会议上发表的论文中,研究者采用这种方法,使用合成语音数据(如智能语音助手的文本转语音模型生成的输出语音)来更新ASR模型。实验通过微调现有ASR模型识别未接触过的药物名称,该方法使模型在新词汇上的词错误率相比原始模型降低65%。通过持续学习训练程序避免"灾难性遗忘",模型在现有词汇上的性能保持不变。

合成语音技术
构建鲁棒ASR模型的关键是在多种不同声音上训练模型,以学习各种声学频率谱和不同的音素发声方式。研究团队通过从实验室志愿者收集的500个语音配置文件中随机采样32个,将数据集中的每个话语合成32次。

与大多数TTS模型类似,该模型采用编码器-解码器架构:编码器生成输入文本的向量表示,解码器将其转换为输出频谱图(合成语音频率谱的一系列快照)。频谱图传递至神经声码器,添加必要的相位信息以转换为真实语音信号。

针对每个说话者,使用说话人识别系统生成独特的语音配置文件嵌入(该说话者声学特征的向量表示)。该嵌入作为TTS模型的后期输入,恰在解码步骤之前。TTS模型还接受参考频谱图作为输入,为其提供输出韵律模型(输出语音的节奏、重音、旋律、持续时间和响度)。该架构允许对同一输入文本同时改变语音配置文件嵌入和韵律嵌入,从而生成具有不同声音和韵律的同一话语的多个版本。

数据增强技术
为使合成语音更接近真实语音,研究采用多种处理方式:基于实验室采集的啁啾声样本应用不同类型的混响;添加噪声;衰减特定频段;掩码部分信号以模拟中断。这些处理按特定概率随机应用(例如60%的概率添加背景噪声),以确保不同类型样本的良好混合。

持续学习方案
当神经网络模型更新以适应新数据时,可能面临灾难性遗忘风险:调整模型权重处理新数据可能损害模型处理原始训练数据类型的能力。研究描述了在合成数据上微调现有ASR模型时防止这种情况的技术。

基线模型是在50,000小时数据上训练的ASR模型。针对药物名称新词汇的更新分为四个阶段:

  1. 向原始数据集添加5,000小时合成数据,在两者上微调模型,但冻结编码器设置仅更新解码器权重
  2. 在组合数据集上再次微调,允许更新编码器权重
  3. 仅在原始数据上微调,在损失函数中添加新项以惩罚连接权重的剧烈变化
  4. 仅在原始数据上微调,无约束地更新所有权重

实验发现第二阶段训练后(数据集包含合成数据且所有权重可自由更改),新词汇错误率较基线降低86%以上,但现有词汇错误率较基线略微上升约1%。第三和第四微调阶段将原始词汇错误率降至基线以下,同时仍将新词汇错误率降低65%。该训练方法可适配不同使用场景。

图表说明:

  1. proposed approach示意图显示语音生成模型(左)和自动语音识别模块(右)的协作流程
  2. TTS模型架构展示语音与韵律无关的语音编码器,其输出同时受语音配置文件嵌入和韵律嵌入调节
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
    公众号二维码
    外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值