18、语音升级检测与文本转语音合成技术研究

read5

于 2025-08-28 13:56:33 发布

阅读量32

点赞数

CC 4.0 BY-SA版权

分类专栏：人机语音通信新前沿文章标签：语音升级检测文本转语音合成多模态模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/read5/article/details/151709380

人机语音通信新前沿专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音升级检测与文本转语音合成技术研究

语音升级检测实验

在语音升级检测的任务中，我们旨在构建一个多模态模型，以确定给定对话中的升级级别是低、中还是高。我们选择 UAR 作为评估指标，因为它在数据不平衡约束下的情感识别任务评估中表现可靠。

特征配置

在音频预处理阶段，我们使用了以下步骤：
1. 应用开源工具 WebRTC - VAD 从时域过滤音频中的静音段，其降噪模式设置为 2。
2. 从过滤后的音频段中提取 MFCCs。具体参数设置如下：
- 每帧的窗口长度设置为 0.025 秒。
- 窗口步长初始化为 0.01 秒。
- 窗口函数使用汉明函数。
- 梅尔滤波器的数量设置为 256。
- 频率范围为 50 Hz 到 8000 Hz。
- 预加重参数设置为 0.97。
- 表示维度设置为 512。

模型设置

对于情感分类任务和升级模型，除了后续的连接层不同外，表示提取器的架构和配置相同：
- 情感分类任务：在表示提取器后连接一个全连接层，将 128 维表示映射到 7 维 softmax 概率向量。
- 升级模型：在表示提取器后连接一个三级线性 SVM 分类器。

损失函数选择加权交叉熵损失，以抵消数据分布不平衡的负面影响。优化器使用随机梯度下降（SGD），学习率设置为 0.001，权重衰减设置为 1e - 4，动量设置为 0.8。最大训练轮数为 50，若连续 5 轮无改进则提前停止。在微调阶段，训练轮数扩展到 300，且不应用动量以减少过拟合。

从多语言预训练模型 distiluse -

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。