语音升级检测与文本转语音合成技术研究
语音升级检测实验
在语音升级检测的任务中,我们旨在构建一个多模态模型,以确定给定对话中的升级级别是低、中还是高。我们选择 UAR 作为评估指标,因为它在数据不平衡约束下的情感识别任务评估中表现可靠。
特征配置
在音频预处理阶段,我们使用了以下步骤:
1. 应用开源工具 WebRTC - VAD 从时域过滤音频中的静音段,其降噪模式设置为 2。
2. 从过滤后的音频段中提取 MFCCs。具体参数设置如下:
- 每帧的窗口长度设置为 0.025 秒。
- 窗口步长初始化为 0.01 秒。
- 窗口函数使用汉明函数。
- 梅尔滤波器的数量设置为 256。
- 频率范围为 50 Hz 到 8000 Hz。
- 预加重参数设置为 0.97。
- 表示维度设置为 512。
模型设置
对于情感分类任务和升级模型,除了后续的连接层不同外,表示提取器的架构和配置相同:
- 情感分类任务:在表示提取器后连接一个全连接层,将 128 维表示映射到 7 维 softmax 概率向量。
- 升级模型:在表示提取器后连接一个三级线性 SVM 分类器。
损失函数选择加权交叉熵损失,以抵消数据分布不平衡的负面影响。优化器使用随机梯度下降(SGD),学习率设置为 0.001,权重衰减设置为 1e - 4,动量设置为 0.8。最大训练轮数为 50,若连续 5 轮无改进则提前停止。在微调阶段,训练轮数扩展到 300,且不应用动量以减少过拟合。
从多语言预训练模型 distiluse -
超级会员免费看
订阅专栏 解锁全文
3342

被折叠的 条评论
为什么被折叠?



