一种新颖的朗读与即兴演讲分类方案
1. 引言
在语音处理领域,区分朗读语音和即兴演讲是一个重要的任务。本文提出了一种利用深度预训练模型提取特征的方法,以自动识别给定音频样本是朗读语音还是即兴演讲。该方法的核心在于利用Mozilla的DeepSpeech语音到字母的识别引擎,通过提取一系列特征来实现分类。
2. 方法概述
2.1 问题定义
给定一个由单人说出的录音音频样本 $x(t)$,自动判断 $x(t)$ 是朗读语音还是即兴演讲。
2.2 语音到字母转换(DeepSpeech)
Mozilla的DeepSpeech是一个端到端的深度学习模型,基于连接主义时间分类(CTC)损失函数将语音转换为字母。该模型有6层,除第4层为循环单元外,其余层均为前馈密集单元。它在Librispeech语料库的1000小时语音上进行了预训练。
语音 $x(t)$ 被分割成 $T$ 帧,每帧时长25毫秒,用26个梅尔频率倒谱系数(MFCCs)表示。DeepSpeech的输入是当前帧及其前后各9帧,输出是字母集 $A = (a, b, \cdots, z, ⋄, □, ′)$ 上的概率分布,其中 $|A| = 29$。这里,$⋄$ 表示未知,$□$ 表示空格,$′$ 表示撇号。
每帧的输出为:
[c^ {\tau} = \max {\forall k \in A} P((c_{\tau} = k) | {f_{\tau - 9}, \cdots, f_{\tau}, \cdots, f_{\tau + 9}})]
其中 $c^ _
超级会员免费看
订阅专栏 解锁全文
789

被折叠的 条评论
为什么被折叠?



