语音分割与眼部特征提取技术解析
在当今的科技领域,语音分割和眼部特征提取是两个重要的研究方向。语音分割对于训练基于音素的语音识别器或在文本转语音(TTS)系统中选择语音单元至关重要;而眼部特征提取则在人脸识别、表情识别等计算机视觉应用中发挥着关键作用。下面将详细介绍这两项技术的相关内容。
自动语音分割
自动语音分割旨在无需手动分割子集的情况下对语音数据库进行分割。该系统通过逐步细化的迭代过程估计一组条件概率,并将其与声学概率相结合,以获得后验语音概率。这些概率随后被用于动态时间规整(DTW)算法,将声学帧序列与语音转录进行对齐,最终输出音素分割结果,并进行边界调整以提高音素边界的定位精度。
粗分割结果
| 数据库 | <5 ms | <10 ms | <15 ms | <20 ms | <30 ms |
|---|---|---|---|---|---|
| Albayzin | 35.7 % | 59.0 % | 70.0 % | 76.2 % | 83.3 % |
| TIMIT | 37.5 % | 61.4 % | 71.8 % | 77.0 % |
超级会员免费看
订阅专栏 解锁全文
42

被折叠的 条评论
为什么被折叠?



