17、仅视觉单词边界检测：深度学习新方案-优快云博客

本文链接：https://blog.youkuaiyun.com/melon/article/details/149517536

仅视觉单词边界检测：深度学习新方案

1. 相关研究背景

在过去二十年里，单词边界检测研究主要聚焦于开发能通过声学语音识别单词边界的算法。早期研究通过观察语音中的能量或音高频率模式，并结合多种算法处理来解决该问题，在特定音频数据上能实现高精度预测。但这些数据是在可控安静环境下预先录制的，而实际语音识别应用需在有噪声环境中识别单词。研究发现，在嘈杂环境中，使用过零率或能量来构建可靠的单词边界检测系统是不够且不可靠的，无论算法多么复杂。

此后，音频单词边界检测研究的算法趋势转向其他参数，部分研究采用时频能量带来区分语音和噪声。固定频率带250 - 3500 Hz的频率能量用于改善时间能量数据的信息，时频参数通过平滑时间能量和频率能量之和来计算。不过，基于时频的鲁棒算法使用的手工阈值和规则作为预测器并不明确，非专业人员难以选择和确定。

时频参数随后被改进为精细时频参数，并应用于递归自组织神经模糊推理网络。时频和精细时频参数都能描绘时间和频率特征，区别在于频率带，精细时频使用多频段频谱分析。同样，精细时频也是通过平滑时间能量和频率能量之和来计算，且使用时频参数需要手动选择难以确定的阈值，为解决此问题，Wu和Lin使用递归自组织神经模糊推理网络自适应地确定频率带作为阈值。

随着技术进步，如今语音识别系统更加准确可靠，但在现实场景中，遇到干扰或低质量噪声时，识别准确率会下降。作为一种替代方法，语音识别可结合音频和视频数据来提高系统性能。

特定的单词边界检测系统不如单词或语音识别常见，尤其是使用深度学习方法。目前，还没有使用深度学习方法通过视觉信息检测单词边界的研究，这令人惊讶，因为有很多关于视觉语音识别的研究将问题建模为单词分类，而这本质上需要一个强大的