语音识别系统是一种利用其特征分析人的输入语音的方法。然后将其与数据库中保存的预先记录信号的特征进行比较。它显示一个输出,告诉数据库中是否存在同一个人的任何其他音频。如果是,则显示名称或文件编号。未经授权的进入可能是一种危险,控制它们并经常检查它们可以减少丢失和出现问题的机会。这是保护储物柜、电话、办公室等物品和场所安全的有效方法。这有助于衡量任何人尝试访问系统的次数。该系统目前仅限于检查是否已经存在具有相同特征的记录。
一、简介
我们可以将语音识别技术大致分为两个子领域,即语音识别和说话人识别[1]。说话人识别是一种通过将其与数据库中的记录进行比较来分析在输入中发送音频的人的方法。它将根据说话者的声音特征来验证说话者的身份。音高、速度、能量等。它主要用于安全性,以向或拒绝在输入中发送其音频的人提供 ace。在这个系统中,程序会在输入中显示音频发送者的文件编号。对于信号,它通常是通过(两个信号的)互相关函数完成的,这与卷积非常相似。
因此,它可以通过 FFT 在数学上完成,FFT 是专门为提高效率而设计的 [2]。离散傅立叶变换 (DFT) 是 FFT 的一种。不同之处在于 DFT 需要更长的时间,而 FFT 需要更短的时间。DFT将信号从时域转换到频域,而FFT只是DFT的一种实现。FFT 是一种更有效的转换方法。它将一个函数转换为另一个函数,这称为原始函数(通常是时域中的函数)的频域表示,或简称为 DFT。但是 DFT 需要一个离散的输入