语音打字机与Hopfield网络技术解析
语音打字机技术剖析
语音打字机在语音识别领域有着重要的应用,其核心技术涉及多个关键环节。
前端预处理
前端处理是神经网络技术中不可或缺的部分。Kohonen的系统依靠标准数字信号处理技术从语音输入中提取音素频谱数据,具体步骤如下:
1. 信号滤波与转换 :语音波形从麦克风输入后,先经过一个5.3 kHz的低通滤波器,再驱动一个12位的A/D转换器,采样率为13.03 kHz。
2. 快速傅里叶变换(FFT) :对A/D转换器输出的数字数据每隔9.83 ms进行一次256点的FFT计算,以捕捉音素的频谱内容。选择FFT技术是因为它比传统编码方法更能体现频谱成分的聚类特性,为分类器训练提供更有用的表示,且该技术快速、可靠且得到广泛支持。
3. 数据处理与特征向量生成 :FFT输出经过滤波和对数处理后,信息被整合为一个15分量的连续模式向量,该向量表示200 Hz至5 kHz范围内15个频带的瞬时功率。在输入网络之前,各分量去除信号平均值并归一化为固定长度。此外,还使用第16个向量分量表示语音信号的均方根值。
在预处理阶段,Kohonen将语音输入量化为一个16位的特征向量,该特征向量是语音波形的一个短时间切片,用于训练网络。需要注意的是,网络并非基于音素数据进行训练,而是基于时间切片的语音波形,但网络节点会对音素数据变得敏感,因为网络输入围绕音素进行。训练过程中形成的聚类需要手动标记,即向网络呈现孤立的音素样本,在拓扑图上找到最大响应区域。
超级会员免费看
订阅专栏 解锁全文
2766

被折叠的 条评论
为什么被折叠?



