5、语音识别领域的人工神经网络技术探索-优快云博客

本文链接：https://blog.youkuaiyun.com/stem5/article/details/152535959

语音识别领域的人工神经网络技术探索

1. 语音识别与人工神经网络概述

语音作为一种高效、通用且自然的交流方式，其信号由肺部呼出的空气经咽、声道、口腔、舌头和牙齿塑造而成。根据产生和塑造方式，声音信号可分为摩擦音、非摩擦音、鼻音和爆破音四类。然而，语音识别系统会受到多种因素的影响，如发音方式、口音、背景噪音、情绪状态、回声、性别、发音、粗糙度、音高、速度和音量等。

自动语音识别（ASR）是一种能将语音信号转换为控制信号或文本的自主计算算法。它可根据说话者模式、说话风格和使用的数据库，进一步分为依赖说话者、独立于说话者、连续语音、孤立语音、大词汇量、中词汇量和小词汇量的ASR系统。ASR系统通常包括语音录制、预处理、特征提取和分类等阶段。

人工神经网络（ANN）是受生物神经系统启发的计算框架，其工作方式类似于大脑中的神经元。ANN架构由输入层、隐藏层和输出层组成，由大量相互关联的基本单元——神经元构成。每个神经元与相邻层的所有神经元相连，以传递和接收信息。ANN的工作过程包括数据收集、处理和分析、选择隐藏层和隐藏神经元的数量、初始化和调整权重/偏差、训练、测试以及网络优化等步骤。

根据数据流的不同，ANN可大致分为前馈神经网络（FFNN）和反馈神经网络（FBNN）。FFNN中信号仅从输入向输出单向流动，可进一步分为单层感知器（SLP）、多层感知器（MLP）和径向基函数网络（RBFN）。FBNN中数据可以双向流动，包括递归神经网络（BRNN）、Kohonen自组织映射（KSOM）、Hopfield网络（HN）和竞争网络（CN）。

ANN的学习可以通过各种基于误差的技术来实现，如Widrow - Hoff规则、胜者全得规则、起始学习规则（Gross