1.背景介绍
语音识别(英语:speech recognition,缩写:ASR)是一个热门的自然语言处理任务,它将声波信号或从麦克风采集到的语音数据转换成文本或者其他形式的符号输出。语音识别可以帮助人们用简单的交流方式完成复杂的事务、控制机器人、为客户提供服务等,是各个领域的重要基础设施。
目前市面上主流的语音识别工具主要有基于规则的、基于统计的、以及神经网络的三种方法。而基于深度学习的方法则占据了相当大的市场份额。比如,Google 提出的 TensorFlow 的开源框架中就集成了基于深度学习的语音识别算法。
本文将介绍如何利用 Python 和 TensorFlow 框架实现一个简单但功能完整的语音识别模型——语音识别模型(Speech Recognition Model)。该模型包括卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆(LSTM)、全局池化层(Gloabl Pooling)等常用神经网络模块。
2.核心概念与联系
2.1 CNN:卷积神经网络
卷积神经网络(Convolutional Neural Network,简称 CNN),是一类通过卷积运算提取图像特征的神经网络。最早由 LeNet-5 网络和 Al