ASRT语音识别项目

转自:https://www.zhihu.com/question/23473262/answer/812989806

作者:zahet
链接:https://www.zhihu.com/question/23473262/answer/812989806
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 

开源的语音识别首先推荐的当然就是ASRT语音识别项目

这是一个基于中文的语音识别开源项目,GitHub地址为:

nl8590687/ASRT_SpeechRecognition​github.com图标

项目主页:https://asrt.ailemon.me

ASRT是一套基于深度学习实现的语音识别系统,全称为Auto Speech Recognition Tool,由AI柠檬博主开发并在GitHub上开源(GPL 3.0协议)。本项目声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。算法模型在测试集上已经获得了80%的正确率。基于该模型,在Windows平台上实现了一个基于ASRT的语音识别应用软件,取得了较好应用效果。这个应用软件包含Windows 10 UWP商店应用和Windows 版.Net平台桌面应用,也一起开源在GitHub上了。

ASRT语音识别系统的声学模型采用了深度全卷积神经网络,直接将语谱图作为输入。模型结构上,借鉴了图像识别中效果最好的网络配置VGG,这种网络模型有着很强的表达能力,可以看到非常长的历史和未来信息,相比RNN在鲁棒性上更出色。在输出端,这种模型可以和CTC方案可以完美结合,以实现整个模型的端到端训练,将声音波形信号直接转录为中文普通话拼音序列。在语言模型上,通过最大熵隐含马尔可夫模型,将拼音序列转换为中文文本。并且,为了通过网络提供服务给所有的用户,本项目还使用了Python的HTTP协议基础服务器包,提供基于网络HTTP协议的语音识别API,客户端软件通过网络,调用该API实现语音识别功能。

系统的流程

特征提取

将普通的wav语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号,即语谱图。

声学模型

基于Keras和TensorFlow框架,使用这种参考了VGG的深层的卷积神经网络作为网络模型,并训练。

CTC解码 在语音识别系统的声学模型的输出中,往往包含了大量连续重复的符号,因此,我们需要将连续相同的符合合并为同一个符号,然后再去除静音分隔标记符,得到最终实际的语音拼音符号序列。

语言模型 使用统计语言模型,将拼音转换为最终的识别文本并输出。拼音转文本的本质被建模为一条隐含马尔可夫链,这种模型有着很高的准确率。

其原理请看:

统计语言模型:从中文拼音到文本 | AI柠檬​blog.ailemon.me图标

基于HTTP协议的API接口

本项目使用了Python内置的http.server包来实现了一个基础的基于http协议的API服务器。通过将声学模型和语言模型连接起来,使用该服务器程序,可以直接实现一个简单的API服务器,通过POST方式进行数据交互。

客户端

本项目的客户端分为两种,均为Windows客户端,一个是UWP客户端,另一个是WPF客户端,源码均需要使用VS2017来开发和编译,使用C#和XAML编写。项目包含有界面逻辑和录音模块、语音识别API调用模块,并包含对wav文件的raw格式进行的解析。

关于ASRT语音识别的详细介绍:

ASRT:一个中文语音识别系统​blog.ailemon.me

GitHub地址:

### ASRT在Python环境中的使用方法或安装方式 ASRT是一种用于语音识别的技术工具,通常基于特定的框架实现。为了能够在Python环境中成功配置并使用ASRT,以下是详细的说明: #### Python环境准备 确保已经创建了一个适合的Python虚拟环境,并且该环境满足ASRT的要求。可以按照以下命令来设置一个名为`TF2.0`的虚拟环境[^1]: ```bash conda create -n TF2.0 python=3.7 ``` 激活此虚拟环境后,需进一步确认所使用的Python版本以及TensorFlow版本是否兼容。建议使用Python 3.7到3.10之间的版本,并通过如下指令安装合适的TensorFlow版本(例如2.5至2.11之间)[^2]: ```bash pip install tensorflow==2.9 ``` #### 安装ASRT及其依赖项 一旦基础环境搭建完毕,则可继续执行以下操作以安装ASRT及相关组件。 1. **克隆仓库** 首先从GitHub或其他托管平台获取ASRT项目的源码文件。假设该项目位于某个公开地址上,那么可以通过Git将其下载下来: ```bash git clone https://github.com/your-repo/asrt.git cd asrt ``` 2. **安装必要库** 使用requirements.txt文件来一次性安装所有必需的第三方包。如果存在这样的清单文档的话,可以直接运行下面这条语句完成批量部署工作: ```bash pip install -r requirements.txt ``` 3. **验证安装情况** 在一切顺利的情况下,应该能够正常导入asrt模块而不会报错。尝试打开Python交互界面或者编写一小段脚本来测试其功能可用性。 #### 示例代码片段展示如何加载模型进行预测分析 这里给出一段简单的例子用来演示怎样调用训练好的声学模型来进行基本的声音信号处理任务。 ```python from asrt import AcousticModel, AudioProcessor # 初始化音频处理器对象实例化参数设定部分省略... audio_processor = AudioProcessor() # 加载预训练权重数据集路径自定义调整 acoustic_model = AcousticModel() acoustic_model.load_weights('path/to/pretrained/model') # 对输入声音样本做前向传播计算得到输出结果概率分布序列 input_audio_data = audio_processor.read_and_preprocess('example.wav') output_probabilities = acoustic_model.predict(input_audio_data) print(output_probabilities) ``` 以上即为整个流程概述,请根据实际需求修改相应变量名及目录结构等内容后再投入使用生产环节当中去实践检验效果好坏程度差异之处加以改进优化即可达成目标!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值