语音识别
文章平均质量分 65
语音不识别
专注大数据和人工智能领域
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[语音识别框架之wenet] 使用CPU训练自定义数据集大小的AISHELL-Sample教程
数据集下载下载地址1.准备 wav.scp text# 数据集存放的位置sample_data=/home/asr/data/wenet/examples/aishell/s0/datasets/AISHELL-1_sample# 数据生成的地方data=/home/asr/data/wenet/examples/aishell/s0/data_if [ ! -d $data ];then mkdir -p $datafi# 初始化rm -rf $data/wav.scprm原创 2022-04-24 10:56:33 · 4770 阅读 · 41 评论 -
解决linux录音设备占用问题
原因这种问题出现的原因是arecord调用录音设备的问题,在运行程序的时候使用了ctrl+z再次运行时,会报OSerror,main:852等错误信息解决无法录音的问题:方法1使用fg,再用ctrl+c方法2:查询arecord占用的端口号,ps -fs | grep arecord杀掉该所有进程,kill -9 arecord进程 ,...原创 2022-04-19 08:15:52 · 1398 阅读 · 0 评论 -
语音识别技能汇总
语音识别技能汇总常见问题汇总import warningswarnings.filterwarnings('ignore')基础知识Attention-注意力机制原理:人在说话的时候或者读取文字的时候,是根据某个关键字或者多个关键字来判断某些句子或者说话内容的含义的。即通过对上下文的内容增加不同的权重,可以实现这样对局部内容关注更多。常用语音识别工具相关包的安装pip install pygameSpeechRecognitionplaysoundlibrosa读取音频数据s原创 2022-04-09 00:37:16 · 3448 阅读 · 0 评论 -
在线实时语音识别实现【完善中-本地测试已完成,只差服务器功能】
基本流程环境搭建客户端环境录音模块pip install pyaudio服务器环境flask客户端录音模块缓冲区发送数据缓冲区数据接收数据识别结果服务器端接收缓冲区数据调用识别接口传入缓冲区数据返回识别文字发送识别文字给客户端环境准备相关包的安装pip install pygameSpeechRecognitionplaysoundlibrosa客户端录音模块获取麦克风数据以及保原创 2022-04-08 13:40:02 · 4803 阅读 · 9 评论 -
[源码解析]ESPnet脚本源码解析-aishell-asr.sh
这段代码是ESPnet案例里面的aishell的asr里面的运行总脚本asr.sh 传送门解析参数#!/usr/bin/env bash# Set bash to 'debug' mode, it will exit on :# -e 'error', -u 'undefined variable', -o ... 'error in pipeline', -x 'print commands',set -eset -uset -o pipefaillog() { local f原创 2022-04-04 22:11:54 · 4681 阅读 · 0 评论 -
语音识别框架之ESPnet
ESPnet 是一个端到端的语音处理工具包,涵盖了端到端的语音识别、文本到语音、语音翻译、语音增强、说话者分类、口语理解等。ESPnet 使用pytorch作为深度学习引擎,还遵循Kaldi风格的数据处理、特征提取/格式和配方,为各种语音处理实验提供完整的设置。克隆git clone https://github.com/espnet/espnet官网文档安装ESPnet使用官网安装的过程会很慢,下载限速手动下载相关包cd <espnet-root>/toolsmake CPU原创 2022-04-01 23:13:34 · 5480 阅读 · 0 评论 -
【语音识别框架】语音识别框架之wenet
环境配置https://github.com/wenet-e2e/wenetgit clone https://github.com/wenet-e2e/wenet.git # 克隆源码AIShell 教程我们提供了example/aishell/s0/run.sh关于 aishell-1 数据的配方配方很简单,我们建议您手动逐个运行每个阶段并检查结果以了解整个过程。cd example/aishell/s0bash run.sh --stage -1 --stop-stage -1bas原创 2022-04-01 23:02:30 · 10633 阅读 · 16 评论 -
语音识别框架之kaldi
kaldi环境配置下载https://github.com/kaldi-asr/kaldi.git安装编译依赖库cd kalditools/extras/check_dependencies.sh注意:根据提示安装相关依赖工具安装第三方工具OpenFst:kaldi使用FST作为状态图的表现形式,期待吗依赖OpenFst中定义的FST结构及一些基本操作,因此OpenFst对于Kaldi的编译是不可或缺的,安装方法如下需要g++ 11cd toolsmake openfs原创 2022-03-29 09:58:49 · 3153 阅读 · 2 评论 -
基于WENET制作AI字幕
基于WENET制作AI字幕wenet环境配置获取视频并转音频安装处理视频工具安装ffmpeg:https://blog.youkuaiyun.com/zhouyj6516/article/details/107416209ffmpeg参数:https://www.cnblogs.com/mwl523/p/10856633.htmlmp4转wav脚本ffmpeg -i cs.mp4 -vn -ar 16000 -ac 1 -ab 192 -f wav cs.wav脚本#!/usr/bin/bash原创 2022-03-29 09:53:53 · 4085 阅读 · 2 评论 -
PYMYSQL
# 存储指纹 def store_finger_prints(self,music_id,hashes_time_offset,music_name): print_msg("正在录入歌曲{}的指纹".format(music_name)) for hashes,offset in tqdm.tqdm(hashes_time_offset): sql = "insert into finger_prints(music_id_fk,`hash`,offset) values (%s...原创 2021-09-06 18:10:52 · 193 阅读 · 0 评论 -
librosa无法解析mp3格式音频的解决方法
没有安装前通过Anconada Prompt命令行 在所在环境中安装 (当然也可以通过anconada搜索ffmpeg安装):conda install -c conda-forge ffmpeg没有报错,如下:原创 2021-09-05 11:29:45 · 1496 阅读 · 1 评论 -
听歌识曲算法技术[语音识别]
概念理解:语音识别:通过一种语音检索算法来识别一段音频内容的含义。 音频文件:指带有声音的文件,比如音乐。 时域:振幅Y和时间T的关系。 频域:振幅Y和频率F的关系。 短时傅里叶变换:通过对每个时间极短的音频片段做傅里叶变换,来得到这个时间段的频率分布,之所以成为短时,是因为这个算法只有再短时内语音音频的频率以及振幅是比较平稳的,如果时间过长就会导致傅里叶变换不准确。 频谱图:每个时间点出现的频率分布图,即每一帧或者每时刻上出现的频率数值和振幅数值,为了用二维数据表示这个三维数据,把振幅压缩到原创 2021-09-05 20:48:08 · 6002 阅读 · 4 评论
分享