
语音
LCCFlccf
来了老弟
展开
-
【sox】解决 sox FAIL formats: no handler for detected file type `flac‘ 的问题
我们通过apt-get在Ubuntu 16.04上安装的SoX默认版本是14.4.1.5,这个版本不支持FLAC音频格式。从SoX官网下载更新版本可解决这个问题。目前(2020.12)能下载的最新版本是sox-14.4.2。首先安装FLAC:sudo apt install flac然后从源码编译安装SoX源码下载地址:https://sourceforge.net/projects/sox/files/sox/14.4.2/sox-14.4.2.tar.gz/download下载完成后解压缩原创 2020-12-30 17:05:47 · 2540 阅读 · 2 评论 -
【语音变速】变速不变调+变速变调
介绍两种语音变速的方法,一种是不改变pitch的变速,一种是改变pitch的变速。不改变pitch的变速方法:$ ffmpeg -n -i input.wav -filter:a "atempo=1.3" output.wav #速度变为原来的1.3倍$ ffmpeg -n -i input.wav -filter:a "atempo=0.8" output.wav #速度变为原来的0.8倍改变pitch的变速方法:$ sox input.wav output.wav speed 1.3 #速度原创 2020-10-15 18:58:11 · 2217 阅读 · 0 评论 -
【ffmepg】mp3转wav格式 | 重采样 | 从多通道中提取其中一个通道
ffmepg是功能非常强大的多媒体处理工具,可以处理音视频文件。安装方式自行请自行搜索。mp3格式转wav格式:ffmpeg -i test.mp3 test.wavmp3格式转wav格式,并提取其中一个通道。这里假设test.mp3文件是多通道音频。ffmpeg -i test.mp3 -ac 1 test.wavmp3文件重采样为32k,并保存为wav格式ffmpeg -i test.mp3 -ar 32000 test.wav重mp3文件中提取其中一个通道,并重采样为32k,然后保原创 2020-07-14 20:08:18 · 2458 阅读 · 0 评论 -
【webrtcvad】win10安装webrtcvad失败解决办法
请使用如下命令安装:pip install webrtcvad-wheels参考:github issue vijrishi95的回答原创 2020-06-01 15:11:58 · 5639 阅读 · 4 评论 -
【语音质量评估】在linux系统编译PESQ
PESQ用来对语音质量进行打分,是一种有参评估的方法, 即给定干净语音和该语音的带噪语音,以干净语音作为标准进行评估。这里记录PESQ工具的使用。首先到官网下载PESQ源代码,传送门,如下图所示点击下载c源码,并解压缩。Linux系统下编译安装PESQ工具来到PESQ工具的c源码的目录下cd T-REC-P.862-200511-I!Amd2!SOFT-ZST-E/Software/P...原创 2020-04-09 19:57:08 · 1354 阅读 · 0 评论 -
ubantu下的espnet安装
espnet是端到端语音识别开源框架,里面实现了很多端到端语音识别的方法。这里记录一下安装过程,便于以后换环境时能快速安装。安装步骤0.安装cmake# Using anaconda (If you don't have sudo privilege, the installation from conda might be useful)$ conda install cmake1...原创 2020-03-27 13:11:54 · 2669 阅读 · 0 评论 -
音频通道转换
利用sox将多通道音频转换成单通道音频sox input.wav -c 1 output.wav其中,参数-c表示通道channel,1表示输出音频通道数为1。原创 2019-11-04 21:23:57 · 1507 阅读 · 0 评论 -
【语音增强】使用RIR_Generator从近场音频产生远场音频|混响
这里介绍一种使用近场的干净的音频生成(模拟)远场音频的方法。GitHub项目地址:RIR_Generator。只介绍方法,要了解原理的请参考项目里的rir_generator.pdf文档。1.首先把这个项目git clone到本地。2.将cpp文件编译成matlab可执行的文件(参考这里)方法是,在shell终端打开matlab,在matlab运行mex rir_generator.c...原创 2019-09-11 17:06:44 · 4956 阅读 · 14 评论 -
【python】【sox】音频降采样与改变位深度
这篇文章介绍如何使用python对音频进行降采样。手上有一批48k采样率的音频,需要将到16k。这里使用python的librosa库来完成。一行代码搞定:y_48k, sr = librosa.load(wav_filename, 48000) # 读取原音频y_16k = librosa.resample(y=y_48k, orig_sr=48000, targe_sr=16000) #...原创 2019-09-04 20:48:48 · 6879 阅读 · 0 评论 -
【机器学习】错误拒绝率FRR,错误接受率FAR,等误率EER,准确率ACC 的理解
1.错误拒绝率(False Rejection Rate, FRR)分类问题中,若两个样本为同类(同一个人),却被系统误认为异类(非同一个人),则为错误拒绝案例(即本不该拒绝的但拒绝了)。举个例子,用你的指纹解锁你自己的手机时,无法认证通过,则称为错误拒绝,错误拒绝率高则系统安全性高。错误拒绝率(FRR)为错误拒绝案例在所有同类匹配案例中占的比例。FRR=错误拒绝的案例错误拒绝的案例+正确拒绝...原创 2019-05-11 10:09:42 · 13151 阅读 · 0 评论 -
【语音】提取MFCCs特征
MFCC: Mel Frequency Cepstral Coefficient tutorial任何自动语音识别(asr)系统的第一步都是提取特征,即识别音频信号中有利于识别语言内容的成分,丢弃所有其他携带信息的成分,如背景噪声、情绪等。想深入了解语音,先从了解人的发声原理开始。人发出的声音是通过舌、牙等声道的形状来过滤的,这种形状决定了发出什么样的声音。如果我们能准确地确定音素的形状,就能...翻译 2019-05-10 21:25:49 · 2491 阅读 · 0 评论