
语音处理
文章平均质量分 94
语音信号处理
YEGE学AI算法
From Zero To Hero!
展开
-
音频格式及转换代码
python已经支持WAV格式的书写,而实时的声音输入输出需要安装pyAudio(http://people.csail.mit.edu/hubert/pyaudio)。最后我们还将使用pyMedia(http://pymedia.org)进行Mp3的解码和播放。音频信号是模拟信号,我们需要将其保存为数字信号,才能对语音进行算法操作,WAV是Microsoft开发的一种声音文件格式,通常被用来保存未压缩的声音数据。语音信号有四个重要的参数:声道数、采样频率、量化位数(位深)和比特率。16。原创 2023-05-17 19:35:49 · 1214 阅读 · 0 评论 -
librosa语音信号处理
librosa是一个非常强大的python语音信号处理的第三方库,本文参考的是librosa的官方文档,本文主要总结了一些重要,对我来说非常常用的功能。学会librosa后再也不用python去实现那些复杂的算法了,只需要一句语句就能轻松实现。原创 2023-05-17 14:40:33 · 1942 阅读 · 0 评论 -
语音常识与基本概念
img { margin: auto; display: block }数字信号连续时间信号:在连续时间范围内定义的信号,信号的幅度可以是连续的(模拟信号),也可以是离散的离散时间信号:时间为离散变量的信号,即独立变量时间被量化了,而幅度仍是连续变化的数字信号:时间离散并且幅度量化的信号,如果是二进制量化,只有1,0两种模式的信号。四进制数字信号只有四种取值,以此类推。数字信号幅度只取几...原创 2023-05-15 17:44:00 · 2040 阅读 · 0 评论 -
Python语音增强
img { margin: auto; display: block }简介音频时域波形具有以下特征:音调,响度,质量。我们在进行数据增强时,最好只做一些小改动,使得增强数据和源数据存在较小差异即可,切记不能改变原有数据的结构,不然将产生“脏数据”,通过对音频数据进行数据增强,能有助于我们的模型避免过度拟合并变得更加通用。经过实验发现对声波的以下改变是有用的:Noise addition(...原创 2023-05-06 10:43:00 · 4131 阅读 · 5 评论 -
傅里叶变换解析
p.s.本文无论是cos还是sin,都统一用“正弦波”(Sine Wave)一词来代表简谐波。一、什么是频域从我们出生,我们看到的世界都以时间贯穿,股票的走势、人的身高、汽车的轨迹都会随着时间发生改变。这种以时间作为参照来观察动态世界的方法我们称其为时域分析。而我们也想当然的认为,世间万物都在随着时间不停的改变,并且永远不会静止下来。但如果我告诉你,用另一种方法来观察世界的话,你会发现世界是永恒...原创 2023-04-28 16:15:00 · 614 阅读 · 0 评论 -
语音处理加窗分帧
语音处理加窗分帧一、分帧语音数据和视频数据不同,本没有帧的概念,但是为了传输与存储,我们采集的音频数据都是一段一段的。为了程序能够进行批量处理,会根据指定的长度(时间段或者采样数)进行分段,结构化为我们编程的数据结构,这就是分帧。二、帧移由于我们常用的信号处理方法都要求信号是连续的,也就说必须是信号开始到结束,中间不能有断开。然而我们进行采样或者分帧后数据都断开了,所以要在帧与帧之...原创 2023-04-28 11:46:00 · 2847 阅读 · 1 评论