librosa 音频处理库

本文深入讲解音频信号处理的基础概念,包括采样率、步幅、重叠、窗口大小、光谱图、色谱图等,并详细描述了音频处理流程,如音频分帧、mel声谱图计算及logmel谱计算,适合初学者快速掌握音频处理核心知识点。

1. 名词解释

名称含义
sr(sample_rate)采样率,表示一秒采样多少个样本点
hop_length步幅;帧移对应卷积中的stride;连续帧分割长度
overlapping连续两帧的重叠部分
n_fft窗口大小;n_fft = hop_length+overlapping
spectrum光谱,频谱
spectrogram:光谱图;声谱图
Chromagram色谱图
amplitude振幅
logarithmic amplitude-frequency对数振幅频谱图
mono单声道
pitch音高
timbral音色

2. 音频处理的流程

通过使用窗口函数将长短不一的音频分割成大小相同的音频片段。(默认采样率22050Hz)。

音频分帧一般有两种不同的方式:采样点和时间

方式一:(帧描述方式)使用2048((20481000ms)/22050=93ms)个采样点,前后两个窗的重叠5123采样点。
方式二:(时间描述方式)使用 93ms 的帧长、23ms 的帧移(hop_length),以及周期性的 Hann 窗口对语音进行分帧。

常用的操作

#这是一个窗口大小为window_size,连续窗口的重叠部分为window_size/2
def windows(audio, window_size):
    start = 0
    while start < len(audio):
        #len(audio)是一个音频文件的总样本点数。
        yield start, start + window_size #取出长度为window_size的样本点下标索引
        start += (window_size / 2) #计算下一个分割片段的起始位置

计算每一帧mel声谱图。

signal = audio[0,2048] #(audio[0,2048] 表示图中的分割的1片段
#下面一行计算分割片段audio[0,2048]的64阶mel谱
#sr表示采样率,表示一秒采样多少个样本点。
#n_fft表示短时傅里叶变化用到的连续的样本点个数
#hop_length:连续两个傅里叶变化的重叠样本点个数
melspec = librosa.feature.melspectrogram(signal, sr=22050,
                                    n_fft=2048, 
                                    hop_length=512, 
                                    n_mels = 64) 
logspec = librosa.amplitude_to_db(melspec)#计算log mel
#本代码计算将一个原始音频文件分割成等大小的片段,
#然后计算每一个片段的og mel_sepctrogram.
for (start,end) in windows(audio,window_size):
              #(1)此处是为了是将大小不一样的音频文件用大小window_size,
              #stride=window_size/2的窗口,分割为等大小的时间片段。
              #(2)计算每一个分割片段的log mel_sepctrogram.
                if(end<= len(audio)): #最后不够一个窗口的样本点舍去
                    signal = audio[start:end] #分割的音频帧(图中的1,2,3,4,5,6)
                    melspec = librosa.feature.melspectrogram(signal, n_mels = 64) #计算每个分割片段的mel谱
                    logspec = librosa.amplitude_to_db(melspec)#计算log mel 谱


参考:文献

github
doc
librosa paper
博客

librosa 音频处理库 - 简书

<think>好的,用户想了解如何使用Python和Librosa库来处理音频文件。首先,我需要回忆Librosa的主要功能和常用操作。根据之前的引用内容,Librosa可以加载音频、提取特征、生成波形图,还有去噪等处理。 首先应该介绍安装步骤,因为用户可能需要先安装库。然后,加载音频文件是基础,引用[3]提到了使用librosa.load加载文件,得到音频数据和采样率。这部分需要详细说明,比如支持的格式,返回的数据结构。 接下来,用户可能需要知道如何可视化音频波形,引用[4]中的代码示例可以用来展示如何生成波形图,使用matplotlib配合librosa.display.waveshow。这里需要解释代码中的关键部分,比如采样率和振幅的关系。 然后,特征提取是音频处理的重要部分。引用[1]提到Librosa用于提取音频特征,如MFCC、频谱质心等。需要逐一介绍这些特征的意义和提取方法,给出代码示例,比如librosa.feature.mfcc的使用。 音频去噪也是用户可能关心的,引用[2]虽然具体步骤不详细,但可以提到常用的去噪方法,比如降噪算法或滤波技术,并给出一个基本的示例,比如使用librosa.effects.trim来去除静音部分。 时间序列处理方面,可能需要调整音频长度或改变采样率。Librosa有resample和time_stretch函数,可以举例说明如何应用。 最后,保存处理后的音频是必要步骤,虽然Librosa本身不直接支持保存,但可以借助soundfile库,提醒用户安装并给出保存代码。 在回答过程中,要确保所有代码示例正确,符合LaTeX格式要求,数学公式用$包围,独立公式用$$。同时,引用相关的引用内容,比如加载音频参考[3],波形图参考[4],特征提取参考[1],去噪参考[2]。 还要检查是否需要生成相关问题,根据用户的问题,可能涉及特征提取的具体方法、情绪识别应用、去噪技术比较等。相关问题需要覆盖库的基本使用、高级功能和应用场景。 最后,确保整个回答结构清晰,步骤分明,代码示例正确,并且自然融入引用标记,帮助用户全面理解Librosa的处理流程。</think>以下是如何使用Python和Librosa库进行音频处理的逐步说明: ### 一、安装与基础配置 ```python pip install librosa soundfile matplotlib ``` Librosa依赖`numpy`和`scipy`,建议配合`matplotlib`可视化音频特征[^3]。 --- ### 二、音频文件加载 加载音频文件并获取时域信号和采样率: ```python import librosa audio_path = "example.wav" y, sr = librosa.load(audio_path, sr=None) # sr=None保留原始采样率 print(f"采样率: {sr}Hz, 音频时长: {len(y)/sr:.2f}秒") ``` 支持WAV/MP3/OGG等格式,返回数组$y$表示幅度序列,$sr$为每秒采样点数。 --- ### 三、波形可视化 绘制音频波形图: ```python import matplotlib.pyplot as plt plt.figure(figsize=(14, 5)) librosa.display.waveshow(y, sr=sr) plt.title("音频波形") plt.xlabel("时间(s)") plt.ylabel("幅度") plt.show() ``` 通过幅度变化反映声音能量分布[^4]。 --- ### 四、特征提取 #### 1. MFCC(梅尔频率倒谱系数) ```python mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13) print(f"MFCC特征维度: {mfcc.shape}") # (系数数量, 时间帧数) ``` 常用于语音识别和音乐分类[^1]。 #### 2. 频谱质心(Spectral Centroid) ```python centroid = librosa.feature.spectral_centroid(y=y, sr=sr) ``` #### 3. 过零率(Zero-Crossing Rate) ```python zcr = librosa.feature.zero_crossing_rate(y) ``` --- ### 五、音频预处理 #### 1. 去噪处理 ```python y_trimmed, _ = librosa.effects.trim(y, top_db=20) # 去除首尾静音 ``` 通过设定分贝阈值裁剪无效片段[^2]。 #### 2. 重采样 ```python y_16k = librosa.resample(y, orig_sr=sr, target_sr=16000) ``` #### 3. 时间拉伸 ```python y_stretched = librosa.effects.time_stretch(y, rate=0.8) ``` --- ### 六、保存处理结果 ```python import soundfile as sf sf.write("processed_audio.wav", y_trimmed, sr) ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

帅气滴点C

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值