基于Python 的语音重采样函数

本文介绍了一种声音文件重采样的实现方法,通过将采样点转换到时间刻度后进行插值处理,实现了不同采样率之间的转换。文中提供了Python代码示例,并验证了该方法的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

因为工作中会经常遇到不同采样率的声音文件的问题,特意写了一下重采样的程序。
原理就是把采样点转换到时间刻度之后再进行插值,经过测试,是没有问题的。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

# @Time    : 17-7-21 下午2:32
# @Author  : Lei.Jinggui
# @Site    : http://blog.youkuaiyun.com/lccever
# @File    : Resample.py
# @Software: PyCharm Community Edition
# @contact: lccever@126.com

import numpy as np

def Resample(input_signal,src_fs,tar_fs):
    '''

    :param input_signal:输入信号
    :param src_fs:输入信号采样率
    :param tar_fs:输出信号采样率
    :return:输出信号
    '''

    dtype = input_signal.dtype
    audio_len = len(input_signal)
    audio_time_max = 1.0*(audio_len-1) / src_fs
    src_time = 1.0 * np.linspace(0,audio_len,audio_len) / src_fs
    tar_time = 1.0 * np.linspace(0,np.int(audio_time_max*tar_fs),np.int(audio_time_max*tar_fs)) / tar_fs
    output_signal = np.interp(tar_time,src_time,input_signal).astype(dtype)

    return output_signal


if __name__ == '__main__':

    import wave
    import pyaudio

    def playSound(audio_data_short, framerate=16000, channels=1):
        preply = pyaudio.PyAudio()
        # 播放声音
        streamreply = preply.open(format=pyaudio.paInt16,
                                  channels=channels,
                                  rate=framerate,
                                  output=True)
        data = audio_data_short.tostring()
        streamreply.write(data)
        streamreply.close()
        preply.terminate()

    wave_file = 'test.wav'
    audio_file = wave.open(wave_file, 'rb')
    audio_data = audio_file.readframes(audio_file.getnframes())
    audio_data_short = np.fromstring(audio_data, np.short)
    src_fs = audio_file.getframerate()
    src_chanels = audio_file.getnchannels()

    if src_chanels > 1:
        audio_data_short = audio_data_short[::src_chanels]

    tar_fs = np.int(src_fs * 0.5)


    playSound(audio_data_short,framerate=src_fs)

    audio_data_short0 = Resample(audio_data_short,src_fs,tar_fs)

    playSound(audio_data_short0,framerate=tar_fs)
### 语音数据预处理中的重采样方法与工具 #### 什么是重采样重采样是指将原始音频信号从一种采样频率转换到另一种采样频率的过程。这一过程对于统一不同来源的数据集非常重要,尤其是在机器学习和深度学习项目中,通常需要确保所有输入数据具有相同的采样率[^1]。 #### 常见的重采样方法 1. **线性插值** 这是一种简单而快速的方法,适用于低精度需求的应用场景。它通过计算相邻样本之间的直线来估算新的采样点位置[^3]。 2. **多项式插值** 使用高阶多项式拟合已知数据点并预测新采样点的位置。这种方法虽然更精确,但计算成本较高[^3]。 3. **傅里叶变换法** 利用频域特性进行重采样的方法之一是基于离散傅里叶变换(DFT)。该方法先对原信号做FFT变换,在目标频率范围内截断或扩展后再逆变换回时域。 4. **带通滤波器设计** 当改变采样速率时可能会引入混叠效应,因此在实际应用前往往加入抗混叠低通滤波器以保护重要信息不被破坏[^2]。 #### MATLAB 中的重采样工具 MATLAB 提供了一个名为 `resample` 的内置函数用于执行时间序列或者均匀间隔数据的重新取样工作流程。其语法如下所示: ```matlab y = resample(x,p,q) ``` 其中参数 p 和 q 定义了所需的缩放比例关系;即如果希望把原来的 fs Hz 变成 fnew=f*p/q,则设置对应的数值即可完成操作[^1]。 #### Python 中的重采样Python 社区也提供了丰富的第三方模块支持类似的运算逻辑,比如 SciPy 库下的 scipy.signal.resample 函数就是其中之一。下面给出一段简单的例子演示如何利用此功能调整 WAV 文件内的声音片段至指定的目标帧数: ```python from scipy.io import wavfile import numpy as np from scipy.signal import resample # 加载 .wav 文件 samplerate, data = wavfile.read('input.wav') # 计算当前长度及所需的新长度 num_samples = len(data) target_num_samples = int(num_samples * (NEW_SAMPLERATE / samplerate)) # 执行重采样 resampled_data = resample(data, target_num_samples) # 存储结果为新的 .wav 文件 wavfile.write('output_resampled.wav', NEW_SAMPLERATE, resampled_data.astype(np.int16)) ``` #### Kaldi 对于重采样的处理方式 作为专注于自动语音识别系统的开源框架,Kaldi 并未单独强调特定算法实现细节而是更多依赖外部脚本配合 sox 工具完成此类任务.Sox 是一个强大的命令行应用程序能够轻松应对各种复杂的音频编辑需求其中包括但不限于变速不变调效果以及跨平台兼容性强等特点使其成为许多研究者首选方案之一[^2].
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值