【Python】Audioread：跨平台音频解码库

原创于 2024-09-28 12:15:00 发布 · 1.3k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#python #音视频 #开发语言 #pygame #pip #视频编解码 #ipython

部署运行你感兴趣的模型镜像

Python: 编写一次，运行任何地方。

在这里插入图片描述

在现代应用开发中，音频处理已经成为许多软件和应用程序的重要组成部分。无论是媒体播放器、音乐分析工具，还是语音识别系统，都需要对音频文件进行解码和处理。而在 Python 环境中，处理音频的需求也越来越普遍。

Audioread 是一个轻量级、跨平台的 Python 音频解码库，旨在为开发者提供一种简洁、统一的方式来读取不同格式的音频文件。Audioread 并不依赖于特定的音频解码库，而是通过多个解码后端（如 FFmpeg、Gstreamer 等）来处理各种音频格式，确保了其在不同操作系统上的兼容性。

本文将介绍 Audioread 的核心功能、应用场景以及其在音频处理中的实际应用，并展示如何使用 Audioread 进行音频文件的读取和处理。

在这里插入图片描述

华丽的分割线

➰缘起

🎬 什么是 Audioread？
📦 Audioread 的安装
🔨 Audioread 的核心功能
1. 打开音频文件
2. 获取音频文件的元数据
3. 处理多种音频格式
4. 后端的选择

🧱 Audioread 的实际应用场景
1. 音频分析工具
2. 音频转换工具
3. 音频播放器
4. 音频剪辑和处理

🙉 Audioread 的表格数据示例
♨️ 示例代码
1. 读取音频文件的基本信息
2. 读取和处理音频数据
3. 结合 NumPy 进行音频数据分析
4. 将音频数据保存为新的文件

📥 下载地址
💬 结语
📒 参考文献

标题1

🎬 什么是 Audioread？

Audioread 是一个用于读取音频文件的 Python 库，支持多种音频格式，并且具有跨平台特性。它支持的音频格式包括但不限于 MP3、WAV、FLAC 和 AAC 等。Audioread 通过不同的后端接口来解码音频文件，开发者无需关心具体的解码过程，只需调用统一的 API 即可读取音频数据。

Audioread 目前支持的后端包括：

FFmpeg/Libav：通过命令行工具解码几乎所有流行的音频格式。
GStreamer：一个强大的多媒体框架，主要用于 Linux 平台。
Core Audio：用于 macOS 的音频解码框架。
MAD：一个用于解码 MP3 格式的库。
PySoundFile：用于读取 WAV 和 FLAC 格式的库。

这种多后端设计使 Audioread 可以在不同的操作系统上以最佳方式解码音频文件。

标题2

📦 Audioread 的安装

要在 Python 环境中使用 Audioread，首先需要安装该库。可以通过 pip 来安装：

pip install audioread

如果您打算使用 FFmpeg 作为解码后端，您还需要确保在系统中安装了 FFmpeg 工具：

# 在 Ubuntu 上安装 FFmpeg
sudo apt-get install ffmpeg

# 在 macOS 上使用 Homebrew 安装 FFmpeg
brew install ffmpeg

安装完成后，Audioread 就可以开始使用了。

标题3

🔨 Audioread 的核心功能

Audioread 提供了一个非常简单易用的 API，用于读取音频文件中的数据。其主要的操作流程是通过打开音频文件并读取其中的原始 PCM 数据，开发者可以基于这些数据进行进一步的处理。

1. 打开音频文件

Audioread 的核心函数是 audioread.audio_open，它用于打开音频文件并返回一个音频流对象。这个对象可以用于读取音频数据和获取文件的相关信息。

以下是一个简单的示例，展示如何使用 Audioread 打开和读取音频文件：

import audioread

# 打开音频文件
with audioread.audio_open('example.mp3') as audio_file:
    # 输出音频文件的基本信息
    print(f"音频时长: {audio_file.duration} 秒")
    print(f"采样率: {audio_file.samplerate} Hz")
    print(f"声道数: {audio_file.channels}")
    
    # 读取音频帧
    for buf in audio_file:
        print(f"读取到 {len(buf)} 字节的音频数据")

在这个例子中，audio_open 会自动选择合适的解码后端来处理音频文件。我们能够获得音频文件的持续时间、采样率、声道数等基本信息，并通过迭代读取每一帧的音频数据。

2. 获取音频文件的元数据

Audioread 的音频流对象不仅能够用于读取音频数据，还可以获取文件的相关元数据：

duration：音频文件的总时长，单位为秒。
samplerate：音频文件的采样率，表示每秒钟的采样次数，单位为 Hz。
channels：音频文件的声道数。

3. 处理多种音频格式

Audioread 支持多种音频格式，且能够根据文件类型自动选择合适的后端进行处理。以下是一些常见的音频格式及其支持情况：

音频格式	支持后端	使用场景
MP3	FFmpeg, MAD	广泛用于音乐和播客
WAV	FFmpeg, PySoundFile	无损音频，常用于专业音频编辑
FLAC	FFmpeg, PySoundFile	无损压缩格式，音质较高
AAC	FFmpeg	广泛应用于流媒体和在线音乐
OGG	FFmpeg, GStreamer	开源音频格式，常用于游戏音频

4. 后端的选择

Audioread 会根据环境自动选择最佳的后端，通常不需要开发者手动指定。例如，在 Linux 上会优先使用 GStreamer，而在 macOS 上则优先使用 Core Audio。如果系统中安装了 FFmpeg，Audioread 也会自动检测并使用它来解码更多格式的音频文件。

标题4

🧱 Audioread 的实际应用场景

Audioread 在处理音频文件的过程中提供了很大的便利，尤其是在以下几种场景下，它能够帮助开发者简化音频处理流程：

1. 音频分析工具

在构建音频分析工具时，开发者通常需要读取音频文件的 PCM 数据进行处理，例如频谱分析、节奏检测等。Audioread 允许开发者轻松获取音频文件的原始数据，为后续的分析工作提供了基础。

2. 音频转换工具

Audioread 可以与其他音频处理库（如 pydub、librosa）结合使用，开发音频格式转换工具。例如，将 MP3 转换为 WAV 格式时，可以使用 Audioread 来读取 MP3 文件的内容，再利用其他库进行格式转换。

3. 音频播放器

虽然 Audioread 不是一个完整的音频播放器框架，但它可以作为播放器的解码模块，帮助读取不同格式的音频文件。开发者可以基于 Audioread 读取的音频帧，构建自定义的音频播放系统。

4. 音频剪辑和处理

开发音频剪辑和处理工具时，Audioread 提供了基础的音频读取功能，结合其他音频库，可以实现剪辑、混音、变速等功能。

标题5

🙉 Audioread 的表格数据示例

为了更好地理解 Audioread 如何处理音频文件，我们使用一个 MP3 文件示例，展示如何通过 Audioread 获取音频文件的信息，并以表格形式呈现数据。

属性	值
文件名	example.mp3
时长	180 秒
采样率	44100 Hz
声道数	2 (立体声)
解码后端	FFmpeg

通过上述表格，我们可以看到使用 Audioread 读取的 MP3 文件的基本信息。这些数据可以用于后续的音频分析、处理或播放。

标题6

♨️ 示例代码

下面是关于如何使用 Audioread 处理音频文件的一些示例代码，展示如何读取音频文件、获取元数据以及处理音频帧。

1. 读取音频文件的基本信息

这是一个基本示例，展示如何使用 Audioread 打开音频文件并获取其元数据信息，例如音频时长、采样率和声道数。

import audioread

# 打开音频文件
with audioread.audio_open('example.mp3') as audio_file:
    # 输出音频文件的元数据
    print(f"文件时长: {audio_file.duration:.2f} 秒")
    print(f"采样率: {audio_file.samplerate} Hz")
    print(f"声道数: {audio_file.channels}")

输出示例

文件时长: 180.00 秒
采样率: 44100 Hz
声道数: 2

这个示例展示了如何获取音频文件的基本信息。可以看到，文件的时长为 180 秒，采样率为 44100 Hz，且是一个立体声文件（2 声道）。

2. 读取和处理音频数据

下面的示例展示了如何使用 Audioread 读取音频数据，并逐帧处理音频数据。例如，你可以将读取到的音频帧用于进一步的分析或处理。

import audioread

# 打开音频文件
with audioread.audio_open('example.mp3') as audio_file:
    print(f"正在处理音频文件: {audio_file.channels} 个声道, 采样率 {audio_file.samplerate} Hz")
    
    # 遍历每一帧的音频数据
    for frame in audio_file:
        print(f"读取到 {len(frame)} 字节的音频数据")
        
        # 可以在这里处理音频数据，例如将其写入文件，或者进行音频分析

3. 结合 NumPy 进行音频数据分析

可以将读取到的音频数据转换为 NumPy 数组，方便进行数值分析。以下示例展示如何使用 Audioread 结合 NumPy 来处理音频数据。

import audioread
import numpy as np

# 打开音频文件
with audioread.audio_open('example.mp3') as audio_file:
    print(f"采样率: {audio_file.samplerate} Hz, 声道数: {audio_file.channels}")
    
    audio_data = b''  # 创建一个字节缓冲区来存储所有音频数据
    
    # 逐帧读取音频数据
    for frame in audio_file:
        audio_data += frame
    
    # 将字节数据转换为 NumPy 数组（假设 16-bit PCM）
    samples = np.frombuffer(audio_data, dtype=np.int16)
    
    # 如果是立体声，可能需要将其重塑为（N, 2）形式的二维数组
    if audio_file.channels == 2:
        samples = np.reshape(samples, (-1, 2))
    
    print(f"音频样本形状: {samples.shape}")

输出示例

采样率: 44100 Hz, 声道数: 2
音频样本形状: (7938000, 2)

在这个示例中，我们使用 numpy.frombuffer 方法将音频数据转换为 NumPy 数组。如果音频文件是立体声（两个声道），我们将数据重塑为二维数组，每行代表一个时间点的两个声道样本。

4. 将音频数据保存为新的文件

有时我们需要将处理后的音频数据保存到一个新文件中。以下示例展示了如何使用 Audioread 读取音频数据并保存为新的 WAV 文件（使用 wave 模块）。

import audioread
import wave

# 打开源音频文件
with audioread.audio_open('example.mp3') as audio_file:
    # 创建 WAV 文件
    with wave.open('output.wav', 'wb') as wave_file:
        # 设置 WAV 文件的参数
        wave_file.setnchannels(audio_file.channels)
        wave_file.setsampwidth(2)  # 16-bit PCM
        wave_file.setframerate(audio_file.samplerate)
        
        # 写入音频数据
        for frame in audio_file:
            wave_file.writeframes(frame)

此示例将 MP3 文件读取后并重新保存为 WAV 格式文件。在实际应用中，您可以在读取音频数据的过程中对其进行处理，然后再保存为新的格式或文件。

标题7

📥 下载地址

Audioread 最新版下载地址

标题8

💬 结语

Audioread 是一个非常实用的 Python 音频解码库，它提供了统一的接口来读取多种格式的音频文件，并支持跨平台的解码后端。通过 Audioread，开发者可以轻松获取音频文件的元数据和音频帧数据，无需深入理解底层的音频格式和解码过程。

无论您是构建音频分析工具、媒体播放器，还是开发其他与音频处理相关的应用，Audioread 都是一个值得推荐的轻量级解决方案。如果您的项目涉及音频文件的读取和处理，不妨尝试使用 Audioread 来简化音频解码流程。

📒 参考文献

Audioread GitHub仓库

TheEnd

📂 Unity 开发资源汇总 | 插件 | 模型 | 源码

💓 欢迎访问 Unity 打怪升级大本营

🍉🍉🍉 如果觉得这篇文对你有帮助的话，请点个赞👍、收藏⭐️下吧，非常感谢! 💕💕💕

【博主简介】：10年以上软件开发经验，精通 C语言、C++、C#、Java 等开发语言，开发过大型 Android 项目，现主要自主开发经营 休闲益智类小游戏。

【粉丝福利】：博主收藏了大量游戏开发资源和素材。这些资源经过博主多年整理沉淀，现筛选一批精品资源，分享给大家学习研究。