android 音频的采集

最新推荐文章于 2025-01-23 07:30:00 发布

原创最新推荐文章于 2025-01-23 07:30:00 发布 · 1.5k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

音视频专栏收录该内容

24 篇文章

订阅专栏

本文详细解析AudioRecord在Android中的使用，涉及参数配置、音频采集、数据提取及资源管理，包括audioSource选择、采样率设置和缓冲区优化。

1.配置参数，初始化内部的音频缓冲区

首先来看一下AudioRecord的配置参数，AudioRecord是通过构造函

数来配置参数的，其函数原型如下：

public AudioRecord(int audioSource, int sampleRateInHz, int channelConfig, int

audioFormat, int bufferSizeInBytes).

上述参数所代表的含义及其在各种场景下应该传递的值具体说明如

下。

·audioSource，该参数指的是音频采集的输入源，可选值以常量的

形式定义在类AudioSource（MediaRecorder的一个内部类）中，常用的

值包括：

·DEFAULT（默认）

·VOICE_RECOGNITION（用于语音识别，等同于DEFAULT）

·MIC（由手机麦克风输入）

·VOICE_COMMUNICATION（用于VoIP应用）等

·sampleRateInHz，用于指定以多大的采样频率来采集音频，现在用

得最多的就是44100的采样频率（就是我们常说的44.1kHz的采样率），

如果使用该采样率初始化录音器失败的话，则可以使用16000的采样频

率（就是我们常说的16kHz的采样率）来尝试一下。

·channelConfig，该参数用于指定录音器采集几个声道的声音，可

选值以常量的形式定义在AudioFormat类中，常用的值包括：

·CHANNEL_IN_MONO（单声道）

·CHANNEL_IN_STEREO（立体声）

·由于现在的移动设备都是伪立体声的采集，所以出于性能考虑，

一般按照单声道进行采集，然后在后期处理中将数据转换为立体声。·audioFormat，这就是基础概念里面介绍过的采样的表示格式，可

选值以常量的形式定义在AudioFormat类中，常用的值包括：

·ENCODING_PCM_16BIT（16bit）

·ENCODING_PCM_8BIT（8bit）

·注意，前者可以保证兼容大部分的Android手机。

·bufferSizeInBytes，这是最难理解但最重要的一个参数，其配置的

是AudioRecord内部的音频缓冲区的大小，而具体的大小，不同的厂商

会有不同的实现，该音频缓冲区越小，产生的延时就会越小。

AudioRecord类提供了一个静态方法用于确定该bufferSizeInBytes的函

数，其原型如下：

int getMinBufferSize(int sampleRateInHz, int channelConfig, int audioFormat);

·在实际开发中，强烈建议由该函数计算出需要传入的

bufferSizeInBytes，而不是使用自己计算的值。

配置好AudioRecord之后，应该检查一下AudioRecord的当前状态，

因为极有可能会因为权限（用户未对我们的应用授权访问麦克风的权

限），或者由于其他应用没有正确地释放录音器等原因，使得构造的

AudioRecord的状态不正常。可以通过AudioRecord的方法getState来获取

当前录音器的状态，然后与AudioRecord.STATE_INITAILIZED进行比

较，如果不相等，则提示用户尚未获得录音权限。

2.开始采集

待创建好AudioRecord对象之后，就可以开始进行音频数据的采集

了，可通过下面的函数来控制麦克风音频采集的开始：

audioRecord.startRecording();

3.提取数据

执行完上述命令之后，需要一个线程，从AudioRecord的缓冲区中将音频数据不断地读取出来。注意，该过程一定要及时，否则会出

现“overrun”的错误，该错误在音频开发中比较常见，其意味着应用层没

有及时地“取走”音频数据，从而导致内部的音频缓冲区溢出。读取录音

器采集到的PCM数据的方法原型如下所示：

public int read(byte[] audioData, int offsetInBytes, int sizeInBytes)

当然，也可以读取short数组类型的数据，因为其更符合底层的一些

处理，毕竟我们的设置是每个sample都由一个short来表示，方法原型如

下：

public int read(short[] audioData, int offsetInShorts, int sizeInShorts)

拿到数据之后就可以直接写入文件了，可以通过Java层提供的

FileOutputStream将数组直接写到文件中。

4.停止采集，释放资源

当我们想要停止录音的时候，可调用AudioRecord的stop方法来实

现，并且最终要对该AudioRecord的实例调用release，代表释放掉了录音

器，以便设备的其他应用可以正常使用录音器，这一点是十分重要的。

可以通过布尔型变量的控制先读取数据的线程并结束，然后再停止和释

放AudioRecord实例，最终再关闭写入数据的文件，否则会有文件写出

不完全的问题。

本节的实例在代码仓库里是AudioRecorder项目，运行该项目，进入

录音界面，点击record开始录音，点击stop停止录音，然后利用adb pull

导出PCM文件：

adb pull /mnt/sdcard/vocal.pcm ~/Desktop/

利用ffplay播放声音：

ffplay -f s16le -sample_rate 44100 -channels 1 -i vocal.pcm也可以利用FFmpeg将PCM文件转换为WAV文件，然后使用PC上的

系统播放器进行播放：

ffmpeg -f s16le -sample_rate 44100 -channels 1 -i vocal.pcm -acodec pcm_s16le

vocal.wav

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。