这篇是承接上一篇提到的底层resample处理,以Samsung的mini alsa-lib为例说明。
mini alsa-lib
这个mini alsa-lib位于android2.3.1-gingerbread/device/samsung/crespo/libaudio中。如之前所说alsa-lib实现了太多plugin的功能,显得复杂臃肿。因此我建议如果想了解alsa在上层调用过程,最好从这个mini alsa-lib入手,就两个源文件:alsa_pcm.c和alsa_mixer.c,前者是pcm回放录音接口,后者是mixer controls的控制接口。
alsa-lib其实也是通过操作/dev目录的设备节点来调用内核空间的音频驱动接口,这点跟平常的字符设备的调用方法一样的。如open:
- structpcm*pcm_open(unsignedflags)
- {
- constchar*dname;
- structpcm*pcm;
- structsnd_pcm_infoinfo;
- structsnd_pcm_hw_paramsparams;
- structsnd_pcm_sw_paramssparams;
- unsignedperiod_sz;
- unsignedperiod_cnt;
- LOGV("pcm_open(0x%08x)",flags);
- pcm=calloc(1,sizeof(structpcm));
- if(!pcm)
- return&bad_pcm;
- if(flags&PCM_IN){
- dname="/dev/snd/pcmC0D0c";//capture设备节点
- }else{
- dname="/dev/snd/pcmC0D0p";//playback设备节点
- }
- ...
- pcm->flags=flags;
- pcm->fd=open(dname,O_RDWR);
- if(pcm->fd<0){
- oops(pcm,errno,"cannotopendevice'%s'");
- returnpcm;
- }
- if(ioctl(pcm->fd,SNDRV_PCM_IOCTL_INFO,&info)){
- oops(pcm,errno,"cannotgetinfo-%s");
- gotofail;
- }
- ...
- }
这里不多考究这些接口实现。alsa_pcm.c中有个函数挺有趣的:
- staticvoidparam_set_mask(structsnd_pcm_hw_params*p,intn,unsignedbit)
- {
- if(bit>=SNDRV_MASK_MAX)
- return;
- if(param_is_mask(n)){
- structsnd_mask*m=param_to_mask(p,n);
- m->bits[0]=0;
- m->bits[1]=0;
- m->bits[bit>>5]|=(1<<(bit&31));
- }
- }
其中SNDRV_MASK_MAX和snd_mask的定义分别如下:
- #defineSNDRV_MASK_MAX256
- structsnd_mask{
- __u32bits[(SNDRV_MASK_MAX+31)/32];
- };
其中m->bits[bit >> 5] |= (1 << (bit & 31));为核心语句,bit>>5其实就是bit除以32(即数组元素长度)取得数组下标,1 << (bit & 31)是掩码位在数组元素中的偏移量。如bit=255时,则数组下标是7,即数组bits最后一个元素,偏移量是1<<31,这时整个bits数据就是这样:bits[7:0] = 0x80000000:0x00000000:0x00000000:0x00000000:0x00000000:0x00000000:0x00000000:0x00000000,这个256位的掩码的最高位就置1了。当然在实际应用中并不会用到那么高位的掩码,这里应该是为了方便以后扩展使用的,因此也只需要m->bits[0] = 0;m->bits[1] = 0,看来仅仅最多用到64位掩码。
ADCLRC约束条件
在pcm_open中,有
- param_set_int(¶ms,SNDRV_PCM_HW_PARAM_RATE,44100);
- if(ioctl(pcm->fd,SNDRV_PCM_IOCTL_HW_PARAMS,¶ms)){
- oops(pcm,errno,"cannotsethwparams");
- gotofail;
- }
可见,无论放音还是录音,都是设置44.1khz的采样率的。在我们的底层I2S驱动中,放音录音也是固定一个采样率44.1khz。为什么这样做?放音就罢了,Android由于需要混合各个track的数据,故把放音采样率固定在44.1khz,而录音为什么也固定用44.1khz?注:这里的采样率直接对应硬件信号ADCLRC/DACLRC频率。
首先需要了解一下I2S协议方面的知识。放音采样率DACLRC,录音采样率ADCLRC都是通过同一个主时钟MCLK分频出来的。在底层音频驱动中,一般有如下的结构体:
- struct_coeff_div{
- u32mclk;
- u32rate;
- u16fs;
- u8sr;
- u8bclk_div;
- };
- /*codechifimclkclockdividercoefficients*/
- staticconststruct_coeff_divcoeff_div[]={
- /*8k*/
- {12288000,8000,1536,0x4,0x0},
- /*11.025k*/
- {11289600,11025,1024,0x8,0x0},
- /*16k*/
- {12288000,16000,768,0x5,0x0},
- /*22.05k*/
- {11289600,22050,512,0x9,0x0},
- /*32k*/
- {12288000,32000,384,0x7,0x0},
- /*44.1k*/
- {11289600,44100,256,0x6,0x07},
- /*48k*/
- {12288000,48000,256,0x0,0x07},
- /*96k*/
- {12288000,96000,128,0x1,0x04},
- };
其中MCLK有两个可配频率,分别是12288000和11289600,前者用于8k、16k、32k、48k、96khz的分频,后者用于11.025k、22.05k、44.1khz的分频。具体算式是rate=mclk/fs,如44100=11289600/256。
看出问题了没有?如果录音采样率设置为8khz,则MCLK必须转变为12288000,此时DACLRC就会被改变(放音声音会变得尖锐),不利于同时放音录音。因此录音采样率是受其约束的,其实也不是一定是44.1khz,是11.025khz的倍数即可,能保证是可以从同一个MCLK分频。
DownSampler
在android2.3.1-gingerbread/device/samsung/crespo/libaudio中,除了mini alsa-lib外,就是Samsung为Android写的AudioHAL了,如AudioHardware.cpp,这相当于alsa_sound中的文件。这个HAL有很大的通用性,移植到无通话功能的MID上都可以正常工作的,当然也保留Samsung的一些专用性,主要是通话语音通道处理。这里不详述这个音频HAL文件,如果对AudioFlinger和alsa_sound比较熟悉的话,会很快上手掌握。
如上个章节所说,底层录音采样率ADCLRC固定是44.1khz,那么上层如果想要其他的采样率如8khz,怎么办?resample无疑。由于这里支持的录音采样率有:8000, 11025, 16000, 22050, 44100,都低于或等于44.1khz,则只需要downsample(同理从低采样率转换到高采样率叫upsample)。如下是简单的分析:
- status_tAudioHardware::AudioStreamInALSA::set(
- AudioHardware*hw,uint32_tdevices,int*pFormat,
- uint32_t*pChannels,uint32_t*pRate,AudioSystem::audio_in_acousticsacoustics)
- {
- if(pFormat==0||*pFormat!=AUDIO_HW_IN_FORMAT){
- *pFormat=AUDIO_HW_IN_FORMAT;//AudioSystem::PCM_16_BIT
- returnBAD_VALUE;
- }
- if(pRate==0){
- returnBAD_VALUE;
- }
- //getInputSampleRate:取得与参数sampleRate最接近的且被支持的采样率
- //支持的采样率有:8000,11025,16000,22050,44100
- //事实上,这里传入来的sampleRate必须是被支持的,否则返回BAD_VALUE
- uint32_trate=AudioHardware::getInputSampleRate(*pRate);
- if(rate!=*pRate){
- *pRate=rate;
- returnBAD_VALUE;
- }
- if(pChannels==0||(*pChannels!=AudioSystem::CHANNEL_IN_MONO&&
- *pChannels!=AudioSystem::CHANNEL_IN_STEREO)){
- *pChannels=AUDIO_HW_IN_CHANNELS;//AudioSystem::CHANNEL_IN_MONO
- returnBAD_VALUE;
- }
- mHardware=hw;
- LOGV("AudioStreamInALSA::set(%d,%d,%u)",*pFormat,*pChannels,*pRate);
- //getBufferSize:根据采样率和声道数确定buffer的大小
- //popCount:计算参数u有多少个非0位,其实现很有趣,大家可以研究下它的算法
- mBufferSize=getBufferSize(*pRate,AudioSystem::popCount(*pChannels));
- mDevices=devices;
- mChannels=*pChannels;
- mChannelCount=AudioSystem::popCount(mChannels);
- mSampleRate=rate;
- //检查mSampleRate是否与AUDIO_HW_OUT_SAMPLERATE(44.1khz)一致,否则需要downresample
- if(mSampleRate!=AUDIO_HW_OUT_SAMPLERATE){
- mDownSampler=newAudioHardware::DownSampler(mSampleRate,
- mChannelCount,
- AUDIO_HW_IN_PERIOD_SZ,
- this);
- status_tstatus=mDownSampler->initCheck();
- if(status!=NO_ERROR){
- deletemDownSampler;
- LOGW("AudioStreamInALSA::set()downsamplerinitfailed:%d",status);
- returnstatus;
- }
- mPcmIn=newint16_t[AUDIO_HW_IN_PERIOD_SZ*mChannelCount];
- }
- returnNO_ERROR;
- }
以上是set方法,检查参数format、samplerate和channelcount的合法性,检查samplerate是否与ADCLRC一致,如果不一致,则创建一个DownSampler。
我们再看看read方法代码片段:
- ssize_tAudioHardware::AudioStreamInALSA::read(void*buffer,ssize_tbytes)
- {
- ......
- //检查是否创建了DownSampler
- if(mDownSampler!=NULL){
- size_tframes=bytes/frameSize();
- size_tframesIn=0;
- mReadStatus=0;
- do{
- size_toutframes=frames-framesIn;
- //调用DownSampler的resample方法,该方法从音频接口读取pcm数据,然后对这些数据resample
- mDownSampler->resample(
- (int16_t*)buffer+(framesIn*mChannelCount),
- &outframes);
- framesIn+=outframes;
- }while((framesIn<frames)&&mReadStatus==0);
- ret=mReadStatus;
- bytes=framesIn*frameSize();
- }else{
- TRACE_DRIVER_IN(DRV_PCM_READ)
- //并未创建DownSampler,直接读取pcm数据送到缓冲区
- ret=pcm_read(mPcm,buffer,bytes);
- TRACE_DRIVER_OUT
- }
- ......
- }
1、调用AudioHardware::AudioStreamInALSA::getNextBuffer方法,获取音频pcm数据,存放到buffer,并计算下一次buffer的地址;
2、将buffer中的数据分解成各个声道的数据并保存到mInLeft和mInRight;
3、由于原始的音频pcm数据采样率是44.1khz的,调用resample_2_1将数据转为22.05khz采样率;
4、1) 如果上层需要的samplerate=11.025khz,调用resample_2_1将数据采样率从22.05khz转换到11.025khz;
2) 如果上层需要的samplerate=8khz,调用resample_441_320将数据采样率从11.025khz转换到8khz;
5、如果上层需要的samplerate=16khz,调用resample_441_320将数据采样率从22.05khz转换到16khz。
可见真正的resample处理是在resample_2_1()和resample_441_320()这两个函数中。前者是对倍数2的采样率进行resample的,如44100->22050, 22050->11025, 16000->8000等;后者是对比率为441/320的采样率进行resample的,如44100->32000, 22050->16000, 11025->8000等。
这篇是承接上一篇提到的底层resample处理,以Samsung的mini alsa-lib为例说明。
mini alsa-lib
这个mini alsa-lib位于android2.3.1-gingerbread/device/samsung/crespo/libaudio中。如之前所说alsa-lib实现了太多plugin的功能,显得复杂臃肿。因此我建议如果想了解alsa在上层调用过程,最好从这个mini alsa-lib入手,就两个源文件:alsa_pcm.c和alsa_mixer.c,前者是pcm回放录音接口,后者是mixer controls的控制接口。
alsa-lib其实也是通过操作/dev目录的设备节点来调用内核空间的音频驱动接口,这点跟平常的字符设备的调用方法一样的。如open:
- structpcm*pcm_open(unsignedflags)
- {
- constchar*dname;
- structpcm*pcm;
- structsnd_pcm_infoinfo;
- structsnd_pcm_hw_paramsparams;
- structsnd_pcm_sw_paramssparams;
- unsignedperiod_sz;
- unsignedperiod_cnt;
- LOGV("pcm_open(0x%08x)",flags);
- pcm=calloc(1,sizeof(structpcm));
- if(!pcm)
- return&bad_pcm;
- if(flags&PCM_IN){
- dname="/dev/snd/pcmC0D0c";//capture设备节点
- }else{
- dname="/dev/snd/pcmC0D0p";//playback设备节点
- }
- ...
- pcm->flags=flags;
- pcm->fd=open(dname,O_RDWR);
- if(pcm->fd<0){
- oops(pcm,errno,"cannotopendevice'%s'");
- returnpcm;
- }
- if(ioctl(pcm->fd,SNDRV_PCM_IOCTL_INFO,&info)){
- oops(pcm,errno,"cannotgetinfo-%s");
- gotofail;
- }
- ...
- }
这里不多考究这些接口实现。alsa_pcm.c中有个函数挺有趣的:
- staticvoidparam_set_mask(structsnd_pcm_hw_params*p,intn,unsignedbit)
- {
- if(bit>=SNDRV_MASK_MAX)
- return;
- if(param_is_mask(n)){
- structsnd_mask*m=param_to_mask(p,n);
- m->bits[0]=0;
- m->bits[1]=0;
- m->bits[bit>>5]|=(1<<(bit&31));
- }
- }
其中SNDRV_MASK_MAX和snd_mask的定义分别如下:
- #defineSNDRV_MASK_MAX256
- structsnd_mask{
- __u32bits[(SNDRV_MASK_MAX+31)/32];
- };
其中m->bits[bit >> 5] |= (1 << (bit & 31));为核心语句,bit>>5其实就是bit除以32(即数组元素长度)取得数组下标,1 << (bit & 31)是掩码位在数组元素中的偏移量。如bit=255时,则数组下标是7,即数组bits最后一个元素,偏移量是1<<31,这时整个bits数据就是这样:bits[7:0] = 0x80000000:0x00000000:0x00000000:0x00000000:0x00000000:0x00000000:0x00000000:0x00000000,这个256位的掩码的最高位就置1了。当然在实际应用中并不会用到那么高位的掩码,这里应该是为了方便以后扩展使用的,因此也只需要m->bits[0] = 0;m->bits[1] = 0,看来仅仅最多用到64位掩码。
ADCLRC约束条件
在pcm_open中,有
- param_set_int(¶ms,SNDRV_PCM_HW_PARAM_RATE,44100);
- if(ioctl(pcm->fd,SNDRV_PCM_IOCTL_HW_PARAMS,¶ms)){
- oops(pcm,errno,"cannotsethwparams");
- gotofail;
- }
可见,无论放音还是录音,都是设置44.1khz的采样率的。在我们的底层I2S驱动中,放音录音也是固定一个采样率44.1khz。为什么这样做?放音就罢了,Android由于需要混合各个track的数据,故把放音采样率固定在44.1khz,而录音为什么也固定用44.1khz?注:这里的采样率直接对应硬件信号ADCLRC/DACLRC频率。
首先需要了解一下I2S协议方面的知识。放音采样率DACLRC,录音采样率ADCLRC都是通过同一个主时钟MCLK分频出来的。在底层音频驱动中,一般有如下的结构体:
- struct_coeff_div{
- u32mclk;
- u32rate;
- u16fs;
- u8sr;
- u8bclk_div;
- };
- /*codechifimclkclockdividercoefficients*/
- staticconststruct_coeff_divcoeff_div[]={
- /*8k*/
- {12288000,8000,1536,0x4,0x0},
- /*11.025k*/
- {11289600,11025,1024,0x8,0x0},
- /*16k*/
- {12288000,16000,768,0x5,0x0},
- /*22.05k*/
- {11289600,22050,512,0x9,0x0},
- /*32k*/
- {12288000,32000,384,0x7,0x0},
- /*44.1k*/
- {11289600,44100,256,0x6,0x07},
- /*48k*/
- {12288000,48000,256,0x0,0x07},
- /*96k*/
- {12288000,96000,128,0x1,0x04},
- };
其中MCLK有两个可配频率,分别是12288000和11289600,前者用于8k、16k、32k、48k、96khz的分频,后者用于11.025k、22.05k、44.1khz的分频。具体算式是rate=mclk/fs,如44100=11289600/256。
看出问题了没有?如果录音采样率设置为8khz,则MCLK必须转变为12288000,此时DACLRC就会被改变(放音声音会变得尖锐),不利于同时放音录音。因此录音采样率是受其约束的,其实也不是一定是44.1khz,是11.025khz的倍数即可,能保证是可以从同一个MCLK分频。
DownSampler
在android2.3.1-gingerbread/device/samsung/crespo/libaudio中,除了mini alsa-lib外,就是Samsung为Android写的AudioHAL了,如AudioHardware.cpp,这相当于alsa_sound中的文件。这个HAL有很大的通用性,移植到无通话功能的MID上都可以正常工作的,当然也保留Samsung的一些专用性,主要是通话语音通道处理。这里不详述这个音频HAL文件,如果对AudioFlinger和alsa_sound比较熟悉的话,会很快上手掌握。
如上个章节所说,底层录音采样率ADCLRC固定是44.1khz,那么上层如果想要其他的采样率如8khz,怎么办?resample无疑。由于这里支持的录音采样率有:8000, 11025, 16000, 22050, 44100,都低于或等于44.1khz,则只需要downsample(同理从低采样率转换到高采样率叫upsample)。如下是简单的分析:
- status_tAudioHardware::AudioStreamInALSA::set(
- AudioHardware*hw,uint32_tdevices,int*pFormat,
- uint32_t*pChannels,uint32_t*pRate,AudioSystem::audio_in_acousticsacoustics)
- {
- if(pFormat==0||*pFormat!=AUDIO_HW_IN_FORMAT){
- *pFormat=AUDIO_HW_IN_FORMAT;//AudioSystem::PCM_16_BIT
- returnBAD_VALUE;
- }
- if(pRate==0){
- returnBAD_VALUE;
- }
- //getInputSampleRate:取得与参数sampleRate最接近的且被支持的采样率
- //支持的采样率有:8000,11025,16000,22050,44100
- //事实上,这里传入来的sampleRate必须是被支持的,否则返回BAD_VALUE
- uint32_trate=AudioHardware::getInputSampleRate(*pRate);
- if(rate!=*pRate){
- *pRate=rate;
- returnBAD_VALUE;
- }
- if(pChannels==0||(*pChannels!=AudioSystem::CHANNEL_IN_MONO&&
- *pChannels!=AudioSystem::CHANNEL_IN_STEREO)){
- *pChannels=AUDIO_HW_IN_CHANNELS;//AudioSystem::CHANNEL_IN_MONO
- returnBAD_VALUE;
- }
- mHardware=hw;
- LOGV("AudioStreamInALSA::set(%d,%d,%u)",*pFormat,*pChannels,*pRate);
- //getBufferSize:根据采样率和声道数确定buffer的大小
- //popCount:计算参数u有多少个非0位,其实现很有趣,大家可以研究下它的算法
- mBufferSize=getBufferSize(*pRate,AudioSystem::popCount(*pChannels));
- mDevices=devices;
- mChannels=*pChannels;
- mChannelCount=AudioSystem::popCount(mChannels);
- mSampleRate=rate;
- //检查mSampleRate是否与AUDIO_HW_OUT_SAMPLERATE(44.1khz)一致,否则需要downresample
- if(mSampleRate!=AUDIO_HW_OUT_SAMPLERATE){
- mDownSampler=newAudioHardware::DownSampler(mSampleRate,
- mChannelCount,
- AUDIO_HW_IN_PERIOD_SZ,
- this);
- status_tstatus=mDownSampler->initCheck();
- if(status!=NO_ERROR){
- deletemDownSampler;
- LOGW("AudioStreamInALSA::set()downsamplerinitfailed:%d",status);
- returnstatus;
- }
- mPcmIn=newint16_t[AUDIO_HW_IN_PERIOD_SZ*mChannelCount];
- }
- returnNO_ERROR;
- }
以上是set方法,检查参数format、samplerate和channelcount的合法性,检查samplerate是否与ADCLRC一致,如果不一致,则创建一个DownSampler。
我们再看看read方法代码片段:
- ssize_tAudioHardware::AudioStreamInALSA::read(void*buffer,ssize_tbytes)
- {
- ......
- //检查是否创建了DownSampler
- if(mDownSampler!=NULL){
- size_tframes=bytes/frameSize();
- size_tframesIn=0;
- mReadStatus=0;
- do{
- size_toutframes=frames-framesIn;
- //调用DownSampler的resample方法,该方法从音频接口读取pcm数据,然后对这些数据resample
- mDownSampler->resample(
- (int16_t*)buffer+(framesIn*mChannelCount),
- &outframes);
- framesIn+=outframes;
- }while((framesIn<frames)&&mReadStatus==0);
- ret=mReadStatus;
- bytes=framesIn*frameSize();
- }else{
- TRACE_DRIVER_IN(DRV_PCM_READ)
- //并未创建DownSampler,直接读取pcm数据送到缓冲区
- ret=pcm_read(mPcm,buffer,bytes);
- TRACE_DRIVER_OUT
- }
- ......
- }
1、调用AudioHardware::AudioStreamInALSA::getNextBuffer方法,获取音频pcm数据,存放到buffer,并计算下一次buffer的地址;
2、将buffer中的数据分解成各个声道的数据并保存到mInLeft和mInRight;
3、由于原始的音频pcm数据采样率是44.1khz的,调用resample_2_1将数据转为22.05khz采样率;
4、1) 如果上层需要的samplerate=11.025khz,调用resample_2_1将数据采样率从22.05khz转换到11.025khz;
2) 如果上层需要的samplerate=8khz,调用resample_441_320将数据采样率从11.025khz转换到8khz;
5、如果上层需要的samplerate=16khz,调用resample_441_320将数据采样率从22.05khz转换到16khz。
可见真正的resample处理是在resample_2_1()和resample_441_320()这两个函数中。前者是对倍数2的采样率进行resample的,如44100->22050, 22050->11025, 16000->8000等;后者是对比率为441/320的采样率进行resample的,如44100->32000, 22050->16000, 11025->8000等。