ffmpeg关于读取av_read_frame音频数据时,AVPacket字段的说明

本文详细探讨了使用FFmpeg库读取系统声音时,如何处理AVPacket和AVFrame的时间戳(pts、dts和duration)。通过示例展示了不同音频包之间的时序关系,以及解码过程中样例数与时间的关系,揭示了音频数据处理中的时间基转换和采样率计算原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

用ffmpeg读取系统声音时,如下所示
av_read_frame(pFormatCtx_Audio, &packet) ;
packet中pts,dts,duration都是基于pFormatCtx_Audio里面对应AVStream的time_base。

下面我们看下AVStream里面的time_base是1000 0000,即1千万一秒。
在这里插入图片描述
然后我们读取一个packet,其值如下所示:
在这里插入图片描述
pts和dts都是1303426380000,这个值太大,我们先不管,我们看下duration字段,值100000,1千万的百分之一,所以读取到的这个音频包是10ms的长度。

我们再通过下面的语句对packet进行解码,解码器的time_base是48000(根据解码器的采样率进行设置)
ret = avcodec_send_packet(pReadCodecContext, &packet);
ret = avcodec_receive_frame(pReadCodecContext, pFrame);
我们观察下pFrame的值,如下:
在这里插入图片描述
可以看到转换成AVFrame结构后的样例数nb_samples为480,而解码器的time_base是48000,故AVFrame中的480个样例数刚好代表着10ms,与AVPacket中的duration能够对应上。
同时,我们可以看到,pts和dts相对于AVPacket没有发现变化,都是以AVStream的time_base为时间基。

我们接着取第二包数据,AVPacket的数据如下所示:
在这里插入图片描述
同样根据duration为100000,判断其为10ms。pts和dts的值为1303426480000,而第一包AVPacket的pts为1303426380000,两者相减,值刚好为100000,代表着10ms,即两个包间距为10ms。
接着用下面语句进行解码。
ret = avcodec_send_packet(pReadCodecContext, &packet);
ret = avcodec_receive_frame(pReadCodecContext, pFrame);
我们观察下pFrame的值,如下:
在这里插入图片描述
很明显,样例数还是480,这个是正常的,pts的值跟AVPacket的值一样。

我们接着取第三包数据,AVPacket的数据如下所示:
在这里插入图片描述
此时的duration为300000,代表着30ms,pts为1305752680000。与第二包的pts 1303426480000相减,并不是30ms的差值,这个跟我调试时,时间过去太长有关,导致系统对中间停顿的地方没有采集相关声音。
接着用下面语句进行解码。
ret = avcodec_send_packet(pReadCodecContext, &packet);
ret = avcodec_receive_frame(pReadCodecContext, pFrame);
我们观察下pFrame的值,如下:
在这里插入图片描述
可以看到nb_samples为1440,相对于采样率48000,刚好也代表着30ms。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值