RTP协议负责对流媒体数据进行封包并实现媒体流的实时传输,即它按照RPT数据包格式来封装流媒体数据,并利用与它绑定的协议进行数据包的传输;RTP本身只保证实时数据的传输,并不能为按顺序传送数据包提供可靠的传送机制,也不提供流量控制或拥塞控制,它依靠RTCP提供这些服务。
一、RTP数据包格式
RTP码流由多个RTP包组成,每个RTP包,由RTP头标准字段(固定12字节)、RTP头扩展字段、RTP负载、填充字段组成,私有数据存放在私有扩展字段,包括各种描述及各种私有类型数据,RTP保存成文件是不能直接播放的,抓包下来的RTP码流中往往含有协议交互数据和冗余数据。
(1) V:RTP协议的版本号,占2位,当前协议版本号为2;
(2) P:填充标志,占1位,如果P=1,则在该报文的尾部填充一个或多个额外的八位组,它们不是有效载荷的一部分。如果P=1,需要查看这一个RTP包文最后一个字节(该字节的值只可能为1,2,3),如果字节值是0x01,说明只有一个字节填充;如果是0x02, 说明有两个字节填充;如果字节值是0x03,说明有三个字节填充;
(3) X:扩展标志,占1位,如果X=1,则在RTP报头后跟有一个扩展报头。一般只有hik私有帧(90 F0开头)才会有扩展数据。如果X=1,在RTP头的12个字节之后,会带有以下内容:两个字节的扩展内容说明extenProfile;两个字节的扩展数据长度extenLength;扩展数据4*extenLength字节;
(4) CC:CSRC计数器,占4位,指示CSRC 标识符的个数(作用信源CSRC计数器,字节数为4n个)。比如一个rtp头中,cc的值为2,则在RTP的12个字节后会带上4*2=8个字节的数据,表示CSRC;
(5) M: 标记,占1位,不同的有效载荷有不同的含义,对于视频,标记一帧的结束;对于音频,标记会话的开始;
(6) PT: 有效荷载类型,占7位,用于说明RTP报文中有效载荷的类型,H264:96; G711u:0; g711a:8; aac:104; hik私有数据:112,其他荷载类型,参考官网https://www.ietf.org/assignments/rtp-parameters/rtp-parameters.xml
(7) 序列号:占16位,用于标识发送者所发送的RTP报文的序列号,每发送一个报文,序列号增1。这个字段当下层的承载协议用UDP的时候,网络状况不好的时候可以用来检查丢包。同时出现网络抖动的情况可以用来对数据进行重新排序,序列号的初始值是随机的,同时音频包和视频包的sequence是分别记数的;
(8) 时戳(Timestamp):占32位,必须使用90 kHz 时钟频率。时戳反映了该RTP报文的第一个八位组的采样时刻。接收者使用时戳来计算延迟和延迟抖动,并进行同步控制;
(9) 同步信源(SSRC)标识符:占32位,用于标识同步信源。该标识符是随机选择的,参加同一视频会议的两个同步信源不能有相同的SSRC。可以简单理解为一路媒体信息的标记,比如码流中所有H264视频的RTP头中这个标记为0x12345678;所有G711音频的RTP头中这个标记为0x11111111;对于hik私有帧,这个标记很多时候都是0x556677