在dpkt文档里没有找到解析pcapng格式的部分,以为dpkt不能解析pcapng格式的包。后面看到一份源码发现可以使用dpkt.pcapng.Reader()来读取pcapng格式。但是如果数据集中pcap格式的包和pcapng格式的包混合在一起就需要加一个判断,看到有这种写法的:
pcapfile = open('xxx.pcapng', 'rb')
try:
pcaps = dpkt.pcap.Reader(pcapfile)
except Exception as e:
pcaps = dpke.pcapng.Reader(pcapfile)
自己试了一下发现报错:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/home/uh3ng/.local/lib/python3.8/site-packages/dpkt/pcapng.py", line 513, in __init__
raise ValueError('invalid pcapng header: not a SHB')
ValueError: invalid pcapng header: not a SHB
后面我又打开一个新文件,这次只调用dpke.pcapng.Reader()发现可以正常解析,于是猜测可能是经过第一次try以后文件指针发生了变化,修改成以下格式就可以了:
fd = open(pcap_file_path, "rb")
# 读取文件的magic字段,读完以后记得把文件指针移到0位置
magic_head = fd.read(4)
fd.seek(0, 0)
if magic_head == b'\n\r\r\n':
pcap_reader = dpkt.pcapng.Reader(fd)
elif magic_head == b'\xd4\xc3\xb2\xa1':
pcap_reader = dpkt.pcap.Reader(fd)
else:
print("[DEBUG in PcapUtils] It is not a pcap or pcapng file")
exit(1)
那是不是还可以直接通过判断文件的后缀名来选择调用哪个接口呢,感觉不可以,有的文件虽然显示的是pcap格式,但实际上是pcapng格式,所以这种通过文件头来判断的方式肯定错不了。
剩下的处理可以参考dpkt文档打开文件之后的步骤来解析。文档里好像没有找到关于dpkt.pcapng的说明,有点坑。