对多个xml文档遍历，进行数据分析

最新推荐文章于 2025-11-11 11:10:58 发布

原创最新推荐文章于 2025-11-11 11:10:58 发布 · 1.6k 阅读

10 ·

CC 4.0 BY-SA版权

收获专栏收录该内容

22 篇文章

订阅专栏

本文介绍了XML文档的基本概念，展示了如何使用Python的xml.dom.minidom库提取XML文档信息，并通过遍历多个XML文档进行数据分析，统计不同目标的出现频率。

1.什么是xml文档？

请看如下截图，xml文档的一般格式：

如果还想深入了解xml文件，可以参考详细博客，链接如下：

https://blog.youkuaiyun.com/com_ma/article/details/73277535

2.提取xml文档的信息

python和java都有对应处理xml文档的库，我们只要熟悉需要使用到的方法即可。举例如下：图一中import xml.dom.minidom是调用的处理xml文档的库，图二则展示了其中的一些方法。

3.遍历多个xml文档，并进行数据分析

详细代码与解析如下(根据个人需要而编写，所以不能照搬照抄，仅供参考)

#coding=utf-8
import xml.dom.minidom
import os
import sys

rootdir='G:/Datasets/rider_voc_aug/Annotations'#存有xml文件的文件夹的绝对路径
list=os.listdir(rootdir)#列出文件夹下所有的目录与文件

classes_list=[]
classes_count_imag=[1,1,1,1,1,1,1]#统计含有各个目标的图片数
classes_count_object=[1,1,1,1,1,1,1]#统计各个目标的总数

for i in range(0,len(list)):
    path=os.path.join(rootdir,list[i])
    if os.path.isfile(path):
        #用于区分imag和object
        flag=[0,0,0,0,0,0,0]
        #打开xml文档
        dom=xml.dom.minidom.parse(path)
        #得到文档元素对象
        root=dom.documentElement
        cc=dom.getElementsByTagName('name')
       
        for i in range(len(cc)):
            c1=cc[i]
            #如果是新的目标则将其加入classes_list数组中
            if classes_list.count(c1.firstChild.data)==0:
                classes_list.append(c1.firstChild.data)
                
            #统计imag和object的个数
            else:
                for j in range(0,len(classes_list)):
                    if(classes_list[j]==c1.firstChild.data):
                        if(flag[j]==0):
                            classes_count_imag[j]+=1
                            flag[j]=1
                        classes_count_object[j]+=1

#print(classes_list)
#print(len(classes_list))
for i in range(len(classes_list)):
    print("目标%20s   imga:%10d个  object:%10d个"%(classes_list[i],classes_count_imag[i],classes_count_object[i]))