xml文件的数据提取及解析

本文详细探讨了如何使用Python进行XML文件的数据提取和解析。从基础的XML结构理解到利用Python内置模块如ElementTree进行解析操作,通过实例解析XML文档,提取关键信息,助你轻松掌握XML处理技巧。
# 使用minidom解析器打开 XML 文档
MR上报序列 = 0
for 子文件 in 文件列表:
    print(子文件)
    DOMTree = xml.dom.minidom.parse(dir+子文件)#使用parse解析器打开xml文档,并将其解析为DOM文档,也就是内存中的一棵树,并得到这个对象
    objects=DOMTree.documentElement #获取xml文档对象,就是拿到DOM树的根
    #print(bulkPmMrDataFile.toxml())  #返回xml的文档内容
    #print(bulkPmMrDataFile.lastChild) #返回元素的最后一个子节点
    #print(bulkPmMrDataFile.firstChild)  #返回元素的首个子节点
    object_list=objects.getElementsByTagName('object')  #getElementsByTagName(name)获取节点元素
    #print(object_list[0].hasAttribute("AMFUENGAPID")) #hasAttribute(name)判断是否包含属性值

    for 子项 in object_list:

        if 子项.getAttribute("EventType")=="B2" or 子项.getAttribute("EventType")=="B1": #输出属性值
            MR上报序列=MR上报序列+1
            gnb = objects.getElementsByTagName('gNB')
            GNB = gnb[0].getAttribute("id")   #提取站点号
            AMFUENGAPID=子项.getAttribute("AMFUENGAPID") #AMFUENGAPID
            AMFRegionID=子项.getAttribute("AMFRegionID") #AMFRegionID
            AMFSetID=子项.getAttribute("AMFSetID") #AMFSetID
            AMFPointer=子项.getAttribute("AMFPointer") #AMFPointer
            EventType=子项.getAttribute("EventType") #EventType
            id=子项.getAttribute("id") #id
            #子项信息="GNB:"+GNB+",AMFUENGAPID:"+AMFUENGAPID+",AMFRegionID:"+AMFRegionID+",AMFSetID:"+AMFSetID+",AMFPointer:"+AMFPointer+",id:"+id+",EventType:"+EventType
            子项信息 = GNB + " "+id + " " + EventType
            paixu=0    #MR小区排序
            for LTE小区 in 子项.childNodes:  #node.childNodes:返回节点node下所有的子节点组成的list

                if LTE小区.nodeName=="v":  #返回XML的文档内容
                    paixu=paixu+1
                    if paixu==1:  #筛选排查不是第一上报序列的
                        MR项目= str(MR上报序列)+" "+str(paixu)+" "+子项信息+" "+LTE小区.toxml()
                        xml_list.append([MR项目])
xml=pd.DataFrame(xml_list)
xml.to_csv(dir2)
zyXML 是一个轻便、小巧的,纯易语言代码来解析XML的模块。 优点: 1、不依赖任何DLL、支持库、系统组件(Microsoft.XMLDOM等对象) 2、支持UTF-8 、UTF-16 等编码 3、支持 XPath 语法来查询节点 4、支持 CDATA 5、开源(如果有任何问题可以自己修改) 缺点: 1、加载速度稍微逊色于支持库,但是查询速度很快。 2、不支持DTD,也就是类似于如下的节点 <!DOCTYPE note [ <!ELEMENT note (to,from,heading,body)> <!ELEMENT to      (#PCDATA)> <!ELEMENT from    (#PCDATA)> <!ELEMENT heading (#PCDATA)> <!ELEMENT body    (#PCDATA)> ]> 3、XPath查询语法支持不全(要全部支持太麻烦了,实在没精力去解析了) XPath具体语法可参考:http://www.w3school.com.cn/xpath/xpath_syntax.asp 目前支持的XPath 语法有限,不支持的有: 1、查找只能返回节点,而不能返回属性,当然查找条件可以有属性,如:节点名[@属性\u540d='\u5c5e\u6027\u503c'] 2、[] 括号里面的谓语表达式 仅仅支持一个操作符号,且不支持 | 、 or 、 and 和 mod ,并且属性名不支持*,仅仅元素名才支持* 3、轴 不支持 following、namespace、preceding 和 preceding-sibling 4、函数都不支持,但是可以有如下使用: node()         可返回所有节点且不管节点是什么类型 cdata()        仅查找 CDATA 类型的节点 text()           仅查找 文本 节点 comment()  仅查找 注释 节点 *                  仅查找 元素 节点
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值