python对XML的解析 SAX DOM ElementTree

最新推荐文章于 2024-08-14 17:13:53 发布

Shawn.Hu

最新推荐文章于 2024-08-14 17:13:53 发布

阅读量1.1k

点赞数

分类专栏： python

python 专栏收录该内容

84 篇文章

订阅专栏

本文深入探讨了Python中用于解析XML的三种方法：SAX、DOM和ElementTree，详细解释了它们的工作原理、优缺点及应用场景。包括如何使用ElementTree解析XML文件，提供了一系列实例代码帮助理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

http://www.open-open.com/lib/view/open1329403902937.html

python有三种方法解析XML，SAX，DOM，以及ElementTree
###1.SAX (simple API for XML )
pyhton 标准库包含SAX解析器，SAX是一种典型的极为快速的工具，在解析XML时，不会占用大量内存。
但是这是基于回调机制的，因此在某些数据中，它会调用某些方法进行传递。这意味着必须为数据指定句柄，
以维持自己的状态，这是非常困难的。

###2.DOM(Document Object Model)
与SAX比较，DOM典型的缺点是比较慢，消耗更多的内存，因为DOM会将整个XML数读入内存中，并为树
中的第一个节点建立一个对象。使用DOM的好处是你不需要对状态进行追踪，因为每一个节点都知道谁是它的
父节点，谁是子节点。但是DOM用起来有些麻烦。

###3.ElementTree(元素树)
ElementTree就像一个轻量级的DOM，具有方便友好的API。代码可用性好，速度快，消耗内存少，这里主要
介绍ElementTree。

下面是一个转载的例子：

test.xml如下：

        <
        span 
        style
        =
        "font-size:13px;"
        ><?
        xml 
        version
        =
        "1.0" 
        encoding
        =
        "utf-8"
        ?>
       

        <
        root
        >
       

         
        <
        person 
        age
        =
        "18"
        >
       

            
        <
        name
        >hzj</
        name
        >
       

            
        <
        sex
        >man</
        sex
        >
       

         
        </
        person
        >
       

         
        <
        person 
        age
        =
        "19" 
        des
        =
        "hello"
        >
       

            
        <
        name
        >kiki</
        name
        >
       

            
        <
        sex
        >female</
        sex
        >
       

         
        </
        person
        >
       

        </
        root
        ></
        span
        >
       

1.加载xml文件

加载XML文件共有2种方法,一是加载指定字符串，二是加载指定文件

2.获取element的方法

a) 通过getiterator

b) 过 getchildren

c) find方法

d) findall方法

        #-*- coding:utf-8 -*-
       
        from 
         xml.etree 
        import 
         ElementTree
       
        def 
         print_node(node):
       
        '''打印结点基本信息'''
       
        print 
        "=============================================="
       
        print 
        "node.attrib:%s" 
         % 
        node.attrib
       
        if 
        node.attrib.has_key(
        "age"
        ) > 
        0 
        :
       
        print 
        "node.attrib['age']:%s" 
         % 
        node.attrib[
        'age'
        ]
       
        print 
        "node.tag:%s" 
        % 
        node.tag
       
        print 
        "node.text:%s" 
        % 
        node.text
       
        def 
         read_xml(text):
       
        '''读xml文件'''
       
        # 加载XML文件（2种方法,一是加载指定字符串，二是加载指定文件）    
       
        # root = ElementTree.parse(r"D:/test.xml")
       
        root 
        = 
        ElementTree.fromstring(text)
       
        # 获取element的方法
       
        # 1 通过getiterator 
       
        lst_node 
        = 
        root.getiterator(
        "person"
        )
       
        for 
        node 
        in 
         lst_node:
       
        print_node(node)
       
        # 2通过 getchildren
       
        lst_node_child 
        = 
        lst_node[
        0
        ].getchildren()[
        0
        ]
       
        print_node(lst_node_child)
       
        # 3 .find方法
       
        node_find 
        = 
        root.find(
        'person'
        )
       
        print_node(node_find)
       
        #4. findall方法
       
        node_findall 
        = 
        root.findall(
        "person/name"
        )[
        1
        ]
       
        print_node(node_findall)
       
        if 
         __name__ 
        =
        = 
        '__main__'
        :
       
        read_xml(
        open
        (
        "test.xml"
        ).read())

想想为什么？不明白，请看下面

        #encoding=utf-8
       
        from 
         xml.etree 
        import 
         ElementTree as ET
       
        #要找出所有人的年龄
       
        per
        =
        ET.parse(
        'test.xml'
        )
       
        p
        =
        per.findall(
        '/person'
        )
       
        for 
         x 
        in 
        p:
       
        print 
        x.attrib
       
        print
       
        for 
         oneper 
        in 
        p:  
        #找出person节点
       
        for 
        child 
        in 
         oneper.getchildren(): 
        #找出person节点的子节点
       
        print 
        child.tag,
        ':'
        ,child.text
       
        print 
        'age:'
        ,oneper.get(
        'age'
        )
       
        print 
        '############'

结果如下：

        {
        'age'
        : 
        '18'
        }
       
        {
        'age'
        : 
        '19'
        ,  
        'des'
        : 
        'hello'
        }
       
        name : hzj
       
        sex : man
       
        age: 
        18
       
        ############
       
        name : kiki
       
        sex : female
       
        age: 
        19
       
        ############