python对XML文档的良构性和有效性验证

本文主要介绍了如何使用Python的lxml模块验证XML文档的结构良好性和有效性。内容包括XML文档的结构良好性验证规则,如标签匹配、属性值引用等,并展示了通过DTD和XML Schema进行有效性验证的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

### 一 .XML文档的结构良好性验证

结构良好的xml文档,需要遵守下面这些规则:

1.所有开始标签必须有对应的结束标签

2.元素可以嵌套,但是不可以重叠

3.有且只能有一个根元素

4.属性值必须使用引号

5.一个元素不能有两个同样属性名字的属性

6.注释不能出现在标签内部

7.没有转义的" <" 或者" $"不能出现在元素和属性的字符中


### 二.如何检查XML文档是否是良构的

test.xml如下:

<?xml version="1.0" encoding="utf-8"?>
<root>
 <person age="18">
    <name>hzj</name>
    <sex>man</sex>
 </person>
 <person age="19" des="hello">
    <name>kiki</name>
    <sex>female</sex>
 </person>
</root>

方法:以ElementTree模块为例,直接使用parse方法。如果不报错,这表示该XML是良构的

#encoding=gbk
from xml.etree import ElementTree as ET
try:
    ET.parse('test.xml')
    print '这是一个良构的XML文档'
except Exception,e:
    print '这不是一个良构的XML文档'
    print '可能原因:',e
运行结果:

这是一个良构的XML文档
将根标签最后</root>,换成<root>

运行结果:

这不是一个良构的XML文档
可能原因: no element found: line 11, column 6
如果希望获取更加详细信息,可使用lxml模块:

lxml安装方法请参考博客:

http://blog.youkuaiyun.com/shirdrn/article/details/7030026
import  lxml.etree as ET
try:
    ET.parse('test.xml')
    print '这是一个良构的XML文档'
except Exception,e:
    print '这不是一个良构的XML文档'
    print '可能原因:',e
运行结果:

这不是一个良构的XML文档
可能原因: Premature end of data in tag root line 11, line 11, column 7


###三.XML文档的有效性验证

python的标准库没有包含对XML文档的有效性验证功能,所以下面介绍的方法都是基于lxml模块的

#3.1.DTD验证

         在DTD(Document Type Definition)文件中说明了XML文档的元素,元素类型以及内容格式,且为这些

组成结构及之间关系定义了相应的规则。

实例解释:

#encoding=utf-8
import lxml.etree as ET
from StringIO import StringIO
f=StringIO("<!ELEMENT empty EMPTY >")
"""
在 DTD 中,XML 元素通过元素声明来进行声明。元素声明使用下面的语法:
  <!ELEMENT 元素名称 类别>
  或者
  <!ELEMENT 元素名称 (元素内容)>
元素类别包括四类:EMPTY(空元素),ANY(任意),Mixed(混合),Children(子元素)
上面声明的DTD意思是:元素empty为空
"""
dtd=ET.DTD(f)
xml=ET.XML("<empty/>") # 符合条件
print dtd.validate(xml)

xml=ET.XML("<empty>Hello LXML</empty>") #由于带有内容,所以不符合
print dtd.validate(xml)
print dtd.error_log   #打印错误信息
运行结果:

True
False
<string>:1:0:ERROR:VALID:DTD_NOT_EMPTY: Element empty was declared EMPTY this one has content
这里需要注意一下:
f=StringIO("<!ELEMENT empty EMPTY >")
!和Element之间不要有空格,出现空格会报错,信息如下:

Traceback (most recent call last):
  File "F:\python workspace\Helloworld\xml\dtd.py", line 13, in <module>
    dtd=ET.DTD(f)
  File "dtd.pxi", line 41, in lxml.etree.DTD.__init__ (src/lxml/lxml.etree.c:113574)
  File "dtd.pxi", line 114, in lxml.etree._parseDtdFromFilelike (src/lxml/lxml.etree.c:114222)
lxml.etree.DTDParseError: error parsing DTD
#3.2 XML Schema验证

最好对XML Schema模式有所了解,XML Schema语言也被称为XML Schema Definition (XSD)W3C在线文档:

点击打开链接

实例解释:

import lxml.etree as ET
from StringIO import StringIO
f=StringIO("""
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
elementFormDefault="qualified">
<xs:element name="note">
    <xs:complexType>
      <xs:sequence>
    <xs:element name="to" type="xs:string"/>
    <xs:element name="from" type="xs:string"/>
    <xs:element name="heading" type="xs:string"/>
    <xs:element name="body" type="xs:string"/>
      </xs:sequence>
    </xs:complexType>
</xs:element>
</xs:schema>
""")

xmlschema_doc=ET.parse(f)
xmlschema=ET.XMLSchema(xmlschema_doc)
valid_str=StringIO("""
<note>
<to>George</to>
<from>John</from>
<heading>Reminder</heading>
<body>Don't forget the meeting!</body>
</note>
""")
xml=ET.parse(valid_str)
print xmlschema.validate(xml)

valid_str=StringIO("""
<note>
<from>John</from>
<to>George</to>
<heading>Reminder</heading>
<body>Don't forget the meeting!</body>
</note>
""")
xml=ET.parse(valid_str)
print xmlschema.validate(xml)
print xmlschema.error_log


运行结果:

True
False
<string>:3:0:ERROR:SCHEMASV:SCHEMAV_ELEMENT_CONTENT: Element 'from': This element is not expected. Expected is ( to ).
错误原因很明显,因为我定义的XML Schema元素是有顺序的。





评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值