from lxml import etree
html_file = 'itest.html'
html_data = open(html_file,'r',encoding='utf-8').read()
# tree = etree.parse(html_file,recover=True)
# lxml 忽略错误标签 创建一个etree.XMLParser对象,参数recover=True表示在解析过程中遇到错误时尝试恢复。
parser = etree.XMLParser(recover=True)
# 使用etree.fromstring()方法将html_data中的字符串转换为一个ElementTree对象,同时使用之前创建的parser对象进行解析。
tree = etree.fromstring(html_data, parser)
node_list = tree.xpath('//div[@class="li_txt"]')
print(len(node_list))
lxml 忽略错误标签 xpath
最新推荐文章于 2025-05-29 10:27:40 发布