lxml 忽略错误标签 xpath

最新推荐文章于 2025-05-29 10:27:40 发布

张飞的技术博客

最新推荐文章于 2025-05-29 10:27:40 发布

阅读量176

点赞数 3

文章标签： python 爬虫 scrapy

本文链接：https://blog.youkuaiyun.com/qq_45878803/article/details/137297514

版权

本文介绍了如何使用Python的lxml库解析HTML文件，通过XPath表达式定位<divclass=li_txt>元素，并计算其在文档中的数量，展示了在处理HTML内容时的一种技术手段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

from lxml import etree

html_file = 'itest.html'
html_data = open(html_file,'r',encoding='utf-8').read()
# tree = etree.parse(html_file,recover=True)
# lxml 忽略错误标签 创建一个etree.XMLParser对象，参数recover=True表示在解析过程中遇到错误时尝试恢复。
parser = etree.XMLParser(recover=True)
# 使用etree.fromstring()方法将html_data中的字符串转换为一个ElementTree对象，同时使用之前创建的parser对象进行解析。
tree = etree.fromstring(html_data, parser)
node_list = tree.xpath('//div[@class="li_txt"]')
print(len(node_list))