lxml 忽略错误标签 xpath

本文介绍了如何使用Python的lxml库解析HTML文件,通过XPath表达式定位<divclass=li_txt>元素,并计算其在文档中的数量,展示了在处理HTML内容时的一种技术手段。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

from lxml import etree

html_file = 'itest.html'
html_data = open(html_file,'r',encoding='utf-8').read()
# tree = etree.parse(html_file,recover=True)
# lxml 忽略错误标签 创建一个etree.XMLParser对象,参数recover=True表示在解析过程中遇到错误时尝试恢复。
parser = etree.XMLParser(recover=True)
# 使用etree.fromstring()方法将html_data中的字符串转换为一个ElementTree对象,同时使用之前创建的parser对象进行解析。
tree = etree.fromstring(html_data, parser)
node_list = tree.xpath('//div[@class="li_txt"]')
print(len(node_list))
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值