Python-lxml.etree

本文介绍如何利用lxml库结合XPath进行HTML文本解析,包括从网站抓取内容、提取所需数据的具体步骤及技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

写爬虫的时候,经常用到正则表达式,但最近写爬虫的时候接触到了一个新的处理html代码的库lxml,在这里归纳一下用法。

  • 解析文本
  • xpath
  • ElementPath

  • 解析文本
    lxml.etree解析文本的方法有:
    fromstring()
    HTML()
    XML()
    parse()——解析文本类型的对象

  • 用Xpath获取静态文本
    在所爬取网页的审查元素中,找到自己要提取的数据所对应的标签,右键copy XML,具体操作如下:

from lxml import etree
import requests

url = 'url of website'
content = requests.get(url).content
html = etree.HTML(content)

html.xpath('XML')

Tips: 1) 若XML中出现/tbody标签,要记得删除
2) .xpath(substring)返回的是一个列表,里面的元素类型也是xml的,所以需要解析。我采用的方法是lxml.etree._ElementTree中的itertext()函数,返回的是一个可迭代的text对象。

  • ElementPath
    interfind()——用迭代的方法来返回所有符合条件的元素
    findall()——以列表形式返回所有元素
    find()——返回第一个元素
    findtext()——返回第一个元素的text
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值