4.爬虫——xPath查找想要的数据

最新推荐文章于 2024-12-26 23:13:24 发布

夙惜言

最新推荐文章于 2024-12-26 23:13:24 发布

阅读量681

点赞数 1

分类专栏： Python爬虫文章标签：爬虫

本文链接：https://blog.youkuaiyun.com/Yang_Ke_Di/article/details/125260591

版权

Python爬虫专栏收录该内容

8 篇文章

订阅专栏

首先需要导入库

from lxml import etree

获取想要的网页源码

rq = requests.get('要获取的网址')
html = rq.text      #网页数据存到变量里

解析网页

dom = etree.HTML(html)

根据路径找到相应的标签或需要的内容

path = dom.xpath("//title")                         #相对路径
path = dom.xpath("/html/head/title")                #绝对路径
path = dom.xpath("//body/div/a[@id='red']")         #根据标签属性查找
path = dom.xpath("//body/div/a[@id='red']/text()")  #获取其内容
path = dom.xpath("//body/div/a[@id='red']/@href")   #获取其属性