XPath理解：使用extract()时[0]位置的理解

最新推荐文章于 2022-03-27 21:07:54 发布

原创最新推荐文章于 2022-03-27 21:07:54 发布 · 2.4k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#XPath #extract() #[0] #网络爬虫

python网络爬虫专栏收录该内容

16 篇文章

订阅专栏

本文介绍如何使用XPath从快代理网站抓取代理IP信息。通过具体实例，展示了如何利用response对象提取HTML元素，包括使用xpath和extract方法获取 tbody 中的 tr 数据。文章深入解析了SelectorList对象的用法，以及如何处理提取到的HTML内容。

以爬取快代理https://www.kuaidaili.com/free/为例。

response是整个页面返回的数据，页面内容。

response.xpath('//*[@id="list"]/table/tbody/tr')

返回结果：

返回一个SelectorList对象，SelectorList 类是内建 list 类的子类，它是一个列表，列表的每一项都是一个如下图所示的元素：

提供了一些额外的方法:
xpath(query)
css(query)
extract()
re()
__nonzero__()

response.xpath('//*[@id="list"]/table/tbody/tr').extract()

返回结果：

.extract()提取HTML内容，返回一个列表。

response.xpath('//*[@id="list"]/table/tbody/tr').extract()[0]
response.xpath('//*[@id="list"]/table/tbody/tr')[0].extract()

这两个一个是先得到一个HTML内容组成的列表，再取第一个元素；一个是先得到SelectorList第一个元素，再提取成HTML内容，总之返回的结果一样。

response.xpath('//*[@id="list"]/table/tbody/tr')[0].extract()[0]

返回结果：

返回的是上一个结果（字符串）的第一个字符。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

你的莽莽没我的好吃

关注关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python xpath使用说明

zhaoyangjian724的专栏

11-30

459

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式： nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。 . 选取当前节点。 .. 选取当前节点的父节点。 @ 选取属性。 ...

XPath：网络爬虫中的数据提取利器

single_ffish的博客

11-13

1654

XPath (XML Path Language) ，可以帮助我们精确定位和提取需要的数据。XPath是网络爬虫中不可或缺的工具，掌握其使用可以大大提高数据提取的效率和准确性。

参与评论您还未登录，请先登录后发表或查看评论

xpath().extract()[0]解析

w2blue的博客

04-24

5012

item['name'] = each.xpath("./a/text()").extract()[0]each html文档each.xpath("./a/text()") xpath解析返回的是一个选择器列表extract() 转换为Unicode字符串[0] ...

Python爬虫——xpath().[0]的用法

热门推荐

lucky_shi的博客

03-14

1万+

① import requests from lxml import etree url="https://movie.douban.com/top250" header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.394...

python extract_scrapy爬虫xpath().extract()[0]获取内容报list index out of range错

weixin_39944944的博客

11-26

468

小弟新手，在看着教程写scrapy爬虫时使用xpath().extract()[0]的方法获取内容，报IndexError: list index out of range错误，求问大神怎么解决，急求答案在线等。（试过去掉.extract()[0]，会报出TypeError: Request url must be str or unicode错误）。代码如下：cnblog_spider.py# ...

xpath中extract()使用

奈斯菟咪踢呦

03-05

2255

1、 title = response.xpath("//div[@class='entry-header']/h1/text()") 2、 title = response.xpath("//div[@class='entry-header']/h1/text()").extract() 3、 title = response.xpath("//div[@class='entr...

【Beautiful Soup vs. XPath】：选择最佳的网页解析方案

![【Beautiful Soup vs....解析技术不仅可以帮助我们搜索和抽取特定信息，还能通过修改和分析文档树，实现对网页内容的深层次理解和应用。 ## 1.1 解析技术的重要性随着数据驱动应用的广泛需求，

10-31

我们来 **详细拆解 `auto_filename` 在代码中的作用、生成逻辑和运行流程**，让你彻底理解它的每一个环节。 --- ## ✅ 一、`auto_filename` 是什么？ ```python auto_filename = self.extract_filename(task_key)...

我要写re:title,xpath:price_text,scrapy:price,bs4:rating_text:帮我修改