Python 抓取页面使用 XPath 出现的问题

最新推荐文章于 2024-04-01 19:24:14 发布

原创最新推荐文章于 2024-04-01 19:24:14 发布 · 839 阅读

0 ·

CC 4.0 BY-SA版权

Python爬虫专栏收录该内容

1 篇文章

订阅专栏

在Python网页抓取中遇到XPath使用问题，首次.xpath()正确，后续使用导致结果异常。解决办法是：第二次调用时需删除XPath路径前的斜杠。正确写法为：.xpath('td')，确保td元素在tr内。

Python 抓取页面使用 XPath 出现的问题

在抓取页面时，有时候需要多次使用 .xpath 方法来获取需要的元素。

在使用 .xpath 方法时，第一次 .xpath 的结果是正确的，而之后使用会出现抓取到的东西和预期不一样的情况。

比如：

trs = html.xpath('//table//tr')

获得的 trs 是表中的行元素，之后想要获取其中的格元素时：

for i in range(1, len(trs)):
	tds = trs[i].xpath('//td')
	proxy[tds[5].text].append(tds[1].text + '\t' + tds[2].text)

按正常思路来说代码仿佛没有问题，但出现的结果却非常奇怪，实际上是因为在第二次使用 .xpath 是需要把前面的斜杠去掉，即变成：

for i in range(1, len(trs)):
	tds = trs[i].xpath('td')
	proxy[tds[5].text].append(tds[1].text + '\t' + tds[2].text)

这个时候，会发现获取的元素是正确的，而且在使用时 td 元素必须是 tr 的子元素。

是个小问题，但是如果不注意实在是令人抓狂。本人已经掉坑 3 次了，今天真的决定记录一下。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

逗le个芽

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python教程：一文了解使用Python处理XPath

旦莫的博客

08-13

1616

XPath（XML Path Language）是一种用于在 XML 文档中查找信息的语言。它特别适用于解析和提取 XML 数据，而在 Python 中，我们可以使用 lxml 库来处理 XPath。本文将从基础知识开始，逐步深入，结合实战示例，让你能够熟练掌握 Python 中的 XPath。

100天精通Python（爬虫篇）——第116天：利用lxml与Xpath解析提取网页数据

热门推荐

努力让自己发光，对的人才能迎着光而来

07-03

22万+

一、爬虫提取网页数据的流程图二、lxml库 1. 下载安装 2. 解析HTML网页三、Xpath介绍 1. 选取节点 2. 谓语 3. 选取未知节点 4. 选取若干路径 5. Chrome插件 XPath Helper安装使用 6. Xpath实战..................

参与评论您还未登录，请先登录后发表或查看评论

python的xpath解析时遇到的一个问题

qq_59658872的博客

11-12

793

（因为很让我觉得头疼的就是我想爬的那个网站的源代码和elements不一样，不仅如此，源代码写的还很不方便看，例如一行整整几十列，感觉是故意的:(，从源代码里看非常费劲）从前往后依次尝试//*[@id="__layout"]/div，//*[@id="__layout"]/div/div[2]，以此类推。在后面加/@属性或者 /text() 来检查是不是想要的那个标签。# 事实证明复制下来的确实有问题，例如*[@id="__layout"]/div/div[2]中的div[2]实际应该是div[3]

[2019.8.2]python scrapy xpath和xpath获取网页内容为空，但是书写完全正确

weixin_44918875的博客

08-02

1102

[2019.8.2]python scrapy xpath和xpath获取网页内容为空，但是书写完全正确 scrapy 获取xpath或者css的正确方式在浏览器右键复制的xpath，虽然说也是正确的，但是不符合这里的规则，和获取的源码是不一样的在命令行中用shell指令结束后输入图中的最后一个view(response) 这样就会自动打开一个网页，在里面右键xpath 就可以...

Xpath匹配可能遇到的问题（乱码）

weixin_43572641的博客

03-11

2129

XPATH匹配规则 from lxml import etree url = "http://www.baidu.com/" headers = { 'User-Agent': 'Mozilla/5.0 (......)' } response = requests.get(url=title_url,headers=headers) response.encoding = 'UTF-8' #...

xpath 解析后和原网页结构不一致

qq_29663489的博客

05-29

1万+

一下为网页内容，具体url为http://travel.qunar.com/travelbook/list/23-shanxi-296903/hot_heat/2.htm 解析出错的地方是 <a href="/youji/6630500">中原礼佛 <span class="colOrange">山西</span>寻神——重走古建</a><p class="icon_r ganhuo"></p></h2> p节点在

xpath语法浏览器与代码结果不一致

英明神武洋哥哥

10-12

681

标签table就算没写tbody (源代码)，页面也会自动生成tbody (浏览器正文)。可以看一下tbody元素。

python抓取需要扫微信登陆页面

09-19

Python抓取微信登陆页面涉及到的是网络爬虫技术，主要用于从特定网页中提取所需信息。在本案例中，目标页面是一个需要通过微信扫码进行登录的公司网页。以下是详细的知识点解析： 1. **登录机制**：微信扫码登录...

Python使用xpath爬取网站数据

最新发布

04-03

本文将详细介绍如何利用Python结合XPath技术进行网站数据的爬取。首先，我们需要了解Python语言的基础知识。Python是一种解释型、面向对象、高級语言，其语法简洁明了，易于学习和使用。它拥有强大的标准库支持，...

python爬虫之xpath的基本使用详解

09-20

在Python中使用XPath的基本步骤如下： 1. 创建一个`etree`对象：你可以将HTML字符串转换为`ElementTree`对象，然后用`etree.HTML()`函数来解析这个字符串。比如： ```python wb_data = """...""" # HTML字符串 ...

python xpath匹配结果为空

qq_35425070的博客

02-19

1万+

写python爬虫的时候为了省事，通常会在在浏览器中打开F12，右键复制 xpath 。谷歌浏览器这里有一个坑，在这费了半天时间复制的xpath为 python中如下：//*[@id=“mainFrame”]/div/table/tbody/tr/td[1]//text() 使用浏览器插件 xpath helper 测试匹配成功！到了python代码里怎么写都匹配不到，如下 xxx.x...

python爬虫xpath菜鸟教程_Python爬虫之Xpath怎么操作，正确的案例详解

weixin_39834084的博客

11-20

538

人生苦短，我用 Python引言前面两篇我们介绍了 Requests 的使用，原本是想再来一个实战的，正准备搞事情的时候想起来上次实战还给自己挖了一个坑， Xpath 还没介绍，还是乖乖的先介绍解析库吧。简介XPath ，全称 XML Path Language ，即 XML 路径语言，它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的，但是它同样适用于 HTML 文档的搜...

python爬虫避坑 Xpath的变化

emgbb的博客

05-29

1516

小白python爬虫避坑，浏览器的Xpath不一定靠谱

xpath定位路径每次不一致

weixin_39934655的博客

01-20

3894

xpath定位 python+selenium定位xpath会变动的元素–使用last()函数定位最后一个节点数 web自动化学习–xpath之last()函数的使用问题描述：在实现功能自动化时，定位某一个元素，直接复制其xpath，实际上脚本跑起来后发现一直没定位到该元素； xpath为：/html/body/div[6]/div[1]/div[1]/ul/li 问题原因：比如由于不同的操作，xpath可能为： /html/body/div[6]/div[1]/div[1]/ul/li /html/

python获取页面数据与页面不一致_从表中获取数据，每个页面的行顺序不同

weixin_39522927的博客

12-22

598

所以我有很好的工作。它从页面中获取数据，但我遇到的问题是，有时页面的表顺序不同。例如，它到达的第一页：Row name DataName 1 data 1Name 2 data 2它爬行到的下一个页面的顺序可能完全不同。其中Name 1是第一行，任何其他页面都可能是第三行或第四行，等等。行名称总是相同的。我在想这可能是两种不同方法中的一种，我不确定...

python scrapy xpath获取网页下页按钮的坑

weixin_44894145的博客

04-01

1076

scrapy 的xpath获取自动获取下页按钮xpath 的节点，第一次获取时，获取到第二页，但在第三页的节点时，会出现两个url 的地址，一个上页url和下页url，例子：这就一个节点获取多个url，如果现在使用extract_first(),只能获取上一页和第二的url 有这样的情况就用extract（）【-1】就获取到最后个url不会出现下页会出现两个url的情况 ...

【Python从零到壹】使用XPath解析数据爬取起点小说网数据

m0_60388338的博客

04-01

876

xpath是一门在XML文档中查找信息的语言。

手机版本不同，元素的定位方式可能会不一样

ModestLearners的博客

02-11

1103

不同版本的手机上，看到的元素属性也不相同，在android 5.1的手机上可以通过 xpath (//android.widget.Button[@content-desc=" Preview"])[1] 找到元素，但在android7.0的手机上会报找不到元素的异常，查看viewAutomator后，发现content-desc属性的值是空的，如下图所示：所以在andr...