【python】爬虫笔记-用xpath提取网页内容总是重复提取的解决

最新推荐文章于 2024-12-13 12:56:45 发布

wangcles

最新推荐文章于 2024-12-13 12:56:45 发布

阅读量2.1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：爬虫笔记文章标签： python 爬虫 xpath

本文链接：https://blog.youkuaiyun.com/wangcles/article/details/120754586

爬虫笔记专栏收录该内容

3 篇文章

订阅专栏

在网页内容解析过程中，遇到标题提取的问题，原本的XPath定位使用了绝对路径，导致所有内容相同。通过调整XPath表达式，将绝对路径改为相对路径，并修正了漏掉的`a`标签，成功解决了问题。最终优化后的代码简洁且能正确提取每个标题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

提取网页中的每个标题，成功执行，但所有内容都是一样的

    tree = etree.HTML(page_text)
    fp = open('58.txt','w',encoding='utf-8')
    li_list = tree.xpath('//section[@data-bottom="250"]/ul/li[@class="item-wrap"]') 
    for li in li_list：
        title = li.xpath('//div[@class="title-wrap lines2"]/span/text()')[0]
        fp.write(title+'\n')

回去网页查了半天，应该是xpath的定位出了问题：
为了省事直接用了//
问题原因：
自定义的xpath不能以//或/开头，因为这个表示了绝对定位。
应该以./开头

于是第一次修改了代码：

title = li.xpath('./div[@class="content-wrap"]//span/text()')[0]

报错：

IndexError: list index out of range

回去查发现漏了一个标签a

itle = li.xpath('./a/div[@class="content-wrap"]//span/text()')[0]

不够简洁，再修改了一下：

title = li.xpath('./a//span/text()')[0]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wangcles

关注关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

万字博文教你python爬虫XPath库【详解篇】

孤寒者的博客

09-29

58万+

万字博文教你python爬虫XPath库【详解篇】

scrapy爬取数据时出现所有数据都重复问题

qq_43231261的博客

02-19

3776

目标爬取这个网站的http://www.wdzb.org.cn/forum.php?mod=forumdisplay&fid=99&typeid=34&typeid=34&filter=typeid&page=1（中国老龄网的新闻资讯板块），从新闻列表获取新闻详情页的链接，爬取详情页的内容。 spider.py # -*- coding: utf-8 -*...

参与评论您还未登录，请先登录后发表或查看评论

python爬取内容重复输出_听说你的爬虫一直在整站里循环绕圈圈爬取重复的数据？...

weixin_39524834的博客

11-22

1556

今天小帅b要跟你说说增量爬虫是这样的当你去爬取某个网站的数据时你会发现这些网站随着时间的推移会更新更多的网页数据这时候你要爬取的是那些更新的网页数据而不是又一次爬取整站的内容对于一些稍微复杂点的网站它们的 url 之间会指来指去如果你根据 url 的定向去爬取可能会出现这种情况你的爬虫一直在里面绕圈圈一直爬取重复的数据这时候你的爬虫开始陷入了对人生的大思考那么如何确保爬取的数据不要重复？接下来就是...

python爬虫之反爬虫技术

qq_41020281的博客

03-15

5245

一般网站从三个方面反爬虫：1.用户请求的Headers，2.用户行为，3.网站目录和数据加载方式。前两种比较容易遇到，大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用，这样增大了爬取的难度（防止静态爬虫使用ajax技术动态加载页面）。1、从用户请求的Headers反爬虫是最常见的反爬虫策略。伪装header。很多网站都会对Headers的User-Agent进行检测，还有一部分网...

python为啥爬取数据会有重复_使用Python中的BS4、Selenium抓取动态数据并避免重复...

weixin_42394780的博客

02-20

1419

我找到了一个解决方法设置差分效果很好。在在我的问题中，一次存在一定数量的数据(比如10个)。我们希望得到新的价值而不是旧的。在olddata = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]newdata = [5, 6, 7, 8, 9, 10, 11, 12, 13, 14]unique_data = set(newdata).difference(olddata)=^{pr...

python爬虫避免重复数据_python 爬虫内容重复问题

weixin_39827306的博客

12-18

1222

#coding=utf-8importrequestsimportreimportjsonclassNeihan:def__init__(self):self.start_url="http://neihanshequ.com/"self.next_url_temp="http://neihanshequ.com/joke/?is_jso...# coding=utf-8import reques...

【xpath】多个xpath Element对象，提取结果是一样的

胡侃有料的博客

01-14

2478

every blog every motto: What doesn’t kill you makes you stronger. 0. 前言用xpath提取，获取多个element对象，循环遍历提取其中内容结果是一样的，记录。 1. 正文 1.1 方法一： comment_xpath = html.xpath('//div[@node-type="root_comment"]') # 遍历每个评论块 for ele in comment_xpath: # t = etree.tostring(e

【Python网络爬虫笔记】11- Xpath精准定位元素

zi__you的博客

12-13

2283

Xpath，能够帮助开发者从复杂的网页结构中精准地提取所需信息。本文将深入探讨 Xpath 在 Python 网络爬虫中的作用、常用方法、安装与使用步骤以及典型案例。

爬虫笔记-解析库-Xpath

06-03

基于崔庆才《python3网络爬虫开发实战》写的学习笔记和心得，其中包括内容和方法最总，包括代码，其中有些方法由于版本更迭做了修改。使用jupyter写的。

python爬虫-mast笔记

05-31

在本篇Python爬虫-mast笔记中，我们将深入探讨Python爬虫的基本概念、常用库和实战技巧，帮助你掌握这一强大的数据获取工具。首先，Python之所以在爬虫领域广泛应用，得益于其简洁明了的语法和丰富的第三方库。...

【Python网络爬虫笔记】12- Xpath快速爬取汽车之家2024年最新二手车信息

最新发布

zi__you的博客

12-13

1884

本文将深入介绍如何使用Python结合XPath来爬取汽车之家二手车信息，包括对汽车之家二手汽车网站的HTML结构解析。

Xpath语法

DoAsOnePleases的博客

10-13

385

XPath 是一门在 XML 文档中查找信息的语言。

python笔记——xpath模块&爬虫实战

qq_52966369的博客

04-24

928

XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。而在在Python爬虫中，我们经常使用xpath解析这种高效便捷的方式来提取信息。

Scrapy: 为什么xpath和css明明是对的，但却爬不到任何内容？

热爱代码

02-13

1万+

有很多小伙伴入门Scrapy的时候都会有这样的疑问：明明写的xpath和css是对的（就算真自己写错，那用谷歌或火狐返回的xpath和css不会错的吧），但总是返回一个空列表。解决办法很简单，改变自己的一个观念就好：Scrapy爬虫看到的页面结构与我们自己在浏览器看到的可能并不一样。所以scrapy shell这种工具就非常有用了，Scrapy官方文档对它的说明是： The...

网页爬取只获得单个标签的信息

Nonino的博客

09-23

368

网页源代码为: <dl> <dd><a href="/789654.html">第一章</a></dd><dd><a href="/234567.html">第二章</a></dd><dd><a href="/123456.html">第三章</a></dd> </dl> 爬取代码为: def parseLink(html): d

Python+Selenium xpath 定位遇到相同元素时的解决方法父节点找子节点

夕慕慕的博客

07-20

1万+

1、#先定位到父节点，再从父节点找指定节点例如: 注意不能直接用 driver.find_element_by_xpath('//*[@id="branch_inquiry"]').find_element_by_class_name('city-picker-span') 用法 # -*- coding: utf-8 -*- from selenium import web

Xpath中定位到多个相同的元素，该怎么去解决？

m0_50488374的博客

08-24

3117

Xpath中定位到多个相同的元素，该怎么去解决？如图所示，定位到了6个相同的元素，业务需要每个元素都要进行输入操作；我的解决方法：可以通过find_elements来找到定位列表，在得到的list列表后加上索引值来进行输入 driver.find_elements(By.XPATH,'//input[@class="el-input__inner"]')[0].send_keys("0824")

爬虫如何避免网页重复爬取