scrapy爬虫 extract（）与extract_first()的问题

最新推荐文章于 2024-07-06 23:16:57 发布

原创最新推荐文章于 2024-07-06 23:16:57 发布 · 9.6k 阅读

14 ·

CC 4.0 BY-SA版权

爬艺搜网展览信息时，原使用extract_first()爬取点击“展开阅读”后的数据失败，后发现页面源码含所有信息，非动态加载问题。将其改为extract()后可爬出所有数据。extract()返回数据存于列表，extract_first()返回结果中第一个值的字符串。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在爬艺搜网的展览信息时，遇到展览信息的详情页里的“展览介绍”有点击“展开阅读”按钮，在用以下代码爬取时始终爬不到点击了“展开阅读”之后的数据。
网页前端页面：
艺搜网展览详情页
网页源码：

原来爬取的代码：

item1['description'] = response.xpath('//div[@class="exText"]/text()').extract_first()

问题所在：可以看到，不管是否点击了“展开阅读”，页面源码中都有所有的信息，因此可以判断不是动态加载的问题。（之前一直以为是动态加载的问题，然后看了好几天哭唧唧）
原来的代码用的是extract_first(),把它改为extract()之后就可以爬出所有数据了。
修改后的代码：

item1['description'] = response.xpath('//div[@class="exText"]/text()').extract()

extract()与extract_first()区别

extract()返回的所有数据，存在一个list里。
extract_first()返回的是一个string，是extract()结果中第一个值。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

安和桥要加油

关注关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

scrapy的extract() 、extract_first()方法，get() 、getall() 方法

主攻大数据人工智能物联网安全低空经济等方向。mtsc 、gtest特邀分享嘉宾

07-24

5340

1.extract()方法：结果如下：结论：说明了extract()方法返回的是符合要求的所有的数据，存在一个列表里。 2.extract_first()方法: def parse(self, response): sel = Selector(response) hrefs = sel.xpath(r'//*[@class="c1 ico2"]/li/a/@href') print(hrefs.extract_first()) 结果如下： '/4253340.htm...

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

热门推荐

孤寒者的博客

08-09

64万+

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

参与评论您还未登录，请先登录后发表或查看评论

extract()和extract_first()区别

这个人很懒，没有描述。

05-23

1710

Scrapy中extract()和extract_first()区别

extract_first()

weixin_34068198的博客

05-25

829

只有数组的selector才有用转载于:https://www.cnblogs.com/zdj8023/p/10921889.html

爬虫中extract的简单用法

Moniicoo的博客

07-11

1万+

print(jobName, jobType, peopleNum, address, jobTime) （1）第一种 jobName = job.xpath('./td[1]/a/text()') [<Selector xpath='./td[1]/a/text()' data='22989-腾讯云虚拟化高级研发工程师（深圳）'>] 技术类 2 深圳 201...

Scrapy框架的使用之Scrapy通用爬虫_为什么scrapy的parse_start_url和parse

2301_79099373的博客

04-27

738

要实现新闻的爬取，我们需要做的就是定义好Rule，然后实现解析函数。下面我们就来一步步实现这个过程。首先将start_urls修改为起始链接，代码如下所示：之后，Spider爬取start_urls里面的每一个链接。所以这里第一个爬取的页面就是我们刚才所定义的链接。得到Response之后，Spider就会根据每一个Rule来提取这个页面内的超链接，去生成进一步的Request。接下来，我们就需要定义Rule来指定提取哪些链接。当前页面如下图所示。

scrapy爬虫框架 (3. xpath、/text()、extract()与extract_first()学习)

随笔

01-26

1825

文章目录1.xpath简介2.xpath节点3.xpath语法3.1 选取节点3.1.1 常例3.1.2 通配3.1.3 选取多条路径3.2 谓语 1.xpath简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历，用来确定XML文档中某部分位置。 2.xpath节点节点关系 2.1 父（Parent）每个元素以及属性都有一个父。 ...

Scrapy爬虫框架详解（python）

最新发布

vbgesab的博客

07-06

2020

Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和。Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。Scratch，是抓取的意思，这个Python的爬虫框架叫Scrapy，大概也是这个意思吧，就叫它：小抓抓吧。

爬虫_020_scrapy_管道

m0_74354274的博客

07-12

561

4.在管道中定义两个函数【open_spider(self, spide)、close_spider(self, spider)】管道有非常多，这个300就是管道的值，管道的使用是有优先级的，范围是1-1000，值越小，管道的优先级就越高。2.在爬虫文件中获取数据并将其通过yield方法交给管道【pipelines】3.开启管道【settings中取消ITEM_PIPELINES 的注释】要想使用管道【pipelines文件】就必须在settings文件中开启管道。1.在items文件中定义结构数据。

scrapy框架中使用xpath的extract()和extract_first()的区别

qq_45343089的博客

02-22

1422

在使用scrapy爬虫的时候，我们常常使用xpath来获取html标签，但是我们经常会用到提取的方法，有两种提取的方法，分别是： extract():这个方法返回的是一个数组list，，里面包含了多个string，如果只有一个string，则返回[‘ABC’]这样的形式。 extract_first()：这个方法返回的是一个string字符串，是list数组里面的第一个字符串。 ...

网页数据的提取（多层静态网页）（extract()与extract_first()两种方法的区别）爬虫框架之--scrapy篇

a778203081的博客

05-21

1223

看完就明白了简单的思路，便于后续的学习哦

python-爬虫中的extract()

reg183的专栏

05-09

1957

使用scrapy框架爬虫时，用到xpath提取网页标签时，时常用到extract()，有时加上[0]，或是extract_first()，那么它们的意义分别是什么呢？这是一个简单的html结构~ <ul class="list"> <li>123</li> <li>abc</li> </ul> #1 xx.xpath("./ul[@class='list']/li") #xx是html文档 #xpath解析返回一个解

scrapy使用xpath的extract()和extract_first()的区别

学习机器学习

10-05

2万+

在使用scrapy爬虫的时候，我们常常使用xpath来获取html标签，但是我们经常会用到提取的方法，有两种提取的方法，分别是： extract():这个方法返回的是一个数组list，，里面包含了多个string，如果只有一个string，则返回['ABC']这样的形式。 extract_first()：这个方法返回的是一个string字符串，是list数组里面的第一个字符串。 Xpath选...

scrapy extract_first() get() extract() getall()

唯一的切慕，唯一的诗歌……

10-07

1483

get() == extract_first() 返回的是一个list，里面包含了多个string，如果只有一个string，则返回['我很孤独']这样的形式 getall() == extract() 返回的是string，list里面第一个string In [17]: type(response.xpath('//*[@id="waterfall"]/div[1]/a/div[2]/spa...

4-7 小知识点--extract_first()方法可以解决数组为空异常处理

weixin_33755649的博客

01-06

431

****** 转载于:https://www.cnblogs.com/xudj/p/10227861.html

python爬虫（中）--提取

Silbert Monaphia

08-24

4838

前言在python爬虫（上）–请求——关于旅游网站的酒店评论爬取（传参方法）和python爬虫（上）–请求——关于模拟浏览器方法中，我们都在讲爬虫如何去做页面请求的问题，这一步的目的是拿到包含所有不管有没有异步加载的数据的页面源码（静态文本），爬虫最难的环节就在这么一段发生在http请求的过程上，可是并不是拿到这么一个包含一大堆标签，一大堆样式代码，一大堆有的没的数据就万事大吉了，我们要的并不是这么一个混乱的东西，我

Python scrapy 提取不到字段设置默认值extract_first()

weixin_42544006的博客

11-26

2584

使用 extract_first() >>> test = response.css(".lllaaa a").extract_first("没有") >>> test '没有'

Scrapy爬虫示例：电影数据采集小程序

在本部分中，我将详细介绍Scrapy爬虫框架的相关知识点，这个框架是如何工作的，以及如何使用Scrapy来开发一个简单的爬虫程序。同时，我们将具体分析一个名为"movies"的项目，这个项目通常包含了爬取电影相关信息的...