Scrapy数据的提取

留不住的人

于 2024-03-03 13:14:03 发布

阅读量460

点赞数 8

分类专栏： Python爬虫开发文章标签： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/manba_yqq/article/details/136430116

版权

Python爬虫开发专栏收录该内容

41 篇文章

订阅专栏

本文详细介绍了Scrapy中的数据提取机制，包括如何通过response对象使用XPath、CSS和正则表达式选择器获取和解析HTML内容，以及Selector类提供的各种方法如extract()、get()等.

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Scrapy_数据的提取

Scrapy有自己的数据提取机制。它们被称为选择器。我们可以通过使用的选择器re、xpath、css提取数据

提示

不用再安装与引入Xpath,BS4

1 获得选择器

1.1 Response对象获取

正常使用

response.selector.xpath('//span/text()').get()
response.selector.css('span::text').get()
response.selector.re('<span>')

快捷使用

response.xpath('//span/text').get()
response.css('span::text').get()

2 创建对象

from scrapy.selector import Selector

通过text参数初始化

body = '<html><body><span>good</span></body></html>'
Selector(text=body).xpath('//span/text()').get()

通过response参数初始化

from scrapy.selector import Selector
from scrapy.http import HtmlResponse
response = HtmlResponse(url='http://example.com', body=body)
Selector(response=response).xpath('//span/text()').get()
'good'

3 选择器的方法

S.N.	方法 & 描述
extract()、getall()	它返回一个unicode字符串以及所选数据
extract_first()、get()	它返回第一个unicode字符串以及所选数据
re()	它返回Unicode字符串列表，当正则表达式被赋予作为参数时提取
xpath()	它返回选择器列表，它代表由指定XPath表达式参数选择的节点
css()	它返回选择器列表，它代表由指定CSS表达式作为参数所选择的节点

留不住的人

博客等级

码龄4年

274
原创

1565
点赞

2187
收藏

5348
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Scrapy的启动方式介绍

下一篇：: Scrapy ItemPipeline的使用

最新评论

Java8-Optional类-ofNullable与orElseThrow
DeveloperSean: 10级，13届
Python爬虫urllib发送post请求
2401_84280535: 报错了，怎么回事呀大佬，显示找不到Request中的date
【第八篇】SpringSecurity的核心过滤器-CsrfFilter
ggyoujian: csrf拦截校验报错是403吗？
第三篇：Spring源码篇-手写篇-手写AOP
优快云-Ada助手: 亲爱的博主，非常感谢您分享这篇标题为“第三篇：Spring源码篇-手写篇-手写AOP”的文章。您的努力和创作精神令人钦佩，写出这样一篇内容丰富而引人入胜的博客，一定付出了大量的时间和精力。您的分享对我们这些热爱学习和技术探索的读者来说，真是一次宝贵的学习机会。在您的下一篇博客中，我期待您可能写一篇关于“深入理解Spring事务管理的原理与应用”的内容。Spring事务管理在实际应用中非常重要，很多开发者对其原理和使用方法仍存在疑惑。相信您能通过深入解析，帮助大家更好地理解Spring事务管理机制，并分享一些实际应用中的注意事项和技巧。这将对我们提升项目开发和架构设计的能力有着极大的帮助。期待您继续为我们带来更多精彩的技术分享，感谢您的辛勤付出！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

留不住的人 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。