爬虫日记(12):scrapy提取数据的技巧

本文介绍了在爬虫开发中如何使用Scrapy提取数据,强调了掌握数据提取技术的重要性。主要内容包括通过Scrapy shell学习CSS和XPath选择器,以及如何在实际项目中应用这些技术从网页中抽取名言、作者和标签等信息。最后,文章提到了Scrapy的Feed Exports组件,用于将抓取的数据保存到JSON、JSON lines、CSV和XML文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在爬虫的开发中,常常碰到不同的网站,从而每个网站的结构会不一样,每个网站使用的技术也不一样,千差万别的,没有统一的模式,因此开发爬虫没有一个虫就可以爬遍天下。面对这样的情况,当然就是需要开发爬虫的技术人员了,也可以这样说,要想数据有多少,就得有多少人工。因为爬虫总会随着网站技术变更,需要不断更换爬虫的方法,其实除了登录验证这个环节之外,就是剩下了数据的提取工作量了。比如网站更换了标签的名称,导致提取数据失败,这时就需要立即更换提取方法。所以掌握提取数据的技术就成为爬虫开发人员的基础知识了,也是最常使用的技术。

目前从网页源码里提取数据的主要有两种技术,一种是CSS,一种是XPath。其实XPath是可以包括CSS的,可以把CSS定位转换为XPath表示。下面就通过例子来学习这两种技术手段,这里主要采用scrapy shell来学习。Scrapy shell是一个强大的交互式的调试工具,可以连接到指定网站,然后对网站的内容进行测试,查看自己编写的CSS或XPath表达式是否正确。这里采用它来学习CSS和XPath,也可以起到事半攻倍的效果,因为你写的表达式可以立即输出查询的内容,立即就可以判断自己的理解是否正确。

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

caimouse

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值