Scrapy设置之Crawling style

本文介绍如何通过调整Scrapy设置实现广度优先抓取,以高效抓取新闻门户等网站的内容,并讨论了遵守robots.txt规则的重要性。此外还探讨了Cookies与Referer的使用策略。

Scrapy可以设置优先抓取哪些网页,设置DEPTH_LIMIT可以控制抓取的最大深度,如果设为0则意味着没有限制。把DEPTH_PRIORITY(默认值为0)设置为一个正值后,Scrapy的调度器的队列就会从LIFO变成FIFO,因此抓取规则就由DFO(深度优先)变成了BFO(广度优先):

DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue'

这在爬网站的时候是很有用的,例如,一个新闻的门户网站,主页上有很多最近的新闻,其中每个新闻页面都有到其他页面的外链。默认情况下,Scrapy会在主页的第一个新闻中尽可能地深入,然后才会继续其他的新闻。而BFO顺序会先抓取顶层(即主页上的)的链接,然后才会进一步深入。此时若与DEPTH_LIMIT联合使用,比如将其设置为3,就可以快速地在门户网站上获取最近的新闻了。

有些网站会在根目录下放置一个名字为robots.txt的文件,里面声明了此网站希望爬虫遵守的规范。如果把ROBOTSTXT_OBEY设置成了 True,Scrapy就会遵守这个文件制定的规范。不过此时要在调试的时候注意还要忘了这一点,以防爬虫会出现一些出乎意料的行为。

CookiesMiddleware中间件会对程序员透明地处理所有与cookie相关的操作,比如session追踪,以便可以让爬虫登录等等。如果你想让爬网站的过程更加隐秘,可以把COOKIES_ENABLED选项设置成False。禁用cookie也会稍稍减少传输的带宽并加速抓取的过程。同样地,REFERER_ENABLED默认也是True,也就是启用了RefererMiddleware中间件,它负责填充Referer请求头。你可以使用DEFAULT_REQUEST_HEADERS选项来自定义请求头。有些网站会要求有特定的请求头才行,此时这个设置项就显得很有用。最后,工程中自动生成的settings.py文件建议设置USER_AGENT,默认是Scrapy的版本,不过最好改成网站管理员能联系到我们的一些信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值