Python的scrapy爬虫框架—Rule

最新推荐文章于 2024-06-13 22:30:00 发布

顾清风.

最新推荐文章于 2024-06-13 22:30:00 发布

阅读量1.6k

点赞数 1

分类专栏：日常爬取代码

本文链接：https://blog.youkuaiyun.com/weixin_43335187/article/details/86346657

版权

本文详细介绍了Scrapy框架中的Rule概念，用于设定链接抽取的规则。Rule通过restrict_xpath限制只从页面特定区域抽取链接，follow参数决定是否跟进链接。CrawlSpider是为全站爬取设计的爬虫，其特性包括allow和deny规则、LinkExtractor链接筛选器、restrict_xpaths和restrict_css等，用于控制爬取范围和路径。callback函数则定义了处理可爬取URL后的响应内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

解释：
Rule是在定义抽取链接的规则，上面的两条规则分别对应列表页的各个分页页面和详情页，关键点在于通过restrict_xpath来限定只从页面特定的部分来抽取接下来将要爬取的链接。

follow=False(不跟进), 只提取首页符合规则的url，然后爬取这些url页面数据，callback解析
follow=True(跟进链接), 在次级url页面中继续寻找符合规则的url,如此循环，直到把全站爬取完毕

Rule(LinkExtractor(allow=(r'https://www.23us.so/top/lastupdate_'),), follow=True),
Rule(LinkExtractor(allow=(r'\d+/index.html'),deny=(r'https://www.23us.so/top/postdate_')),callback='parse_item', follow=True),