Python爬虫笔记（十三）——Scrapy官方文档阅读——Link Extractors

最新推荐文章于 2022-03-25 09:39:09 发布

原创最新推荐文章于 2022-03-25 09:39:09 发布 · 397 阅读

CC 4.0 BY-SA版权

18 篇文章

订阅专栏

16 篇文章

订阅专栏

本文介绍Scrapy中的LinkExtractor和LxmlLinkExtractor组件，用于高效地从网页中抓取链接。详细解释了各种配置参数，如正则表达式的使用、限制XPath和CSS选择器等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Link extractors用于从网页中抓取链接

使用link extractors

引入包：

from scrapy.linkextractors import LinkExtractor

LxmlLinkExtractor是推荐的具有方便过滤选项的链接提取器

__init__函数的参数：

allow（正则表达式）：提取的url必须满足的规则，可选参数
deny（正则表达式）：提取的url都不满则的规则，可选参数
allow_domains（string或是string的list）：提取的url的域名必须是指定域名，可选参数
deny_domains（string或是string的list）：含有该指定值的url会被忽略，可选参数
restrict_xpath（string或是string的list）：通过xpath提取response的一部分，从这一部分提取链接，可选参数（相当于缩小匹配范围）
restrict_css（string或是string的list）：通过css选择器提取response的一部分，从这一部分提取链接，可选参数（相当于缩小匹配范围）
tags（string或是string的list）：考虑提取链接的html标签，默认情况下是（‘a’，‘area’）
attrs（list）：提取链接时需要注意的html标签的属性，默认是（‘href’，）
canonicalize（boolean）：规范化url，最好使用默认值False
unique（boolean）：提取url时，是否要保证url不重复
process_value（callable）：一个函数，它接收从标签和属性中提取的每个值，并且可以修改这个值并返回一个新的值，或者返回None以完全忽略链接。如果没有指定，process_value默认为lambda x: x
strip（boolean）：是否去除提取的url中的空格，默认为true

具体的使用例子文档也没有给出，以后在补上

setting部分不打算在整理了，在需要的时候可以查看：https://doc.scrapy.org/en/latest/topics/settings.html