Python爬虫笔记(十三)——Scrapy官方文档阅读——Link Extractors

本文介绍Scrapy中的LinkExtractor和LxmlLinkExtractor组件,用于高效地从网页中抓取链接。详细解释了各种配置参数,如正则表达式的使用、限制XPath和CSS选择器等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Link extractors用于从网页中抓取链接

 

使用link extractors

引入包:

from scrapy.linkextractors import LinkExtractor

LxmlLinkExtractor

LxmlLinkExtractor是推荐的具有方便过滤选项的链接提取器

__init__函数的参数:

  • allow(正则表达式):提取的url必须满足的规则,可选参数
  • deny(正则表达式):提取的url都不满则的规则,可选参数
  • allow_domains(string或是string的list):提取的url的域名必须是指定域名,可选参数
  • deny_domains(string或是string的list):含有该指定值的url会被忽略,可选参数
  • restrict_xpath(string或是string的list):通过xpath提取response的一部分,从这一部分提取链接,可选参数(相当于缩小匹配范围)
  • restrict_css(string或是string的list):通过css选择器提取response的一部分,从这一部分提取链接,可选参数(相当于缩小匹配范围)
  • tags(string或是string的list):考虑提取链接的html标签,默认情况下是(‘a’,‘area’)
  • attrs(list):提取链接时需要注意的html标签的属性,默认是(‘href’,)
  • canonicalize(boolean):规范化url,最好使用默认值False
  • unique(boolean):提取url时,是否要保证url不重复
  • process_value(callable):一个函数,它接收从标签和属性中提取的每个值,并且可以修改这个值并返回一个新的值,或者返回None以完全忽略链接。如果没有指定,process_value默认为lambda x: x
  • strip(boolean):是否去除提取的url中的空格,默认为true

 

具体的使用例子文档也没有给出,以后在补上
 

setting部分不打算在整理了,在需要的时候可以查看:https://doc.scrapy.org/en/latest/topics/settings.html

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值