Scrapy爬虫中的链接提取器LinkExtractor

最新推荐文章于 2024-04-30 21:42:00 发布

adam_1992

最新推荐文章于 2024-04-30 21:42:00 发布

阅读量569

点赞数

CC 4.0 BY-SA版权

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/EdenChanIy/p/9398758.html

本文介绍了Scrapy爬虫框架中的LinkExtractor组件及其使用方法。LinkExtractor用于从网页中提取符合特定规则的链接，文中详细解释了其参数配置，并提供了LxmlLinkExtractor的具体实例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天在编写Scrapy爬虫的时候接触到了LinkExtractor，遂学习了一下这个链接提取器。

Link Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象｡使用场景就是在一个网站中通过自定义规则提取到自己想要的那些网址。

Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求｡默认的LinkExtractor（也就是LxmlLinkExtractor）拥有比较方便的过滤选项，使用LXML的强大的HTMLParser实现。

使用的时候先从scrapy.linkextractors模块中引入：

from scrapy.linkextractors import LinkExtractor

LxmlLinkExtractor的使用：

class scrapy.contrib.linkextractors.lxmlhtml.LxmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), deny_extensions=None, restrict_xpaths=(), tags=('a', 'area'), attrs=('href', ), canonicalize=True, unique=True, process_value=None)

相关参数的含义请参考文档：http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/link-extractors.html

主要参数：

allow: #满足括号中正则表达式的值会被提取，如果为空则全部匹配
allow_domains: #会被提取的链接的域名

与之相关的CrawlSpider以及Rule之后应该会一起整合写一个博客。

转载于:https://www.cnblogs.com/EdenChanIy/p/9398758.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

adam_1992

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Scrapy爬虫框架 Link Extractors 链接提取器

Mr数据杨

02-01

3万+

在现代网络爬虫开发中，链接提取是关键的一环。Scrapy 作为一个强大的 Python 爬虫框架，提供了丰富的工具和功能来帮助开发者高效地从网页中提取和处理链接信息。本文将详细介绍 Scrapy 2.6 中的链接提取器（Link Extractors）及其使用方法，重点讲解如何通过实例化和配置这些提取器，来实现对网页链接的精确抓取与处理。链接提取器提供了多种参数和方法，可以根据不同需求进行配置，以满足复杂的网页抓取需求。通过掌握这些参数的使用方法，开发者可以更灵活地定制爬虫的行为，提高爬取效率。

Scrapy框架 Link Extractors 链接提取器应用案例

Mr数据杨

10-24

167

有些网站使用 JavaScript 动态生成链接，这些链接通常不会直接出现在 HTML 源代码中。假设你需要提取一个使用 JavaScript 动态生成链接的电商网站的产品页面链接，编写一个 Scrapy 爬虫，使用自定义的链接提取器来处理这种情况。Scrapy 的默认只能提取静态 HTML 中的链接。对于动态生成的链接，可以使用 Scrapy 的或其他解析工具获取页面动态内容，然后自定义一个函数来提取目标链接。rules = (# 使用 JavaScript 执行后的 HTML 进行链接提取。

参与评论您还未登录，请先登录后发表或查看评论

爬虫框架Scrapy（8）使用 LinkExtractor 提取链接

Python达人

03-23

2368

文章目录使用 LinkExtractor 提取链接1. 提取链接的方法（1）使用Selector（2）使用LinkExtractor2. LinkExtractor 提取链接的规则（1）allow（2）deny（3）allow_domains（4）deny_domains（5）restrict_xpaths（6）restrict_css（7）tags（8）attrs（9）process_value 使用 LinkExtractor 提取链接 1. 提取链接的方法在爬取一个网站时，想要爬取的数据通常分布在多

Scrapy1.5基本概念（十）——链接提取器（Link Extractors）

ReganDu的博客

01-04

749

本文为译文，原文见地址：https://docs.scrapy.org/en/latest/topics/link-extractors.html 链接提取器（Link Extractors）链接提取器是只用于从web页面（scrapy.http.Response对象）中提取链接的对象，这些链接最终会被继续追踪。在Scrapy中有一个可用的scrapy.linkextractors.Lin...

Scrapy爬虫入门教程十二 Link Extractors（链接提取器）

inke的博客

03-10

3747

Scrapy爬虫入门教程十二 Link Extractors（链接提取器）

python scrapy之CrawlSpider和链接提取器LinkExtractor

weixin_43205308的博客

05-25

296

python scrapy之CrawlSpider和链接提取器LinkExtractor

Scrapy LinkExtractor

从零开始学习python --zeropython

05-14

188

LinkExtractor的使用非常简单，通过一个例子进行讲解，使用LinkExtractor替代Selector完成BooksSpider提取链接的任务，代码如下： Python from <span class="wp_keywordlink_aff...

Scrapy-Link Extractors（链接提取器）

墨鱼菜鸡

07-11

1865

Link Extractors 中文文档：https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/link-extractors.html Link Extractors 英文文档：http://doc.scrapy.org/en/latest/topics/link-extractors.html 利...

Python爬虫 scrapy框架（四）CrawlSpider 链接提取器 LinkExtractor 规则解析器 Rule

qq_38232003的博客

12-17

1149

scrapy框架 CrawlSpider CrawlSpider：基于Spider的子类，继承父类的功能，且派生出自己的功能。全站数据爬取的方式基于Spider：手动请求发送基于CrawlSpider：基本使用创建一个工程 scrapy startproject quanzhanPro 切换到工程目录 cd quanzhanPro 创建一个基于CrawlSpider类的爬虫文件 scrapy genspider -t crawl quanzhan wz.sun0769.com/politi

LinkExtractor

weixin_33770878的博客

06-21

180

wljdeMacBook-Pro:~ wlj$ scrapy shell "http://www.bjrbj.gov.cn/mzhd/detail_29974.htm" scrapy shell发送请求 scrapy shell "http://www.bjrbj.gov.cn/mzhd/detail_29974.htm" wljdeMacBook-Pro:~ wlj$ s...

超链接提取工具网站链接抓取器下载提取网页全部超链接

04-11

超链接提取工具网站链接抓取器下载提取网页全部超链接

Scrapy : Link Extractors

AI路漫漫

07-01

330

https://docs.scrapy.org/en/latest/topics/link-extractors.html#scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor

Scrapy 使用LinkExtractor提取链接

qq_41360111的博客

02-12

591

LinkExtractor的使用非常简单，通过一个例子进行讲解，使用LinkExtractor替代Selector完成BooksSpider提取链接的任务，代码如下： from scrapy.linkextractors import LinkExtractor class BooksSpider(scrapy.Spider): ... def parse(self, resp...

【Scrapy 动态配置爬虫 LinkExtractor提取链接】

之度的博客

03-25

1837

提取链接的两种方法： Selector LinkExtractor linkExtractor的使用分两种情况，一种是用crawl 模板创建，一种是不用crawl 模板创建。 # 使用 LinkExtractor提取链接 from scrapy.linkextractors import LinkExtractor ...

Scrapy链接提取器

qq_52624850的博客

04-30

256

使用Scrapy的LinkExtractor对象来找出页面上所有满足特定条件的链接。这个条件是通过一个XPath表达式来定义的。将响应中所有满足LinkExtractor条件的链接提取出来，并把这些链接存储在。对象，这个对象包含了要访问的链接以及对响应内容处理的回调函数。这个新请求会被添加到 Scrapy 的调度器中去。Scrapy 的工作流是基于这种生成的请求的。提取的链接，并为每一个链接创建一个新的。下面代码的作用是遍历先前通过。关键字在这里用于生成一个。

Scrapy_LinkExtractor

苦涩

11-08

1655

文章目录使用LinkExtractor提取链接描述LinkExtractor提取规则LinkExtractor构造器参数描述使用LinkExtractor提取链接提取页面链接有Selector和LinkExtractor两种方法因为链接也是页面中的数据，所以可以使用与提取数据相同的方法进行提取，在提取少量（几个）链接或提取规则比较简单时，使用selector就足够了 Scrapy提供了一个专...

西山小菜鸟之Scrapy学习笔记---LinkExtractor

依然关注

11-22

387

前言本文中如有错误，望指正。背景日常爬取一个网站时，想要爬取的数据分布在多个页面中，每个页面包含一部分数据以及到其它页面的链接，提取页面中数据的方法想必大家都有了解，最最最直接的就是xpath了，提取链接的方法则有Selector和LinkExtractor两种方法。理论接着上面所说，提取链接的方法则有Selector和LinkExtractor两种方法： ...

scrapy爬虫之LinkExtractor的使用

fengzhilaoling的博客

07-13

2161

LinkExtractor LinkExtractor构造器所有的参数都有默认值，如果构造对象不传参，默认提取页面中所有的链接 2020-07-13 15:24:53 [parso.python.diff] DEBUG: diff parser end In [1]: from scrapy.linkextractors import LinkExtractor In [2]:

Python 爬虫学习笔记（十(4)）scrapy链接提取器CrawlSpider

湫兮如风i的博客

03-25

1901

scrapy链接提取器 CrawlSpider用法详解

在爬虫项目中创建LinkExtractor类的对象