Python爬虫基础：使用Scrapy库初步探索

原创已于 2024-01-05 15:32:38 修改 · 1.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #scrapy

于 2023-09-15 21:02:39 首次发布

本文介绍了Python的Scrapy框架，包括其简介、安装、创建项目、编写爬虫及运行爬虫的基本步骤。通过实例展示了如何创建一个爬虫来抓取并处理网页数据。

Scrapy是Python中最流行的网页爬虫框架之一，强大且功能丰富。通过Scrapy，你可以快速创建一个爬虫，高效地抓取和处理网络数据。在这篇文章中，我们将介绍如何使用Scrapy构建一个基础的爬虫。

一、Scrapy简介及安装

Scrapy是一个用Python实现的开源网页爬虫框架，主要用于网页数据抓取和分析。它提供了所有的基础功能，包括解析HTML（或其他格式的数据）、处理HTTP请求、处理cookies和session、多线程抓取等等，还提供了多种类型的爬虫模型，适用于不同的需求。

安装Scrapy非常简单，只需要使用pip安装即可：

pip install Scrapy

二、创建一个Scrapy项目

Scrapy使用一个单独的项目空间来组织每一个爬虫。你可以使用Scrapy的命令行工具来创建一个新的项目：

scrapy startproject tutorial

这会创建一个名为"tutorial"的Scrapy项目，项目结构如下：

tutorial/
    scrapy.cfg            # 项目的配置文件
    tutorial/             # 项目的Python模块
        __init__.py
        items.py          # 项目的数据模型文件
        middlewares.py    # 项目的中间件文件
        pipelines.py      # 项目的数据处理管道文件
        settings.py       # 项目的设置文件
        spiders/          # 存放爬虫代码的目录
            __init__.py

三、编写一个简单的爬虫

在Scrapy中，爬虫是一类定义了如何爬取某个网站（或一组网站）的类，包括如何进行网页爬取（即初始URL）、如何跟踪链接、如何从网页的内容中提取数据等等。

下面我们将创建一个简单的Scrapy爬虫，用于爬取quotes.toscrape.com网站的引用内容。首先，我们需要在spiders目录下创建一个新的Python文件quotes_spider.py：

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            'http://quotes.toscrape.com/page/1/',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = f'quotes-{page}.html'
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log(f'Saved file {filename}')

在这个代码中，我们定义了一个名为QuotesSpider的Scrapy爬虫。爬虫首先会请求URLs列表中的每个URL，然后对每个响应进行处理，将响应的内容保存到一个HTML文件中。

四、运行Scrapy爬虫

创建好爬虫后，你可以使用Scrapy的命令行工具来运行爬虫：

scrapy crawl quotes

当你运行这个命令，Scrapy将会找到名为"quotes"的爬虫，并开始爬取，然后将爬取的内容保存到文件中。

通过这篇文章，你应该对Scrapy有了基本的了解，并能够创建和运行一个简单的Scrapy爬虫。在下一篇文章中，我们将更深入地探讨Scrapy的功能，包括如何提取数据，如何使用Scrapy的数据管道，如何处理登录和cookies等等。

---------------------------END---------------------------

题外话

![在这里插入图片描述](https://img-blog.csdnimg.cn/cb9eaa37ce994535bdf60e07ba4cf09e.jpeg#pic_center)

感兴趣的小伙伴，赠送全套Python学习资料，包含面试题、简历资料等具体看下方。

👉优快云大礼包🎁：全网最全《Python学习资料》免费赠送🆓！（安全链接，放心点击）

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

工具都帮大家整理好了，安装就可直接上手！

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试宝典

在这里插入图片描述

简历模板

👉 优快云大礼包:gift:：[全网最全《Python学习资料》免费赠送:free:！](https://blog.youkuaiyun.com/weixin_68789096/article/details/132275547?spm=1001.2014.3001.5502) （安全链接，放心点击）

若有侵权，请联系删除