【python爬虫笔记】scrapy

—Xi—

已于 2022-11-16 18:21:24 修改

阅读量564

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签： python 爬虫开发语言

于 2022-11-14 11:39:59 首次发布

本文链接：https://blog.youkuaiyun.com/m0_51933492/article/details/127820920

创建新项目

下载 scrapy

 pip install scrapy

该命令先依据 项目名 创建一个文件夹，然后再文件夹下创建于个 scrpy 项目，这一步是后续所有代码的起点。

scrpy startproject <项目名>

创建新项目

scrapy startproject my_scrapy

创建第一个 scrapy 爬虫文件 pm

scrapy genspider pm imspm.com

如果想要运行项目命令，则必须先进入红色下划线 my_scrapy 文件夹，在项目目录中才能控制项目。

 cd my_scrapy

此时在 spiders 文件夹中，出现 pm.py 文件，该文件内容如下所示：

import scrapy


class PmSpider(scrapy.Spider):
    name = 'pm'
    allowed_domains = ['imspm.com']
    start_urls = ['http://imspm.com/']

    def parse(self, response):
        pass

测试 scrapy 爬虫运行
使用命令 scrapy crawl <spider>，spider 是上文生成的爬虫文件名，出现如下内容，表示爬虫正确加载。

2022-11-12 15:27:02 [scrapy.utils.log] INFO: Scrapy 2.6.2 started (bot: my_scrapy)

怎么用scrapy

scrapy 工作流程非常简单：

采集第一页网页源码；
解析第一页源码，并获取下一页链接；
请求下一页网页源码；
解析源码，并获取下一页源码；
[…]
过程当中，提取到目标数据之后，就进行保存。

`scrapy` 一个完整的案例应用

> scrapy startproject my_project 爬虫
> cd 爬虫
> scrapy genspider pm imspm.com

获得项目结构如下：

python scrapy 怕学不会？看这篇就可以了。爬虫120例第42例，采集超级产品经理频道

scrapy.cfg：配置文件路径与部署配置；
items.py：目标数据的结构；
middlewares.py：中间件文件；
pipelines.py：管道文件；
settings.py：配置信息。

代码请求次数为 7 次，原因是在 pm.py 文

最低0.47元/天解锁文章

200万优质内容无限畅学