【python爬虫笔记】scrapy

目录

创建新项目

怎么用scrapy

scrapy 一个完整的案例应用

css选择器介绍

css选择器的基本语法

scrapy 中的css使用方法


0

创建新项目

 下载 scrapy

 pip install scrapy

该命令先依据 项目名 创建一个文件夹,然后再文件夹下创建于个 scrpy 项目,这一步是后续所有代码的起点。 

scrpy startproject <项目名>

创建新项目

scrapy startproject my_scrapy

 创建第一个 scrapy 爬虫文件 pm

scrapy genspider pm imspm.com

如果想要运行项目命令,则必须先进入红色下划线 my_scrapy 文件夹,在项目目录中才能控制项目。

 cd my_scrapy

此时在 spiders 文件夹中,出现 pm.py 文件,该文件内容如下所示: 

import scrapy


class PmSpider(scrapy.Spider):
    name = 'pm'
    allowed_domains = ['imspm.com']
    start_urls = ['http://imspm.com/']

    def parse(self, response):
        pass

测试 scrapy 爬虫运行
使用命令 scrapy crawl <spider>spider 是上文生成的爬虫文件名,出现如下内容,表示爬虫正确加载。

2022-11-12 15:27:02 [scrapy.utils.log] INFO: Scrapy 2.6.2 started (bot: my_scrapy)

怎么用scrapy

scrapy 工作流程非常简单:

  1. 采集第一页网页源码;
  2. 解析第一页源码,并获取下一页链接;
  3. 请求下一页网页源码;
  4. 解析源码,并获取下一页源码;
  5. […]
  6. 过程当中,提取到目标数据之后,就进行保存。

scrapy 一个完整的案例应用

> scrapy startproject my_project 爬虫
> cd 爬虫
> scrapy genspider pm imspm.com

获得项目结构如下:

python scrapy 怕学不会?看这篇就可以了。爬虫120例第42例,采集超级产品经理频道

  • scrapy.cfg:配置文件路径与部署配置;
  • items.py:目标数据的结构;
  • middlewares.py:中间件文件;
  • pipelines.py:管道文件;
  • settings.py:配置信息。

代码请求次数为 7 次,原因是在 pm.py 文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值