简单的scrapy分页爬虫

首先我们需要安装几个依赖包先

  • wheel
  • lxml
  • pyopenssl
  • Twisted
  • pywin32
  • scrapy

最好就是按顺序安装吧

看看能不能直接pip install …

不行的话这里有依赖包的下载链接

可以直接下载到本地来, 然后再pip install …

还可以去pycharm那里安装

好了, 在这里安装好多有依赖包之后我们的scrapy环境就搭好了

下面开始创建第一个项目

在这里插入图片描述
这样就说明你创建成功了,它在D盘, 叫demo

下面的这个项目是

  • scrapy startproject a51job
  • scrapy genspider 51job 51job.com

main.py

from scrapy.cmdline import execute

execute('scrapy crawl 51job'.split())

a51job.py

# -*- coding: utf-8 -*-
import scrapy
from job.items import JobItem
"""
为了创建一个Spider,您必须继承 scrapy.Spider 类, 且定义以下三个属性:
    1 name: 用于区别Spider。 该名字必须是唯一的,您不可以为不同的Spider设定相同的名字。
    2 start_urls: 包含了Spider在启动时进行爬取的url列表。 因此,第一个被获取到的页面将
      是其中之一。 后续的URL则从初始的URL获取到的数据中提取。
    3 parse() 是spider的一个方法。 被调用时,每个初始URL完成下载后生成的 Response 对象
      将
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值