简单的scrapy分页爬虫

最新推荐文章于 2025-05-28 11:15:24 发布

原创

最新推荐文章于 2025-05-28 11:15:24 发布 · 1.5k 阅读

2 ·

CC 4.0 BY-SA版权

首先我们需要安装几个依赖包先

wheel
lxml
pyopenssl
Twisted
pywin32
scrapy

最好就是按顺序安装吧

看看能不能直接pip install …

不行的话这里有依赖包的下载链接

https://www.lfd.uci.edu/~gohlke/
https://www.lfd.uci.edu/~gohlke/

可以直接下载到本地来，然后再pip install …

还可以去pycharm那里安装

好了，在这里安装好多有依赖包之后我们的scrapy环境就搭好了

下面开始创建第一个项目

这样就说明你创建成功了，它在D盘，叫demo

下面的这个项目是

scrapy startproject a51job
scrapy genspider 51job 51job.com

main.py

from scrapy.cmdline import execute

execute('scrapy crawl 51job'.split())

a51job.py

# -*- coding: utf-8 -*-
import scrapy
from job.items import JobItem
"""
为了创建一个Spider，您必须继承 scrapy.Spider 类， 且定义以下三个属性:
    1 name: 用于区别Spider。 该名字必须是唯一的，您不可以为不同的Spider设定相同的名字。
    2 start_urls: 包含了Spider在启动时进行爬取的url列表。 因此，第一个被获取到的页面将
      是其中之一。 后续的URL则从初始的URL获取到的数据中提取。
    3 parse() 是spider的一个方法。 被调用时，每个初始URL完成下载后生成的 Response 对象
      将