scrapy 爬取拉勾网职位信息

本文介绍了如何使用Python爬虫框架Scrapy从拉勾网抓取职位信息,并进行数据分析。首先分析了拉勾网职位列表页的Ajax请求,接着创建Scrapy项目,编写item和爬虫文件,利用pipeline处理数据。最后,通过jupyter notebook结合pandas、numpy和matplotlib对数据进行清洗、筛选和图表展示,包括城市分布、学历水平、工作经验及薪资水平的分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

需求:1.使用python爬虫框架,爬取拉勾网职位信息,

          2.将爬取的职位信息存储到json格式的文件中

          3.将爬取的数据进行数据分析


1.图片中的链接是职位列表页的链接,进行翻页,该链接没有变化,无法从该链接中爬取数据

 

2.打开浏览器开发者模式,点击network的XHR,同时刷新页面,会出现ajax请求是post请求,红框中的Form Data是ajax请求需要携带的数据,kd是要搜索的职位

3.点击红框中的Response会看到ajax请求回的数据,

以上是拉勾网职位列表页分析,接下来进行网页信息爬取


步骤:

一.

创建scrapy项目:scrapy startproject  lagouscrapy   

进入项目目录中:cd lagouscrapy   

创建爬虫文件:scrapy genspider  worklagou  lagou.com

二.

使用pycharm编辑项目

1.编辑item.py文件,编辑要爬取的字段

import scrapy

class SelflagouItem(scrapy.Item):
    
    #  爬取职位名称,学历要求,公司名称,工作经历,公司位置,工资水平几个字段  
    title=scrapy.Field()
    education=scrapy.Field()
    company=scrapy.Field()
    experience=scrapy.Field()
    location=scrapy.Field()
    salary=scrapy.Field()

2.编写爬虫 worklagou.py文件

根据以上分析,拉勾网的职位信息是ajax的请求,所以

# -*- coding: utf-8 -*-
import json
import scrapy
from scrapy import FormRequest
from selflagou.items import SelflagouItem

class WorklagouSpider(scrapy.Spider):
    name = 'worklagou'
    allowed_domains = ['lagou.com']
    # kd是要爬取的职位,拉勾网的职位信息是通过ajax,将kd设置为输入框,可以输入你想要爬取的职位
    kd = input('输入职位:')
    start_urls = ['https://www.lagou.com/jobs/list_'+str(kd)]
    # 设置cookie和Referer
    headers={
        'Cookie':'_ga=GA1.2.922961630.1527598469; user_trace_token=20180529205427-6be5a91c-633f-11e8-8f27-5254005c3644; LGUID=20180529205427-6be5b0a9-633f-11e8-8f27-5254005c3644; index_location
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值