用Excel做一次数据分析(一)——爬取前程无忧(51job)的招聘信息

本文使用Python爬取前程无忧网站上的广州地区数据分析职位信息,包括岗位名称、公司、地点、薪资等,并进行初步分析。通过解析网页源码获取JSON数据,然后保存到CSV文件。爬取过程涉及网页分析、XPath选择、数据清洗和CSV存储。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

本文分为两步:

  1. 数据的获取 (python爬虫,以广州,数据分析师为例)
  2. 数据分析(这里先不用python,而是excel)

总体步骤:

数据获取——这里用python爬取前程无忧的招聘信息;

明确分析目的——你拿这数据要得到什么信息,解决什么问题;

观察数据——各个数据字段的含义,中英文释义;

数据清洗——无效值、缺失值、重复值处理,数据结构是否一致等;

分析过程——围绕目的展开分析;

制作可视化——做图表做可视化报告。

爬取数据

网址首页:https://www.51job.com/
搜索后:广州,数据分析

用Python爬取了约600条的数据分析的职位信息(因为地点限定在广州,数据量不是很大),并且将
岗位名称、公司名称、工作地点、薪水、工作经历和学历最低要求、公司类型、公司规模、公司领域 用CSV文件保存下来。
在这里插入图片描述

网站分析

检查源代码发现数据就在源码当中,这样就大大简化了工作。不像前程无忧各种加密了

代码

获取网页代码

import requests
from lxml import etree
url = 'https://search.51job.com/list/030200,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='
header ={
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                 'AppleWebKit/537.36 (KHTML, like Gecko) '
                 'Chrome/85.0.4183.48 Safari/537.36 Edg/85.0.564.23'
}
res = requests.get(url,headers = header)

res.text

在这里插入图片描述

用xpath选择出所需标签

selector = etree.HTML(res.text)
result = selector.xpath('//script[@type="text/javascript"]/text()')
result

在这里插入图片描述

提取出json

显然前面那个[’\r\nwindow.SEARCH_RESULT 不是属于json的,观察发现,有效信息且符合格式的在第一个 { 到最后一个
} 之间。

import re
js_str = re.search('\{.*}',str(result[0]))
js_str.group()
import json

js = json.loads(js_str.group()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值