Python实现招聘数据采集，并做可视化分析

最新推荐文章于 2024-12-23 23:07:44 发布

轻松学Python

最新推荐文章于 2024-12-23 23:07:44 发布

阅读量1.7k

点赞数 8

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python 开发语言

本文链接：https://blog.youkuaiyun.com/ooowwq/article/details/140524503

转眼秋招快到了，今天来学习一下如何用Python采集全网招聘数据，并进行可视化分析，为就业准备~

话不多说开始造

源码和详细的视频讲解我都打包好了，文末名片自取

准备工作

首先你需要准备这些

环境

Python 3.10
Pycharm

模块
DrissionPage -> pip install DrissionPage
csv

新建一个临时 py 文件，并输入以下代码，填入您电脑里的 Chrome 浏览器可执行文件路径，然后运行。

from DrissionPage import ChromiumOptions

path = r'D:\Chrome\Chrome.exe' # 请改为你电脑内Chrome可执行文件路径
ChromiumOptions().set_browser_path(path).save()

爬虫实现的基本流程

一、数据来源分析

1.明确需求

明确采集的网站以及数据内容

网址: https://****/web/geek/job?query=python&city=100010000
数据: 职位信息

2.抓包分析

通过浏览器开发者工具分析对应的数据位置

打开开发者工具
- F12 / 右键点击检查选择 network (网络)
刷新网页
通过关键字搜索找到对应的数据位置
- 关键字: 需要什么数据就搜什么数据

数据包地址:
https://***/wapi/zpgeek/search/joblist.json?scene=1&query=pyth
on&city=100010000&experience=&payType=&partTime=°ree=&industry=&scale=&stage=&p
osition=&jobType=&salary=&multiBusinessDistrict=&multiSubway=&page=1&pageSize=30

二、代码实现步骤

requests基本实现步骤基本步骤分为四步:

1.发送请求: 模拟浏览器对于url地址发送请求
2.获取数据: 获取服务器返回响应数据
3.解析数据: 提取我们需要的数据内容
4.保存数据: 提取的数据保存表格/文本/数据库/json文件中

为什么不选择使用requests去请求获取数据呢?

某些网站数据内容(请求), 存在加密内容->需要JS逆向
比如: 今晚案例boss -> cookie 中 zp_stoken 时效性

drissionpage 自动化模块

模拟人的行为操作浏览器

点击输入拖拽获取数据

1.可以直接通过元素面板, 进行元素定位获取相关数据内容

2.可以直接监听数据, 获取响应数据
监听数据->在执行动作之前

注意细节:

最低0.47元/天解锁文章

200万优质内容无限畅学