python--boss直聘数据可视化

本文使用Python的matplotlib和Pandas库对爬取的BOSS直聘数据进行可视化,包括salary、工作年限、公司信息和学历等字段的分析。通过对salary区间、工作年限、公司规模和学历的统计,绘制了直方图和饼图,展示了不同维度的求职市场概况。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python 数据可视化

本文中主要使用matplotlib和Pandas对数据进行可视化
数据来源:爬取的BOOS直聘数据分析数据

数据展示

在这里插入图片描述
本文中针对以上数据,对salary,company_info,work_time,education这几个信息进行数据可视化,做出直方图和饼图

整体框架

先看一下使用的包吧
import re #正则表达式模块
import json #json模块
import pandas as pd #pandas模块
from nltk import FreqDist #nltk模块,用于分析词频
import matplotlib.pyplot as plt #matplotlib模块
from numpy import nan as NAN #numpy 模块
指定matplotlib中的字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题

初始化,构造DataFrame数据

由于数据是从爬虫返回的JSON文件中导出的,而爬虫返回的JSON文件中JSON格式不标准,需要对格式进行处理,然后再loads为Python对象

    def __init__(self):
       #读出文件中的内容
        self.fp = open("boss_fp.json",'r',encoding='utf-8').read()
        #在每一行数据中添加逗号,
        self.fp_re = re.sub(r"}","},",self.fp)
        #取出最后一个逗号,并在首尾添加方括号,构造为一个标准的JSON数据
        self.fp_re = "["+self.fp_re[:-2]+"]"
        #loads为Python对象数据
        self.json_str = json.loads(self.fp_re)
        self.df = pd.DataFrame(self.json_str)

项目介绍 该项目选用了和鲸社区关于数据分析岗位的数据集来进行分析。项目主要使用“job.csv”文件作为数据源,其中数据文件的主要栏位有职位、城市、公司、薪资、学历、工作经验、行业标签。其中本项目所使用的可计算的栏位为最低薪资、最高薪资、平均薪资、奖金率。 本项目所使用的可分类的栏位为职位、城市、学历、工作经验、行业标签。通过对数据进行清洗重塑和分析,再使用plotly等工具进行绘图,实现图表的交互式数据可视化,最后使用flask框架(利用了bootstrap)进行网页上的可视化展示。最后展示了关于数据分析岗位的人才需求分布情况、薪资情况以及发展前景。 项目来源:选用boss网站的数据分析职位的招数据 数据结果总结 通过以上分析,可以发现,如果要成功进入数据分析行业,应该往北上广深行这几个城市考虑,这些城市的薪资水平高。 而行业方面应该着眼于互联网及电子商务等新兴行业,这些行业对该岗位的需求都比较大,而且薪资水平也普遍高。 该岗位对学历的门槛并不是很高,从市场需求来看,要求硕士的较少,而博士则是凤毛麟角。本科是一个分水岭。是否是本科,对薪资水平的影响还是很大的 不过这也从侧面反映了社会上学历的分布状况,本科生及大专生占绝对多数。 虽然市场需求量大,但是本科生就业压力也很大 工作经验对于该岗位而言非常重要,能否成功进入数据分析行业的关键门槛在于是否有工作经验,与薪资水平呈正相关。 而成功进入数据分析行业以后,只有在迈过3年这个坎,才会有比较大的突破。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值