爬虫真香，我爬取了爬虫岗位薪资进行了分析

最新推荐文章于 2023-09-15 10:32:46 发布

原创最新推荐文章于 2023-09-15 10:32:46 发布 · 779 阅读

CC 4.0 BY-SA版权

文章标签：

165 篇文章

订阅专栏

本文介绍了一个使用Python爬虫抓取并分析爬虫岗位薪资的过程，包括目标网站分析、编码防止乱码、数据存储到CSV，以及通过可视化展示岗位名称、城市分布和薪资情况。结果显示大城市爬虫工程师需求旺盛，薪资普遍集中在20000+。

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理

首先，确定目标网站：

https://jobs.51job.com/pachongkaifa

1.开始

打开pycharm，新建文件->导入必备的库->加入常用的请求头header

# 导入requests包
import requests
from lxml import etree
# 网页链接
url = "https://jobs.51job.com/pachongkaifa/p1/"
# 请求头
headers = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.9",
"Connection": "keep-alive",
"Cookie": "guid=7e8a970a750a4e74ce237e74ba72856b; partner=blog_youkuaiyun.com",
"Host": "jobs.51job.com",
"Sec-Fetch-Dest": "document",
"Sec-Fetch-Mode": "navigate",
"Sec-Fetch-Site": "none",
"Sec-Fetch-User": "?1",
"Upgrade-Insecure-Requests": "1",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36"
}

<p class="info">

先通过request请求网页，防止中文乱码，进行gbk的编码（如果不设置则会出现乱码）

，接着进行解析网页，获取想要的内容

最后出现运行后，结果如下：

为了方便下一步我们对数据进行分析，我将爬取下来的数据存储到csv文件

导入需要的库包

创建csv文件，并设置为追加写模式

在爬取文件的时候将爬取的内容循环写入csv

writer.writerow([title[0]+"",name[0]+"",location_name[0]+"",sary[0]+""])

保存好的csv数据如下：

从csv中读取爬取好的数据

这里用了三个集合来存储系统分析的内容（岗位、城市、薪资分布）

由于薪资是1万/月、2万/月，为了转为10000、20000，则需要进行相应的处理。

开始分析了

从图中可以看出，大多数公司都需要用"爬虫开发工程师"这个词

从图中来看，大城市（北上广深）的爬虫工程师岗位居多

我们可以发现，爬虫工程师的薪资在20000+以上的占大半数，尤其是20000左右的居多，看来爬虫岗位真是太香，你酸了吗，哈哈哈哈

data = pd.DataFrame({"value":sary_list})
cats1 = pd.cut(data['value'].values, bins=[8000, 10000, 20000, 30000, 50000,data['value'].max()+1])
pinshu = cats1.value_counts()
pinshu_df = pd.DataFrame(pinshu, columns=['频数'])
pinshu_df['频率f'] = pinshu_df / pinshu_df['频数'].sum()
pinshu_df['频率%'] = pinshu_df['频率f'].map(lambda x: '%.2f%%' % (x * 100))
pinshu_df['累计频率f'] = pinshu_df['频率f'].cumsum()
pinshu_df['累计频率%'] = pinshu_df['累计频率f'].map(lambda x: '%.4f%%' % (x * 100))
print(pinshu_df)
print()
print("李运辰")