用Python爬取各大网站招聘平台,终于让我给知道对口的工作

本文分享了一个年轻人在职场初期因盲目跳槽导致的“低不成,高不就”困境,及如何通过调整心态和策略找到满意工作的经验。

个人经历:低不成,高不就

依稀还记得15年刚出来工作那会,在第一个互联网公司实习,在公司听惯了身边人说公司这不好,那不好,作为新人的我深受影响,不知从何时开始就想快点结束实习期换一份更好的工作;

千盼万盼,终于迎来第二年的毕业,毕业后我也选择了大部分实习生的选择,没有再回到公司,在之后,懵懂的我终于迎来人生的第一次打击,在之后的两个月的时间,我开始在做比较,结果没有找到一家比上家更好的工作,由于当初的不辞而别,我也感觉没脸回到上家公司,终于到了身无分文的地步,而我也不得以选择一家“差”的公司,想着做几个月存点钱再去找一份更好的工作;

这样的恶性循环在我身上循环了一年,“低不成,高不就”的现象也许不只是出现在我身上,下面教你如果找到一份自己相对满意的工作!

用Python爬取各大网站招聘平台,终于让我给知道对口的工作

 

正文:找一份自己满意的工作

拿一个招聘网站用来分析:

1、分析网站结构,确定我们要抓取的数据内容

通过 Chrome 浏览器右键检查查看 network 并对网站结构进行分析发现我们在 ajax 请求界面中,可以看到这些返回的数据正是网站页面中Python岗位招聘的详情信息。

用Python爬取各大网站招聘平台,终于让我给知道对口的工作

 

之后我们在查看headers的时候发现该网站请求的方式是Post请求,也就是说在请求的过程中需要携带Form Data数据

用Python爬取各大网站招聘平台,终于让我给知道对口的工作

 

在多次对网页界面进行分析评测的时候,发现在点击第二页的时候Form Data的携带格式发生了变化。可以看到 pn=2 肯定是咱们的当前的页数。

用Python爬取各大网站招聘平台,终于让我给知道对口的工作

 

2、不管三七二十一 ,先请求拿到数据在说

用Python爬取各大网站招聘平台,终于让我给知道对口的工作

 

在直接请求界面的时候我们发现网站有反爬机制,不让我们请求《“msg”:“您操作太频繁,请稍后再访问”》,我们携带请求头伪装一下,不行

用Python爬取各大网站招聘平台,终于让我给知道对口的工作

 

这里我用了一种可以快速生成headers以及cookie的工具:

用Python爬取各大网站招聘平台,终于让我给知道对口的工作

 

我怀疑该网站具有多重反爬策略,当我在次添加cookies试一下的时候;我们发现数据可以正常获取了;难道就这么简单就解决拉勾网数据获取的问题了吗?然而机智的我察觉到事情并没有想像的那么简单;

用Python爬取各大网站招聘平台,终于让我给知道对口的工作

 

我的最终解决方案是共用 session,就是说我们在每次请求界面的时候先获取session然后原地更新我们的session之后在进行数据的抓取,最后拿到想要的数据。

用Python爬取各大网站招聘平台,终于让我给知道对口的工作

 

第二步:对数据进行分解

用Python爬取各大网站招聘平台,终于让我给知道对口的工作

 

运行结果:

用Python爬取各大网站招聘平台,终于让我给知道对口的工作

 

第三步:对解析数据进行存储

这里通过 excel 表格的形式进行存储;

需要 pip install xlwt 安装一下 xlwt 库.

用Python爬取各大网站招聘平台,终于让我给知道对口的工作

 

最终显示数据内容

用Python爬取各大网站招聘平台,终于让我给知道对口的工作

使用Python爬虫爬取招聘平台招聘信息可参考以下实现方法: - **选择招聘平台**:拉勾网和猎云网等招聘平台,拥有丰富的职位信息和便捷的搜索功能,适合作为爬取对象。爬取的数据可用于市场分析、薪资趋势预测、行业发展趋势分析等 [^1]。 - **利用`requests`库获取网页内容**:以智联招聘为例,可使用`requests`库发送请求获取网页的HTML数据。示例代码如下: ```python import requests url = 'https://sou.zhaopin.com/jobs/searchresult.ashx?' paras = {...} # 填写请求参数 headers = {...} # 填写请求头 try: # 获取网页内容,返回html数据 response = requests.get(url, params=paras, headers=headers) # 后续可对response进行处理,如解析HTML内容 except Exception as e: print(f"请求出错: {e}") ``` 上述代码通过`requests.get`方法发送请求,`params`参数用于传递请求参数,`headers`参数用于设置请求头,模拟浏览器行为。 [^2] - **解析网页内容提取信息**:使用合适的HTML解析库(如`BeautifulSoup`)从获取的HTML数据中提取所需的招聘信息,如职位名称、公司名称、薪资待遇、职位要求等。示例代码如下: ```python from bs4 import BeautifulSoup # 假设response是上一步获取的响应对象 soup = BeautifulSoup(response.text, 'html.parser') # 以下是一个简单示例,提取公司行业信息 company = soup.find_all(...) # 根据实际情况填写查找条件 try: f = open('data.txt', 'w', encoding='utf-8') f.write(company[0].contents[7].contents[0].contents[0]+":"+company[0].contents[7].contents[1]+" ") f.close() except Exception as e: print(f"写入文件出错: {e}") ``` 上述代码使用`BeautifulSoup`将HTML数据解析为可操作的对象,然后根据网页结构提取公司行业信息并写入文件。 [^1][^3]
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值