Python爬取实习僧职位信息

本文分享了在遇到字体反爬挑战时,如何利用Fiddler软件和移动端API,成功爬取实习僧网站的Python实习职位信息,进行数据可视化分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

相应软件下载:

Fiddler - 请求捕获工具,PC和手机都行。提取码:6qjt (推荐百度自行下载最新版)

7月初,放了几天暑假,到了大三了,要准备实习的事宜,就到各大招聘平台上搜寻称心的职位,我就想着找份关于Python方向的实习,但是各大平台关于Python的实习少之又少,只有实习僧平台稍许有点关于Python的实习。因为最近找到了一些数据图形化显示的开源库,就想着爬取实习僧的职位信息下来进行数据可视化分析分析。

起初,打开分析了实习僧的网页源代码,觉得应该挺简单的,但后来才发现,实习僧使用了字体反爬,职位信息的某些字段在源代码中显示不出来的。
在这里插入图片描述
以上职位的标题字段在源代码中有些显示不出来的:
在这里插入图片描述
类似于&#xf005标志的是实习僧自定义字体的标识,后来在网上找了一下怎样破解字体反爬,发现主要有几种方法:

  • 字体静态映射:用人工的办法把对应的字体和标识保存下载,以便在爬取的时候进行解析。
  • 分析ttf文件:解析源代码的ttf文件资源下来,转化为xml格式,根据字体的绘制路线和动态变化的规律,进行动态解析字体。
  • OCR识别

以上几种方法中,前两种办法太麻烦,太浪费时间,而且还有点不稳定因素,果断放弃。最后一种OCR识别看着就觉得太高端,本着做个简单小爬虫的,所以放弃。

因为以上几种办法都不喜欢用,所以又仔细研究了网页源代码,然后惊奇的发现点开职位

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值