相应软件下载:
Fiddler - 请求捕获工具,PC和手机都行。提取码:6qjt (推荐百度自行下载最新版)
7月初,放了几天暑假,到了大三了,要准备实习的事宜,就到各大招聘平台上搜寻称心的职位,我就想着找份关于Python方向的实习,但是各大平台关于Python的实习少之又少,只有实习僧平台稍许有点关于Python的实习。因为最近找到了一些数据图形化显示的开源库,就想着爬取实习僧的职位信息下来进行数据可视化分析分析。
起初,打开分析了实习僧的网页源代码,觉得应该挺简单的,但后来才发现,实习僧使用了字体反爬,职位信息的某些字段在源代码中显示不出来的。
以上职位的标题字段在源代码中有些显示不出来的:
类似于标志的是实习僧自定义字体的标识,后来在网上找了一下怎样破解字体反爬,发现主要有几种方法:
- 字体静态映射:用人工的办法把对应的字体和标识保存下载,以便在爬取的时候进行解析。
- 分析ttf文件:解析源代码的ttf文件资源下来,转化为xml格式,根据字体的绘制路线和动态变化的规律,进行动态解析字体。
- OCR识别
以上几种方法中,前两种办法太麻烦,太浪费时间,而且还有点不稳定因素,果断放弃。最后一种OCR识别看着就觉得太高端,本着做个简单小爬虫的,所以放弃。
因为以上几种办法都不喜欢用,所以又仔细研究了网页源代码,然后惊奇的发现点开职位