一. 字体加密原理
- 简单而言就是利用前端技术干扰,页面可以正常展示,而使用爬虫下载后无法提取正常的数据。
- 在 `CSS3 `之前,`Web` 开发者必须使用用户计算机上已有的字体。目前的技术开发者可以使用`@font-face`为网页指定字体,开发者可将心仪的字体文件放在 Web 服务器上,并在` CSS` 样式中使用它。用户使用浏览器访问 `Web应用`时,对应的字体会被浏览器下载到用户的计算机上。
**注:**使用自动化`selenium`也无法获取正常的数据
- 实例:https://www.shixiseng.com/interns?keyword=互联网IT&city=全国&type=intern&from=menu
- 字体加密的特点
- 在网页上显示正常,在源码里面看到的是乱码或者是问号

2. 定位字体位置
- 字体加密会有个映射的字体文件
- 可以在元素面板搜索`@font-face`会通过这个标签指定字体文件,可以直接在页面上搜索,找到他字体的网址
可以直接把字体文件下载下来, 文件可以一般需要自己修改后缀(网页的字体后缀一般选用woff)
1. `TTF`:这是Windows操作系统使用的唯一字体标准,`macintosh`计算机也用`truetype`字体作为系统字体。
2. `OTF`:这是一种开放的字体格式,支持Unicode字符集,可以在多种操作系统和设备上使用。
3. `FON`:这是Windows 95及之前版本使用的字体格式。
4. `TTC`:这是一种字体集合格式,包含多个字体文件,可以一次性安装多个字体。
5. `SHX`:这是

本文探讨了字体加密技术如何在Web页面上隐藏数据,使得自动化工具如Selenium无法抓取。介绍了字体文件类型及其在Web开发中的应用,并展示了如何使用Python库fontTools解析和处理字体文件,揭示其内部结构和编码关系。
最低0.47元/天 解锁文章
1094






