字体加密破解日记

字体加密原理与Python处理:Web开发中的隐藏数据挑战,
本文探讨了字体加密技术如何在Web页面上隐藏数据,使得自动化工具如Selenium无法抓取。介绍了字体文件类型及其在Web开发中的应用,并展示了如何使用Python库fontTools解析和处理字体文件,揭示其内部结构和编码关系。

一. 字体加密原理

- 简单而言就是利用前端技术干扰,页面可以正常展示,而使用爬虫下载后无法提取正常的数据。
- 在 `CSS3 `之前,`Web` 开发者必须使用用户计算机上已有的字体。目前的技术开发者可以使用`@font-face`为网页指定字体,开发者可将心仪的字体文件放在 Web 服务器上,并在` CSS` 样式中使用它。用户使用浏览器访问 `Web应用`时,对应的字体会被浏览器下载到用户的计算机上。

**注:**使用自动化`selenium`也无法获取正常的数据

- 实例:https://www.shixiseng.com/interns?keyword=互联网IT&city=全国&type=intern&from=menu 
- 字体加密的特点
  - 在网页上显示正常,在源码里面看到的是乱码或者是问号

2. 定位字体位置 

- 字体加密会有个映射的字体文件
- 可以在元素面板搜索`@font-face`会通过这个标签指定字体文件,可以直接在页面上搜索,找到他字体的网址

 可以直接把字体文件下载下来, 文件可以一般需要自己修改后缀(网页的字体后缀一般选用woff)

  1. `TTF`:这是Windows操作系统使用的唯一字体标准,`macintosh`计算机也用`truetype`字体作为系统字体。

  2. `OTF`:这是一种开放的字体格式,支持Unicode字符集,可以在多种操作系统和设备上使用。

  3. `FON`:这是Windows 95及之前版本使用的字体格式。

  4. `TTC`:这是一种字体集合格式,包含多个字体文件,可以一次性安装多个字体。
  5. `SHX`:这是

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值