本文主要是通过哦爬取汽车之家论坛一些用户热门精华帖子,介绍利用前端页面自定义字体的方式来实现反爬的技术手段,来实践破解它。
自定义字体:@font-face是CSS3中的一个模块,主要是实现将自定义的Web字体嵌入到指定网页中去。
使用了其中一个网址来进行分析:https://club.autohome.com.cn/bbs/thread/d1751c7bd0539de0/79229668-1.html
目录
一、发现问题
- 问题:页面显示很正常的文字,在源码中某些文字却是一段span标签包裹的不可见文本,网页源代码里面是一串字符编码,如下图
二、找出反爬规律
1.该页面使用了自定义字体:myfont
<span style="font-family: myfont;"></span>
2.查看网页源代码,很快就找到了@font-face定义方法。每次访问,字体文件访问地址都会随机变化
访问其中.ttf文件的url,可以将其下载到本地,例:http://k3.autoimg.cn/g1/M08/D2/96/wKgHGFsUz2uAJY3tAABj-Ae-bJ473..ttf
3.字体解析
我们使用一个专用工具FontCreator查看,下载地址: