一、字体反爬
方法转自:汽车之家字体反爬破解实践 - 谢俊杰的文章 - 知乎 并稍加修改(更换要爬的页面,python2改为python3)
假如我们要爬这个页面https://k.autohome.com.cn/detail/view_01c5wa2g3h64wk0e1p6mwg0000.html
如果我们直接爬,得到文本会是下面这样
【最满意】\nDS这车看,属于颜涵类型,独特法系设计,形感……
仔细看的话会发现爬回来的文本少了很多字。那么我们第一个想到的必然是JS渲染,不过渲染过后爬回来的文本却是下面这样(其实我在pycharm的控制台中看到的还是上面那样,但复制到这里就会是这个样子):
【最满意】\nDS这车看,属于颜涵类型,独特法系设计,形感……
我们审查元素
发现是这个span标签搞的鬼
<span style="font-family:myfont;"></span>