应对字体反爬，通过python爬取小说排行榜

原创

已于 2022-06-28 17:46:06 修改 · 2.3k 阅读

·

20

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #爬虫

于 2022-06-28 17:28:37 首次发布

本文介绍如何改进Python爬虫，避免手动添加字体转换规则，通过fontTools库解析字体，建立数字与编码的对应关系，实现自动化爬取小说排行榜。利用lxml解析XML并进行16进制到10进制的转换，从而完成字体反爬的应对策略。

需求分析

这个需求我昨天已经做过一次了爬取小说排行榜，昨天我采用的方式是手动建立一个转换规则，然后通过这个规则，将所有的看不懂的字体编码替换为正常的文字内容。功能上是满足了，但是需要有一步手动添加转换规则，而且每次运行程序都需要重新来一次，当然这是不能让人满意的

其中，在昨天的文章中，有一个小伙伴就指出了这一点，他说，既然已经做了爬虫程序了，就不应该再让别人手动添加规则了，问我能不能想想办法改进一下，变成直接运行程序就可以使用的

说句实话，这不太容易，毕竟字体是对方网站自己编辑的，如果不去手动添加规则的话，我们根本就没有办法知道他编辑的这个字体对应的是哪个字，也许有小伙伴会提议说，可不可以通过文字识别技术来做到这一点呢？是一个办法，但是不太容易实现，不过好在，这次我们的运气不错，找到了一个更容易的方法，这个方法不是每次都好用，但是恰好这次能用，那就先用着呗，下面来看看我们的新方法是什么

实现分析

具体的页面以及css的字体反爬是什么样的，在昨天的文章中我已经写的很详细了，今天我并不打算再重复一次。如果有没看过昨天文章的小伙伴，可以先看昨天的文章。那么就直接进入正题

昨天的最大问题在于，我们需要手动建立字体编码到对应文字之间的关系，事实上这一步确实也是有必要的，但是现在我们需要找到一个能够让机器找出这个规则的办法

首先呢，我们下载一个能够解析字体的第三方库fontTools，然后通过这个库，将woff的字体解析成xml的格式

from fontTools.ttLib import TTFont

font = TTFont("tmp.woff")
font.saveXML("tmp.xml")

然后我们去查看这个字体的map规则，发现运气很不错，字体的名字命名很规范，不是看不懂的文字，如下所示

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。