字体反爬

最新推荐文章于 2025-06-29 08:39:35 发布

Carry_NJ

最新推荐文章于 2025-06-29 08:39:35 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： # crawler 文章标签： python 字体反爬爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xkx_07_10/article/details/82429812

crawler 专栏收录该内容

9 篇文章

订阅专栏

1.页面看到的文字实际由另一个字经过字体库映射而得

2.网页会在加载的时候载入字体库（可能有多个字体库），将此字体下载下来，通过font creator（字体工具）打开可以看到对应表，遍找到了映射关系。（笨方法到这直接对着写map就可以了）

3.用python 将.woff的字体文件转成 XML 读取其中的映射。下图为第一层映射，根据code 可以得到 name （简单的一步映射就直接能得到结果）。

4.天眼查这个还需要再做一层，如图将上一步得到的name值映射得到id值，这个id值就是刚才fontcreator 看到的汉字的排序。在这里做个map对应即可得到映射汉字。

5.上述方法也还是要写一个map 。下图是"_#103" 所对应的字形，python的这个库肯定有一个方法直接根据字形得到汉字的，不然贼蠢，但我没找到。。。欢迎大家补充一下。

附录代码：

from fontTools import unichr
from fontTools.ttLib import TTFont
import re

'''
解析字体方法1:
'''
font = TTFont('./tyc-num.woff')  # 打开文件
# font.saveXML('./tyc-num.xml')

mappings = {}
for k, v in font.getBestCmap().items():
    if v.startswith('uni'):
        # 形如 <map code="0xe040" name="uni45"/>  可直接转换得到结果
        mappings['{:x}'.format(k)] = unichr(int(v[3:], 16))
    else:
        mappings['{:x}'.format(k)] = v

key = re.search('.*u([0-9a-f]{4}).*', str('电'.encode('unicode_escape'))).group(1)
value = mappings[key]
# 得到另一个映射
id = font.getGlyphID(value)

# 根据下载的字体弄个map 再根据 id做key  获取对应value
maps = {'1': '苏', '2': '你'}

完

-------------------------------------------------我是分割线--------------------------------------------------

欢迎关注博主个人公众号，一起来嗨皮呀

博客等级

码龄8年

137
原创

189
点赞

312
收藏

558
粉丝

关注

私信

热门文章

分类专栏

redis 2篇
数据库
minio 2篇
mysql 2篇
linux 8篇
ubuntu 3篇
docker 6篇
语音 3篇
目标检测 1篇
openCV 4篇
TensorFlow 3篇
pytorch 4篇
前端 1篇
python 29篇
Django 4篇
crawler 9篇
测试 2篇
java 1篇
spring-boot 8篇
笔记

展开全部收起

上一篇：: String数字操作

下一篇：: python url去重

最新评论

Scrapy 对接 mysql
北风之神c: 你这个scrapy爬虫总结的很全面很有条理，写得好赞，博主用心了！昔日 scrapy 叱咤风云，如今却被 funboost 轻松碾压，时代变了：但是scrapy来爬虫非常麻烦，写法难度高，国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，因为从根本理念上对scrapy api方式的框架造成巨大的降维打击。昔有Scrapy窃据神器，挟Twisted之技而令诸侯，然其框架繁苛，回调如狱，岁月更迭，其势已衰，其道已孤，弊病丛生，开发者苦之久矣！今有Funboost，顺天应人，聚函数神力，携`@boost`之雷霆，以大道至简之义，破枷锁，扫陈规，伐无道，正本清源，布告天下！此诚不可逆之大势也！依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html Scrapy十败如山崩，Funboost十胜如日升！ funboost剑锋所指，scrapy框架枷锁必将斩断！函数光辉，普照四海！ pip install funboost
python 简单多线程
斜杠取数人: 请问解决了吗，我也遇到了这个问题，怎么办
vscode python代码格式化设置
遗忘.tenderne-: 设置了也不管用
Git 常用命令汇总
优快云-Ada助手: 软件工程问题：几乎所有程序员都知道“数据结构＋算法 = 程序 ” 这句名言。但是在实际的学习和工作中，也有不少人产生了疑问。你怎么看呢？
报错：NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver
优快云-Ada助手: 不知道 PostgreSQL 技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/pg?utm_source=AI_act_pg

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。