ocr字体反爬

最新推荐文章于 2025-09-29 09:48:01 发布

原创最新推荐文章于 2025-09-29 09:48:01 发布 · 3.8k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

这文章是两位大佬的思路我只是结合下本人菜鸡一个

https://blog.harumonia.moe/font-antispider-cracker/ 这里的是大佬字体反反爬思路

然后是ddddocr 哲哥无敌

fontforge 这是个字体应用

https://fontforge.org/en-US/

首先,需要写一个 python 脚本,暂且命名为 script.py.

import fontforge 
F = fontforge.open("gRYimlGgKp1mW5ldNU5LIoLTJdKXEnKo.ttf") 
for name in F:     
    filename = name + ".png"     
    F[name].export(filename)

然后通过

fontforge -script script.py

即可完成 ttf -> png 的工作.结果如下.

这里大佬的文章中没说为什么 import fontforge会失败；其实找了很久发现这个是人家fontforge自己的python环境，所以pypi没有扩展

请添加图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

飞翔的秋裤

关注关注

14
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【字体反爬】猫X眼YingShi，我们又来欺负你了，用到了 OCR 识别技术

梦想橡皮擦，专栏100例写作模式先行者，现象级专栏《Python 爬虫 100 例》作者、《滚雪球学 Python 专栏》原创者

05-06

1万+

【字体反爬】猫X眼YingShi，我们又来欺负你了

爬虫日记(71)：用OCR来对抗字体反爬

大坡3D软件开发

05-13

732

在开发爬虫的过程中，经常会遇到一些网站，用浏览器查看是正常的，但是当你去查看HTML的源码时，就会与显示的不一样，如下面的网站：这段是在浏览器里查看的，接着来查看一下HTML源码里显示的：可以看到这一段文字，已经被自定义的字体进行分割，不可能直接得到原文了，它的对应关系如下：这里用一行表示了一个汉字“下”，可见是花了血本的。以往碰到这种问题，基本上就是采用下面的方案来解决：　　1. 获取字体文件，　　2.Unicode解码字体文件，保存为ttf文件， ...

2 条评论您还未登录，请先登录后发表或查看评论

Python爬虫高级技术：字体反爬破解全攻略

热门推荐

景天科技苑

08-12

2万+

网页字体反爬破解方法主要涉及识别并解析网页中使用的自定义字体文件，以恢复文本信息的原始形态。本文详细讲述具体的破解步骤和方法

CSS 反爬之字体反爬

m0_53227339的博客

10-17

778

字体反爬识别。。。。。。

12-21

通过knn算法来识别网站的字体。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

enicode字体反爬，大厂使用的反爬技术，结合OCR处理页面源代码

weixin_47481982的博客

10-29

1597

爬虫学习日常记录：enicode反扒技术练习网址：大众点评OCR使用：百度智能云字体识别。

字体反爬（一）

qq_44744457的博客

09-06

1635

简单的字体反爬

爬虫 — 字体反爬

记录学习过程，欢迎讨论交流~

09-21

2562

安装字体软件 FontCreator、百度智能云文字识别、安装 Tesseract

字体反爬：编码、矢量图(字形)、字符(字体)、OCR

freeking101的博客

08-17

1万+

字体反爬也就是自定义字体反爬，通过调用自定义的ttf文件来渲染网页中的文字，而网页中的文字不再是文字，而是相应的字体编码，通过复制或者简单的采集是无法采集到编码后的文字内容！

爬虫-------字体反爬

Dexter的博客

11-05

2528

爬虫-------字体反爬

Python字体反爬

Clarity_W的博客

10-10

1202

网页中一个数据：333.67万我们在检查元素中的看到该部分数据是反爬的，即元素中看不出实际数据/文字，如图进入源代码中，源代码中获取的数据是加密后的数据，如图：把该串数据分成几部分，即33367。

懂车帝详情页字体反爬

03-27

<think>好的，我现在需要帮助用户解决懂车帝详情页字体反爬的问题。首先，我得回忆一下之前用户提供的参考引用内容，里面提到了三个引用，都是关于懂车帝字体反爬的案例。用户的问题是如何解决这个问题，所以我要根据这些引用和我的知识来整理步骤。首先，用户提到的引用1中，提到字体反爬的网站通常需要检查字体文件是固定地址还是动态获取的。动态获取的话，每次请求可能都需要重新下载字体文件。然后使用ddddocr来识别字体，可能需要调整识别结果，建立映射表，最后替换页面上的字符。引用3也提到处理数据时要和映射表一致，替换后得到正确数据。所以步骤应该包括分析字体加载方式、获取字体文件、解析字体、生成映射、替换数据这几个关键点。接下来，我需要把这些步骤详细化。首先分析字体加载方式，可能需要用浏览器开发者工具查看网络请求，找到woff或ttf文件的来源，看是固定URL还是每次动态生成的。然后，获取字体文件，可以用Python的requests库下载。解析字体可能需要用fontTools库提取字形信息，或者用ddddocr识别字形图片。生成映射表时，可能需要将字体中的字符代号与实际字符对应起来，比如数字0-9被替换成其他Unicode字符，需要找到对应关系。最后，替换页面中的加密字符为真实数据。另外，引用3中提到处理数据时要注意空格的问题，可能是在分割字符串时容易出错，这点需要提醒用户注意。还要考虑到字体可能定期更换，所以需要动态更新映射表，或者每次请求都重新解析字体文件。可能遇到的问题包括字体文件动态变化、识别准确率不高、字符映射复杂等。解决方案可能需要自动化下载和解析字体，使用更准确的OCR工具，或者手动验证映射关系。此外，代码示例可能会有帮助，比如如何用fontTools解析字体，生成XML，提取字形信息，或者用ddddocr识别字形图像。需要确保步骤清晰，用户能一步步跟随操作。同时，生成相关问题，可能涉及动态字体处理、提高识别准确率、处理多页面字体变化等。</think>### 懂车帝字体反爬解决方案懂车帝详情页的字体反爬主要通过动态加载自定义字体文件实现，关键字符（如价格、评分）会被替换为特殊字形。以下是解决步骤和代码示例： --- #### **1. 分析字体加载机制** - 打开浏览器开发者工具（F12），在**Network**面板筛选`Font`类型文件，观察`.woff`或`.ttf`字体文件的加载方式[^3]。 - 确认字体文件是**固定URL**还是**动态生成**（例如通过接口返回或加密参数生成）。 --- #### **2. 获取并解析字体文件** 使用Python的`requests`下载字体文件，并用`fontTools`解析字形映射关系： ```python from fontTools.ttLib import TTFont import requests # 下载字体文件 font_url = "https://example.com/path/to/font.woff" response = requests.get(font_url) with open("custom_font.woff", "wb") as f: f.write(response.content) # 解析字体 font = TTFont("custom_font.woff") font.saveXML("font.xml") # 导出XML分析字形名称与编码的对应关系 ``` --- #### **3. 生成字符映射表** - **方法1（字形坐标匹配）**：提取字体中每个字符的坐标特征，与真实字符手动建立映射[^1]。 - **方法2（OCR识别）**：使用`ddddocr`等工具识别字体生成的图片： ```python from PIL import Image, ImageDraw, ImageFont import ddddocr # 生成字体图片并识别 def get_char_map(font_path): ocr = ddddocr.DdddOcr() char_map = {} font = TTFont(font_path) for glyph_name in font.getGlyphOrder(): if glyph_name.startswith("uni"): unicode_code = glyph_name[3:].lower() char = chr(int(unicode_code, 16)) # 生成字形图片（模拟渲染） img = Image.new("RGB", (50, 50), "white") draw = ImageDraw.Draw(img) draw.text((10, 10), char, font=ImageFont.truetype(font_path, 30), fill="black") # OCR识别 result = ocr.classification(img) char_map[glyph_name] = result return char_map ``` --- #### **4. 替换页面加密字符** 根据映射表替换HTML或JSON中的加密字符： ```python def decrypt_text(encrypted_text, char_map): decrypted = [] for char in encrypted_text: # 查找字符对应的Unicode名称（如'uniE643'） glyph_name = font["cmap"].getBestCmap().get(ord(char), "") decrypted.append(char_map.get(glyph_name, char)) return ''.join(decrypted) # 示例：替换加密价格 encrypted_price = "" # 页面中看到的乱码 price_map = {'uniE643': '1', 'uniE644': '2', 'uniE645': '3'} # 自定义映射 real_price = decrypt_text(encrypted_price, price_map) print(f"真实价格: {real_price}") # 输出: 123 ``` --- #### **5. 动态更新映射表（关键）** - 若字体文件**每次请求变化**，需在爬虫中实时下载最新字体并更新映射。 - 建议将字体解析和映射生成封装为独立函数，每次请求页面时触发。 --- #### **注意事项** 1. 使用`split()`处理加密数据时，注意隐藏的空格或特殊分隔符[^3]。 2. 验证映射准确性：人工抽查关键字段（如价格、评分）。 3. 结合**请求头加密参数**（如`x-sign`）提高反爬绕过成功率[^2]。 ---