第7期-通过潇湘书院爬取小说

本文探讨了潇湘书院小说内容中出现的加密字符问题,通过分析发现这是一种文字加密方法。作者提出两种解密方案,包括解析编码文件或建立加密字字典。这种字体加密在页面源码中不可见,对使用selenium等工具也构成挑战。了解此加密原理有助于爬虫应对类似反爬策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这把我们遇到高手了,我尝试寻找数据来源的时候,发现根本找不到,不难猜测,肯定有内容加密的措施。

脚底滑,摔狗吃屎。
马车绝尘
溅脸泥浆!

我们观察这样三句话,发现其中出现了很多不认识的奇怪字符,其中&#xe820还出现了多次

我们尝试分析一下,脚底滑,不难猜测到指的就是一,这句话是脚底一滑。后边又出现了,溅脸泥浆!,这个又出现了一次,也不难分析,这个是一脸泥浆。说明现在这个就是一,这种分析是没错的

所以到目前为止,我们已经非常清晰了。这其中包含的就是文字加密。只要我们把所有的文字全都翻译过来,就可以了。

对于这种加密,我们首先要观察,这个加密会不会变,至少短时间内是否会改变,我们换另一本书尝试一下

二三四五六……

不难看出,这个还是一,是没有发生变化的

因此,对于这种字符加密,我们有两种解决方案。

第一,解析对方的编码文件

第二,通过分析,找出所有常用的加密字,然后生成一本加密字字典,然后通过自己组建的这本字典,进行翻译。

在对方加密方式固定且稳定的情况下,第二种方案也是比较好的,因为常用的字都是有限的,不会出现无穷无尽的情况。因此,只需要分析几本书,基本上就能够翻译字典了。也是一种不需要研究js加密,就可以完成目标的快捷方案。

注1:这种字体加密的还有一个强大的功能是,渲染后的页面的源码中也是不可以直接看到内容的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值