裁判文书网

本文解析了裁判文书网的爬虫难点,包括vl5x、number、guid参数的生成规则,尤其是vl5x的实时性和依赖于cookie的特性。介绍了如何通过解密JS代码获取这些参数,并指出了数据加密及解密方法,以及接口限制和应对策略。

文书更新有兴趣的可以找我探讨探讨
在这里插入图片描述

一、裁判文书网难点:vl5x、number、guid 三个参数(内容、列表抓取必须的参数)。

guid
生成规则页面源码里面找,非常简单,是一段js代码。

number
~~向 http://wenshu.court.gov.cn/ValiCode/GetCode 发送post请求,可得到(参数为guid)~~改版之后此参数不是必须参数 。

vl5x
这个参数比较复杂,服务端生成规则如下:
1>、访问服务端生成cookie
在这里插入图片描述
2>、通过js代码对cookie进行一些计算生成vl5x(这个js代码是一个加密函数,策略主要是对cookie中的vjkl5转换为long型数值,然后对一个加密数组长度取余,获取到加密函数对vjkl5加密得到vl5x,所以这里的vl5x具有实时性)。
在这里插入图片描述
关于js解密,可使用如下方法:
打开谷歌或者火狐浏览器,然后按 F12,把代码复制进去,
最后,去掉开头 4 个字母 eval 然后回车运行下就得到源码了。
裁判文书解密后全部js
二、带上上面的三个参数,还有cookie,向接口发送请求,顺利拿到数据(此处成立的条件是服务端计算出来的vl5x值和你提交的一致),注意此处用于计算vl5x的cookie和发送post请求的cookie要一致。
三、关于数据加密,改版之后接口返回的数据文档ID是加密的字符,解密规则是执行JS中Navi函数,执行之前需要先执行eval(unzip(RunEval)),否则数据解密失败。
四、有个坑,就是接口最多翻100页,也就是最多只能拿到2000条数据,如果想拿到全部数据,可以根据关键词、年份、地域等参数缩小范围。

打开下面链接,直接免费下载资源: https://renmaiwang.cn/s/wjgy8 针对之前所做工作进行一次改进与补充,现需要将先前开发的爬虫功能更加完善地整合到zip文件中,具体措施为将其转换成一个类,并需添加相应的登录逻辑。 爬虫技术在当代互联环境下被广泛应用于数据采集、信息检索、监测分析等多个领域。其中,对公开裁判文书的爬取是学术研究和法律实践中的一个重要应用。为了使爬虫程序更加符合实际需求,并能够更加高效地工作,开发人员不断对原有程序进行修正与优化。本次修正工作特别聚焦于登录机制的完善,从而使得爬虫能够处理登录认证的需求,这对于获取那些只有在登录状态下才能访问的数据至关重要。 在互联上,许多重要的数据和资源都设定了访问权限,以确保数据的安全性和用户的隐私。裁判文书由于涉及法律文件和敏感信息,通常需要用户登录后才能查阅。因此,爬虫程序需要具备登录功能,才能顺利访问和爬取这些数据。这就要求程序设计者在编写爬虫代码时,不仅要考虑到数据采集的效率和准确性,还要确保程序能够模拟用户登录过程,自动完成登录验证。 本次改进中,开发者将爬虫功能模块化,转换成一个类,这样的设计使得程序更加清晰、易于维护和扩展。模块化的爬虫类可以被复用在其他项目中,提高了开发效率和代码的复用性。同时,通过类的设计,还可以方便地添加其他功能,比如异常处理、数据存储、请求代理等。当爬虫程序需要处理更复杂的登录逻辑时,比如需要处理验证码、动态令牌、二次验证等,开发者只需在类中进行相应的功能扩展即可。 对于爬虫开发来说,除了实现登录功能,还需要考虑到站的反爬虫机制。一些站为了防止爬虫程序访问,会采取一定的技术手段,如IP限制、请求频率控制、用户行为分析等。爬虫开发者需要不断更新爬虫策略,以适应目标站的反爬虫策略变化。这可能包括设置合理的请求间隔、使用代理IP、处理Cookies等措施
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值