裁判文书网

最新推荐文章于 2024-06-10 11:21:35 发布

原创最新推荐文章于 2024-06-10 11:21:35 发布 · 置顶 · 715 阅读

1 ·

CC 4.0 BY-SA版权

裁判文书网专栏收录该内容

1 篇文章

订阅专栏

本文解析了裁判文书网的爬虫难点，包括vl5x、number、guid参数的生成规则，尤其是vl5x的实时性和依赖于cookie的特性。介绍了如何通过解密JS代码获取这些参数，并指出了数据加密及解密方法，以及接口限制和应对策略。

文书更新有兴趣的可以找我探讨探讨
在这里插入图片描述

一、裁判文书网难点：vl5x、number、guid 三个参数（内容、列表抓取必须的参数）。

guid
生成规则页面源码里面找，非常简单，是一段js代码。

number
~~向 http://wenshu.court.gov.cn/ValiCode/GetCode 发送post请求，可得到（参数为guid）~~改版之后此参数不是必须参数。

vl5x
这个参数比较复杂，服务端生成规则如下：
1>、访问服务端生成cookie
在这里插入图片描述
2>、通过js代码对cookie进行一些计算生成vl5x（这个js代码是一个加密函数，策略主要是对cookie中的vjkl5转换为long型数值，然后对一个加密数组长度取余，获取到加密函数对vjkl5加密得到vl5x，所以这里的vl5x具有实时性）。
在这里插入图片描述
关于js解密，可使用如下方法：
打开谷歌或者火狐浏览器，然后按 F12，把代码复制进去，
最后，去掉开头 4 个字母 eval 然后回车运行下就得到源码了。
裁判文书解密后全部js
二、带上上面的三个参数，还有cookie，向接口发送请求，顺利拿到数据（此处成立的条件是服务端计算出来的vl5x值和你提交的一致），注意此处用于计算vl5x的cookie和发送post请求的cookie要一致。
三、关于数据加密，改版之后接口返回的数据文档ID是加密的字符，解密规则是执行JS中Navi函数，执行之前需要先执行eval(unzip(RunEval))，否则数据解密失败。
四、有个坑，就是接口最多翻100页，也就是最多只能拿到2000条数据，如果想拿到全部数据，可以根据关键词、年份、地域等参数缩小范围。