中国裁判文书网爬虫分析

最新推荐文章于 2024-08-15 09:54:11 发布

原创

最新推荐文章于 2024-08-15 09:54:11 发布 · 置顶 · 1.1w 阅读

CC 4.0 BY-SA版权

这篇博客详细分析了如何构建中国裁判文书网的爬虫，从首页URL开始，探讨了网页结构、异步加载内容的方式，以及如何获取关键参数如`_`和`sign`。博主通过抓包工具和JS解密，揭示了动态加载数据的过程，并给出了相关函数的处理方法，包括下载文件的函数和获取关键词的步骤。

前言

本篇主要分析文书网爬虫思路，仅供个人学习之用，切勿用于任何商业用途。

中国裁判文书网首页地址：http://wenshu.court.gov.cn/
这里写图片描述

网页地址：http://wenshu.court.gov.cn/content/content?DocID=532bd8ed-4ba8-48b7-ad70-0063f64ede05，从中提取出DocID，借助fiddler分析：
用到post方法，post的3个参数DocID已经知道，剩下的htmlStr和htmlName暂时未知，不过很容易就能猜出来，也可以拷贝出来urldecode解码查看具体内容。
但是我们仍然不知道htmlStr和htmlName的值怎么来的，接下来查看网页源代码，chrome按ctrl + u或者右键-查看网页源代码：

源网页是没有文档内容的，可以知道是异步加载，我们看到这样一段脚本，CreateContentJS，向一个地址请求信息
http://wenshu.court.gov.cn/CreateContentJS/CreateContentJS.aspx?DocID=532bd8ed-4ba8-48b7-ad70-0063f64ede05 ，抓包看看。

可以看到，请求的结果就包含了htmlStr和htmlName的值。然后，你需要对这串字符串进行处理，处理过程略过不提。
接下来要得到批量的DocID，回到搜索结果中，同样查看网页源代码我们得知DocID也是异步加载，查看抓包结果：

经过处理后，可以得到json数据：

也是post方法，

python__reported 2020.06.06
大佬，能不能分享一下完整源码[face]monkey:2.gif[/face][face]monkey:2.gif[/face]

数据+v: googlepoi 2019.01.23
vjkl5获取不到啊，想获取到请求的header时里必须带上cookie才能拿到，但是cookie又是一直变化的，加密生成的，简直无解啊

Need_More 2018.08.11
想问一下，如何把eval带入de函数中？比如 eval（de("eval(_fxxx(...））））,我就把de和_fxxx的定义函数给替换进来，但是unpacker不了，想问问您是怎么处理的？ [code=python] eval(function de(str, count, strReplace) {var arrReplace = strReplace.split('[表情]');for (var i = 0; i < count xss=removed xss=removed xss=removed> 35 ? String.fromCharCode(c + 29) : c.toString(36)) }; if (!''.replace(/^/, String)) { while (c--) d[e(c)] = k[c] [表情][表情] e(c); k = [function (e) { return d[e] }]; e = function () { return '\\w+' }; c = 1; }; while (c--) if (k[c]) p = p.replace(new RegExp('\\b' + e(c) + '\\b', 'g'), k[c]); return p; }('e n(7){9 d=0;j(9 i=0;i<7.k;i++){d+=(7.g(i)<<(i%m))}f d}e p(7){9 d=0;j(9 i=0;i<7.k;i++){d+=(7.g(i)<<(i%m))+i}f d}e E(7,o){9 d=0;j(9 i=0;i<7.k;i++){d+=(7.g(i)<<(i%m))+(i*o)}f d}e x(7,o){9 d=0;j(9 i=0;i<7.k;i++){d+=(7.g(i)<<(i%m))+(i+o-7.g(i))}f d}e z(7){9 7=7.8(5,5*5)+7.8((5+1)*(5
- njutcz回复Need_More 2018.08.13
  [reply]vinceyzw1[/reply] 想问一下，你爬到了吗