前言
本篇主要分析文书网爬虫思路,仅供个人学习之用,切勿用于任何商业用途。
分析一
中国裁判文书网首页地址:http://wenshu.court.gov.cn/

随便点击一下
搜索,进入:

进入第一个结果:

注意圆圈中的
下载按钮,点击下载,一个.docx格式的文档就安安稳稳的躺在你的电脑硬盘上了。

到这里初步分析结束,我们自然就想到了爬虫的内容:

分析二
- 网页地址:http://wenshu.court.gov.cn/content/content?DocID=532bd8ed-4ba8-48b7-ad70-0063f64ede05,从中提取出
DocID,借助fiddler分析:

- 用到
post方法,post的3个参数DocID已经知道,剩下的htmlStr和htmlName暂时未知,不过很容易就能猜出来,也可以拷贝出来urldecode解码查看具体内容。

- 但是我们仍然不知道
htmlStr和htmlName的值怎么来的,接下来查看网页源代码,chrome按ctrl + u或者右键-查看网页源代码:
源网页是没有文档内容的,可以知道是异步加载,我们看到这样一段脚本,CreateContentJS,向一个地址请求信息
http://wenshu.court.gov.cn/CreateContentJS/CreateContentJS.aspx?DocID=532bd8ed-4ba8-48b7-ad70-0063f64ede05 ,抓包看看。
可以看到,请求的结果就包含了htmlStr和htmlName的值。然后,你需要对这串字符串进行处理,处理过程略过不提。 - 接下来要得到批量的
DocID,回到搜索结果中,同样查看网页源代码我们得知DocID也是异步加载,查看抓包结果:
经过处理后,可以得到json数据:
也是post方法,

这篇博客详细分析了如何构建中国裁判文书网的爬虫,从首页URL开始,探讨了网页结构、异步加载内容的方式,以及如何获取关键参数如`_`和`sign`。博主通过抓包工具和JS解密,揭示了动态加载数据的过程,并给出了相关函数的处理方法,包括下载文件的函数和获取关键词的步骤。
最低0.47元/天 解锁文章
1745





