本次练习的对象是上海法院开庭公告信息。数据来源如下:
该网站是上海法院的官方网站,网站内会公示未来已确定的开庭信息。
如上图所示,网站显示共有数据30528条。这些数据就是本次爬虫的目标。
(一)分析页面
1. 打开google浏览器开发者工具,点击页面下一页,观察网络请求可以发现,目标数据是这个请求返回的:
2. 下一步,观察上面这个请求的具体内容:
观察得出以下结论,这是一个post请求,具体参数含义为:
yzm 暂时不清楚来源
ktrqks: 2018-06-19 这是查询的起始时间,也就是当天
ktrqjs: 2018-07-