仅供学习研究***********************************仅供学习研究
一,描述
对某些网站进行爬取分析或者算法分析,打开F12会自动断点,导致不能正常分析。如图:
二,项目分析:
(1).目标url: http://zwfw.san-he.gov.cn/icity/icity/guestbook/interact
注意:此网站反爬措施已经更改,没有之前那么麻烦,这里还是以之前思路来分析。
(2).爬取‘我要咨询’里面的数据。如图:
(3).分析:
1.打开F12调试,点击"我要咨询"发现再次点击其他的无效。如图:
接着再次点击这个按钮(直到取消为止),如图:
2.点击Network,选择interact,查看Headers里面的内容,这里留意一下请求头里面的Cookies;如图:
3.接着看看XHR里面,发现有个getList,单击查看详细内容:
不妨多点击几次下一页看看,发现start在变化;对着每页数据来看一页7个数据,这里就是数据存放的地方了。
4.此时的请求URL是:[http://zwfw.san-he.gov.cn/icity/api-v2/app.icity.guestbook.WriteCmd/getLists=a747491606926198736&t=9969_a27070_1606926426000],请求方法是:POST;需要留意’s’和’t’两个参数的值,发现:
5.试着猜想’s’和’t’参数值会不会从js文件得出来的,接着找js文件,再次点击’我要咨询’,点击图中红色框选部分:
直到sources里面出现一个js文件:
将它格式化:
格式化后,Ctrl+F搜索"var s",大概在第21个,发现:
6.解析js代码:
if (this.isApiV2) {
var sig = "";
var chars = "0123456789abcdef";
// 1,__signature
if (!LEx.isNotNull(__signature)) {
// 随机数+时间戳
var curTime = parseInt(Math.random() * (9999 - 1000 + 1) + 1000) + "" + Date.parse(new Date());
// var __signature 自动生成的
sig = chars.charAt