火车头采集html文档没内容,火车头采集不到数据,源代码显示“访问验证”怎么处理?...

火车头采集器还是蛮好用的。小白好几个站点都是直接对接火车头,来实现采集,然后手动调整,再对接免登录发文接口进行发文。其中有一个网站,也一直相安无事采集了几个月。

但今天依照惯例,却发现采集的数据一片空白。这就让人懵逼了。在采集内容里,新增加一个测试标签,将采集满园设置为“”和“”。再点采集,就找到原因了:

b876de48e781c6f3d97651f78e858fbb.gif

原来出现了访问验证,要求输入验证码才能看到内容了。

b876de48e781c6f3d97651f78e858fbb.gif

直接用浏览器打开一条链接,显示如下:

b876de48e781c6f3d97651f78e858fbb.gif

那么这种情况怎么处理呢?

我是这样操作的。证实有效。先是f12打开浏览器调试功能。

然后输入验证码,点提交。

再刷新一下打开后的网页。右调试边栏里,在“Request Headers”找到cookie和User-Agent这两项。分别复制到火车头里对应位置。即解决问题。

b876de48e781c6f3d97651f78e858fbb.gif

b876de48e781c6f3d97651f78e858fbb.gif

原理是这样的:

因为这个验证码输入之后,在一定时间内再访问同网站的其他页面不会再跳出验证,这个时间大概只有只分钟,这个信息就保存在cookie里。我们就利用这个cookie来进行采集。当然,这对于我完全够用了。如果要想自动获取这种cookie火车头肯定是办不到的。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值