前嗅ForeSpider中数据采集界面介绍

本文详细介绍了前嗅ForeSpider数据采集软件中的运行设置、IP代理设置及验证码设置。运行设置涵盖采集速度等10个方面;IP代理设置支持动态、静态IP,可自动筛选高效代理;验证码设置实现自动识别,提升采集效率。
今天,小编为介绍一下,前嗅ForeSpider中数据采集界面里:运行设置,IP代理设置,验证码设置,这三大设置的界面,具体内容如下:

一,运行设置

数据采集前的运行设置,包括采集速度、采集策略、任务装载、网络超时、HTTP设置、加载设置、任务模式、任务定时、预警设置、过滤设置10个部分。

clipboard.png

【运行设置界面】

二,IP代理设置

软件支持动态和静态IP代理,http/https/socket代理。当需要启用IP代理时,需要在资源管理界面添加代理资源。

clipboard.png

【IP代理设置界面】

1.启用IP代理
启用IP代理采集时,需要进行代理配置。需选中“启用IP代理”,才能启用IP代理功能。

clipboard.png

【启用IP代理】

2.IP资源列表
添加完成的IP资源后会在列表中显示。

clipboard.png

【IP资源列表】

clipboard.png

添加IP资源代理

clipboard.png

删除IP资源代理

clipboard.png

保存IP资源代理

clipboard.png

修改IP资源代理

3.IP代理配置
可添加IP代理账号,配置IP代理属性。
(1)静态代理IP

clipboard.png

【静态代理IP配置】

clipboard.png

添加IP资源代理

clipboard.png

删除IP资源代理

clipboard.png

批量导入IP账号

clipboard.png

保存IP资源代理
(2)动态代理IP

clipboard.png

【动态代理IP配置】
①协议类型:选择代理的协议类型,软件支持http/https/socket代理。
②返回格式:选择动态IP的返回格式。包括未知、Text、Json、XML。
③刷新周期:指代理IP的有效时长。
④请求地址:粘贴代理商的请求地址。
⑤POST DATA:根据代理不同,post请求的情况下填写该内容。
⑥代码编辑区:需要填写一段脚本,以调用代理IP。

4.启用代理加速
启用代理加速后,可以在采集过程中自动筛选无效和低效率的代理IP(屏蔽错误率超过50%,请求次数>3次的IP),优先使用高效的代理,提升采集的效率和数据质量。

clipboard.png

【代理加速】

5.本机IP混用策略
当代理IP失效时,选择是否启用本地网络。

clipboard.png

【本机IP混用策略】

三,验证码设置

当采集某些网站的数据时,每一条数据都需要输入一条验证码时就用到了验证码设置。验证码设置的作用是爬虫软件自身输入验证码,以避免人工输入。

clipboard.png

【验证码设置界面】

1.识别平台
软件内置了两个打码平台,可根据不同的平台进行验证码配置。

clipboard.png

【识别平台】
(1)基础识别平台:预定的内置识别方式。
(2)若快:若快为打码平台。软件通过打码平台解析验证码内容。

2.识别列表
添加验证码识别名称。

clipboard.png

【识别列表】

3.验证码设置与测试(不常用)

clipboard.png

【资源配置】
其中红框内详情、保存、下载、清空、测试是用来测试验证码是否正确的。点击测试如果右侧验证码图片与图片下解析出来的文字一致,就证明验证码设置的正确。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值