大批量采集网站的数据

如果要大批量采集的文章数据,一般是要寻找网站的翻页规律或者文章网址变化的规律。

网站中的文章一般都被放在很多列表页中(翻页),而这些列表页的链接地址一般都是有规律的(等差递增1,2..n,或是字母a-z变化),为了采集到全部列表页,就可使用网页文章采集工具的【按规则生成网址】来批量生成,并作为采集的列表入口网址。

1. 获取翻页网址规律

场景:大批量数据采集,一般是采集列表页+文章页模式,列表页一般都有很多页(翻页),页面链接一般都是有规律的(等差递增,或是字母a-z变化)。

示例:  

        第一页:https://www.域名.com/sitehome/p/1

        第二页:https://www.域名.com/sitehome/p/2

        第三页:https://www.域名.com/sitehome/p/3

分析得出,列表页网址最后的数字是页码,每次翻页都是加1递增。

2. 批量生成网址

接下来就是按规律批量生成网址,我们可以在简数采集器中把网址变化的数字替换为参数#sd_pageNo# 

  1. 删掉数字,鼠标放在要插入的位置,点击右边的蓝色字体 ‘参数#sd_pageNo#’,就会自动填写 ‘#sd_pageNo#’,不用手动输入的;

  2. 步长指的是数字的递增间隔,默认是1一般不修改;

  3. 输入要采集的页数,最后保存生成网址;

3. 批量生成非规律的网址

  上面是按有规律连续变化的数字生成网址,如果是没有规律的,可以在翻页范围选择【按指定一组值】来生成,即可以使用自定义的一组字符串来生成网址,中间用,分隔开(半角逗号,即英文输入法的),例如下图为按照一串英文字母来批量生成网址。

4. 手动输入网址

如果不需要批量生成网址,只是想采集零散的几条数据该怎么办?

这个可以用手动输入网址,直接粘贴想要采集的网址即可,多个网址以回车换行分隔开。

如下图:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值