网页数据采集神器:精准自动抓取列表 / 表格内容,告别手动复制粘贴!

还在一个一个手动复制收集网页上的商品、快讯、表格和导航站等信息?

如此重复操作半小时,就感觉眼花手酸,才整理出约50条数据。

简数采集器可以让你告别这种低效、伤身、易出错的 “原始” 方式!

简数 "列表项或表格数据" 采集模式:可直接快速采集同一页面内的多条数据,自动区分列表中的一项(或表格中一行)为一条数据,几分钟就能轻松整理出成千上万条数据!

原本每日花几小时的工作,现在只要1分钟,解放你宝贵的时间和精力!

1. 启用 "列表页|表格" 采集模式

在简数控制台【创建采集任务(高级模式)】-> 采集模式选择【列表页|表格数据(单页多数据)】-> 输入任务名和采集网址,保存 -> 进入列表提取器配置采集规则。

创建采集任务

启用列表项和表格采集模式

2. 配置采集规则

"列表页|表格数据" 采集规则配置分为两步操作:圈选数据区块 和 配置字段规则。

1)圈选数据区块

打开列表提取器,连续选中两个结构相同的数据区块,此时系统便会自动识别并选中页面上所有相似的区块,并将每个数据区块作为一条数据进行采集,例如列表中的一项、或表格中一行为一条数据。

I)圈选列表项作为数据区块:

鼠标圈选列表项为数据区块

II)圈选表格行作为数据区块:

无法直接圈选表格行,需先点选一个单元格,再点击 "设置选取表格行" 按钮即可完整圈选全部表格行作为数据区块。

鼠标先圈选单元格

圈选所有表格行为数据区块

2)配置字段规则

数据可定义多个字段,分别采集区块中的各种内容,每个字段相互独立。

数据字段规则配置操作:在同一个数据区块,点选各个字段的采集范围,并配置数据处理(可选),作为批量采集的样本。

在详情提取器,点击【title】字段,选择第一个列表项的标题作为采集范围,如下图:

采集列表项中的标题

点击切换为【content】字段,选择第一个列表项的简介作为采集范围。

采集列表项中的简介

其余字段请参照上述方法逐个完成,无需采集的字段可留空或删除,最后务必保存。

3. 采集结果

采集规则配置完成,即可启动任务开始采集,简数会将所有数据按结构有序整齐地抓取回来。

启动采集

如需定时自动采集,请先勾选【启用定时采集】,设置定时方式、开始与结束时间,最后点击【开始采集】即可。

采集完成结果如下图所示:

采集并发布到网站

简数采集的数据结果支持导出多种文件格式,也可一键自动发布到网站。

  • 导出文件格式:Excel、Word、JSON、SQL、CSV、TXT、Html;
  • 支持的网站CMS系统:WordPress、Zblog、Discuz、帝国ECMS、Destoon、Typecho、Emlog、易优CMS、迅睿CMS等。

除了采集网页数据,简数采集器还可以导入本地文件数据(含火车头、八爪鱼采集器等的导出文件),并使用简数的AI分析提取、AI写作生成、SEO优化、智能翻译等功能进行处理,再将结果自动发布到网站。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值