还在一个一个手动复制收集网页上的商品、快讯、表格和导航站等信息?
如此重复操作半小时,就感觉眼花手酸,才整理出约50条数据。
简数采集器可以让你告别这种低效、伤身、易出错的 “原始” 方式!
简数 "列表项或表格数据" 采集模式:可直接快速采集同一页面内的多条数据,自动区分列表中的一项(或表格中一行)为一条数据,几分钟就能轻松整理出成千上万条数据!
原本每日花几小时的工作,现在只要1分钟,解放你宝贵的时间和精力!
1. 启用 "列表页|表格" 采集模式
在简数控制台【创建采集任务(高级模式)】-> 采集模式选择【列表页|表格数据(单页多数据)】-> 输入任务名和采集网址,保存 -> 进入列表提取器配置采集规则。


2. 配置采集规则
"列表页|表格数据" 采集规则配置分为两步操作:圈选数据区块 和 配置字段规则。
1)圈选数据区块
打开列表提取器,连续选中两个结构相同的数据区块,此时系统便会自动识别并选中页面上所有相似的区块,并将每个数据区块作为一条数据进行采集,例如列表中的一项、或表格中一行为一条数据。
I)圈选列表项作为数据区块:

II)圈选表格行作为数据区块:
无法直接圈选表格行,需先点选一个单元格,再点击 "设置选取表格行" 按钮即可完整圈选全部表格行作为数据区块。


2)配置字段规则
数据可定义多个字段,分别采集区块中的各种内容,每个字段相互独立。
数据字段规则配置操作:在同一个数据区块,点选各个字段的采集范围,并配置数据处理(可选),作为批量采集的样本。
在详情提取器,点击【title】字段,选择第一个列表项的标题作为采集范围,如下图:

点击切换为【content】字段,选择第一个列表项的简介作为采集范围。

其余字段请参照上述方法逐个完成,无需采集的字段可留空或删除,最后务必保存。
3. 采集结果
采集规则配置完成,即可启动任务开始采集,简数会将所有数据按结构有序整齐地抓取回来。

如需定时自动采集,请先勾选【启用定时采集】,设置定时方式、开始与结束时间,最后点击【开始采集】即可。
采集完成结果如下图所示:

简数采集的数据结果支持导出多种文件格式,也可一键自动发布到网站。
- 导出文件格式:Excel、Word、JSON、SQL、CSV、TXT、Html;
- 支持的网站CMS系统:WordPress、Zblog、Discuz、帝国ECMS、Destoon、Typecho、Emlog、易优CMS、迅睿CMS等。
除了采集网页数据,简数采集器还可以导入本地文件数据(含火车头、八爪鱼采集器等的导出文件),并使用简数的AI分析提取、AI写作生成、SEO优化、智能翻译等功能进行处理,再将结果自动发布到网站。
8631

被折叠的 条评论
为什么被折叠?



