简数采集器支持一键采集XML,RSS,TXT等特殊网页的数据,十分简单快速。
打开简数采集任务的列表提取器配置,然后选择 “特殊网页(如xml、txt等用正则获取链接)” ,系统会切换为正则获取链接模式,自动获取页面中的全部网址链接,点击右上角保存按钮完成配置。
注意:“提取链接正则” 处一般不用修改,默认填写获取网址链接的正则表达式。
1. 采集TXT网页数据

2. 采集XML网页数据

3.采集RSS网页数据

如果遇到采集不到网址的列表页,可以尝试 “特殊网页(如xml、txt等用正则获取链接)” 来解决,该功能基本可以获取 90% 页面中的文章网址!
简数采集器支持一键采集XML、RSS、TXT等特殊网页的数据。在采集器中打开采集任务的列表提取器配置,选择“特殊网页(如xml、txt等用正则获取链接)”,系统会自动获取页面网址链接,点击保存完成配置。若遇采集不到网址的列表页,该功能可解决。
1523

被折叠的 条评论
为什么被折叠?



