疯子网页采集器之提取内容教程

最新推荐文章于 2025-08-12 10:05:14 发布

原创最新推荐文章于 2025-08-12 10:05:14 发布 · 685 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#采集器

疯子采集器专栏收录该内容

9 篇文章

订阅专栏

本文详细介绍疯子网页采集器的使用方法，包括链接采集、内容提取、图片保存及本地化，以及如何去除无用信息，实现精准数据抓取。

疯子网页采集器之提取内容教程
第一步：
填写“链接开始”，0就是第一个链接，4就是第五个链接，这里填0
填写“地址变化”，比如4就会采集第1、5、9...的链接，这里填1
“保存图片”：采集图片，如果选择打钩保存图片地址，
就必须填写首页地址，就是要采集的网站的首页地址，没有填写保存图片会出错
“图片本地化”：把图片保存到服务器

点击“浏览器”，在地址栏输入内容页地址

比如    
http://www.youlu.net/2837850

等网页加载完再点击代码，
把代码复制粘贴到dreamweaver或别的网页编辑器打开方便浏览，
ctrl+a是全选，ctrl+C是复制，ctrl+v是粘贴

第二步：填写内容

填写内容规则，在代码中找到内容的开始标签和结束标签


标签头
<H3>图书详情</H3></DIV>

标签尾 <DIV style="Z-INDEX: 0; POSITION

开始标签和终止标签必需有一项是唯一的不然会出错：可以用Ctrl+F查找是否是唯一的，不然采集会出错第三步：去掉没用的提示比如内容详情目录：内容提要，文章节选，目录等标签头 <DIV class=txt-hd>

标签尾 </H5></DIV> 标签头必需是共同点：可以用Ctrl+F查找是否是唯一的，不然采集会出错第四步：去掉没用的提示如果还有没用的提示要去掉，方法类似第五步：内容１配置如果需要获取第二项数据可以　　　选中　　　“内容１” 然后填写　　　“内容１配置” 这里获取　　“有路价” 标签头 <EM id=yl_d_price>