疯子网页采集器之提取内容教程

本文详细介绍疯子网页采集器的使用方法,包括链接采集、内容提取、图片保存及本地化,以及如何去除无用信息,实现精准数据抓取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

疯子网页采集器之提取内容教程
第一步:
填写“链接开始”,0就是第一个链接,4就是第五个链接,这里填0
填写“地址变化”,比如4就会采集第1、5、9...的链接,这里填1
“保存图片”:采集图片,如果选择打钩保存图片地址,
就必须填写首页地址,就是要采集的网站的首页地址,没有填写保存图片会出错
“图片本地化”:把图片保存到服务器

点击“浏览器”,在地址栏输入内容页地址

比如    
http://www.youlu.net/2837850

等网页加载完再点击代码,
把代码复制粘贴到dreamweaver或别的网页编辑器打开方便浏览,
ctrl+a是全选,ctrl+C是复制,ctrl+v是粘贴

第二步:填写内容

填写内容规则,在代码中找到内容的开始标签和结束标签


标签头
<H3>图书详情</H3></DIV>

标签尾 <DIV style="Z-INDEX: 0; POSITION

开始标签和终止标签必需有一项是唯一的不然会出错: 可以用Ctrl+F查找是否是唯一的,不然采集会出错 第三步:去掉没用的提示 比如内容详情目录:内容提要,文章节选,目录等 标签头 <DIV class=txt-hd>

标签尾 </H5></DIV> 标签头必需是共同点:可以用Ctrl+F查找是否是唯一的,不然采集会出错 第四步:去掉没用的提示 如果还有没用的提示要去掉,方法类似 第五步:内容1配置 如果需要获取第二项数据可以   选中   “内容1” 然后填写   “内容1配置” 这里获取  “有路价” 标签头 <EM id=yl_d_price>

标签尾 </EM></SPAN> 开始标签和终止标签必需有一项是唯一的不然会出错: 可以用Ctrl+F查找是否是唯一的,不然采集会出错 点击提取内容就可以看到效果了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值