全自动网页采集信息流程处理
文章平均质量分 66
bobui
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
全自动网也采集系列一(网页采集基础)
<br />网页采集基础<br /> <br />网页采集是指将某个网页上的数据通过获取网页源码,并对源码进行分析得到我们需要的数据,并将数据写入数据库,以及后续的数据校验和质量监测等系列的过程.<br /> <br />首先,网页采集我们需要具备以下几个方面的能力.<br /> <br />1.熟练掌握正则表达式.<br />2.熟悉网也请求流程,<br />3.熟悉多线程相关知识<br /> <br />辅助工具<br /> <br />1.firefor+firebug<br />2.IE8+Http原创 2011-02-24 17:27:00 · 565 阅读 · 0 评论 -
基于http模拟请求的网页获取通用采集器
通用网页数据采集器 此采集器原本是给一个公司定制的产品,后来对方不要了,所以此采集器没有完工。也不是很完善。不完善的地方主要体现在:1. 没有做定时执行模块2. 没有做数据入库模块 本采集器采用sqlite作为本地数据库存放一些本地信息和配置信息。使用模拟的HTTP请求获取数据。运行效果截图: 添加数据源(1) 注意:原创 2012-02-04 16:01:49 · 1269 阅读 · 0 评论
分享