
网络爬虫
文章平均质量分 76
Joseph-Howard
GitHub: https://github.com/StephenHowardCoding
知乎:http://www.zhihu.com/people/qing-yang-74-85
展开
-
宽度优先爬虫和带偏好的爬虫
互联网可以看成一个超级大的“图”,而每个页面可以看成一个“节点”。页面中的链接可以看成是图的“有向边”。因此,能够通过图的遍历得方式对互联网这个超级大“图”进行访问。 图的遍历可以分为宽度优先遍历和深度优先遍历,但是深度优先遍历可能会在深度上过“深”或者陷入黑洞,大多数爬虫都不采用这种方式。另一方面,在爬取网页的时候,有时候不能完全按照宽度优先遍历的方式,而是给待遍历的网原创 2014-04-17 09:51:20 · 2327 阅读 · 0 评论 -
指定URL的网络爬虫。。
package Spider;import org.apache.commons.httpclient.*;import org.apache.commons.httpclient.methods.*;import java.io.*;public class RetrivePage2 { /** * @param args */ private static Htt原创 2014-04-17 10:25:03 · 1195 阅读 · 0 评论 -
heritrix 的安装(详细版本
在http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/1.14.4/下载heritrix, heritrix-1.14.4-src.zip 中包含原始的源代码,方便进行二次开发。本文需要用到 heritrix-1.14.4-src.zip,将其下载并解压至 heri转载 2014-04-17 10:44:00 · 890 阅读 · 0 评论