
爬虫
雨落
学习云计算、web开发、分布式数据库、android开发!
展开
-
利用 Heritrix 构建特定站点爬虫
本文由浅入深,详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展,介绍如何实现只抓取特定网站的页面。通过本文,读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行,能够从零开始构建特定站点的专有爬虫,从而为网站增加全文检索服务。背景随着网站内容的增加,为其添加搜索功能是一个常见的需求,搜索引擎也已成为互联网最重要的应转载 2011-12-02 10:51:26 · 551 阅读 · 0 评论 -
linux下配置命令行启动heritrix
首先需下载heritrix1.14.4.zip和heritrix-1.14.4-src.zip(最新版本)。下载地址:http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20(heritrix%201.x)/Heritrix的安装有两种方式:命令行方式运行和在Eclipse中配置Heritrix。1.1原创 2011-12-02 10:33:38 · 1274 阅读 · 0 评论 -
heritrix总结--定制FrontierScheduler
最近要爬取一些东西,比如说爬取csdn中云计算频道中的内容。也就是以http://cloud.youkuaiyun.com/为开始的网页。网上都是Heritrix比较好用,下载使用发现满足不了需求,无论各种配置都是不行,以http://cloud.youkuaiyun.com/为种子节点,选择PathScope但是爬取的东西还是很多其他不相关的内容,这个在mirror中可以清楚的看到。于是看了一些博客之后,决定还原创 2011-12-15 16:26:33 · 873 阅读 · 0 评论 -
heritrix总结--HostnameQueueAssignmentPolicy改写
之前写的那篇文章解决了指定路径网页的下载,但是因为heritrix指定的链接队列中以host作为key值进行hash,这样使得即使配置了100个线程,也只有一个线程在运行,因为heritrix默认每次从一个队列中取出来一个url进行抓取,等抓取结束之后再取另外一个。因为指定路径基本上都是在一个host里面,这样就会变成单线程爬取,非常的慢。无奈之下继续改写,这次是修改HostnameQueue原创 2011-12-15 16:33:22 · 696 阅读 · 0 评论 -
Nutch总结
Nutch一些常用的命令:抓取 bin/nutch crawl urls -dir -depth -topN -threads >& / .log steps in 1.读取urls目录下的站点添加到 crawldb里 bin/nutch inject /crawldb urls 2.创建一个segments,存放到 目录下 bin/nutc原创 2011-12-29 11:26:45 · 1357 阅读 · 1 评论 -
Nutch 1.4使用
网上关于nutch1.4的文章真是太少了,没有参考只好自己摸索了。首先到apache下载nutch1.4,1.2以下的版本我是找不到了,本来还想做对比呢。如果谁有的话麻烦给发一个。邮箱anbo724@gmail.com一、本地版本的nutch1.4使用,这里就不准备介绍了,因为我完全按照http://wiki.apache.org/nutch/NutchTutorial 就可以配置出来,这原创 2011-12-29 10:57:27 · 5155 阅读 · 7 评论