
nutch
文章平均质量分 74
熊猫家族
敢想,敢拼,敢赢,IT技术,研发实践,互联网,资讯,编程语言,搜索引擎,Lucene,Solr,Java,生活,旅游,吃货,熊猫吃货,微生活,健康,美食
展开
-
网页去重
搜索引擎判断复制网页一般都基于这么一个思想:为每个网页计算出一组信息指纹(Fingerprint),若两个网页有一定数量相同的信息指纹,则认为这两个网页的内容重叠性很高,也就是说两个网页是内容复制的。很多搜索引擎判断内容复制的方法都不太一样,主要是以下两点的不同:1、计算信息指纹(Fingerprint)的算法;2、判断信息指纹的相似程度的参数。在描述具体的算法前,先说清楚...原创 2011-01-11 09:34:50 · 182 阅读 · 0 评论 -
nutch 中的MapReduce详细分析
作者:马士华 发表于:2008-03-06 20:11 最后更新于:2008-03-07 12:44版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息。http://www.hadoop.org.cn/mapreduce/nutch-mapreduce/ Nutch是最早用MapReduce的项目(Hadoop其实原来是Nutch的一部分)...原创 2010-12-02 22:48:06 · 216 阅读 · 0 评论 -
提高Nutch局域网抓取的速度
提高Nutch局域网抓取的速度如果想要提高Nutch局域网抓取的速度,大家第一个想到肯定是-threads .但是那是错误的,如果只是单单增大线程数,那根本于事无补。通过下面这组测试,我们看看-threads 是否起作用。首先在本地apache2下建立两个网站,写一个简单的Rakefile来帮助完成测试。设定depth=3,下面是Rakefile的内容...原创 2010-11-30 19:36:46 · 96 阅读 · 0 评论 -
nutch 过滤掉不正确的URL实现方法:
nutch 1.0 读源码,过滤掉不正确的URL实现方法:对URL不规则或想过滤掉的地方,可以通过修改源码来实现,省去写配置文件,因为配置文件并不是太明朗,有些配置了也不一定成功。所以我考虑在源码上作操作。更好地扩展。当然你也可以去写插件,这儿就不说了,因为我也没有去那样实现,我只是对插件进行了扩展采集自己想要的内容。 过滤URL部分:类:CrawlDbFilt...原创 2010-11-29 22:39:15 · 146 阅读 · 0 评论 -
nutch中Nutch-defaul.xml相关配置
Nutch-default.XML相关配置<property><name>http.max.delays</name><value>20</value><description>The number of times a thread will delay when trying tof...原创 2010-11-28 22:27:38 · 123 阅读 · 0 评论 -
nutch的核心流程分析
Crawl类的时序图。 流程如下:1. 建立初始URL集2. 将URL集注入crawldb数据库---inject3. 根据crawldb数据库创建抓取列表---generate 4. 执行抓取,获取网页信息---fetch 5. 更新数据库,把获取...原创 2010-11-26 00:09:55 · 110 阅读 · 0 评论 -
Nutch中文分词总结
1 中文分词介绍中文分词是在做检索类系统时需要重点考虑的一个因素。Nutch的本土化过程也需要更改对中文分词的支持。目前,Nutch中文分词方式大致有两种方式:一是修改源代码。这种方式是直接对Nutch分词处理类进行修改,调用已写好的一些分词组件进行分词。二是编写分词插件。这种方式是按照Nutch定义的插件编写规则重新编写或者添加中文分词插件。以上两种方式都是可取的。目前,由于...原创 2010-11-18 19:06:40 · 222 阅读 · 0 评论 -
nutch累积式抓取
最近在网上查了好多关于nutch增量式抓取的脚本,但是我觉得和nutch文档中所定义的增量式抓取有出入。应该算是累积式抓取。好了,首先说一下背景:前一段时间搭建好nutch环境后,接下来的工作就是在怎么样在服务器上进行累积式抓取,即在本地建立大型的索引数据库(有些问章提到分布式数据库,我不太明白)。那么毫无疑问,肯定是要用到nutch的底层命令,如:generate ...原创 2010-11-13 22:48:22 · 226 阅读 · 0 评论 -
提高Nutch局域网抓取的速度
如果想要提高Nutch局域网抓取的速度,大家第一个想到肯定是-threads .但是那是错误的,如果只是单单增大线程数,那根本于事无补。 通过下面这组测试,我们看看-threads 是否起作用。首先在本地apache2下建立两个网站,写一个简单的Rakefile来帮助完成测试。设定depth=3,下面是Rakefile的内容:threads=1depth...原创 2010-11-13 22:25:28 · 151 阅读 · 0 评论 -
nutch如何才能抓取到动态的url
nutch如何才能抓取到动态的urlhttp://www.tianya.cn/new/TianyaCity/content.asp?idItem=296&idArticle=53561&idWriter=0&key=0在运行的时候不会抓取到,分析了一下原因:主要在conf/crawl-urlfilter.txt. 分析:使用nut...原创 2010-11-13 08:09:38 · 299 阅读 · 0 评论 -
Nutch-0.9源代码:Crawl类整体分析
Nutch-0.9源代码:Crawl类整体分析Nutch-0.9中,org.apache.nutch.crawl.Crawl类中提供了一个入口主函数main,通过接收键入的命令行,根据命令行指定的参数对Nutch进行配置,从而启动Nutch抓取程序,通过阅读org.apache.nutch.crawl.Crawl类的源代码来了解Nutch是如何根据接收的命令行进行配置及其启动...原创 2010-11-09 19:43:35 · 96 阅读 · 0 评论 -
网络爬虫调研报告
网络爬虫调研报告调研背景 项目中要对指定的网络资源进行抓取、存储、分类、索引、并提供检索服务。充当全文检索数据库的是Apache组织下的开源项目Lucene 检索工具,而Lucene只是个搜索引擎工具,它提供API接口,通过编写程序对信息进行索...原创 2010-11-09 19:26:20 · 375 阅读 · 0 评论 -
配置完成nutch容易出现的错误
配置完成nutch容易出现的错误1.1.2 运行crawl报错Job failedException in thread "main" java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604) at...原创 2010-11-09 09:14:39 · 168 阅读 · 0 评论 -
Nutch1.0的配置与运行
Nutch1.0的配置与运行 配置软件:1、 Java jdk-1.61.1 下载安装from: http://www.sun.com安装目录:C:\Java\jdk1.6.0_031.2 修改环境变量JAVA_HOME=C:\Java\jdk1.6.0_03\bin CLASSPATH=C:\Java\jdk1.6.0_03\lib\dt.jar...原创 2010-11-09 09:10:04 · 103 阅读 · 0 评论 -
Nutch1.0的配置与运行
Nutch1.0的配置与运行 配置软件:1、 Java jdk-1.61.1 下载安装from: http://www.sun.com安装目录:C:\Java\jdk1.6.0_031.2 修改环境变量JAVA_HOME=C:\Java\jdk1.6.0_03\bin CLASSPATH=C:\Java\jdk1.6.0_03\lib\dt.jar...原创 2010-11-08 11:17:46 · 114 阅读 · 0 评论 -
Nutch的资料
Nutch的资料http://issues.apache.org/jira/browse/NUTCH-36http://www.mail-archive.com/nutch-developers@lists.sourceforge.net/msg03907.html以上两个链接的内容出处相同,都是Apache Nutch dev mail archive。由J...原创 2010-11-08 10:59:19 · 134 阅读 · 0 评论 -
nutch的基本工作流程理解
(一):Nutch的工作流程:Crawdb、linkdb是web link目录,存放url及url的互联关系,作为爬行与重新爬行的依据。segments是主目录,存放抓回来的网页。页面内容有bytes[]的raw conte...原创 2010-11-08 10:57:05 · 113 阅读 · 0 评论 -
nutch 抓取动态网页设置
nutch过滤规则crawl-urlfilter.txt vs regex-urlfilter.txt需要注意在conf下面的2个文件:regex-urlfilter.txt,crawl-urlfilter.txt # skip URLs containing certain characters as probable queries, etc. ...原创 2010-12-04 22:48:24 · 206 阅读 · 0 评论