
Nutch研究
CSharpProgrammer
这个作者很懒,什么都没留下…
展开
-
Nutch数据的组成(一)
Nutch由以下数据组成:1,爬行数据库(crawdb):包含所有nutch已知的url,这个url是否被爬过,如果被爬过,是什么时候。2,链接数据库(linkdb):这里面包含的信息是每个url已知的链接信息。包括每个链接的锚点文本和源url。3,一组段。段信息另篇再说。4,索引库,用的是lucene的。(参见lucene)1和2组成了webdb。webdb包含4个文件(在物理视图上是文件夹):转载 2006-07-05 22:05:00 · 1630 阅读 · 0 评论 -
Nutch数据的组成(二)
段的组成:每个段由5个文件夹组成,如果建立了索引的话就是六个文件夹。其中每个文件夹是一个ArrayFile对象。包括:文件夹名 保存内容 对应代码对象 对应保存的值对象content 抓取回来的网页内容,包括http头信息和其它元信息。默认情况下,proto原创 2006-07-05 22:06:00 · 1564 阅读 · 0 评论 -
搜索引擎Nutch 0.7.2 试用笔记
我的jdk 是1.5.x ,Tomcat是5.0.x1 下载0.7.2 版本的包:里面已经包含了war文件,所以不需要Ant编译了2 安装Cygwin,这个没什么好说的。3 把Nutch借压缩到D:/nutch4 在D:/nutch下面建立一个文件 urls (没有后缀)http://www.xxx.edu.cn/5 在D:/nutch/conf/crawl-urlfilt转载 2006-07-05 22:07:00 · 1452 阅读 · 0 评论 -
Crawl the Nutch -- Map Reduce
初见于Google Lab的Paper, http://labs.google.com/papers/mapreduce.html,论文中表明在有大量集群支撑的情况下,可以快速的在海量文档中进行数据处理。现在你有一堆数据,你需要按记录修改、查询、插入和删除,一种办法是你为这些记录建立索引,比如放入数据库,还有一种办法就是--MapReduce。这种处理方式实际上是在数据存放的时候不建立索转载 2006-07-05 22:09:00 · 2430 阅读 · 0 评论 -
Crawl The Nutch -- 起步 getting started
环境搭建 Requirements(本人选择): Java 1.5 Apaches Tomcat 5.x Win32 with Cygwin Nutch, 呵呵 Nutch 0.72版就我个人而言,感觉不太好用(有人说所谓感觉就是靠不住,管他呢),现在可以从svn仓库中下载源码,并用ant package编译,之后你就转载 2006-07-05 22:10:00 · 3311 阅读 · 2 评论 -
Windows下调用nutch的脚本,可实现自动运行
现在正对搜索引擎有兴趣,我的搜索基于nutch,并结合了ICTCLAS,分词和速度都不错。这样做可以不用crywin来模拟linux下面是在win nt下调用nutch的脚本,你可以自己改一下,这样就可以很方便的实现自动运行了。有兴趣的朋友可以用一下,大大方便了操作。nutch.bat@cmd /V:on /c %~dp0nutch1.bat %*nutch1.bat@echo onrem ***转载 2006-07-05 22:13:00 · 7475 阅读 · 2 评论 -
nutch 0.7 plug-ins 详解
1、nutch 0.7 发布了;2、nutch 的java源代码包路径改变成了org.apache...3、yahoo也使用了nutch,并做了很多的工作。1 2clustering-carrot2 : 一个搜索结果类聚的代码框架,目前和Egothor等搜 索引擎结合的很好; 地址:http://sourceforge.net/projects原创 2006-07-05 22:41:00 · 1453 阅读 · 0 评论 -
Nutch 的小技巧
come from :http://www.dbanotes.net/archives/2005/02/some_hints_for.html-------------------------------------------------------------------------------------------------------------------------好久没关注N原创 2006-07-05 22:42:00 · 1747 阅读 · 0 评论 -
Nutch搜索引擎之分布式文件系统
1.介绍 NDFS:在一系列机器上存储庞大的面向流的文件,包含多机的存储冗余和负载均衡。 文件以块为单位存储在NDFS的离散机器上,提供一个传统的input/output流接口用于文件读写。块的查找以及数据在网络上传输等细节由NDFS自动完成,对用户是透明的。而且NDFS能很好地处理用于存储的机器序列,能方便地添加和删除一台机器。当某台机器不可用时,NDFS自动的保证文件的可用性。只要网上原创 2006-07-05 22:57:00 · 10991 阅读 · 5 评论