
搜索技术和IR技术
hydream
呵呵,就不告诉你
展开
-
nutch学习笔记(慢慢补充)
1。fetcher线程的循环逻辑1)如果有严重错误,则中断2)从FetchList获得下一个fetch条目,如果没有,则退出3)从fetch条目中提取URL信息4) 如果没有被标记为抓取,就调用this.handleNoFetch(),并置状态为status=1,接着执行: 1,获得URL的MD5 摘要 2,创建一个FetcherOutput(fle, hash, status)原创 2006-09-01 23:25:00 · 1161 阅读 · 0 评论 -
开始接触nutch,lucene,并做些开发了
这段时间一直在看nutch和lucene的资料。准备作个应用。相比而言,lucene的资料要多的多,但nutch的文档还十分欠缺,只能是一边在nutch的wiki上游荡,一边摸索着看代码了。原创 2006-05-30 11:55:00 · 964 阅读 · 2 评论 -
Nutch数据的组成
Nutch由以下数据组成:1,爬行数据库(crawdb):包含所有nutch已知的url,这个url是否被爬过,如果被爬过,是什么时候。2,链接数据库(linkdb):这里面包含的信息是每个url已知的链接信息。包括每个链接的锚点文本和源url。3,一组段。段信息另篇再说。4,索引库,用的是lucene的。(参见lucene)1和2组成了webdb。webdb包含4个文件(在物理视图上是文件夹):原创 2006-06-02 19:00:00 · 973 阅读 · 0 评论 -
Nutch数据组成(2)
段的组成:每个段由5个文件夹组成,如果建立了索引的话就是六个文件夹。其中每个文件夹是一个ArrayFile对象。包括:文件夹名 保存内容 对应代码对象 对应保存的值对象content 抓取回来的网页内容,包括http头信息和其它元信息。默认情况下,protocol原创 2006-06-03 16:27:00 · 1160 阅读 · 0 评论 -
nutch crawl main函数流程
原创 2006-07-07 09:58:00 · 1164 阅读 · 0 评论 -
nutch体系结构
原创 2006-07-07 10:02:00 · 2606 阅读 · 1 评论