
java 搜索引擎
文章平均质量分 86
Horizon_wing
这个作者很懒,什么都没留下…
展开
-
nutch工作流程简介
先用一幅图来形容nutch的工作流程: 先对上图做一个简单说明,图中标的数字为nutch工作的顺序。它的基本流程可分为两部分,即抓取部分和搜索部分:一、抓取部分(网络爬虫)1.建立初始URL集2.将URL集注入crawlDB数据库(inject包)3. 根据crawldb数据库创建抓取列表---generate4.执行抓取,获取网页信息---翻译 2016-07-19 21:59:37 · 920 阅读 · 0 评论 -
nutch2.3.1在ubuntu14.04下的配置及编译过程
搜索引擎 nutch2.3.1 编译 配置 底层存储HBase原创 2016-08-16 14:48:06 · 3273 阅读 · 0 评论 -
nutch2.3.1源码分析——InjectorJob
InjectorJob类源码分析原创 2016-10-10 17:29:04 · 1590 阅读 · 1 评论 -
InjectorJob架构及流程
nutch2.3.1源码架构——InjectorJob原创 2016-10-11 12:11:08 · 808 阅读 · 1 评论