java 搜索引擎
文章平均质量分 86
Horizon_wing
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
nutch工作流程简介
先用一幅图来形容nutch的工作流程: 先对上图做一个简单说明,图中标的数字为nutch工作的顺序。它的基本流程可分为两部分,即抓取部分和搜索部分: 一、抓取部分(网络爬虫) 1.建立初始URL集 2.将URL集注入crawlDB数据库(inject包) 3. 根据crawldb数据库创建抓取列表---generate 4.执行抓取,获取网页信息---翻译 2016-07-19 21:59:37 · 963 阅读 · 0 评论 -
nutch2.3.1在ubuntu14.04下的配置及编译过程
搜索引擎 nutch2.3.1 编译 配置 底层存储HBase原创 2016-08-16 14:48:06 · 3324 阅读 · 0 评论 -
nutch2.3.1源码分析——InjectorJob
InjectorJob类源码分析原创 2016-10-10 17:29:04 · 1636 阅读 · 1 评论 -
InjectorJob架构及流程
nutch2.3.1源码架构——InjectorJob原创 2016-10-11 12:11:08 · 845 阅读 · 1 评论
分享