- 博客(4)
- 收藏
- 关注
原创 Nutch的文件目录所包含的内容
Nutch的文件目录所包含的内容: crawldb目录下面存放下载的URL,以及下载的日期,用来页面更新检查时间。 linkdb目录存放URL的关联关系,是下载完成后分析时创建的,通过这个关联关系可以实现类似google的pagerank功能。 segments目录存储抓取的页面,下面子目录的个数与获取页面的层数有关系。 内含有6个子目录 content:下载页面的内容...
2010-11-25 23:23:58
117
原创 AtomicLong, AtomicInteger 原子变量
可以用原子方式更新的 int 值。有关原子变量属性的描述,请参阅 java.util.concurrent.atomic 包规范。AtomicInteger 可用在应用程序中(如以原子方式增加的计数器),并且不能用于替换 Integer。但是,此类确实扩展了 Number,允许那些处理基于数字类的工具和实用工具进行统一访问。 例子: 本示例说明如何使用AtomicInteger来实现并发计...
2010-11-22 11:11:19
112
原创 日志工具SLF4J
SLF4J不是具体的日志解决方案,它只服务于各种各样的日志系统。按照官方的说法,SLF4J是一个用于日志系统的简单Facade,允许最终用户在部署其应用时使用其所希望的日志系统。 实际上,SLF4J所提供的核心API是一些接口以及一个LoggerFactory的工厂类。从某种程度上,SLF4J有点类似JDBC,不过比JDBC更简单,在JDBC中,你需要指定驱动程序,而在使用SLF4J的时候,不需...
2010-11-12 10:37:31
140
<Search Engines - Information Retrieval In Practice> 读后感 - 概述
由于工作需要,同时购买了的中英文两个版本,我看的是英文版,中文版由另外一位同事在看. 中文翻译 《搜索引擎-信息检索实践》 作者: W.Bruce Croft/Donald Metzler/Trevor Strohman 在阅读之前对书进行了大概浏览,觉得该书的内容很全,涉及到了IR的每个方面,因此,对于IR的初学者,和想对该领域有系统掌握的读者是很好的教程。 该书包括以下章...
2010-11-11 15:36:54
282
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人