
java
文章平均质量分 80
nizaina_0
这个作者很懒,什么都没留下…
展开
-
如何向nutch索引中添加自己的Field
向nutch中添加自己的field也是比较简单的,和直接调用lucene向索引中添加field基本相同,首先设定添加的field是否要被存储分词索引,然后将field添加到NutchDocument中,其他的工作就nutch会自动完成:(1)首先要在Indexer的index函数配置执行索引工作前设定添加Field的属性,因为添加的pagetime是用来进行对结果排序使用的,所以它的属性不转载 2012-10-02 16:33:05 · 473 阅读 · 0 评论 -
java多线程读写同一个文件的代码
本文提供java多线程分别定时读写同一个文件的样例,其中两个线程,一个每分钟写入当前时间到指定文件,另一个线程读出每分钟新写的内容。使用简单的Thread.sleep技术实现定时package test.thread;import java.io.BufferedReader;import java.io.File;import java.io.FileReader;转载 2012-12-11 17:07:39 · 754 阅读 · 0 评论 -
Heritrix源码分析(三) 修改配置文件order.xml加快你的抓取速度
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/629891 本博客已迁移到本人独立博客: http://www.yun5u.com/ Heritrix的order.xml分了很多组件,可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多,这里首先从Heritrix转载 2012-11-14 15:23:08 · 394 阅读 · 0 评论 -
nutch1.4插件开发
参考了不少nutch插件开发的文章都不完整,经过多次调试研究才成功,下面将注意要点列出希望能对nutch应用开发爱好者提供帮助。 nutch开发环境搭建请参考 http://peigang.iteye.com/blog/1464854。本文提到的各项内容都是依据以上环境测试的。 一、插件程序结构以nutch中的parse-html解析html的插件为例介绍。转载 2012-11-02 17:33:09 · 723 阅读 · 1 评论 -
Nutch配置文件(ConfigurationFiles的优先级、覆盖问题)
Configuration has two levels, default and final. It is supplied by the org.apache.hadoop.conf.Configuration class and extended in Nutch by the org.apache.nutch.util.NutchConfiguration class.Although原创 2012-10-24 10:06:21 · 471 阅读 · 0 评论 -
Java中static、final用法小结
一、final1.final变量: 当你在类中定义变量时,在其前面加上final关键字,那便是说,这个变量一旦被初始化便不可改变,这里不可改变的意思对基本类型来说是其值不可变,而对于对象变量来说其引用不可再变。其初始化可以在两个地方,一是其定义处,也就是说在final变量定义时直接给其赋值,二是在构造函数中。这两个地方只能选其一,要么在定义时给值,要么在构造函数中给值,不转载 2012-10-23 17:16:18 · 289 阅读 · 0 评论 -
Understanding the columns/fields in Nutch 2.0 Webpage
Understanding the columns/fields in Nutch 2.0 WebpageOne of the great things about Nutch 2.0 and the move to GORA is that the datastore is much more easily accessible than it was under Nutch翻译 2012-10-24 14:30:27 · 223 阅读 · 0 评论 -
ubuntu安装 oracle java
1. 从http://java.sun.com/下载jdk的bin文件,将下载的jdk1.6.0_16.bin文件放到/usr/lib/jvm/java中 然后在终端执行代码: sudo chmod u+x /usr/lib/jvm/java/jdk1.6.0_16.bin (修改文件权限使bin可执行) 接着在终端执行代码: sudo /usr/lib/j转载 2012-10-20 11:44:23 · 266 阅读 · 0 评论 -
Hadoop org.apache.hadoop.util.DiskChecker$DiskErrorException 异常处理
最近Hadoop集群在执行作业的时候经常发生tasktracker错误,节点宕掉。查看了tasktracker的日志,报错如下:2012-07-14 10:43:41,492 WARN org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext: org.apache.hadoop.util.DiskChecker$DiskErrorE原创 2012-10-16 21:35:48 · 1353 阅读 · 0 评论 -
jsoup中选择器select()的使用(jquery,css选择器风格)
没用过Jquery和css的选择器,所以看了Jsoup的介绍后还是不会用select选择器,然后去看了下Jquery选择器的使用,才发觉jsoup真心强大,所以做个简单记录。选择器简介:选择器既可以作为元素选择器也可以作为属性选择器,允许您通过标签名、属性名或内容对 HTML 元素进行选择。选择器允许您对 HTML 元素组或单个元素进行操作。在 HTML DOM 术原创 2012-09-25 19:30:37 · 2058 阅读 · 1 评论 -
JAVA 正则表达式 (超详细)
在Sun的Java JDK 1.40版本中,Java自带了支持正则表达式的包,本文就抛砖引玉地介绍了如何使用java.util.regex包。 可粗略估计一下,除了偶尔用Linux的外,其他Linu x用户都会遇到正则表达式。正则表达式是个极端强大工具,而且在字符串模式-匹配和字符串模式-替换方面富有弹性。在Unix世界里,正则表达式几乎没有什么限制,可肯定的是,它应用非常之广泛。转载 2012-10-14 14:35:15 · 2357 阅读 · 0 评论 -
Luke安装与使用
1 Luke简介 Luke是一个方便宜的开发和诊断工具,它能访问Lucene建立好的索引同时也允许以如下的一些方式展示和修改内容:l 按文档(Document)号或者词项浏览l 查看文件/复制到粘贴板l 查询一个高频词项排序列表l 执行查询并查看结果l 分析查询结果转载 2012-09-22 09:29:37 · 765 阅读 · 0 评论 -
java中使用队列:java.util.Queue
在java5中新增加了java.util.Queue接口,用以支持队列的常见操作。该接口扩展了java.util.Collection接口。Queue使用时要尽量避免Collection的add()和remove()方法,而是要使用offer()来加入元素,使用poll()来获取并移出元素。它们的优点是通过返回值可以判断成功与否,add()和remove()方法在失败的时候会抛出异常。 如转载 2012-10-05 15:06:16 · 344 阅读 · 0 评论 -
中文分词之Java实现使用IK Analyzer实现
IK Analyzer是基于lucene实现的分词开源框架,下载路径:http://code.google.com/p/ik-analyzer/downloads/list需要在项目中引入:IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例转载 2013-02-27 10:48:20 · 513 阅读 · 1 评论