自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 问答 (1)
  • 收藏
  • 关注

原创 高效搜索

实时搜索,最重要的就是效率,实时就意味着你只要有更新就要reopen,大量的reopen的效率是很低的,导致搜索变慢。 索引结构 fs+ramX2 更新最大问题就是delete操作,因为delete操作可能是磁盘的,要reopen这个大家伙需要时间会很长,所以要是用filterindexreader,过滤点删除的diocid,这要就不用reopen磁盘索引。  上面的步...

2011-09-09 11:53:16 132

原创 zoie学习

这个蹩脚的家伙我还没运行起来过,官网的资料少的可怜,代码结构不清晰,包划分让我蛋疼。 读了里面的代码,也是相当蹩脚(个人感觉),但是以上的认识不是藐视这个家伙,是恨铁不成钢啊。 zoie最核心的的部分可能就是  docid-uid的映射,和FilterIndexReader.这个思路很巧妙。但是也不能算是完美。ZoieMergePolicy也是个不错的东西,已被划归Luce...

2011-08-09 19:15:13 171

Lucene4.0 FilterIndexReader

  When coding LUCENE-2919 (PKIndexSplitter), Mike and me had the idea, how to effectively apply filters on the lowest level (before query execution). This is very useful for e.g. security Filters ...

2011-07-07 12:18:27 155

MongoDB测试

     之前花过半天时间写了个MongoDB的CRUD的demo。使用起来还是相当简单的。了解到mongodb是通过“肉饼”的博客。看到之后就对nosql的数据库非常感兴趣。  目前数据量最大的新闻数据库(mysql)2000W。读取非常的慢。慢到有时候没法使用。所以今天测试下新闻数据。最初在winxp下内存2G,插入30W数据时,后台异常  error 8,mongodb数据1.5...

2011-06-24 09:59:15 145

团队管理

今天和一个创业阶段的老板聊了聊,突然感觉找到了一些共同点。 我们部门,在我刚入职的时候10个人左右,吃饭一张桌子,大家都是刚到公司不到1年左右的新员工。每天都开会,大家干劲十足。每天绞尽脑汁都想怎么把工作干好。我每天8小时,一心用在技术上。成长也是飞速的。 后来,部门的人越来越多,沟通成本骤增,和领导的工作重心转移,使得团队凝聚力不如之前,渐渐员工之间划分小团队。新员工和老员工之间...

2011-06-14 18:09:16 126

hadoop配置

所有的基本的配置,在下载下来的hadoop包中都有。hadoop-0.20.203.0\docs 1、下载hadoop,放到linux中  2、 修改以下配置文件。 conf/core-site.xml: <configuration><property><name>fs.default.name<...

2011-06-10 16:58:28 93

原创 berkeleydb-je数据膨胀问题

搜索服务运行了3天,突然出现 Exception in thread "Timer-2" java.lang.RuntimeException: (JE 4.1.10) JAVA_ERROR: Java Error occurred, recovery may not be possible. 原因还不知道,只是在一个英文论坛里找个些零碎信息,查看了一下,如果用FS存储,240MB...

2011-05-05 14:39:54 508

berkeleydb-je性能

前段时间使用berkeley时,初次尝试小数据量的添加和读取,100W左右的短数据,平均每条value大概20-50个汉字,性能是很不错的。要比mysql快很多,特别是插入速度。单条读取速度也很满意。结合lucene使用也是非常方便。 但是同时发现一个问题。同样的数据,当设置不同的log日志切分大小后,存储的文件大小相差很多。最多大概相差了大概1/5 .虽然能通过设置减少log...

2011-04-20 17:47:14 463

google的GSON

之前用的都是Struts2自带的JSON结合Jquery来用,从来没自己做过Object-JSon的转换,刚才大概看了一眼google code上的GSON,看到几个比较有用的类,写出来,免得周一用的时候忘了  经过昨天的使用,发现一些问题,写出来分享下,之前有很多的问题,免得被别人看见误人子弟  我的需求:  我用Spring整合的JSBC从数据库中读出的数据是L...

2011-04-08 15:40:40 155

原创 新闻搜索

最近在做新闻频道的搜索,数据量1000W+,预计索引size在20G左右。百万数据量下用BerkeleyDB速度提升相当明显,但是上到千万时候,性能就没那多突出了。手机之家的设计方案网上也有,就是用的BerkeleyDB但是不能单纯使用,本来想做全文检索,但是数据量太大,性能有点问题。尽管可以通过其他手段拆分和优化,但是借着这个机会想用用hadoop,要不然可能没有机会了。...

2011-04-08 15:22:31 131

原创 berkeleydb-CRCD

最近发现berkeleydb还是不错的,存储相同的数据量,要比磁盘索引小得多,第一次用这样的非关系型数据库,写了个 基本操作的代码package com.berkeleydb.java;import java.io.File;import java.io.IOException;import org.apache.commons.io.FileUtils;imp...

2011-03-30 13:32:06 229

原创 Lucene的DateTools

年前最后2天班了,无聊写写博客吧Lucene提供的日期格式化类 DateTools默认是0时区,这样转换过去,时间应该少8小时。要是只用时间做排序或其他过滤,这个问题可以忽略,但要是需要展示。那么就需要重写一下 private final static TimeZone GMT = TimeZone.getTimeZone("[b]GMT[/b]"); pr...

2011-01-27 17:56:41 193

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除