用lucene做一个站内搜索引擎(一):用ictclas4j做Lucene系统的分词器:(1)提高词典加载速度.

revv

于 2008-03-25 09:29:00 发布

阅读量2.9k

点赞数

CC 4.0 BY-SA版权

文章标签： lucene 搜索引擎 buffer byte visio file

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/revv/article/details/2215552

这一系列的文章不是系统的介绍Lucene的, 只是在若干个点对Lucene的使用进行说明.需要系统的了解可以看
1) <<Lucene in Action>>
2) 车东写的Lucene教程
3) TJU某人写的如何加入分词
4) 3) 的相关代码

关于lucene用作站内搜索引擎的方案可以参见上面三个网站, 虽然它们是针对lucene2.3前的某些版本的, 代码中的接口函数可能跟lucene2.3有所不同(比如Field类), 但对lucene的介绍及一些代码会给你很大的帮助.

汉语的搜索离不开分词, 本想用ictclas+jni来做,结果找不到ictclas的源码, 在计算所也无从下载, 不过就在无助之时,看到有个ictclas4j, 用visio写的文档不错(算法框加应该是没问题的), 代码写得也很清楚(只是后来发现代码中的bug真是不少), 下来一试, 效果还不错, 词典那些以后都可以扩充.

这篇文章只讲对ictclas4j词典加载的改进,改后的加载速度是改前的五倍.

首先, 为什么词典加载慢, 读了源码后就会发现: 在读取词典文件的时候都是若干字节读取的, 这样浪费了IO的带宽,增加了IO的次数, 所以速度慢, 解决方法就是加Buffer, 以前没用过Java的读写文件buffer之类的功能，google了一下，发现JDK中就有现成的类: BufferedInputStream．下面是在Dictionary.java中增加的函数和在Dictionary.java中修改的函数

/**

* 修改的函数

*/

public boolean load(String filename) {

// return load(filename, false);

return quickLoad(filename, false);

}

/**

* 新增的函数: 加速加载

*/

public boolean quickLoad(String filename, boolean isReset) {

File file;

int[] nBuffer = new int[3];

file = new File(filename);

if (!file.canRead())

return false;// fail while opening the file

try {

delModified();

DataInputStream fis = new DataInputStream(new FileInputStream(file));

// 在写入文件之前加入一个buffer,大小为8192(=32*256)

BufferedInputStream in = new BufferedInputStream(fis);

for (int i = 0; i < Utility.CC_NUM; i++) {

// logger.debug("块" + i);

// 词典库在写二进制数据时采用低位优先(小头在前)方式,需要转换一下

int count = GFCommon.bytes2int(Utility.readBytes(in, 4), false);

// logger.debug(" count:" + count);

wts.get(i).setCount(count);

if (count <= 0)

continue;

WordItem[] wis = new WordItem[count];

for (int j = 0; j < count; j++) {

nBuffer[0] = GFCommon.bytes2int(Utility.readBytes(in, 4), false);

nBuffer[1] = GFCommon.bytes2int(Utility.readBytes(in, 4), false);

nBuffer[2] = GFCommon.bytes2int(Utility.readBytes(in, 4), false);

// String print = " wordLen:" + nBuffer[1] + " frequency:" +

// nBuffer[0] + " handle:" + nBuffer[2];

WordItem ti = new WordItem();

if (nBuffer[1] > 0)// String length is more than 0

{

byte[] word = Utility.readBytes(in, nBuffer[1]);

ti.setWord(new String(word, "GBK"));

} else

ti.setWord("");

// print += " word:(" + Utility.getGB(i) + ")" +

// ti.getWord();

// logger.debug(print);

if (isReset)// Reset the frequency

ti.setFreq(0);

else

ti.setFreq(nBuffer[0]);

ti.setLen(nBuffer[1] / 2);

ti.setHandle(nBuffer[2]);

wis[j] = ti;

}

wts.get(i).setWords(wis);

}

in.close();

} catch (FileNotFoundException e) {

logger.error(e);

} catch (IOException e) {

logger.error(e);

}

return true;

}

在Utility.java中加入以下函数:

public static byte [] readBytes(BufferedInputStream in, int len) {

if (in != null && len > 0) {

byte[] b = new byte[len];

try {

in.read(b, 0, len);

} catch (IOException e) {

e.printStackTrace();

}

return b;

}

return null;

}

就是这么简单, 另外 " 低位优先 "的方式, 应该可以变成高位优先, 这个我并没有修改.

这里讲加载词典, 之后会词做成的分词器出现的问题及解决方法.

博客等级

码龄21年

36
原创

4
点赞

1
收藏

15
粉丝

关注

私信

热门文章

上一篇：: 勇敢的写程序

下一篇：: 赞一下EMS

最新评论

转载一份C++线程池的代码，非常实用
zouyuxiangol: _EventComplete = CreateEvent(0, false, false, NULL); if(!pThreadPoolObj->_lThreadNum) //所有线程结束 SetEvent(pThreadPoolObj->_EventComplete); 难道auto_event也可以 SetEvent 或 ResetEvent？应该是：SetEvent(pThreadPoolObj->_EventEnd);才对吧？
转载一份C++线程池的代码，非常实用
satanness: MSDN里看到的线程池，都说“This class is deprecated.”，而且“Minimum Supported Server" 是win server 2003。。网上还有说2008的，这个兼容性貌似不是很好。
转载一份C++线程池的代码，非常实用
弥顿道9号: AdjustSize 如何动态调整线程数量。。。？
转载一份C++线程池的代码，非常实用
icesort: 但是windows线程池的API不是要vista以上版本才有么
Android opengles 2D 优化
astray2006: [e01]有没有双线程引擎的例子看看，非常感谢分享

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。