前一段时间做东西用到了pylucene,包括建立索引,检索,高亮显示等等。贴两段代码,希望对大家有用。
pylucene的安装就不多说了,我用的版本是PyLucene-1.9.1。
建立索引:
#
!/usr/bin/env python
import
os
import
PyLucene

class
IndexFiles:
"""
create index by PyLucene, just need your dir path,
the result files saved in the directory index in
current path
"""

def
__init__
(self, root, storeDir, analyzer):
if
not
os.path.exists(storeDir):
os.mkdir(storeDir)
analyzer
=
PyLucene.StandardAnalyzer()
store
=
PyLucene.FSDirectory.getDirectory(storeDir , True)
writer
=
PyLucene.IndexWriter(store, analyzer, True)
self.indexDocs(root, writer)
print
'
optimizing index
'
,
writer.optimize()
writer.close()
print
'
done
'

def
indexDocs(self, root, writer):
for
root, dirnames, filenames
in
os.walk(root):
for
filename
in
filenames:
if
not
filename.endswith(
'
.txt
'
):
本文介绍了如何使用PyLucene进行全文索引创建和检索,并强调了在处理中文时的编码注意事项。
最低0.47元/天 解锁文章
193

被折叠的 条评论
为什么被折叠?



