想做个基于lucene的搜索引擎

最新推荐文章于 2024-03-11 21:30:51 发布

原创最新推荐文章于 2024-03-11 21:30:51 发布 · 3.5k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#lucene #搜索引擎 #xml #全文检索 #数据库 #xslt

随笔YY 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了车东的WebLucene，其核心是Lucene的XML接口，采用SAX导入数据、DOM输出结果，以xml+xslt做表示层保证数据源平台无关。还提及搜索引擎的多项技术，如速度、模糊查询等，对比了用Mysql和Lucene做搜索引擎的效果，认为Lucene更适合全文检索。

今天看看看车东的weblucene，主要看了看xml接口部分，他使用Sax加载xml进行解析然后分析出字段进行索引，主要的类是SaxIndexer，取数据的时候以xml表现jdom实现。用xml+xslt的形式做表示层确实挺合理。
   weblucene主要提供了一个xml接口，这样需要索引的数据比如数据库，爬虫抓的经过分析的网页等等只要生成工业标准的xml，这样可以保证数据源的平台无关性。
   所以其核心就是一个Lucene的XML接口：SAX方式的数据导入和DOM方式的结果输出。
   他这个东西是jdom+sax做的，java的xml解析器可谓是种类繁多，dom，jdom，dom4j用的最多，dom4j的速度上比较快相对来说，我前面的文章也有比较过，他这个东西好久没做更新了阿，我想自己做一个按照他的思想，用dom4j解析。。
   慢慢开始研究还是界面简单隐含的内容复杂的东西好个人认为，给人一种神秘的感觉呵呵
像搜索引擎界面其实就是一个输入框和一个按钮可里面的道道可多着呢。
比如：
搜索引擎第一个基本功是速度。不论多少资料，在最多1-2秒钟就可以出结果。
第二个是模糊查询，通配符，相关度之类
第三个是人工智能，同义词，自动纠错，同音词处理等等
第四个是自动分类，爬虫技术之类
第五个是统计分析，根据统计调整关键词权值之类。
第六个是中文问题。比如同一个中文词在简体、繁体、日文、韩文中写法不同，但是搜索引擎应该可以一次搜出来。
其它的一些技术也有很多。
以前用Mysql做过ftp的搜索引擎，内容数据存在一个字段里，几十万条记录检索起来狂慢还
全文模糊检索数据库没法作索引，只能对日期大小之类的做个索引，可如果用户把大小的范围设得很小那又完了。。。没有实质的解决，这次用基于文件的lucene专门的全文检索工具确实不错。