全文检索(lucene):
刚接触lucene时,对分词,索引,存储不是很了解,经过深入的学习,逐渐连接了这三个的概念;
1,分词:就是剔除掉常见到词(当然这里可以自定义那些要被剔掉的词),如"我是java程序员,我用eclipse开发java",一般
人搜索不会输入"我","用","开发"这些词,我们把它们剔除掉,就剩下"java","程序员","eclipse","java"了;
2,索引:分为先分词再索引和不分词直接索引;
1)分词索引:比如上面那个经过分词后剩下"java","程序员","eclipse","java",按照一定的索引机制:对"java","程序员
","eclipse","java"建立索引(如"程序员",可能会建立两个索引,"程序","程序员"),以便能通过"eclipse"或者是"java"
等搜索到,输入分词时剔除掉的字就搜不到东西.
2)不分词直接索引,就是直接对"我是java程序员,我用eclipse开发java"建立索引,索引里有"我","是"等,所以你可以通过这些词搜索到内容.
3,存储:存储就是把原内容完完全全,原封不动地保存到索引里面;例如上面,把"我是java程序员,我用eclipse开发java",
直接保存到索引里,
4,索引:这里说的索引不是指的是一个文件,而是一个目录,这个目录下的所有东西集统称为索引