
搜索引擎
文章平均质量分 90
王小工
java研发工程师、架构师、云计算、大数据、云原生
展开
-
Elasticsearch 分词器
Elasticsearch提供了多种内置分词器,如标准分词器(Standard Analyzer)、语言分词器(如中文分词器)等。这些分词器可以根据不同的需求进行选择和配置。同时,Elasticsearch也支持自定义分词器。用户可以根据自己的需求编写分词器,实现自定义的拆分规则和词语处理逻辑。自定义分词器需要编写自己的分词器和字符过滤器,并在Elasticsearch中注册分词器。用户还可以根据自己的需求编写自定义分词器,实现自定义的拆分规则和词语处理逻辑。原创 2024-11-21 08:22:25 · 1293 阅读 · 0 评论 -
1、lucene 简介
是什么 lucene是一款高性能的、可扩展性的信息检索 (IR)工具库。 lucene组件 建立索引步骤: 1、获取内容 通过一些爬虫来获取索引内容。 lucene作为一款核心搜索库,并不提供任何功能来实现内容获取。 目前有大量的开源爬虫软件可以实现这个功能。 开源爬虫软件:1、Solr 2、Nutch 3、Grub 4、Heri原创 2012-03-28 20:48:41 · 582 阅读 · 0 评论 -
2、构建索引
索引过程 主要操作步骤: 1、将原始文档转换成文本 2、分析文本 3、将分析好的文本保存至索引中 基本索引demo package com.lucene; import java.io.IOException; import org.apache.lucene.analysis.WhitespaceAnalyzer; import org.apache.lucene.do原创 2012-03-28 23:23:52 · 513 阅读 · 0 评论