搜索引擎
文章平均质量分 90
王小工
java研发工程师、架构师、云计算、大数据、云原生、AI应用
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Elasticsearch 分词器
Elasticsearch提供了多种内置分词器,如标准分词器(Standard Analyzer)、语言分词器(如中文分词器)等。这些分词器可以根据不同的需求进行选择和配置。同时,Elasticsearch也支持自定义分词器。用户可以根据自己的需求编写分词器,实现自定义的拆分规则和词语处理逻辑。自定义分词器需要编写自己的分词器和字符过滤器,并在Elasticsearch中注册分词器。用户还可以根据自己的需求编写自定义分词器,实现自定义的拆分规则和词语处理逻辑。原创 2024-11-21 08:22:25 · 1576 阅读 · 0 评论 -
1、lucene 简介
是什么 lucene是一款高性能的、可扩展性的信息检索 (IR)工具库。lucene组件建立索引步骤:1、获取内容 通过一些爬虫来获取索引内容。lucene作为一款核心搜索库,并不提供任何功能来实现内容获取。目前有大量的开源爬虫软件可以实现这个功能。开源爬虫软件:1、Solr 2、Nutch 3、Grub 4、Heri原创 2012-03-28 20:48:41 · 622 阅读 · 0 评论 -
2、构建索引
索引过程主要操作步骤:1、将原始文档转换成文本2、分析文本3、将分析好的文本保存至索引中基本索引demo package com.lucene;import java.io.IOException;import org.apache.lucene.analysis.WhitespaceAnalyzer;import org.apache.lucene.do原创 2012-03-28 23:23:52 · 561 阅读 · 0 评论
分享