Lucene同义词检索同时精确提取自定义关键词(Lucene版本5.3.0)

本文针对Lucene 5.3.0,介绍了如何精确提取自定义关键词以及实现同义词检索。通过示例代码展示了同义词分词类的定义,并通过索引文件和结果展示验证了功能的实现,包括过滤特定词汇和搜索同义词的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

此博文针对的是Lucene版本5.3.0,若您的Lucene版本为3.X,请移步这里http://write.blog.youkuaiyun.com/postedit/78291868(只提取关键词,未包含同义词检索)


本篇文章包含两个功能

1、精确提取自定义关键词

2、同义词检索与提取


废话不多说,直接撸代码


定义同义词分词类如下

package com.daelly.sample.lucene.analyzer.synonyms;

import java.io.File;
import java.io.IOException;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.HashMap;
import java.util.Map;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.synonym.SynonymFilterFactory;
import org.apache.lucene.analysis.util.ClasspathResourceLoader;
import org.apache.lucene.analysis.util.FilesystemResourceLoader;
import org.wltea.analyzer.lucene.IKTokenizer;

public class SynonymsAnalyzer extends Analyzer {
	
	private final String synonymsPath;
	
	public SynonymsAnalyzer(String synonymsPath) {
		if(synonymsPath==null || synonymsPath.isEmpty()) {
			throw new IllegalArgumentException("synonymsPath must be provided!");
		}
		this.synonymsPath = synonymsPath;
	}

	@Override
	protected TokenStreamComponents createComponents(String fieldName) {
		SynonymFilterFactory factory = null;
		try {
			factory = getSynonymFilterFactory();
		} catch (IOException e) {
			e.printStackTrace();
		}
		Tokenizer tokenizer = new IKTokenizer(true);
		if(factory != null) {
			TokenStream tokenStream = factory.create(tokenizer);
			return new TokenStreamComponents(tokenizer,tokenStream);
		}
		return new TokenStreamComponents(tokenizer);
	}
	
	private SynonymFilterFactory getSynonymFilterFactory() throws IOException {
		if(synonymsPath.contains("classpath:")) {
			String path = synonymsPath.replace("classpath:", "");
			Map args = new HashMap<String,String>();
			args.put("synonyms", path);
			SynonymFilterFactory factory = new Synonym
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值