【lucene】自定义tokenfilter 自带payload

最新推荐文章于 2025-11-23 22:15:59 发布

原创

最新推荐文章于 2025-11-23 22:15:59 发布 · 632 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#lucene

1. 自定义 `TokenFilter` 把词性（POS）作为 payload 贴到每个 token；

2. 建索引时启用 `with_positions_offsets_payloads`；

3. 查询阶段用 `TermVectors` API 把 payload 原样取出来。

整段代码零依赖（除了 lucene-core、lucene-analysis-common），直接 `main` 方法即可跑。

---

1. Maven 依赖（Lucene 9.8）

```xml

<groupId>org.apache.lucene</groupId>

<artifactId>lucene-core</artifactId>

</dependency>

<groupId>org.apache.lucene</groupId>

<artifactId>lucene-analysis-common</artifactId>

</dependency>

```

---

2. 自定义 TokenFilter：POS-payload

```java

import org.apache.lucene.analysis.*;

import org.apache.lucene.analysis.tokenattributes.*;

import java.io.IOException;

/**

* 把每个词后面简单拼一个词性标记当 payload。

* （真实场景可用 OpenNLP 的 POSTagger，这里为了演示用硬编码）

public final class PosPayloadFilter extends TokenF

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

risc123456

关注关注

24
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Lucene 自定义词库

Love-Coding

03-11

424

【代码】Lucene 自定义词库。

Lucene分词实现---Analyzer、TokenStream（Token、Tokenizer、Tokenfilter）

单向街的夏天

04-16

2383

一分清概念： 1 TokenStream是用来走访Token的iterator(迭代器) , Tokenizer继承自TokenStream，其输入为Reader 。 TokenFilter继承自TokenStream,其作用是用来完成对TokenStream的过滤操作，譬如去StopWords，将Token变为小

参与评论您还未登录，请先登录后发表或查看评论

Lucene 4.x Payload Searcher

u011513049的专栏

01-16

606

分词器 public class DelimitedPayloadTokenFilter extends TokenFilter{ public static final char DEFAULT_DELIMITER = '|'; private final char delimiter; private final CharTermAttribute termAtt = addAtt

Lucene 评分机制二 Payload

weixin_30817749的博客

03-27

234

这里使用的Lucene4.7.0和Lucene3.X稍有不同有下面三段内容,我想对船一系列的搜索进行加分　　bike car jeep truck bus boat 　　train car ship boat van subway 　　car plane taxi boat vessel railway 定义自定义的MyAnalyzer,实现对字段的有效载荷进行赋值 ...

【lucene】AttributeSource概述

risc123456的博客

07-25

386

`AttributeSource` 是 Lucene 的“零拷贝属性仓库”，让 TokenStream 链里的所有组件共享同一份 Attribute 实例，实现高效、低 GC 的流式分词。`OffsetAttribute` `OffsetAttributeImpl` 起始/结束偏移。`TypeAttribute` `TypeAttributeImpl` token 类型。整个链共享 `termAtt` / `offAtt`，无需拷贝。3. 使用示例（自定义 TokenFilter）

Lucene5学习之评分Scoring

嘿↗你的益达

04-08

344

评分机制是Lucene的核心部分之一。Lucene默认是按照评分机制对每个Document进行打分，然后在返回结果中按照得分进行降序排序。内部的打分机制是通过Query,Weight,Scorer,Similarity这几个协作完成的。想要根据自己的业务对默认的评分机制进行干预来影响最终的索引文档的评分，那你必须首先对Lucene的评分公式要了解： coord(q,...

Elasticsearch plugin开发之 自定义payload_score query

黎明你好的专栏

02-15

553

ES学习笔记之 自定义payload_score query函数当需要将term的权重存储到索引中时，需要保存成payload的格式：源代码：https://github.com/limingnihao/elasticsearch-reference/tree/master/Examples 官方文档：https://www.elastic.co/guide/en/elasticsearch/reference/7.10/analysis-delimited-payload-tokenfilter.h

Lucene代码分析11

qq_45878116的博客

11-25

156

2021SC@SDUSC 今天继续对Lucene中的Analysis进行分析阅读的DotLucene版本是1.9.RC1 1、TokenFilter也是一种TokenStream 来对Tokenizer后的Token作过滤，其使用的是装饰者模式。 public abstract class TokenFilter extends TokenStream { protected final TokenStream input; protected TokenFilt..

lucene竞价排名机制

a639735331的博客

12-24

457

lucene自定义排序实现

05-24

因此，了解如何在 Lucene 中实现自定义排序是非常关键的。在这个话题中，我们将深入探讨如何根据特定的业务需求对搜索结果进行定制排序。首先，我们要明白 Lucene 默认的排序机制。默认情况下，Lucene 搜索结果是...

lucene 自定义评分

05-01

然而，Lucene 的默认评分机制可能无法满足所有场景下的需求，这就需要我们对其进行自定义评分来实现特定的权重分配。本文将深入探讨如何在 Lucene 中实现自定义评分，以及它对提高搜索质量的重要性。在 Lucene 中...

Java高性能搜索引擎与Lucene实战分享：大规模文本索引、检索与优化经验

2501_94180088的博客

11-23

234

分段索引与批量写入保证高吞吐量分词器与合并策略优化提升查询性能多线程与缓存机制保证高并发响应搜索统计与热词分析辅助业务决策监控与告警机制确保系统稳定运行Java 结合 Lucene，通过高性能索引设计、批量写入和多线程查询，为教育、金融和电商系统提供了稳定、高效且可扩展的文本搜索解决方案。

【四旋翼飞行器】【模拟悬链机器人的动态】设计和控制由两个四旋翼飞行器推动的缆绳研究（Matlab代码实现）

11-26

【四旋翼飞行器】【模拟悬链机器人的动态】设计和控制由两个四旋翼飞行器推动的缆绳研究（Matlab代码实现）内容概要：本文围绕“设计和控制由两个四旋翼飞行器推动的缆绳系统”展开研究，通过建立动力学模型并利用Matlab进行仿真，模拟类似悬链机器人的动态行为。研究重点在于多无人机协同控制、缆绳张力分析及系统稳定性控制，结合非线性动力学与控制理论，实现对柔性连接负载的精确操控。文中提供了完整的Matlab代码实现，便于复现实验结果，适用于复杂空中作业任务的仿真验证。; 适合人群：具备一定控制理论基础和Matlab编程能力的研究生、科研人员及从事无人机协同控制、机器人系统开发的工程技术人员。; 使用场景及目标：①研究多无人机协同搬运与柔性负载控制；②掌握缆绳系统动力学建模与仿真方法；③应用于空中机器人、工业吊装、救援运输等实际场景的控制系统设计与优化；阅读建议：建议结合Matlab代码逐模块分析，重点关注动力学建模、控制律设计与仿真结果验证部分，可进一步扩展至更多无人机协同或复杂环境干扰下的鲁棒性研究。

基于遗传算法的梯级水电站群联合火电厂优化调度研究（Python代码实现）

11-26

基于遗传算法的梯级水电站群联合火电厂优化调度研究（Python代码实现）内容概要：本文研究了基于遗传算法的梯级水电站群联合火电厂优化调度问题，旨在通过智能优化方法实现电力系统中水火电资源的协调调度，提升能源利用效率与调度经济性。文中构建了考虑水电站间水力联系、水库库容约束、机组出力特性及火电厂运行成本的综合优化模型，并采用遗传算法进行求解，给出了完整的Python代码实现。该方法能够有效处理复杂的非线性、多约束、多变量调度问题，具备良好的收敛性和实

无人机基于改进粒子群算法的无人机路径规划研究[和遗传算法、粒子群算法进行比较]（Matlab代码实现）

最新发布

11-26

【无人机】基于改进粒子群算法的无人机路径规划研究[和遗传算法、粒子群算法进行比较]（Matlab代码实现）内容概要：本文围绕基于改进粒子群算法的无人机路径规划展开研究，重点探讨了在复杂环境中利用改进粒子群算法（PSO）实现无人机三维路径规划的方法，并将其与遗传算法（GA）、标准粒子群算法等传统优化算法进行对比分析。研究内容涵盖路径规划的多目标优化、避障策略、航路点约束以及算法收敛性和寻优能力的评估，所有实验均通过Matlab代码实现，提供了完整的仿真验证流程。文章还提到了多种智能优化算法在无人机路径规划中的应用比较，突出了改进PSO在收敛速度和全局寻优方面的优势。; 适合人群：具备一定Matlab编程基础和优化算法知识的研究生、科研人员及从事无人机路径规划、智能优化算法研究的相关技术人员。; 使用场景及目标：①用于无人机在复杂地形或动态环境下的三维路径规划仿真研究；②比较不同智能优化算法（如PSO、GA、蚁群算法、RRT等）在路径规划中的性能差异；③为多目标优化问题提供算法选型和改进思路。; 阅读建议：建议读者结合文中提供的Matlab代码进行实践操作，重点关注算法的参数设置、适应度函数设计及路径约束处理方式，同时可参考文中提到的多种算法对比思路，拓展到其他智能优化算法的研究与改进中。

图像重建使用FDK的三维谢普洛根幻影重建（Matlab代码实现）

11-26

【图像重建】使用FDK的三维谢普洛根幻影重建（Matlab代码实现）内容概要：本文介绍了使用FDK算法在Matlab环境中实现三维谢普洛根幻影（Shepp-Logan phantom）图像重建的技术方法，重点展示了图像重建过程中的关键步骤与代码实现。该资源属于一系列图像处理与医学成像技术研究的一部分，涵盖了从投影数据生成到反投影重建的完整流程，帮助读者理解CT图像重建的基本原理与FDK算法的应用细节。; 适合人群：具备一定Matlab编程基础，从事医学图像处理、计算机断层成像（CT）或相关领域研究的研究生、科研人员及工程技术人员。; 使用场景及目标：①学习和掌握FDK算法在三维图像重建中的具体实现；②理解Shepp-Logan幻影模型在仿真成像中的作用；③为医学图像重建、算法验证与教学演示提供可运行的Matlab代码参考；阅读建议：建议结合Matlab代码逐行调试，理解投影（正弦图）生成与滤波反投影的每一步操作，同时可延伸学习其他重建算法（如FBP

【大数据搜索技术】Elasticsearch7.8安装部署与集群管理：基于CentOS的分布式搜索引擎配置及性能优化实践

11-26

内容概要：本文详细介绍了Elasticsearch 7.8的安装部署及核心功能应用，涵盖环境准备、解压配置、启动优化、集群搭建、分片管理、健康监控等内容，并结合Kibana和Logstash构建完整的ELK日志分析体系。文章还讲解了中文分词器IK的使用、快照备份与恢复机制，以及如何通过Filebeat采集Nginx等服务的日志数据并进行可视化展示，系统性地呈现了Elasticsearch在实际生产环境中的部署与运维流程。; 适合人群：具备Linux基础和一定运维经验的技术人员，尤其是从事日志分析、搜索系统搭建或中间件维护的开发与运维工程师；适合初学者入门Elasticsearch及相关生态组件。; 使用场景及目标：①掌握Elasticsearch单节点与集群环境的安装与配置；②理解索引、分片、副本等核心概念并应用于实际业务；③构建基于Filebeat+Logstash+ES+Kibana的日志采集与分析链路；④实现数据的备份恢复与中文检索功能；阅读建议：建议按照文档顺序逐步操作，重点关注配置参数调优与常见错误处理（如权限、虚拟内存限制），动手实践集群部署与日志采集流程，结合Kibana进行数据验证与可视化分析，加深对ELK生态协同工作的理解。

commonapi-dbus-demo

11-26

commonapi-dbus-demo

Lucene自定义排序实现详解

"本文将探讨如何在Java Lucene中实现自定义排序，以适应特定的应用场景。Lucene的内置排序方式可能无法满足所有需求，因此理解如何自定义排序至关重要。我们将深入研究SortComparatorSource和ScoreDocComparator接口...