Tantivy项目中预分词文本处理技术详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00106/article/details/148392200

Tantivy项目中预分词文本处理技术详解

tantivy Tantivy is a full-text search engine library inspired by Apache Lucene and written in Rust 项目地址: https://gitcode.com/gh_mirrors/ta/tantivy

前言

在全文检索领域，文本分词是一个核心环节。Tantivy作为一款高性能的Rust搜索引擎库，提供了灵活的文本处理能力。本文将深入探讨Tantivy中预分词文本(Pre-tokenized text)的使用场景和实现方法，帮助开发者理解如何利用外部工具生成的分词结果进行索引和搜索。

什么是预分词文本

预分词文本是指已经由外部工具处理过的文本数据，这些数据不仅包含原始文本内容，还包含了分词后的结果信息。在Tantivy中，这种数据结构通过PreTokenizedString类型来表示，它包含两个主要部分：

text: 原始文本字符串
tokens: 分词后的结果向量

预分词的优势

保留原始分词结果：避免重复分词，确保索引与原始分词一致
支持特殊分词需求：当需要保留特定格式或专业术语时特别有用
提高处理效率：对于已经分词的文本可以跳过分词阶段
精确匹配控制：避免搜索引擎自动分词带来的不确定性

核心实现解析

1. 预分词处理函数

示例中展示了如何将普通文本转换为预分词格式：

fn pre_tokenize_text(text: &str) -> Vec<Token> {
    let mut tokenizer = SimpleTokenizer::default();
    let mut token_stream = tokenizer.token_stream(text);
    let mut tokens = vec![];
    while token_stream.advance() {
        tokens.push(token_stream.token().clone());
    }
    tokens
}

这个函数使用Tantivy的SimpleTokenizer对输入文本进行分词，生成Token对象数组。每个Token包含以下信息：

offset_from/offset_to: 标记在原始文本中的位置
position: 在分词序列中的位置
text: 分词文本内容
position_length: 位置长度(用于同义词等情况)

2. 创建预分词文档

创建文档时可以直接使用PreTokenizedString：

let title_tok = PreTokenizedString {
    text: String::from(title_text),
    tokens: pre_tokenize_text(title_text),
};

let old_man_doc = doc!(title => title_tok, body => body_tok);

3. JSON格式导入

Tantivy支持直接从JSON格式导入预分词文本：

let short_man_json = r#"{
    "title":[{
        "text":"The Old Man",
        "tokens":[
            {"offset_from":0,"offset_to":3,"position":0,"text":"The","position_length":1},
            {"offset_from":4,"offset_to":7,"position":1,"text":"Old","position_length":1},
            {"offset_from":8,"offset_to":11,"position":2,"text":"Man","position_length":1}
        ]
    }]
}"#;

let short_man_doc = TantivyDocument::parse_json(&schema, short_man_json)?;

这种格式特别适合从其他系统导入已经处理好的分词数据。