elasticsearch-java api

本文介绍了信息检索领域的核心概念,包括用户需求、查询、文档等,并深入探讨了分词算法的基本原理及其在英文和中文处理上的差异。此外,还讨论了倒排索引的应用以及布尔检索模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

信息检索常用术语:用户需求(UN),查询(Query) 文档(document) 文档集(Crops)文档编号,词条化(将给定的字符序列拆分成一系列子系列的过程,拆分的每个子序列成为一个词条),词项(经过语言学预处理之后的归一化的词条)词项-文档关联矩阵,词项频率(词属性),文档频率(文档属性),倒排记录表(出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息,每个记录称为一个倒排项),通过倒排项可以获知哪些文档包含哪些单词。倒排文件。

信息检索系统IR

1 信息采集

2 整理信息

3 接受查询

分词算法

 {
    "error": {
        "root_cause": [
            {
                "type": "cluster_block_exception",
                "reason": "blocked by: [SERVICE_UNAVAILABLE/1/state not recovered / initialized];"
            }
        ],
        "type": "cluster_block_exception",
        "reason": "blocked by: [SERVICE_UNAVAILABLE/1/state not recovered / initialized];"
    },
    "status": 503
}

英文分词的原理,输入文本、词汇分割、词汇过滤(去除停留词)、词干提取(形态还原)、大小写、结果输出

中文分词,基于词典匹配的分词方法、基于语义理解的分词、基于词频统计的分词

倒排索引

布尔检索模型

 

Lucene字段类型

 

把该字段的内容索引并词条化,但是不保存词向量。如包含

文档的curd,查询,批量操作,统计操作,获取集群信息,索引和集群管理,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值