词项词典及倒排记录表

本文介绍了信息检索中词项处理的步骤,包括文档单元选择、字符序列生成、分词、去除停用词、词项归一化、词干还原和词形归并。讨论了词典构建中的问题,如二元词索引和位置信息在处理短语查询中的应用。词干还原和词形归并旨在减少词的变形,提高搜索效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

词项字典获取相关操作:文档单元选择、字符序列生成、词条化、去除停用词、词项归一化、词干还原和词形归并。

词项词典获取:

1. 文档单元选择:存在索引粒度的问题,这里存在一个正确率和召回率的权衡问题,如果索引粒度太小,那么由于词项散布在多个细粒度文档中,我们就很可能错过那些重要的段落,也就是说此时正确率高二召回率低;反之,如果索引粒度太大,我们就很可能找到很多不相关的匹配结果,及正确率低而召回率高。

2. 字符序列生成:对于纯文本文件,首先由判断出文档的编码方式(ASCLL 、UTF-8等编码),然后就可以将字节流转换为字符流;对于二进制文件,首先应该判断文档的格式,即是.doc文档还是.zip文档或者是其他格式的文档,然后采用合适的编码转换方式还原出字符序列。

3. 词条化:词条化是将字符序列拆分成一系列子序列的过程,其中每一个子序列称为一个词条,此过程中也包括剔除一些特殊字符,如标点符号等,词条类是相同词条构成的集合,一个词项指的是在信息检索系统词典中所包含的某个可能经过归一化处理的词条类。词条化过程中存在很多棘手的问题,比如说对英文单词来说,如撇号既可以代表所有关系也可代表缩写;词条化过程与语言本身密切相关;特定领域有一些特定的词条需要被识别成词项;连字符‘-’存在多种不同的用法;识别短语等。

汉语词条化即分词方法:

(1)分词的方法包括基于词典的最大匹配法(采用启发式规则来进行未定义词的识别)和基于机器学习序列模型的方法(如隐马尔可夫模型或条件随机场模型)等,后 者需要在手工切分好的语料上进行训练;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值