query 的停用词和词干分析
停用词比较简单,就是一些简单的单词,如to,for等词。但是单这些单词在一些特殊的组合中的时候是不能去除的。
词干分析:就是把一些单词的名词复数、形容词归一化的简单的名称。但是这种也有特殊情况,有的是不能简单的归一化的。这些词的复数或者ing形式一般会表示一些特殊的意义。
拼写纠错:拼写纠错一般的方法就是通过编辑距离来的。不过对于英文来说有一些规则:如果首字母很少修改;单词的长度不变。
当拼写纠错可能找到多种可能的时候,通过频率降序排列。把可能性大的放在最前面。
停用词比较简单,就是一些简单的单词,如to,for等词。但是单这些单词在一些特殊的组合中的时候是不能去除的。
词干分析:就是把一些单词的名词复数、形容词归一化的简单的名称。但是这种也有特殊情况,有的是不能简单的归一化的。这些词的复数或者ing形式一般会表示一些特殊的意义。
拼写纠错:拼写纠错一般的方法就是通过编辑距离来的。不过对于英文来说有一些规则:如果首字母很少修改;单词的长度不变。
当拼写纠错可能找到多种可能的时候,通过频率降序排列。把可能性大的放在最前面。
本文介绍了文本检索中关键的预处理技术,包括停用词过滤、词干分析及拼写纠错。停用词过滤用于去除常见但无实际意义的词汇;词干分析则将词汇还原为其基本形式;而拼写纠错利用编辑距离等方法纠正用户输入错误。
9277

被折叠的 条评论
为什么被折叠?



