目录
1. 倒排索引列表可以包含文档的ID、词频TF、位置信息,同时注意倒排索引列表里面的单词是不重复的
2. 分词器的标准化分词的规则是无视大小写、单复数、同义词的

案例一

【提示】第一列是单词ID; 第二列是单词; 第三列是文档编号


总结
倒排索引列表可以包含文档的ID、词频TF、位置信息,同时注意倒排索引列表里面的单词是不重复的!
案例二




【提示】我们可以看到分词器的标准化分词的规则是无视大小写、单复数、同义词的!
本文介绍倒排索引列表的构成要素如文档ID、词频TF及位置信息,并强调列表内单词不重复的特点。此外,还详细阐述了分词器的标准化分词规则,包括忽略大小写、单复数及同义词。
1. 倒排索引列表可以包含文档的ID、词频TF、位置信息,同时注意倒排索引列表里面的单词是不重复的
2. 分词器的标准化分词的规则是无视大小写、单复数、同义词的


【提示】第一列是单词ID; 第二列是单词; 第三列是文档编号


总结
倒排索引列表可以包含文档的ID、词频TF、位置信息,同时注意倒排索引列表里面的单词是不重复的!




【提示】我们可以看到分词器的标准化分词的规则是无视大小写、单复数、同义词的!

被折叠的 条评论
为什么被折叠?