信息检索
文章平均质量分 84
信息检索课程学习记录
jianglingcode
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
BSBI与索引压缩
目录布尔查询之BSBI与索引压缩代码描述:数据集与代码数据集IdMapInvertedIndexInvertedIndexWriterInvertedIndexIteratorInvertedIndexMapperBSBIIndexsorted_intersectCompressedPostings总结布尔查询之BSBI与索引压缩使用斯坦福大学CS 276 / LING 286: Information Retrieval and Web Search课程的代码框架来实现。代码描述:对文档块逐个原创 2020-11-07 21:43:33 · 2341 阅读 · 4 评论 -
布尔检索之拼写校正(容错检索)
前言在本专栏前一篇布尔检索——短语检索的基础上,实现 k-gram 索引,利用 Jaccard 距离进行初步筛选,结合 Soundex的索引结果, 最后用动态规划算法选择最相似的一个词,给出结果。动态规划算法计算编辑距离# 计算编辑距离 def distan(self, word1, word2): len1 = len(word1) len2 = len(word2) row1 = list(range(0, len1+1))原创 2020-10-23 20:29:58 · 385 阅读 · 1 评论 -
布尔检索——短语检索,含位置索引与双词索引
目录前言一、对文本进行分词二、获取文本文件三、词法分析四、布尔检索类五、调用总结前言此专栏记录信息检索课程的学习。部分代码框架来自温柔的助教小哥哥。Talk is cheap.一、对文本进行分词使用了NLTK工具def get_words(text): text = text.lower() # 全部字符转为小写 words = nltk.word_tokenize(text) # 分词 return words二、获取文本文件给定文本文件目录,获取目录原创 2020-10-14 17:21:55 · 2302 阅读 · 1 评论
分享