信息检索
文章平均质量分 92
網上邻居
就读于某985,不正经程序员一枚,乱搞图形学,信息检索,机器学习
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
信息检索中的特征空间变化
一、背景及概述 对于一篇文章或者是一段文字信息,我们想要获取其中的关键信息,如果是中文,我们首先要对其进行分词的预处理,中文分词有很多开源的技术,如python就有结巴模块用来做中文分词,网上有很多博客详细讲解,这边不是我们这部分工作的重点内容,在这里就不详细讲解了。(关于python中结巴分词)通过对连续的语义的分词我们会得到由多个独立词语构成的信息,这里就需要合适的信息检索模型,来判断两...原创 2018-05-05 01:00:48 · 703 阅读 · 0 评论 -
简单垂直搜索引擎入门(java+Lucene)
一、垂直搜索引擎介绍垂直搜索引擎是搜索引擎的一种,是搜索引擎的细分和延伸,可以简单地理解为在某个领域的搜索引擎,例如在你的所有文档中搜索相关内容,在你的项目文件中搜索带有“test”字眼的文档。二、Lucene介绍...原创 2018-05-18 22:36:26 · 4155 阅读 · 0 评论 -
Lucene实现中文分词
在之前的文章中已经介绍过Lucene了,这里就不多做介绍。一、中文分词的原理中文分词是将一个汉字序列切分为一个一个单独的词。分词就是讲连续的字序列安装一定的规范重新组合成词序列的过程。随着机器学习的发展,很多分词的方法都已经被科研人员实现,也越来越精确。分词的精确性一定程度上影响了搜索引擎的查全率与查准率,当然这是在你的中文分词运用在搜索引擎的前提之下。分词的算法可以分为:基于字符串匹配的分词方法...原创 2018-05-20 20:23:57 · 1210 阅读 · 0 评论 -
基于内容的推荐算法之关键词提取
基于内容的推荐算法是比较早期的易理解的推荐算法,其主要思想就是:我们首先给根据信息的特征给信息一些属性(可以称之为“标签”)。对于一篇文章,或者一段话它的属性就可以理解成它的关键词,这篇文章的主讲内容就是文章的关键词提取。一、TF-IDF方法TF(Term Frequency)词频,直观上指的是某个词在文章中的出现次数,为了避免文章长短带来的影响,对于不同的文章,词频的计算应该归一化。文章的标签应...原创 2018-06-13 20:01:20 · 5750 阅读 · 1 评论
分享