
相似性计算
贾公子
talk is cheap,show me the code
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
皮尔逊相关度
在进行影片相似度计算的时候,有的人对于影片的评分习惯偏低,有的人习惯偏高,皮尔逊方法可以修正“夸大分值”的情况。 如果某人总是倾向于给出比另一个人更高的分值,而二者的分值又始终保持一致,则他们也会存在很高的相关性。# recommendations.py# 返回p1和p2的相关系数def sim_pearson(prefs,p1,p2): # 得到双方都曾评价过的物品列表 si原创 2017-09-29 17:37:44 · 604 阅读 · 0 评论 -
gensim 中文文本相似度计算
# -*- coding: utf-8 -*-import jiebaimport loggingfrom gensim import corpora, models, similaritiesfrom collections import defaultdictlogging.basicConfig(format='%(asctime)s : %(levelname)s : %(messa原创 2017-12-04 21:07:21 · 3524 阅读 · 0 评论 -
gensim 英文文本相似度
# -*- coding: utf-8 -*-"""对英文的处理"""import loggingfrom gensim import models, similarities, corporafrom collections import defaultdictimport os# 日志输出logging.basicConfig(format='%(asctime)s : %(le原创 2017-12-04 21:04:58 · 5234 阅读 · 5 评论 -
simhash的原理
转自:https://blog.youkuaiyun.com/madujin/article/details/53152619 原理:simhash是一种局部敏感hash。我们都知道什么是hash。那什么叫局部敏感呢,假定A、B具有一定的相似性,在hash之后,仍然能保持这种相似性,就称之为局部敏感hash。在上文中,我们得到一个文档的关键词,取得一篇文章关键词集合,又会降低对比效率,我们可以通过h...转载 2018-05-24 18:05:27 · 483 阅读 · 0 评论