
数据挖掘
文章平均质量分 69
hxxiaopei
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘之lsh minhash simhash
在项目中碰到这样的问题:互联网用户每天会访问很多的网页,假设两个用户访问过相同的网页,说明两个用户相似,相同的网页越多,用户相似度越高,这就是典型的CF中的user-based推荐算法。算法的原理很简单,只要两两计算用户的相似性,针对每个用户,获取最相似的K个用户即可。但是在实际的工程上,假定用户规模在亿的规模N,计算复杂度为N*N,即使是分布式,也是非常可怕的复杂度。原创 2012-09-14 00:51:56 · 19774 阅读 · 1 评论 -
推荐决策 对比user-based 和item-based推荐算法
from: http://www.hxxiaopei.com/?p=138最近在看项亮同学的推荐系统实践,整理一下思路。推荐系统,整体上有三种方式:user->user->item, 推荐与其相同兴趣的用户喜欢的item,user-baseduser->item->item, 推荐与其喜欢的item相似的item,item-baseduser->item-feature->原创 2012-06-27 12:40:15 · 21449 阅读 · 1 评论 -
阅读resyschina推荐引擎文章感受三
21.兴趣图谱和社交图谱的结合,利用社交数据信息,进行推荐,可以解决冷启动问题22.基于历史浏览数据和用户反馈数据的分析和计算是互联网新闻、网络广告等领域新商业模式的23.关联推荐,属于公共行为的推荐,和稳定的群体兴趣有关系,一个人的兴趣相对来讲是稳定的24.无觅网,相当于提供一个推荐引擎,各个网站均可接入,扩大网站的流量,浏览器推荐引擎也是这个样子,通过第三方方式,将互联网的web关原创 2012-03-19 14:41:21 · 7367 阅读 · 0 评论 -
阅读resyschina推荐引擎文章感受一
1.推荐目的在于帮助用户做决策,买到更合适的东西,而促销的目的在于销售商品2.推荐帮助用户找到感兴趣但是没有想到的东西serendipity,惊喜3.首页上位置对系统的结果有重大影响,4.推荐系统和搜索的区别在于,推荐系统不需要用户进行搜索,但是需要获取用户行为5.推荐的重点转移到信息的挖掘和利用上面,比如听音乐的时间,专辑,艺术家、类别,更多的强调context信息,用户家庭,时原创 2012-03-13 11:13:19 · 8633 阅读 · 0 评论 -
【推荐系统】 评价
推荐系统的评价方法很重要,准确提供用户的需求,尽量全的cover item,看长尾理论,目前长尾市场极具商业价值,而具体实现其价值的方法,主要依赖推荐系统。具体方式1.准确度推荐系统最常用的方式针对评分预测系统,最小误差或者均方误差针对Top-N推荐系统,recall and precision2.覆盖度推荐系统很重要任务就是解决长尾问题,能打多大比例的原创 2012-03-02 11:33:53 · 2257 阅读 · 2 评论 -
[推荐系统]分类
参照xlvector的博士论文,分类方式有二1.基于数据的分类2.基于模型的分类目前商业上使用较广泛的,是基于数据的分类的一些算法,主要包括:1.协同过滤仅仅利用用户的行为信息,基于用户的历史兴趣进行推荐,包括itemCF, userCF。2.基于内容的过滤利用用户兴趣和item之间的相似度,基于Data内容上的相似性进行推荐,比如电影的导演、主演等原创 2012-03-02 11:30:51 · 2707 阅读 · 0 评论 -
聚类算法
转自:http://baike.baidu.com/view/69222.htm聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。 聚类的用途是很广泛的。在商业上,聚类可以帮助市场分析人员从消费者数据库中区转载 2009-03-07 15:24:00 · 3470 阅读 · 0 评论 -
LSH(local sensitive hash)详解
LSH local sensitive hash,来自于 mining of massive datasets包括lsh的详细介绍以及针对不同距离函数的LSH。作用:解决的问题:相似性计算,避免两两计算,提供一组Hash函数,将相似的pair放在一个bucket里面,降低计算规模。约束:Hash函数的要求:1.相似的pair比不相似的paire更容易成为candidate原创 2012-09-17 18:08:02 · 23507 阅读 · 1 评论