
机器学习
文章平均质量分 72
hxxiaopei
这个作者很懒,什么都没留下…
展开
-
LSH(local sensitive hash)详解
LSH local sensitive hash,来自于 mining of massive datasets包括lsh的详细介绍以及针对不同距离函数的LSH。作用:解决的问题:相似性计算,避免两两计算,提供一组Hash函数,将相似的pair放在一个bucket里面,降低计算规模。约束:Hash函数的要求:1.相似的pair比不相似的paire更容易成为candidate原创 2012-09-17 18:08:02 · 23472 阅读 · 1 评论 -
LDA基本介绍以及LDA源码分析(BLEI)
Blei基本介绍: topic model,之前已经介绍过(http://blog.youkuaiyun.com/hxxiaopei/article/details/7617838)topic model本质上就一个套路,在doc-word user-url user-doc等关系中增加topic层,扩充为2层结构,一方面可以降维,另一方面挖掘深层次的关系,用户doc word user ur原创 2012-09-30 17:49:19 · 33930 阅读 · 5 评论 -
先验概率 后验概率 似然 极大似然估计 极大后验估计 共轭 概念
最近在看LDA,里面涉及到狄利克雷的概念,为了把这个事情搞明白,查了一些相关概率知识,举个例子,掷硬币,伯努利实验 中随机变量x={正面,背面},正面的概率μ为模型参数,假定做了N次试验,Data 中观察序列为X={正面,正面。。。。反面},正面的次数为k,服从二项分布:p(X|μ)∼pk∗(1−P)(N−k)P(X|μ) 则成为似然函数。针对观察到的随机变量(也就是D原创 2012-09-30 16:11:36 · 15170 阅读 · 7 评论 -
[学习笔记]分类算法之朴树贝叶斯
from: http://www.hxxiaopei.com/?p=126我理解朴树贝叶斯法是实现最简单的分类算法,也是非常有效的分类算,工程上容易被接受,很常用,属于生成模型。朴树贝叶斯模型:\{(x_{1},y_{1}),(x_{2},y_{2}).....(x_{N},y_{N})}训练数据,类别集合 ,输入特征向量为x, 表示第i个样本点特征向量的j分量,在后面的计算中原创 2012-06-27 12:34:49 · 10286 阅读 · 0 评论 -
推荐决策 对比user-based 和item-based推荐算法
from: http://www.hxxiaopei.com/?p=138最近在看项亮同学的推荐系统实践,整理一下思路。推荐系统,整体上有三种方式:user->user->item, 推荐与其相同兴趣的用户喜欢的item,user-baseduser->item->item, 推荐与其喜欢的item相似的item,item-baseduser->item-feature->原创 2012-06-27 12:40:15 · 21398 阅读 · 1 评论 -
[学习笔记]分类算法之logistic 回归模型
from: http://www.hxxiaopei.com/?p=117logistic regression是统计学习中经典的分类算法,属于对数线性模型。回归模型:给定一个数据集合(x1,y1)(x2,y2)...(xn,yn),有监督学习构建模型,学习过程就是模型参数θ的学习过程。作为discrimination algorithm,对 P(Y|X;θ )建模,原创 2012-06-01 10:55:52 · 15115 阅读 · 0 评论 -
[学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis)
from: http://www.hxxiaopei.com/?p=71读了著名的【Google News Personalization Scalable Online CF】,提及到针对用户聚类,利用相似用户性信息计算喜欢的news。其中包含min-hash以及plsi,产生了对plsi的兴趣。plsi是model-based 推荐算法,属于topic(aspect) mo原创 2012-05-30 21:09:43 · 68393 阅读 · 2 评论