
Machine Learning
run_xiao2000
这个作者很懒,什么都没留下…
展开
-
利用混合马尔可夫模型对用户搜索行为进行聚类
最近一直做用户使用搜索引擎行为模式聚类的工作,开始尝试用K-means,效果非常不好,用户Session中的动作之间有较强 的关联,这种基于距离的聚类无法体现这种关系。继而,转向基于模型的聚类方法,而马尔可夫模型及隐马模型是对这种时间 序列建模的很好工具,因此尝试了下混合马尔可夫模型:认为每一个Session序列是有一个马尔可夫模型产生的,而模型的选 择又遵循一定的概率分布...2010-07-19 15:44:52 · 286 阅读 · 0 评论 -
mahout之1-Canopy聚类
1.Canopy聚类Canopy聚类是一种简单、快速、但不太准确的聚类方法。该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。while(没有标记的数据点){ 选择一个没有强标记的数据点p 把p看作一个新Canopy c的中心 离p距离<T1的所有点都认为在c中,给这些点做上弱标记 离p距离<T2的所有点都认为在c...2010-07-01 10:31:19 · 124 阅读 · 0 评论 -
mahout之2-Kmeans聚类
2.Kmeans聚类Kmeans算法思想也比较简单:可见http://baike.baidu.com/view/3447609.htm首先从n个数据对象选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重...原创 2010-07-02 08:53:45 · 139 阅读 · 0 评论 -
mahout之3-mean shift聚类
3.Mean Shift聚类 Mean Shift聚类原理(1).欧式空间X中,有一个有限点的集合S。K是一个flat核,即 简单说来,K标记x是否在以原点为圆心,半径为lamda的球体内。 (2).在x处的样本均值表示为 即在以...2010-07-05 09:11:01 · 183 阅读 · 0 评论 -
在IPad上整理了GBDT的笔记
晚上闲来无聊,趟床上用IPad整理了GBDT原理的笔记,在IPad上输入真是件痛苦的事情。 最近一直在考虑能否用MapReduce实现GBDT算法,大体思路有了,但还不够清晰。 ...原创 2011-04-03 13:59:07 · 125 阅读 · 0 评论 -
R中几种随机分布函数
高斯分布 rnorm(n, mean=0, sd=1)指数分布 rexp(n, rate=1)gama分布 rgamma(n, shape, scale=1)泊松分布 rpois(n, lambda)Weibull分布 rweibull(n, shape, scale=1)Cauchy分布 rcauchy(n, location=0, scale...原创 2011-11-10 09:44:59 · 1937 阅读 · 0 评论 -
R学习随笔记录
函数:tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)对向量x进行分组处理;分组规则由参数INDEX指定,INDEX是个factor类型,长度与向量x一致,指定x成员的类别;FUN为处理函数lm(formula, data, subset, weights, na.action, method = "qr", mo...原创 2011-11-15 11:03:34 · 215 阅读 · 0 评论 -
deepnet: deep learning toolkit in R
前段农闲时间,用R实现了些neural network和deep learning相关的算法,把这些代码做了个package叫deepnet,而且已经上传到CRAN上了。有兴趣的同学可以安装玩玩(R中执行命令:install.packages("deepnet")).package介绍文档:http://cran.r-project.org/web/packages/deepnet/index...原创 2014-03-20 23:00:25 · 588 阅读 · 0 评论