
mahout
追寻北极
没有月亮的晚上,我们相信星光。没有路可走的时候,我们相信远方.--
展开
-
数据挖掘精通到入门
做数据挖掘也有些年头了,写这篇文一方面是写篇文,给有个朋友作为数据挖掘方面的参考,另一方面也是有抛砖引玉之意,希望能够和一些大牛交流,相互促进,让大家见笑了。入门:数据挖掘入门的书籍,中文的大体有这些:Jiawei Han的《数据挖掘概念与技术》Ian H. Witten / Eibe Frank的《数据挖掘 实用机器学习技术》Tom Mitchell的《机器学习》TO转载 2014-08-19 19:24:18 · 1284 阅读 · 0 评论 -
推荐系统中的常用算法
原文出处: liyonghui 的博客 欢迎分享原创到伯乐头条在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐基 于内容的推荐(Content-based Reco转载 2015-01-21 08:48:46 · 1060 阅读 · 0 评论 -
用Maven构建Mahout项目
前言基于Hadoop的项目,不管是MapReduce开发,还是Mahout的开发都是在一个复杂的编程环境中开发。Java的环境问题,是困扰着每个程序员的噩梦。Java程序员,不仅要会写Java程序,还要会调linux,会配hadoop,启动hadoop,还要会自己运维。所以,新手想玩起Hadoop真不是件简单的事。不过,我们可以尽可能的简化环境问题,让程序员只关注于写程序。特别是像算法程序转载 2015-01-21 08:48:28 · 888 阅读 · 0 评论 -
Mahout系列之----kmeans 聚类
Kmeans是最经典的聚类算法之一,它的优美简单、快速高效被广泛使用。Kmeans算法描述输入:簇的数目k;包含n个对象的数据集D。输出:k个簇的集合。方法:从D中任意选择k个对象作为初始簇中心;repeat;根据簇中对象的均值,将每个对象指派到最相似的簇;更新簇均值,即计算每个簇中对象的均值;计算准则函数;until准则函数不在发生变化。Kmeans 算法的优缺点转载 2015-01-21 08:46:54 · 1241 阅读 · 0 评论 -
推荐系统的常用算法概述
前一阵子准备毕业论文的开题,一直在看推荐系统相关的论文。对推荐系统有了一个更加清晰和理性的认识,也对推荐算法有了深入了解。借此机会总结分享一下,大家多多拍砖。推荐系统的出现 随着互联网的发展,人们正处于一个信息爆炸的时代。相比于过去的信息匮乏,面对现阶段海量的信息数据,对信息的筛选和过滤成为了衡量一个系统好坏的重要指标。一个具有良好用户体验的系统,会将海量信息进行筛选、过滤,将用户最关注转载 2015-01-21 08:49:39 · 750 阅读 · 0 评论 -
Mahout构建图书推荐系统
前言本文是Mahout实现推荐系统的又一案例,用Mahout构建图书推荐系统。与之前的两篇文章,思路上面类似,侧重点在于图书的属性如何利用。本文的数据在自于Amazon网站,由爬虫抓取获得。目录项目背景需求分析数据说明算法模型程序开发1. 项目背景Amazon是最早的电子商务网站之一,以网上图书起家,最后发展成为音像,电子消费品,游戏,生活用品等的综合性电子商务平台。Ama转载 2015-01-21 08:47:49 · 2356 阅读 · 0 评论 -
Mahout fp-growth
Apriori算法的一个主要瓶颈在于,为了获得较长的频繁模式,需要生成大量的候选短频繁模式。FP-Growth算法是针对这个瓶颈提出来的全新的一种算法模式。目前,在数据挖掘领域,Apriori和FP-Growth算法的引用次数均位列三甲。参看论文《Mining Frequence PatternsWithout Candidate Generation》 。FP的全称是Frequent Pat转载 2015-01-21 08:47:22 · 866 阅读 · 0 评论 -
推荐系统之协同过滤概述
转载学习,谢谢博主分享!http://www.vanjor.org/blog/2011/05/rs-collaborative-filtering/协同过滤(Collaborative Filtering)是现今推荐系统中应用最为成熟的一个推荐算法系类,它利用兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的资讯,个人透过合作的机制给予资讯相当程度的回应(如评分)并记录下来以达到过转载 2015-01-21 08:50:03 · 2818 阅读 · 0 评论 -
FP-Tree算法的实现
在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概念。设事务数据库为:转载 2015-01-21 08:45:37 · 1094 阅读 · 0 评论 -
腾讯实时推荐系统介绍
参考 :http://lamda.nju.edu.cn/conf/icml14w/Tencent.pdf原创 2015-01-15 14:04:04 · 2130 阅读 · 0 评论 -
数据挖掘算法汇总
参考:http://download.youkuaiyun.com/detail/huangxia73/7059709 http://www.doc88.com/p-7344376788072.html原创 2014-08-19 10:44:53 · 919 阅读 · 0 评论 -
自己动手写一个推荐系统
废话:最近朋友在学习推荐系统相关,说是实现完整的推荐系统,于是我们三不之一会有一些讨论和推导,想想索性整理出来。在文中主要以工程中做推荐系统的流程着手,穿插一些经验之谈,并对于推荐系统的算法的学术界最新的研究进展和流派作一些介绍。当然由于我做推荐系统之时还年幼,可能有很多偏颇甚至错误的见解,就当抛砖引玉,还请各位大大指点。Reading lists虽然很多人觉得作为AI的分转载 2014-08-19 19:16:44 · 955 阅读 · 0 评论 -
机器学习的四种方式
学习机器学习有很多方法,大多数人选择从理论开始。如果你是个程序员,那么你已经掌握了把问题拆分成相应组成部分及设计小项目原型的能力,这些能力能帮助你学习新的技术、类库和方法。这些对任何一个职业程序员来说都是重要的能力,现在它们也能用在初学机器学习上。要想有效地学习机器学习你必须学习相关理论,但是你可以利用你的兴趣及对知识的渴望,来激励你从实际例子学起,然后再步入对算法的数学理解。通过本文转载 2014-08-17 17:43:24 · 1655 阅读 · 0 评论 -
趣文:如何向外行解释机器学习和数据挖掘
买点芒果去假设有一天你准备去买点芒果。有个小贩摆放了一车。你可以一个一个挑,然后小贩根据你挑的芒果的斤两来算钱(在印度的典型情况)。显然,你想挑最甜最熟的芒果对吧(因为小贩是按芒果的重量来算钱,而不是按芒果的品质来算钱的)。可是你准备怎么挑呢?你记得奶奶和你说过, 嫩黄的芒果比暗黄的甜。 所以你有了一个简单的判断标准:只挑嫩黄的芒果。你检查各个芒果的颜色, 挑了些嫩黄的,买单,走人,爽不?转载 2014-08-17 20:14:29 · 598 阅读 · 0 评论 -
KNN算法
上次说道分类和预测的过程:1、将“训练算法”应用在“训练集”上,得到“模型”。2、用测试集测试“模型”,甄别出误差小于预期的最优模型。3、把模型应用到目标数据上,得到结果。其中“训练算法”可以有很多种,KNN就是其中最简单的一种。适用场景已经有一个数据集合了,包含了分类属性。根据未知元组的属性判断属于哪个分类。用人话举个例子:已经记录了大量的动物信息转载 2014-08-17 22:05:41 · 811 阅读 · 0 评论 -
基于 Apache Mahout 构建社会化推荐引擎
参考文章 IBM«基于 Apache Mahout 构建社会化推荐引擎», 文章的链接: http://www.ibm.com/developerworks/cn/java/j-lo-mahout/安装条件:1) JDK,使用1.6版本。 MyEclipse /Eclipse2) Maven,使用2.0.11版本或以上。3) Apache Mahout,使用0.5版本。转载 2014-08-18 09:43:24 · 798 阅读 · 0 评论 -
如果你是人人网的流量分析产品经理
刚看了《如果你是人人网的流量分析产品经理,如何解释 7 月 1 日到 7 月 7 日人人网的总流量以每日 5% 的幅度下滑?》这篇博客http://piaolin.sinaapp.com/?p=28原博主觉得“在一瞬间给出直觉的答案:因为人人网主要的用户是学生,而7月初可能是考试或者放暑假回家的日子。这样的产品经理难能可贵。”其实我觉得能在一瞬间给出直觉的答案并不是那么的可贵 因为有的时候转载 2014-08-19 19:22:32 · 1070 阅读 · 0 评论 -
协同推荐SlopeOne 算法
Slope One 推荐算法是 2005 年在香港的 WWW 会议上提出来的。可以Google检索会议论文集看原著,不过还是建议看原著之前,看完本文!Slope One是一个基于Item的个性化推荐算法,股票上有个说法是平均值可以掩盖一切异常波动,所以股票上的各个技术指标都是不同时间段的平均值的曲线图或者柱状图等。同样的,Slope one算法也认为:平均值也可以代替某两个未知个体之间的打转载 2015-10-30 15:27:09 · 1468 阅读 · 0 评论