
mahout
文章平均质量分 81
codemosi
hadoop hive hbase mahout storm spark kafka flume,等连载中,做个爱分享的人。
干一件事,干好一件事!
QQ :1606588828
展开
-
02 机器学习算法库Mahout - 协同过滤算法实现推荐功能
(原文地址:http://blog.youkuaiyun.com/codemosi/article/category/2777041,转载麻烦带上原文地址。hadoop hive hbase mahout storm spark kafka flume,等连载中,做个爱分享的人)1 那么问题又来了 ???? 如何实现一个推荐系统? 1 : 基于内容的推荐,比如用户原创 2014-12-16 16:15:49 · 1168 阅读 · 0 评论 -
Aprior算法简化算法——FP-Tree思想与实现(转)
一.假设数据集:项的集合: I (A,B,C,D,E,F,G,H…Z)交易数据库:D (001,002,003…007)TIDItem1Item2Item3Item4001ABC 002BC转载 2015-02-12 10:21:21 · 919 阅读 · 0 评论 -
Aprior算法简化算法——FP-Tree思想与实现(转载的)
在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概念。设事务数据库为:转载 2015-02-12 10:22:40 · 684 阅读 · 0 评论 -
Fuzzykmeans集群算法(cluster-reuters)
2014年2月14日刘 小飞发表回复原创文章,转载请注明: 转载自慢慢的回味本文链接地址: Fuzzykmeans集群算法(cluster-reuters)理论分析集群中心点计算1 随机从待分类的向量中选出20个作为20个集群的中心。2 对所有的点,计算其和每个中心的距离,得到点归属于每个集群的概率。3 重新对每个集群计算新的转载 2014-12-18 09:33:42 · 1059 阅读 · 0 评论 -
Canopy集群算法(org.apache.mahout.clustering.canopy.CanopyDriver)(转载)
2014年2月14日刘 小飞发表回复原创文章,转载请注明: 转载自慢慢的回味本文链接地址: Canopy集群算法(org.apache.mahout.clustering.canopy.CanopyDriver)理论分析集群中心点计算1 选择T1和T2,T1>T2。其中T1为弱归属距离,T2为强归属距离。2 对每个点进行到中心点的转载 2014-12-18 09:32:49 · 590 阅读 · 0 评论 -
贝叶斯分类(classify-20newsgroups)
2014年1月23日刘 小飞发表回复原创文章,转载请注明: 转载自慢慢的回味本文链接地址: 贝叶斯分类(classify-20newsgroups)一 理论分析Tackling the Poor Assumptions of Naive Bayes Text Classifiers贝叶斯的多项式模型如下公式。表示一个文档由一系列单词构转载 2014-12-18 09:35:24 · 2243 阅读 · 0 评论 -
kmeans集群算法(cluster-reuters)
2014年1月26日刘 小飞发表回复原创文章,转载请注明: 转载自慢慢的回味本文链接地址: kmeans集群算法(cluster-reuters)理论分析集群中心点计算1 随机从待分类的向量中选出20个作为20个集群的中心。2 对所有的点,计算其和每个中心的距离,距离最小者为当前点的集群归属。3 重新对每个集群计算新的中心,并转载 2014-12-18 09:34:27 · 1225 阅读 · 0 评论 -
01 机器学习算法库Mahout mahout概念和支持的算法库
1 研究mahout之前要想给mahout定位好,他是hadoop生态圈里做机器学习的子系统,提供了多种数据挖掘的算法。 数据挖掘是从海量数据中挖掘出有用的商业价值,如客户分类,新闻分类等。挖掘类型分为,聚类,分类,预测,关联。4种类型的挖掘任务。数据挖掘的过程 原始数据 --》 抽取特征向量 --》 训练模型 -》评估模型 -》 最终模型。 mah原创 2014-12-17 08:55:38 · 1299 阅读 · 0 评论 -
Parallel-ALS推荐算法(factorize-movielens-1M)(转载)
2014年1月24日刘 小飞发表回复原创文章,转载请注明: 转载自慢慢的回味本文链接地址: Parallel-ALS推荐算法(factorize-movielens-1M)一 理论分析Large-scale Parallel Collaborative Filtering for the Netflix Prize设表示为user和m转载 2014-12-18 09:24:24 · 1808 阅读 · 0 评论 -
mahout 频繁模式代码样板
频繁模式挖掘,mahout的实现是fpgrowth算法。贴样板马克一下。/** * 关联规则挖掘实现 * 李国忠 */public final class PatternFinder extends AbstractJob { private static final Logger log = LoggerFactory.getLogger(PatternFind原创 2015-02-12 16:27:49 · 816 阅读 · 0 评论