
大数据
文章平均质量分 95
kevinjqy
这个作者很懒,什么都没留下…
展开
-
Hadoop Yarn初探
前言经过多年的发展形成了Hadoop1.X生态系统,其结构如下图所示: 其mapReduce的结构如下: 从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 1. 用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 Job Tracker 中,Job Tracker 是 Map-reduce 框架的中心,他需要与集群中的机器定时通信 (heart原创 2017-10-06 15:21:50 · 1175 阅读 · 1 评论 -
mahout学习之聚类(1)——向量的引入与距离测度
聚类的基本概念聚类就是将一个给定的文档集中的相似项目分成不同簇的过程,可以将簇看作一组簇内相似而簇间有别的项目的集合。 对文档集的聚类涉及以下三件事: 1. 一个算法:将文档集阻止到一起的算法 2. 相似性与不相似的概念 3. 停止的条件聚类数据的表示mahout将输入数据以向量的形式保存,在机器学习领域,向量指一个有序的数列,有多个维度,每个维度都有一个值。比如在二维空间,一个坐标就是一个原创 2017-10-03 15:04:00 · 768 阅读 · 0 评论 -
mahout学习之推荐算法
推荐的定义推荐算法可以分为三大类,基于用户的,基于物品的和基于内容的,前两者均属于协同过滤的范畴,仅仅通过用户与物品之间的关系进行推荐,无需了解物品自身的属性。而几乎内容的推荐技术很有用,但是必须与特定领域相结合,比如推荐一本书就必须了解书的属性,作者,颜色,内容等等。但是这些知识无法转移到其他领域,比如基于内容的图书推荐就对推荐哪道菜比较好吃毫无用处。 所有mahout对基于内容的推荐涉及很少。原创 2017-10-02 23:14:55 · 4280 阅读 · 0 评论