
大数据hadoop
miner_zhu
这个作者很懒,什么都没留下…
展开
-
kmeans算法spark实战
1.标准kmeans算法 kmeans算法是实际中最常用的聚类算法,没有之一。kmeans算法的原理简单,实现起来不是很复杂,实际中使用的效果一般也不错,所以深受广大人民群众的喜爱。 kmeans算法的原理介绍方面的paper多如牛毛,而且理解起来确实也不是很复杂,这里使用wiki上的版本: 已知观测集(x1,x2,⋯,xn)(x1,x2,⋯,xn),其中每个观测都是一个dd维实矢量,kme...转载 2018-07-23 16:28:01 · 841 阅读 · 0 评论 -
大数据入门(一)
大数据入门 hadoop HDFS YARN SPARK hadoop hadoop生态圈包括以下各个组成部分: HDFS:用于分布式文件存储,切分成块,多副本存于多台机器。 YARN:用于资源管理和调度,job scheduling & cluster mangment Zookeeper:各个框架的管理和协调 Hive:使系统支持SQL语句 ooize:工作流 p...转载 2018-07-19 11:16:19 · 7390 阅读 · 0 评论