
spark
文章平均质量分 57
爱生活的程序猿
这个作者很懒,什么都没留下…
展开
-
scala实现Kmeans算法
好久没有写博客了,虽然并没有多少人看。kmeans的思想大家自己去查找,我就不一一叙述了。kmeans之所以不能达到全局最优,是因为他的cost函数是一个非凸的函数,找不到最低点那个位置。kmeans的初始位置很重要,本片博客采取的就是最基本的随机生成初始中心点(我很好奇,有些人的代码就是随机生成n和点,都不带判重的),比较 好的生成算法是kmeans++,保证初始点间的距离最远。这是我初学sca原创 2016-12-15 11:57:09 · 3853 阅读 · 0 评论 -
spark下实现并行kmeans算法
相比于本人上篇博客中scala实现的串行kmeans而已,这次的优点体现在并行的计算,并同时运行多组kmeans算法(选取不同的初值),选择其中效果最好的作为结果输出作为一个初学者,这次的编程让我初步的体会到了函数式编程的魅力,让我见识到了并行计算,学习的道路还有很长啊package zzlimport org.apache.spark.mllib.linalg.Vectorim原创 2016-12-22 19:33:45 · 4506 阅读 · 3 评论 -
spark官方文档
保存一下 http://www.apache.wiki/pages/viewpage.action?pageId=2883613原创 2016-12-26 20:39:06 · 533 阅读 · 0 评论 -
spark mlib中的随机梯度下降算法
线性回归是利用被称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析一般来说有最小二乘法与梯度下降算法可以把最小二乘法看作是数学家的算法,梯度下降算法看作是程序员的算法(毕竟是搜索嘛)算法具体的定义就不叙述了梯度下降算法就是让损失函数的值降导最小(有可能是局部最优解)梯度下降算法大致有两种一,批量梯度下降算法计算所有的数据,算出导数原创 2017-01-12 22:47:03 · 1298 阅读 · 1 评论