【Petuum 源码解析】之K-Means分布式算法源码

最新推荐文章于 2023-12-12 17:06:43 发布

原创

最新推荐文章于 2023-12-12 17:06:43 发布 · 1.6k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#分布式 #算法 #机器学习 #聚类 #Petuum

【前言】

由于最近在看分布式机器学习相关的东西，所以希望能把学习心得记录在这里。本系列主要介绍CMU的开源分布式框架Petuum源码的学习。由于本人水平很菜，希望大家不吝赐教，共同学习。
本文主要记录我在学习K-Means源码当中的收获和疑问。

【正文部分】

1.Petuum

首先看看Petuum的组成部分，主要包括Bösen（a bounded-asynchronous distributed key-value store）和Strads（ a dynamic ML update scheduler.），详细的说明可以参考[官方文档][1]

2.关于K-Means可以参考Wiki的介绍：

https://en.wikipedia.org/wiki/K-means_clustering
本文中对KMeans的解读，需要弄清的问题是：
1.KMeans算法在Petuum系统是是如何实现并行的？
2.参数是如何在参数服务器（Parameter Server）与Worker之间进行更新和分配的？
3.在效率方面有哪些提升？
4.有没有数学理论上的保证？

3. 源码解读：

3.1 代码结构：

K-Means在Petuum中是用C++来实现的，源码位于bosen/app/kmeans目录下，![可以参考该截图](https://img-blog.youkuaiyun.com/20160413170722728)

3.2 核心代码：

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

剑指天大

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

分布式机器学习\分布式KMeans

m0_59082440的博客

10-22

1242

1.分布式机器学习 以线性回归模型的优化为例来展示在分布式机器学习中模型的训练过程。模型表示为：损失函数可以表示为: 利用梯度下降算法进行参数优化，先对损失函数求一阶偏导数，即得到所有样本的梯度的总和，从上述公式可以看出每个样本的对应的梯度为，在第步下的参数的更新：, 由上述计算梯度的公式可知道，优化过程的效率与样本量和参数个数有关，因此如果将梯度计算并行化，优化效率将得到提升。在分布式系统中一般要考虑通信开销和同步开销。以clien...

K-means聚类算法的实现源码+详细步骤

03-14

该文档为数据挖掘中常用的分类算法K-means均值聚类算法，包含源码+详细步骤

1 条评论您还未登录，请先登录后发表或查看评论

[机器学习]K-means原理与源码实现

热门推荐

weixin_40479663的博客

10-08

1万+

K-means算法的主要思想就是以空间中的K个点为中心进行聚类，对最靠近它的对象进行归类。通过迭代的方法不断的更新各聚类中心的值，直到最好的聚类结果。主要步骤：在N个数据中，随机挑选K个数据（也就是最后聚类微K类）做为聚类的初始中心。分别计算每个数据点到这K个中心点的欧式距离，离哪个中心点最近就分配到哪个簇中。重新计算这K个簇数据的坐标均值，将新的均值作为聚类的中心。重复2和3步骤，...

Kmeans源代码

07-10

数据挖掘中kmeans算法matlab代码，适合初学者阅读与应用。

Petuum源码解析

u011860731的专栏

05-08

1914

http://yinxusen.github.io/blog/2014/01/17/petuum-source-code-read-and-initial-test-result/ Petuum: Source Code Read and Initial Test Result JAN 17TH, 2014 这几天为了测好Petuum，花了一点时间看了一下Petu

MapReduce下的k-means算法实验报告广工（附源码）

01-10

在这个实验报告中，学生被要求在MapReduce框架下实现k-means聚类算法。k-means是一种广泛应用的无监督学习方法，用于将数据集分成k个不同的簇，使得每个数据点都尽可能接近其所属簇的中心。 k-means算法的基本步骤...

K-means算法C++实现源码解析

根据给定的文件信息，我们可以推断出这个文件与K-means算法的C++实现相关。K-means是一种广泛使用的聚类算法，用于将数据集中的数据点划分为K个簇。下面是对这个算法及相关源码的知识点详细说明： ### K-means算法...

掌握k-means算法实现：Python源码与文件解析

标题“k-means算法实现”指向了一个关于数据挖掘中聚类分析的核心算法——k-means算法的具体实现。描述中的“有源码，有文件”表明提供了该算法的实现代码，而“kmeans算法大数据源码文件”标签则概括了该文件的...

MATLAB实现的K-means算法源码

此外，在处理大数据问题时，由于K-means算法对内存的需求较大，可能需要采用分布式计算的方法来处理大规模数据集。通过使用并行计算框架如MATLAB的Parallel Computing Toolbox，可以将K-means算法的计算过程分布到多...

Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解

AcceptedLin的博客

08-23

7232

Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解在Hadoop分布式环境下实现K-Means聚类算法的伪代码如下：输入：参数0--存储样本数据的文本文件inputfile；参数1--存储样本数据的SequenceFile文件inputPath；参数2--存储质心数据的SequenceFile文件ce...

k-means源代码

04-26

是python编写的k-means算法，可以进行西瓜书数据集的聚类，以及图片像素点的聚类

Kmeans.zip(K聚类算法源代码)

08-27

3个matlab程序源代码，含有工具箱函数版本与纯手工Kmeans算法源码

分布式LMS算法代码

04-05

在优快云里很少有关于基于分布式结构的自适应滤波算法的案例，导致初学者不理解什么是分布式算法，这个例子详细介绍了模型框架，通俗易懂

分布式MVC-Kmeans算法设计与实现.pdf

08-08

#资源达人分享计划#

KMeans-Implementation

07-13

KMeans-实现这是JAVA中KMeans聚类算法的简单实现。尽管它仅用于学术目的并且是这个小项目的主要原因，但它也显示了以下一些基本用法： Spring IoC 容器的基本用法仅使用依赖注入功能来管理 bean。通过 EasyMock 使用模拟方法通过 JUnit 进行代码覆盖使用标准故障安全 maven 插件方法或 JUnit 类别注释方法实现示例集成测试该项目是在 Eclipse Indigo 上完成的。要导入它，只需克隆存储库并在 Eclipse 上，选择导入/现有 Maven 项目该项目在默认包中有一个 Main 类，它显示了如何调用实现的 KMeans 服务。在文件夹 src/test/resources 中有一个名为 Iris_Sin.csv 的文件供您使用。此外，还有一个名为 KMeans-example.xls 的文件，其中包含将 kmeans

Mahout架构初探及KMeans算法分布式实现的研究

michzel的专栏

12-19

4226

转载自：http://hi.baidu.com/%B3%CF%D5%F7id/blog/item/6863de395f2f963eb8998fc3.html 1. Mahout简介 Apache项目下的开源的基于hadoop分布式系统的数据挖掘工具，mahout源代码由maven项目管理工具管理。 2. $MAHOUT_HOME/bin/mahout

kmeans 源码解析

kui9702的博客

02-24

1122

主要步骤：初始化聚类中心点个数，即k 获得所有标注文件中标注框宽度与长度，长与宽一一对应，并保存起来对保存的所有框的长与宽做kmeans聚类，获得聚类的k个结果，每个结果为一对坐标，分别表示这9个聚类的中心初始化聚类中心点个数，即k 获得所有标注文件中标注框宽度与长度，长与宽一一对应，并保存起来原文链接：https://github.com/qqwweee/keras-yolo3 kmeans.py # 初始化Kmeas，cluster.

分布式kmeans(scala原码实现)

qq_45972323的博客

07-17

854

分布式kmeans

Python手撕kmeans源码