利用2分K均值算法对出租车地理坐标进行聚类

最新推荐文章于 2024-08-13 15:51:56 发布

原创

最新推荐文章于 2024-08-13 15:51:56 发布 · 1.7k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #python #numpy

本文介绍了一种使用2分K均值算法对出租车地理坐标进行高效聚类的方法。通过Python和numpy库实现，该算法能够优化传统K均值的性能，提高大规模数据处理的效率。

待处理数据结构类似如下：

39.894330	116.447680
40.016880	116.462120
39.889290	116.380930
39.917070	116.411380
39.830730	116.385380
39.931440	116.144310
39.934130	116.375550
39.905730	116.437740
39.919210	116.247520
39.807350	116.392500
39.979710	116.321450
39.945460	116.262660
39.913790	116.288990
39.915040	116.538690
39.907110	116.478820
39.780620	116.429860
39.909920	116.500270
39.973810	116.412050
40.158620	116.415050
39.831710	116.285880
39.947570	116.386780
39.945730	116.366110
39.989210	116.395050
39.883140	116.447220

代码如下：

from numpy import *

def loadDataSet(filename):
    fr = open(filename)
    positionMat = []
    for line in fr.readlines():
        currentLine = line.strip().split('\t')
        filterLine = map(float,currentLine)
        positionMat.append(filterLine)
    positionMat = mat(positionMat)
    return positionMat

def distElud(VecA, VecB):
    return sqrt(sum(powe