算法原理:

自实现过程详细代码:
import numpy as np
import matplotlib.pyplot as plt
def build_data():
"""
准备数据
:return:准备好的数据
"""
data_list = []
# 加载数据
with open("./test.txt") as f:
# 将所有的元素读成一个列表
lines = f.readlines()
# 循环对每一行元素进行单独处理
for line in lines:
# print(line)
# 去除line 前后的空白字符
line_obj = line.strip().split('\t')
# print(line_obj)
# print(type(line_obj))
# print("*"*20)
# 把 line_obj 里面的每一个元素 转化为float,追加到一列表中
data_list.append([float(line_obj[0]), float(line_obj[1])])
# 列表嵌套列表的数据 ,每一个列表元素是原来的每一行元素
# print(data_list)
# 将列表嵌套列表转化为二维数组
data_array = np.array(data_list)
# print(data_array)
# 将二维数组 转化为矩阵
data = np.mat(data_array)
# print(data)
# print(type(data))
return data
def center_init(data, k):
"""
初始化聚类中心
:param data: 所有的样本数据
:param k: 聚类的类别数目
:return: 聚类中心
"""
# 随机在 data中挑选4行 作为初始化的聚类中心
# 获取data 的列数
columns_num = data.shape[1]
# 获取data 的行数
index_num = data.shape[0]
# 先初始化一个全为0 的中心,然后,后续替换里面的值
center = np.zeros(shape=(k, columns_num))
# 每次初始化一个聚类中心,需要循环初始化k次
for i in range(k):
# 随机在80行里面选一个下标
# np.random.uniform() --->默认生成【0,1) 小数,可以更改最小值与最大值
r = int(np.random.uniform(0, index_num))
center[i, :] = data[r, :]
return center
def distance(v1, v2):
"""
计算点1 跟点2 的距离
:param v1: 点1
:param v2: 点2
:return: 距离
"""
dist = np.sqrt(np.sum(np.power((v1 - v2), 2)))
return dist
def k_means_owns(data, k):
"""
自实现聚类算法
:param data: 所有的样本数据
:param k: 聚类的类别数目
:return: 聚类中