机器学习之K均值聚类算法

主函数,结果显示
if __name__ == '__main__':
    inputfile = 'data/consumption_data.xls'
    threshold = 2 # 离散点阈值
    k = 3 # 聚类类别
    b = 500 # 聚类最大循环次数
    data, data_zs = get_data_zs(inputfile)
    model, r, k = model_data_zs(data, k, b)
    norm = make_norm(model, k)
    draw_discrete_point(threshold)
    print('All Done')

在这里插入图片描述

获取数据,数据标准化
from sklearn.cluster import KMeans
import matplotlib.pyplot as mp


def get_data_zs(inputfile):
    data = pd.read_excel(inputfile, index_col='Id', encoding='gb18030')
    data_zs = 1.0 * (data - data.mean()) / data.std()
    return data, data_zs
训练模型
def model_data_zs(data, k, b):
    model = KMeans(n_clusters=k, n_jobs=4, max_iter=b)
    model.fit(data_zs)

    # 标准化数据及其类别
    r = pd.concat(
        [data_zs, pd.Series(model.labels_, index=data.index)], axis=1)
    # print(r.head())
    # 每个样本对应的类别
    r.columns = list(data.columns) + [u'聚类类别']  # 重命名表头
    return model, r, k
离散点检测
def make_norm(model, k):
    norm = []
    for i in range(k):
        norm_tmp = r[['R', 'F', 'M']][
            r[u'聚类类别'] == i] - model.cluster_centers_[i]
        norm_tmp = norm_tmp.apply(np.linalg.norm, axis=1)  # 求出绝对距离
        norm.append(norm_tmp / norm_tmp.median())  # 求相对距离并添加
    norm = pd.concat(norm)
    return norm
画图
def draw_discrete_point(threshold):
    mp.rcParams['font.sans-serif'] = ['SimHei']
    mp.rcParams['axes.unicode_minus'] = False
    norm[norm <= threshold].plot(style='go')  # 正常点

    discrete_points = norm[norm > threshold]  # 离散点阈值
    discrete_points.plot(style='rs')
    # print(discrete_points)

    for i in range(len(discrete_points)):  # 离群点做标记
        id = discrete_points.index[i]
        n = discrete_points.iloc[i]
        mp.annotate('(%s,%0.2f)' % (id, n), xy=(id, n), xytext=(id, n))
    mp.xlabel(r'编号')
    mp.ylabel(r'相对距离')
    mp.show()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值