编程实现之学习向量量化(LVQ)

最新推荐文章于 2025-10-21 11:41:25 发布

原创最新推荐文章于 2025-10-21 11:41:25 发布 · 1.3k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #学习向量量化 #LVQ

本文介绍了一种基于监督的聚类算法LVQ，并使用Python编程实现该算法。LVQ通过利用样本的类别标记来优化聚类效果，实验采用西瓜数据集4.0进行迭代学习，最终可视化了原型向量及分类结果。

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

与k均值算法类似，LVQ试图找到一组原型向量来刻画聚类结构，但是LVQ假设数据样本带有类别标记，学习过程利用样本的这些监督信息来辅助聚类。

因此我的理解是LVQ是基于监督的聚类。

根据周志华老师给出的算法步骤，我用Python编程实现了这一过程。具体代码如下：

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import random

#首先读入数据
midu = []
hantanglv = []
mark = []
df = pd.read_excel('西瓜数据集4.0.xlsx')
for i in df.index.values:
    midu.append(df.ix[i].values[1])
    hantanglv.append(df.ix[i].values[2])
for i in range(8):
    mark.append(1)
for i in range(8, 20):
    mark.append(0)
for i in range(20,30):
    mark.append(1)
    
#按照书上示例，将原型向量个数定义为5 学习率定义为0.1
q = 5
learningRate = 0.1

#随机选出q个数据作为初始原型向量
qIndex = random.sample(range(0,len(midu)), q)
P = []
for i in qIndex:
    P.append([np.array([midu[i], hantanglv[i]]), mark[i]])

#下面开始迭代 假定迭代轮数为400轮
r = 400
i = 0
for i in range(400):
    #从样本集中随机选取一个样本
    j = random.randint(0, len(midu)-1)
    dis = [np.linalg.norm(np.array([midu[j], hantanglv[j]])- p[0]) for p in P]
    #找出最近的原型向量
    minDis = dis.index(min(dis))
    #更新原型向量
    if P[minDis][1] == mark[j]:
        p_ = P[minDis][0]+learningRate*(np.array([midu[j], hantanglv[j]])- P[minDis][0])
    else:
        p_ = P[minDis][0]-learningRate*(np.array([midu[j], hantanglv[j]])- P[minDis][0])
    P[minDis][0] = p_
    
#将结果可视化
co = ['r', 'g', 'b', 'm']
for i in range(q):
    mm = [j[0][0] for j in P]
    hh = [j[0][1] for j in P]
plt.scatter(mm, hh, marker='x')
mm = [midu[i] for i in range(len(mark)) if mark[i] == 1]
hh = [hantanglv[i] for i in range(len(mark)) if mark[i] == 1]
plt.scatter(mm, hh, marker='o')
mm = [midu[i] for i in range(len(mark)) if mark[i] == 0]
hh = [hantanglv[i] for i in range(len(mark)) if mark[i] == 0]
plt.scatter(mm, hh, marker='v')
plt.show()

使用的数据集依旧是西瓜数据集4.0，最终运行结果如下所示：