基于K均值聚类的葡萄酒品种判别

特别注意:主要思路、程序和分析过程来源于:https://www.kaggle.com/xvivancos/tutorial-clustering-wines-with-k-means。本文在此基础上做了部分改动。

摘要
本文基于K均值聚类方法,首先利用使得组间平方和较大、组内平方和较小的方法确定聚类簇K,再对葡萄酒数据进行聚类,得到误判率为3.37%。为描述不同类别葡萄酒的特点,利用主成分分析,探究影响分类的因素,发现类别1与非类别1的差异主要是脯氨酸含量的高低。 关键词:K均值聚类;葡萄酒;主成分分析
ABSTRACT
This article trys to classify distinguished wine based on the method of k-means clustering. First of all, to make sure the number of clustering, we compare the sum of squares between groups and the sum of squares within groups small, choosing the large one and the small one jointly. With the selected k, we make the cluster upon the data of wine, and the misjudgment rate is only 3.37%. Furthermore, for the purpose of describing the characteristics of different wine, and we find that one of the most distinguished factor is the concentration of proline by the principal component analysis. Key words: K-means cluster; wine; principal component analysis; discriminant analysis

一. K均值聚类原理简介

1.1 K均值聚类的主要步骤如下[1]:

1)选择n个数值型变量参与聚类分析,并选择聚类数为k
2)由系统选择k个样品作为聚类的种子
3)按照到这些类重心的距离最小的原则把所有的样品分类到各类重心所在的类中,完成初始分类
4)重新计算各类的重心(即现分的各子类中所包含的样品的均值)
5)重复第三和第四步,直到达到迭代要求为止

1.2 迭代要求可以是:

1) 没有(或者小于某个数值的)对象被重新分配给不同的类
2) 没有(或者小于某个数值的)类中心发生变化
3) 误差平方和(SSE)达到局部最小
4) 达到指定的迭代次数
此外,K均值算法必须在平均值有意义的情况下才能使用,因此不适用于分类变量。需要给定聚类数目,并且对异常数据和数据噪声比较敏感。

二. 数据简介及预处理

2.1 数据简介

本文所选取的数据wines 下载于https://archive.ics.uci.edu/ml/datasets/wine(简称 UCI),其提供者是Stefan Aeberhard。wines数据集提供了178条关于葡萄酒信息,这些信息是对意大利同一地区三种不同品种葡萄酒的化

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值