22、数据挖掘与分析实战:从聚类到热点分析

数据挖掘与分析实战:从聚类到热点分析

1. 聚类分析

聚类分析是将数据对象分组为多个类或簇的过程,使得同一簇中的对象具有较高的相似度,而不同簇中的对象具有较高的相异度。常见的聚类算法有 k-means 聚类、层次聚类和 DBSCAN 聚类等。

1.1 k-means 聚类

k-means 聚类是一种基于划分的聚类算法,其基本思想是通过迭代的方式将数据点分配到不同的簇中,并更新簇的中心,直到簇的中心不再发生变化或达到最大迭代次数。以下是实现 k-means 聚类的具体步骤:
1. 加载数据 :使用 pandas 读取 Iris 数据集。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score
from scipy.spatial.distance import cdist

iris = pd.read_csv('iris_data.csv', header=None)
iris.columns = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm', 'species']
  1. 分离特征和标签 :将特征和标签分离,以便进行无监督学习。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值