目的是为了检测出采集数据中的异常值。所以很明确,这种情况下的簇为2:正常数据和异常数据两大类
1、安装相应的库
import matplotlib.pyplot as plt # 用于可视化
from sklearn.cluster import KMeans # 用于聚类
import pandas as pd # 用于读取文件
2、实现聚类
2.1 读取数据并可视化
# 读取本地数据文件
df = pd.read_excel("../data/output3.xls", header=0)
本次实验选择温度和CO2作为二维数据,其中温度含有异常数据。
plt.scatter(df["光照"], df["CO2"], linewidths=1, alpha=0.8)
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签v
plt.xlabel("光照")
plt.ylabel("CO2")
plt.grid(color="#95a5a6", linestyle="--", linewidth=1