机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)
本例演示如何使用特征集聚(feature agglomeration
)将相似的特征合并到一起。所谓“特征集聚”,是指迭代地将相似的特征合并到一起,类似于聚类,但这里聚的是特征而不是样本。本例使用的数据集是手写数字识别数据集。
实例详解
首先,导入必需的库。
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets, cluster
from sklearn.feature_extraction.image import grid_to_graph
导入手写数字数据集digits
, 它是一个三维数组(1797, 8, 8). 即,有1797个手写数字,每个数字由8*8的像素矩阵组成。在这里,我们使用numpy库的reshape函数将它变成(1797, 64)的二维数组。
digits = datasets.load_digits()
images = digits.images
X = np.reshape(images, (len(images), -1))
connectivity = grid_to_graph(*images[0].shape)
使用cluster模块的FeatureAgglomeration
方法进行特征集聚。在这里,指定聚类数为32,每个特征的邻居特征的连接形式由参数connectivity
指定,它是一个矩阵。然后,在reshape的数组X上拟合、变换。