PCA降维小Demo

最新推荐文章于 2024-05-29 08:31:30 发布

原创最新推荐文章于 2024-05-29 08:31:30 发布 · 210 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习

机器学习专栏收录该内容

38 篇文章

订阅专栏

该博客介绍了如何结合`sklearn`库的`Pipeline`、`FeatureUnion`、`GridSearchCV`、`PCA`和`SelectKBest`等工具，对鸢尾花数据集进行特征选择和降维，然后使用SVM分类器进行分类。通过网格搜索找到最佳的PCA组件数、特征选择的个数和SVM的C参数，以提高模型性能。

from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest

iris = load_iris()

X, y = iris.data, iris.target

# This dataset is way too high-dimensional. Better do PCA:
pca = PCA(n_components=2)

# Maybe some original features were good, too?
selection = SelectKBest(k=1)

# Build estimator from PCA and Univariate selection:
combined_features = FeatureUnion([("pca", pca), ("univ_select", selection)])

# Use combined features to transform dataset:
X_features = combined_features.fit(X, y).transform(X)
print("Combined space has", X_features.shape[1], "features")

svm = SVC(kernel="rbf")

# Do grid search over k, n_components and C:
pipeline = Pipeline([("features", combined_features), ("svm", svm)])
param_grid = dict(features__pca__n_components=[1, 2, 3],
                  features__univ_select__k=[1, 2],
                  svm__C=[0.1, 1, 10])

grid_search = GridSearchCV(pipeline, param_grid=param_grid, verbose=10)
grid_search.fit(X, y)
print(grid_search.best_estimator_)
model = grid_search.best_estimator_
print(model.predict(X))