数据降维与划分实战-优快云博客

本文介绍了使用Python的scikit-learn库进行数据降维和划分的方法，包括特征选择、主成分分析（PCA）、数据集划分等关键步骤，并展示了如何加载和预处理Iris、新闻组和波士顿房价数据集。

数据降维：

def var():
    """
    特征选择-删除低方差的特征
    :return: None
    """
    var = VarianceThreshold(threshold=1.0)

    data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])

    print(data)
    return None


def pca():
    """
    主成分分析进行特征降维
    :return: None
    """
    pca = PCA(n_components=0.9)

    data = pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])

    print(data)

    return None

数据划分，转换器和估计器：

from sklearn.datasets import load_iris, fetch_20newsgroups, load_boston
from sklearn.model_selection import train_test_split, GridSearchCV

li = load_iris()

print("获取特征值")
print(li.data)
print("目标值")
print(li.target)
print(li.DESCR)

注意返回值, 训练集 train  x_train, y_train        测试集  test   x_test, y_test
x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)

print("训练集特征值和目标值：", x_train, y_train)
print("测试集特征值和目标值：", x_test, y_test)

news = fetch_20newsgroups(subset='all')

print(news.data)
print(news.target)

lb = load_boston()

print("获取特征值")
print(lb.data)
print("目标值")
print(lb.target)
print(lb.DESCR)

机器学习基础算法2