文章目录
菜鸡镇贴!!!
scikit-learn 简要介绍
Scikit learn是一个开源的机器学习库,支持有监督和无监督的学习。它还提供了用于模型拟合、数据预处理、模型选择、模型评估和许多其他实用程序的各种工具。
scikit-learn 安装
本文仅提供Linux下的安装指南 其他平台可参照官网指南安装
Operating System :Linux
Packager : conda
使用Anaconda或miniconda安装程序或miniorge安装程序安装conda(其中任何安装程序都不需要管理员权限)。
然后运行:
conda create -n sklearn-env -c conda-forge scikit-learn
conda activate sklearn-env
scikit-learn 数据集介绍
scikit-learn内置了一些标准数据集,例如用于分类的鸢尾花和数字数据集以及用于回归的糖尿病数据集。该软件包还提供了一些助手,用于获取机器学习社区常用的较大数据集,以对来自“真实世界”的数据进行算法基准测试。此外它还具有一些人工数据生成器。
简而言之 scikit-learn提供了三种数据集供你来学习机器学习:测试数据集、真实数据集和数据集生成器。
数据集如下:
Category | Dataset |
---|---|
Toy datasets | Iris plants dataset |
Diabetes dataset | |
Optical recognition of handwritten digits dataset | |
Linnerrud dataset | |
Wine recognition dataset | |
Breast cancer wisconsin (diagnostic) dataset | |
Real world datasets | The Olivetti faces dataset |
The 20 newsgroups text dataset | |
The Labeled Faces in the Wild face recognition dataset | |
Forest covertypes | |
RCV1 dataset | |
Kddcup 99 dataset | |
California Housing dataset | |
Species distribution dataset | |
Generated datasets | Generators for classification and clustering |
Generators for regression | |
Generators for manifold learning | |
Generators for decomposition | |
Loading other datasets | |
Sample images | |
Datasets in svmlight / libsvm format | |
Downloading datasets from the openml.org repository | |
Loading from external datasets |
数据集API介绍
General dataset API. 根据所需的数据集类型,有三种主要类型的数据集接口可用于获取数据集。
**The dataset loaders. **它们可用于加载小型标准数据集,如Toy数据集部分所述。
**The dataset fetchers. **它们可用于下载和加载更大的数据集,如真实世界数据集部分所述。
Loaders
datasets.clear_data_home([data_home]) 删除数据主缓存的所有内容。
datasets.dump_svmlight_file(X, y, f, *[, ...]) 以svmlight/libsvm文件格式转储数据集。
datasets.fetch_20newsgroups(*[, data_home, ...]) 从20个新闻组数据集中加载文件名和数据(分类)。
datasets.fetch_20newsgroups_vectorized(*[, ...