文章目录
菜鸡镇贴!!!

scikit-learn 简要介绍
Scikit learn是一个开源的机器学习库,支持有监督和无监督的学习。它还提供了用于模型拟合、数据预处理、模型选择、模型评估和许多其他实用程序的各种工具。
scikit-learn 安装
本文仅提供Linux下的安装指南 其他平台可参照官网指南安装
Operating System :Linux
Packager : conda
使用Anaconda或miniconda安装程序或miniorge安装程序安装conda(其中任何安装程序都不需要管理员权限)。
然后运行:
conda create -n sklearn-env -c conda-forge scikit-learn
conda activate sklearn-env
scikit-learn 数据集介绍
scikit-learn内置了一些标准数据集,例如用于分类的鸢尾花和数字数据集以及用于回归的糖尿病数据集。该软件包还提供了一些助手,用于获取机器学习社区常用的较大数据集,以对来自“真实世界”的数据进行算法基准测试。此外它还具有一些人工数据生成器。
简而言之 scikit-learn提供了三种数据集供你来学习机器学习:测试数据集、真实数据集和数据集生成器。
数据集如下:
| Category | Dataset |
|---|---|
| Toy datasets | Iris plants dataset |
| Diabetes dataset | |
| Optical recognition of handwritten digits dataset | |
| Linnerrud dataset | |
| Wine recognition dataset | |
| Breast cancer wisconsin (diagnostic) dataset | |
| Real world datasets | The Olivetti faces dataset |
| The 20 newsgroups text dataset | |
| The Labeled Faces in the Wild face recognition dataset | |
| Forest covertypes | |
| RCV1 dataset | |
| Kddcup 99 dataset | |
| California Housing dataset | |
| Species distribution dataset | |
| Generated datasets | Generators for classification and clustering |
| Generators for regression | |
| Generators for manifold learning | |
| Generators for decomposition | |
| Loading other datasets | |
| Sample images | |
| Datasets in svmlight / libsvm format | |
| Downloading datasets from the openml.org repository | |
| Loading from external datasets |
数据集API介绍
General dataset API. 根据所需的数据集类型,有三种主要类型的数据集接口可用于获取数据集。
**The dataset loaders. **它们可用于加载小型标准数据集,如Toy数据集部分所述。
**The dataset fetchers. **它们可用于下载和加载更大的数据集,如真实世界数据集部分所述。
Loaders
datasets.clear_data_home([data_home]) 删除数据主缓存的所有内容。
datasets.dump_svmlight_file(X, y, f, *[, ...]) 以svmlight/libsvm文件格式转储数据集。
datasets.fetch_20newsgroups(*[, data_home, ...]) 从20个新闻组数据集中加载文件名和数据(分类)。
datasets.fetch_20newsgroups_vectorized(*[, ...]
scikit-learn简介、安装与数据集介绍

最低0.47元/天 解锁文章
1330

被折叠的 条评论
为什么被折叠?



