[scikit-learn] 第一章 初识scikit-learn及内置数据集介绍

菜鸡镇贴!!!

请添加图片描述

scikit-learn 简要介绍

Scikit learn是一个开源的机器学习库,支持有监督和无监督的学习。它还提供了用于模型拟合、数据预处理、模型选择、模型评估和许多其他实用程序的各种工具。

scikit-learn 安装

​ 本文仅提供Linux下的安装指南 其他平台可参照官网指南安装

Operating System :Linux

Packager : conda

​ 使用Anaconda或miniconda安装程序或miniorge安装程序安装conda(其中任何安装程序都不需要管理员权限)。
然后运行:

conda create -n sklearn-env -c conda-forge scikit-learn
conda activate sklearn-env

scikit-learn 数据集介绍

​ scikit-learn内置了一些标准数据集,例如用于分类的鸢尾花和数字数据集以及用于回归的糖尿病数据集。该软件包还提供了一些助手,用于获取机器学习社区常用的较大数据集,以对来自“真实世界”的数据进行算法基准测试。此外它还具有一些人工数据生成器。

​ 简而言之 scikit-learn提供了三种数据集供你来学习机器学习:测试数据集、真实数据集和数据集生成器。

数据集如下:

Category Dataset
Toy datasets Iris plants dataset
Diabetes dataset
Optical recognition of handwritten digits dataset
Linnerrud dataset
Wine recognition dataset
Breast cancer wisconsin (diagnostic) dataset
Real world datasets The Olivetti faces dataset
The 20 newsgroups text dataset
The Labeled Faces in the Wild face recognition dataset
Forest covertypes
RCV1 dataset
Kddcup 99 dataset
California Housing dataset
Species distribution dataset
Generated datasets Generators for classification and clustering
Generators for regression
Generators for manifold learning
Generators for decomposition
Loading other datasets
Sample images
Datasets in svmlight / libsvm format
Downloading datasets from the openml.org repository
Loading from external datasets

数据集API介绍

General dataset API. 根据所需的数据集类型,有三种主要类型的数据集接口可用于获取数据集。

**The dataset loaders. **它们可用于加载小型标准数据集,如Toy数据集部分所述。

**The dataset fetchers. **它们可用于下载和加载更大的数据集,如真实世界数据集部分所述。

Loaders

datasets.clear_data_home([data_home])		删除数据主缓存的所有内容。

datasets.dump_svmlight_file(X, y, f, *[, ...])		以svmlight/libsvm文件格式转储数据集。

datasets.fetch_20newsgroups(*[, data_home, ...])20个新闻组数据集中加载文件名和数据(分类)。

datasets.fetch_20newsgroups_vectorized(*[, ...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值