python sklearn数据集及分析方法
sklearn库
数据集
小数据集:
数据信名称 | 调用方式 | 适用算法 | 数据规模 |
---|---|---|---|
波士顿房价数据集 | load_boston() | 回归 | 506*13 |
鸢尾花数据集 | load_iris() | 分类 | 150*4 |
糖尿病数据集 | load_diabetes() | 回归 | 442*10 |
手写数字数据集 | load_digits() | 分类 | 5620*64 |
大数据集:
数据信名称 | 调用方式 | 适用算法 | 数据规模 |
---|---|---|---|
Olivetti脸部图像数据集 | fetch_olivetti_faces() | 降维 | 4006464 |
新闻分类数据集 | fetch_20newsgroups() | 分类 | - |
带标签的人脸数据集 | fetch_lfw_people() | 分类、降维 | - |
路透社新闻语料数据集 | fetch_revl() | 分类 | 804414*47236 |
数据提取
波士顿房价数据集,回归问题
数据集包含506组数据,每条数据包含房至以及房屋周围的详细信息
城镇犯罪率 | 一氧化氮浓度 | 住宅平均房间数 | 到中心区域的加权距离 | 平均价格 |
---|
数据加载
from sklearn.datasets.base import load_boston
boston