机器学习
一、Sklearn库标准数据集及基本功能
1、波士顿房价数据集
波士顿房价数据集包含506组数据,每条数据包含房屋以及房屋周围的详细信息。其中包括城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价。因此,波士顿房价数据集能够应用到回归问题上。
使用sklearn.datasets.load_boston即可加载相关数据集
sklearn.datasets.load_boston
重要参数:
return_X_y:表示是否返回target(即价格),默认为False,只返回data(即属性)。
from sklearn.datasets import load_boston
boston = load_boston()
print(boston.data.shape)
from sklearn.datasets import load_boston
data, target = load_boston(return_X_y=True)
print(data.shape)
print(target.shape)
2、鸢尾花数据集
鸢尾花数据集采集的是鸢尾花的测量数据以及其所属的类别。
测量数据包括:萼片长度、萼片宽度、花瓣长度、花瓣宽度。
类别共分为三类:Iris Setosa,Iris Versicolour,Iris Virginica。该数据集可用于多分类问题。
使用sklearn.datasets.load_iris即可加载相关数据集
sklearn

本文介绍了Python机器学习中的无监督学习,重点讲解了Sklearn库的标准数据集,如波士顿房价、鸢尾花和手写数字数据集,以及库的基本功能,包括分类、回归、聚类和降维任务。无监督学习部分深入讨论了聚类算法,如K-Means和DBSCAN,以及降维技术如主成分分析(PCA)和NMF。通过这些无标签数据的学习,探讨了数据分布和关系的发现。
最低0.47元/天 解锁文章
248

被折叠的 条评论
为什么被折叠?



