
skLearn练习
文章平均质量分 85
skLearn练习
骑着蜗牛ひ追导弹'
鲸落于海,星沉于洼,风隐于密林,蝉鸣漏进夏至。
抖音:51288024251 第七章欢迎您来听歌!
展开
-
【skLearn练习】随机森林调参应用 ---- 乳腺癌数据集
文章目录随机森林调参应用 ---- 乳腺癌数据集Ⅰ.获取数据集Ⅱ.建模、评估精确度Ⅲ.调参 --- n_estimatorsⅣ.细化调参 ---- n_estimatorsⅤ.网格搜索调参• 调整max_depth• 调整max_features• 调整min_sample_leafes、min_sample_split、criterion随机森林调参应用 ---- 乳腺癌数据集以下的调参过程参见:机器学习调参基本思想Ⅰ.获取数据集# 1.导包import numpy as npimp..原创 2021-02-14 17:27:51 · 2232 阅读 · 0 评论 -
【skLearn 练习】随机森林回归填补缺失值
文章目录随机森林回归填补缺失值导入需要的库导入数据集随机森林回归填补缺失值我们从现实中收集的数据,几乎不可能是完美的,往往都会有一些缺失值,很多人选择的是直接将含有缺失值的样本直接删除,这是一种方式,但是有时候填补缺失值会比直接丢弃样本效果更好,即使我们不知道缺失值的真实数据。在sklearn.impute.SimpleImputer模块中可以轻松地将均值、中值、或者其它常用的数值来对空值进行填补。下面我们将对波士顿房价数据集进行均值、0、随机森林回归来进行缺失值填补,并验证各种情况下的拟合效果..原创 2021-02-11 23:45:41 · 3955 阅读 · 10 评论 -
【skLearn练习】Linear Regression ---- 波士顿房价回归预测评估
文章目录数据集波士顿房价回归预测评估获取数据集划分数据集、建模获取建模结果可视化评价回归模型★ 注意点数据集该数据集包含美国人口普查局收集的美国马萨诸塞州波士顿住房价格的有关信息, 数据集很小,只有506个案例。CRIM - 城镇人均犯罪率ZN - 占地面积超过25,000平方英尺的住宅用地比例INDUS - 每个城镇非零售业务的比例CHAS - Charles River虚拟变量(如果是河道,则为1;否则为0)NOX - 一氧化氮浓度(每千万份)RM - 每间住宅的平均房间数..原创 2021-01-26 18:32:29 · 1780 阅读 · 1 评论 -
【sklearn练习】KMeans ---- Seeds(小麦种子)数据集聚类评估
文章目录一、数据集探索二、数据预处理三、构建模型获取结果四、聚类结果可视化五、聚类模型评估① 轮廓系数② 卡林斯基 - 哈拉巴斯指数③ FMI评价法一、数据集探索Seeds 数据集存放了不同品种小麦种子的区域、周长、压实度、籽粒长度、籽粒宽度、不对称系数、籽粒腹沟长度以及类别数据。该数据集总共210条记录、7个特征、一个标签,标签分为3类。# 1.读取数据集data = pd.read_csv("./data/seeds_datas.csv")x = data.iloc[:,1:8]t..原创 2021-01-25 18:51:42 · 17748 阅读 · 126 评论 -
【sklearn练习】KMeans ---- iris(鸢尾花)数据集聚类评估
文章目录一、数据集探索二、数据预处理三、构建模型获取结果四、聚类结果可视化五、聚类模型评估① 轮廓系数② 卡林斯基 - 哈拉巴斯指数③ FMI评价法一、数据集探索iris数据集是常用的分类实验数据集,由Fisher,1936收集整理。iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种..原创 2021-01-25 18:36:50 · 18185 阅读 · 17 评论 -
【skLearn练习】KNN分类算法案例 ---- 约会网站的配对效果
文章目录KNN算法案例描述代码实现① 数据集探索② 数据归一化③ 划分训练集和测试集④ 分类器针对于约会网站的测试代码KNN算法1. 优点简单好用,容易理解,精度高,理论成熟,既可以用来做分类也可以用来做回归可用于数值型数据和离散型数据无数据输入假定适合对稀有事件进行分类2. 缺点计算复杂性高;空间复杂性高;计算量太大,所以一般数值很大的时候不用这个,但是单个样本又不能太少,否则容易发生误分。返回顶部案例描述海伦一直使用在线约会网站寻找适合自己的约会对象,尽管约会网..原创 2021-01-23 18:37:52 · 1498 阅读 · 0 评论 -
【sklearn】KMeans 计算样本质心
文章目录KMeans质心介绍计算质心计算样本间距离计算每个样本到质心的距离,并按照从小到大的顺序排列KMeans质心介绍一个簇中所有数据的均值μ(j),通常被称为这个簇的“质心(centroids)”,j表示第j个簇。在一个二维平面中,一簇数据点的质心的横坐标就是这一簇数据点的横坐标的均值,质心的纵坐标就是这一簇数据点的纵坐标的均值,同理可推广至高维空间。解释其中,m为一个簇中样本的个数,j是每个样本的编号。这个公式被称为簇内平方和(cluster Sum of Square),又叫...原创 2021-01-21 16:19:28 · 14340 阅读 · 0 评论 -
【skLearn练习】KMeans矢量量化应用 ---- 压缩图片
文章目录一、KMeans矢量量化概念二、图片的探索① 导库② 实例化导入颐和园图片③ 可视化图片三、图片矢量量化① 导包② 预处理图像数据,适应SKlearn聚合③ KMeans聚类④ 质心替换样本,实现矢量量化⑤ 随机的矢量量化⑥ 可视化一、KMeans矢量量化概念百度百科: k-means聚类最重要的应用之一就是非结构数据(图像、声音)上的矢量量化(VQ),所谓的矢量量化就是将数据进行压缩。非结构化数据往往会占用很大的数据空间,在保证数据质量的同时,尽可能的矢量量化数据的大小,或者是简..原创 2021-01-09 15:08:16 · 1057 阅读 · 2 评论