
sklearn机器学习
学习机器学习常用的方法以及建立模型前的数据处理
蒋公子丨
这个作者很懒,什么都没留下…
展开
-
【sklearn】数据处理之降维
"""机器学习领域中的降维指在某些限定条件下,降低随机变量个数,得到一组相关性不强的主变量的过程。降维采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中,在原始的高维空间中,包含有冗余信息以及噪音信息,将会降低模型的识别精度,机器学习算法的复杂度和数据的维数有着密切关系,甚至与维数呈指数级关联,通过降维能在一定程度上减少冗余信息,从而提高模型的识别精度,提高模型的运行效率,且高维数据无法通过作图可视化,降维后可通过图形可视化寻找数据内部的结构特征降维可分为特征选择和特征提取两种方法原创 2020-11-09 11:18:51 · 1722 阅读 · 0 评论 -
【sklearn】聚类
"""聚类是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法,聚类模型可以将无标记的数据聚类为多个簇,分别视为一类,是一种非监督的学习算法。在商业上,聚类可以帮助市场分析人员从消费者库中区分出不同的消费群体,并概括出每一类消费者的消费模式或消费习惯。同时,聚类也可以作为其它机器学习算法的一个预处理步骤,如异常值识别、连续型特征离散化等聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将他们划分为若干组,划分的原则是组内样本最小化而组间(外部)距离最大化"""#.原创 2020-11-09 11:00:55 · 674 阅读 · 0 评论 -
【sklearn】模型的选择及模型的评估
"""选出一个最合适的模型的方式是通过模型验证对模型进行评价,对于监督学习算法而言,一个模型泛化能力越好,则这个模型的评价越高。这需要通过模型验证来测试不同模型对于未知数据的表现。仅仅使用训练数据对模型进行评价往往会带来过度拟合的问题,这就需要将数据划分分为训练集和测试集,再通过交叉验证测试模型对于不同组合的训练集和测试集的表现效果"""#数据集划分"""在分配训练集和测试集的时候,测试集的数据越小,对模型的泛化误差的估计将会越不准确,所以需要对数据集的划分比例进行权衡,在实际应用中,原创 2020-11-09 10:48:45 · 852 阅读 · 0 评论 -
【sklearn】建立模型前的数据准备方法
"""sklearn 把大量的特征处理相关的功能封装为转换器(transformer)sklearn将模型训练与预测功能封装为估计器(estimator)数据准备:指数据预处理,它将原始数据转换为适合机器学习的形式,它决定了机器学习效果的上限,常见方法:标准化、归一化、二值化、独热编码等,sklearn库的preprocessing模块提供了多种数据预处理类标准化:指将数据按比例缩放,使之落入某个特定区间,目的是消除特征间量纲和取值范围差异的影响。常见的标准化方法有标准差标准化和极差标准化原创 2020-11-09 10:45:06 · 891 阅读 · 0 评论 -
【sklearn】分类函数
Logistic回归Logistic回归模型属于对数线性模型,优点是计算代价不高,易于理解和实现,缺点是在面对多元或非线性决策边界时性能较差。from sklearn.datasets import load_breast_cancerfrom sklearn.model_selection import train_test_split#导入load_breast_cancer数据cancer = load_breast_cancer()x = cancer['data']y = ca原创 2020-11-04 11:32:17 · 1218 阅读 · 0 评论