
sklearn
鹰眼2号
太极的奥秘在于静
展开
-
sklearn数据集的使用
机器学习一般的数据会划分为两个部分:训练数据:用于训练,构建模型(75%)测试数据:在模型检查时使用,用于评估模型是否有效(25%)数据划分API: sklearn.model_selection.train_test_split()返回数据的类型的顺序(训练数据特征,测试数据特征,训练数据目标值,测试数据的目标值),这个顺序必须一致,不能改变。获取数据API:skl...原创 2019-03-20 16:22:36 · 1726 阅读 · 0 评论 -
机器学习---特征工程之{特征抽取}
import sklearnsklearn特征提取API: sklearn.feature_extraction1)字典特征抽取(对字典数据进行特征值化)类:sklearn.feature_extraction.DictVectorizer参数:列表或可迭代对象原理:把字典中一些类别的数据,分别进行转换成特征(one-hot编码)X代表一个字典列表 [{},{},...原创 2019-03-16 21:22:42 · 357 阅读 · 0 评论 -
机器学习之特征工程{数据的预处理}
是在特征抽取之后进行【也可以直接理解为异常值的处理】参数(对谁处理):二位数组特征预处理:对数据进行预处理,通过特定的统计方法(数学方法)将数据转换成算法要求的数据 大致可分为三类:数值类型数据,类别型数据,时间类型 【两种处理结果:前后特征值个数不变,特征值改变;前后特征值个数改变,特征值也改变 数值...原创 2019-03-17 12:33:55 · 316 阅读 · 0 评论 -
机器学习之特征工程{数据降微}
在数据预处理之后进行这里的维度指的是特征值的数量,与pandas的维度不同。方式有两种:特征选择 主成分分析特征选择原因:1.冗余:部分特征的相关度高,容易消耗计算机性能2.噪声:部分特征对预测结果有负面影响概念: 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值,也可以不改变值。但是选择后的维度一定...原创 2019-03-17 17:09:41 · 244 阅读 · 0 评论 -
机器学习算法分类
首先我们要明白,要找准定位,我们是用其来解决问题的。学会使用学过的算法去解决问题,而没有必要死磕算法,这是算法工程师要做的。算法是核心,数据和计算是基础。我们要走的就是:分析很多的数据分析具体的业务应用常见的算法特征工程,调参数,优化要达到以下三点:1.学会分析问题,使用机器学习算法的目的,想要算法完成何种任务2.掌握算法基本思想,学会对问题用相应的算法解决3....原创 2019-03-20 16:58:47 · 203 阅读 · 0 评论