
机器学习小知识
加油!小小七
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
知识
给你一个癌症检测的数据集。你已经建好了分类模型,取得了96%的精度。为什么你还是不满意你的模型性能?你可以做些什么呢?答:如果你分析过足够多的数据集,你应该可以判断出来癌症检测结果是不平衡数据。在不平衡数据集中,精度不应该被用来作为衡量模型的标准,因为96%(按给定的)可能只有正确预测多数分类,但我们感兴趣是那些少数分类(4%),是那些被诊断出癌症的人。因此,为了评价模型的性能,应该用灵敏...原创 2018-12-20 21:46:19 · 341 阅读 · 0 评论 -
随机森林如何处理缺失值?
序RF中有相应的缺失值处理方法,本次记录其两种缺失值处理技巧暴力填补Python中的na.roughfix包提供简单的缺失值填补策略:对于训练集中处于同一个类别下的数据,如果是类别变量缺失,则用众数补全,如果是连续变量,则用中位数。相似度矩阵填补RF的Python实现中,有一个rfImpute包,可以提供更加高层的缺失值填补。首先先用暴力填补法进行粗粒度填充。 然后使用...转载 2018-12-18 14:06:00 · 10522 阅读 · 2 评论 -
标准化与归一化的区别?
答:简单来说,标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。归一化:这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒...原创 2018-12-18 13:55:33 · 8786 阅读 · 0 评论 -
什么是最小二乘法?
答:(最小二乘法的一个最简单的例子便是算术平均。)最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。用函数表示为: 使误差平方和达到最小以寻求估计值的方法,就叫做最小二乘法,用最小二乘法得到的估计,叫做最小二乘估计。当然,取平方和作为目标函数只是众多可取的方...原创 2018-12-18 13:49:47 · 2475 阅读 · 0 评论 -
机器学习中,为什么经常对数据做归一化?
机器学习中,为什么经常对数据做归一化?答:机器学习模型被互联网行业广泛应用,如排序、推荐、反作弊、定位一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对特征数据进行归一化。为什么要归一化呢?1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度。1)归一化为什么能提高梯度下降法求解最优解的速度?图代表的是两个特征的等高线。其中左图两个特...原创 2018-12-18 11:35:40 · 1436 阅读 · 0 评论 -
防止过拟合的方法?
防止过拟合的方法?答:过拟合的原因是算法的学习能力过强;一些假设条件(如样本独立同分布)可能是不成立的;训练样本过少不能对整个空间进行分布估计。 处理方法:1 早停止:如在训练中多次迭代后发现模型性能没有显著提高就停止训练2 数据集扩增:原有数据增加、原有数据加随机噪声、重采样3 正则化,正则化可以限制模型的复杂度4 交叉验证5 特征选择/特征降维6 创建一个验证集...原创 2018-12-18 11:30:09 · 294 阅读 · 0 评论 -
KNN中的k如何选择?
答:KNN中的K值选取对K近邻算法的结果会产生重大影响。如李航博士的一书「统计学习方法」上所说:如果选择较小的K值,就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是“学习”的估计误差会增大,换句话说,K值的减小就意味着整体模型变得复杂,容易发生过拟合;如果选择较大的K值,就相当于用较大领域中的训练实例...原创 2018-12-18 11:21:10 · 33073 阅读 · 2 评论 -
3.线性分类器与非线性分类器的区别与优劣?
首先线性和非线性是针对模型参数和输入特征来讲的:比如输入x,模型y=ax+ax^2那么就是非线性模型,如果输入是x和X^2则模型是线性的。 再看定义考虑二类的情形,所谓线性分类器即用一个超平面将正负样本分离开,表达式为 y=wx 。这里是强调的是平面。而非线性的分类界面没有这个限制,可以是曲面,多个超平面的组合等。【如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则...原创 2018-12-18 11:01:53 · 4884 阅读 · 0 评论 -
2.过拟合与规则化
监督机器学习问题无非就是,在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据。因为参数太多,会导致我们的模型复杂度上升,容易过拟合,也就是我们的训练误差会很小。但训练误差小并不是我们的最终目标,我们的目标是希望模型的测试误差小,也就是能准确的预测新的样本。所以,我们需要保证模型“简单”的基础上最小化训练误差,这样得到的参...转载 2018-12-17 17:17:33 · 189 阅读 · 0 评论 -
1.机器学习中的L0、L1与L2范数到底是什么意思?
一、L0范数与L1范数L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。让参数W是稀疏的。L1范数是指向量中各个元素绝对值之和,也叫“稀疏规则算子”(Lasso regularization)。既然L0可以实现稀疏,为什么不用L0,而要用L1呢?一是因为L0范数很难优化求解(NP难问题),二是L1范数是L0范数的最优凸近似,...转载 2018-12-17 17:06:27 · 4878 阅读 · 0 评论 -
Kmeans初始类簇的选取?
Kmeans初始类簇的选取?答:k-means++算法选择初始seeds的基本思想就是:初始的聚类中心之间的相互距离要尽可能的远。1. 从输入的数据点集合中随机选择一个点作为第一个聚类中心2. 对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)3. 选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大4...原创 2018-12-19 19:41:44 · 1989 阅读 · 0 评论