
机器学习
文章平均质量分 97
站在风口的骚人
这个作者很懒,什么都没留下…
展开
-
MDS多维缩放详解
一开始先上两幅图是因为通过上图我们可以对降维有一个直观形象的了解。降维亦称“维数约简”,是经过某种数学变换将原始高维属性空间变为一个低维“子空间”。在这个子空间中样本密度大幅度提高,距离计算也变得更为容易。为什么能进行降维?因为在很多时候,人们观测或收集到的数据样本虽是高维的,但是与学习任务密切相关的也许仅是某个低维分布,即高维空间中的一个低维嵌入。上图给出了一个直观的例子,原是高维空间中的样本...原创 2019-05-11 12:02:12 · 3843 阅读 · 0 评论 -
PCA降维
转载:https://blog.youkuaiyun.com/program_developer/article/details/806327791.相关背景在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加...转载 2019-05-07 11:15:54 · 760 阅读 · 0 评论 -
logistic回归详解
逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法,属于对数线性模型,所以也被称为对数几率回归。这里要注意,虽然带有回归的字眼,但是该模型是一种分类算法,逻辑斯谛回归是一种线性分类器,针对的是线性可分问题。利用logistic回归进行分类的主要思想是:根据现有的数据对分类边界线建立回归...原创 2019-04-20 15:37:52 · 85731 阅读 · 4 评论 -
特征选择详解及与sklearn的结合应用
特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Selection )。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。...原创 2019-03-20 21:49:53 · 1919 阅读 · 4 评论 -
卡方检验
我们之前学过很多的统计推断,一般都是建立在已知总体分布的前提下,特别是假定总体服从正态分布,对参数的区间估计及参数的假设检验。但在许多实际问题中,往往对总体分布形式一无所知,我们手中所掌握的只是观测到的一些数据资料,现需要通过这些数据来推断总体分布类型。总体分布密度函数的近似解—直方图,可大致看出总体的分布形状,加上对实际问题的分析来推测,然后用假设检验的方法来确定。这种判断总体是否服从某种分布的...原创 2019-03-07 19:16:07 · 9327 阅读 · 1 评论 -
CART剪枝算法详解
CART剪枝算法CART剪枝算法从“完全生长“的决策树的底端剪去一些子树,使决策树变小(模型变简单),从而能够对未知数据有更准确的预测。CART剪枝算法由两步组成:首先从生成算法产生的决策树T0底端开始不断剪枝,直到T0的根节点,形成一个子树序列{T0,T1 ,…, Tn};然后通过交叉验证法在独立的验证数据集上对子树序列进行测试,从中选择最优子树。1. 剪枝,得到子树序列子树的损失函数:...原创 2019-01-09 12:27:12 · 11016 阅读 · 9 评论