
数理统计知识
探索空间
阿呆阿瓜的日常
展开
-
卡方检验用于特征提取
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。 大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类转载 2017-12-22 10:18:05 · 825 阅读 · 0 评论 -
凸优化-2
1.动机和目的 人在面临选择的时候重视希望自己能够做出“最好”的选择,如果把它抽象成一个数学问题,那么“最好的选择”就是这个问题的最优解。优化问题,就是把你考虑的各个因素表示成为一组函数(代价函数),解决这个问题就是在一集备选解中选择最好的解。 那么,为什么我们要讨论凸优化而不是一般的优化问题呢?那时因为凸优化问题具有很好的性质——局部最优就是全局最优,这一特性让我们能转载 2018-01-22 15:38:49 · 556 阅读 · 0 评论 -
数学优化入门:凸优化
1、前言凸优化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。虽然条件苛刻,但应用广泛,具有重要价值,主要体现在:凸优化本身具有很好的性质 一来,凸问题的局部最优解就是全局最优解。二来,凸优化理论中的Lagrange对偶,为凸优化算法的最优性与有效性提供了保证。近些年来关于凸问题的研究非常透彻,以至于只要把某一问题抽象为凸问题,就可以近似认为这个问题已经解决了转载 2018-01-22 15:37:00 · 1661 阅读 · 0 评论 -
参数检验与非参数检验
一、参数检验1、基本思想2、两类错误3.、检验步骤4、检验的p值在一个假设检验问题中, 拒绝原假设H0的最小显著性水平称为检验的p值.5、单正态总体参数的检验(1)(2)(3)6、两正态总体参数的检验(1)(2)7、成对数据的t检验所谓成对数据, 是指两个转载 2017-12-26 11:09:15 · 1065 阅读 · 0 评论 -
参数估计、假设检验与回归
参数估计、假设检验统计总体架构拟合(fitting) 概念已知某函数的若干离散函数值{f1,f2,…,fn},通过调整该函数中若干待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最小二乘意义)最小。如果待定函数是线性,就叫线性拟合或者线性回归,否则叫作非线性拟合或非线性回归。 参数估计转载 2017-12-25 14:40:58 · 10857 阅读 · 0 评论 -
特征选择的策略--数据相关性(皮尔逊系数)与gini或者信息熵的的结合
首先特征选择在实际的数据挖掘项目中非常重要,从海量维度的特征中选取出表征明显的特征显得非常的重要。特征选择主要可以从数据相关性角度和信息增益的角度来考虑。数据相关性判断:皮尔逊系数当相关系数为0时,X和Y两变量无关系。 当X的值增大,Y也增大,正相关关系,相关系数在0.00与1.00之间 当X的值减小,Y也减小,正相关关系,相关系转载 2017-12-22 11:27:20 · 4413 阅读 · 0 评论 -
信息熵 条件熵 信息增益 信息增益比 GINI系数
在信息论与概率统计学中,熵(entropy)是一个很重要的概念。在机器学习与特征工程中,熵的概念也用得灰常多。今天就把跟熵有关的东东稍微整理一下,权当笔记。1.信息熵熵是神马东东?信息论的开山祖师爷Shannon(中文翻译过来一般叫香农,总觉得很多文字经过翻译就不对劲,就跟人家老外翻译贱人就是矫情一样,感觉怪怪的。所以咱们还是用英文了,偷偷装个小逼)明确告诉我们,信息的不确定性可以用熵来表转载 2017-12-22 11:24:37 · 752 阅读 · 0 评论 -
决策树--信息增益,信息增益比,Geni指数的理解
决策树 是表示基于特征对实例进行分类的树形结构 从给定的训练数据集中,依据特征选择的准则,递归的选择最优划分特征,并根据此特征将训练数据进行分割,使得各子数据集有一个最好的分类的过程。 决策树算法3要素:特征选择决策树生成决策树剪枝 部分理解: 关于决策树生成决策树的生成过程就是 使用满足划分准则的特征不断的将数据集划分为纯度更高,转载 2017-12-22 11:23:58 · 1841 阅读 · 0 评论 -
信息增益相关介绍(熵、信息增益、特征)
对于取值多的属性,尤其一些连续型数值,比如两条地理数据的距离属性,这个单独的属性就可以划分所有的样本,使得所有分支下的样本集合都是“纯的”(最极端的情况是每个叶子节点只有一个样本)。一个属性的信息增益越大,表明属性对样本的熵减少的能力更强,这个属性使得数据由不确定性变成确定性的能力越强。所以如果是取值更多的属性,更容易使得数据更“纯”(尤其是连续型数值),其信息增益更大,决策树会首先挑选这转载 2017-12-22 10:58:28 · 3815 阅读 · 0 评论 -
统计相关系数(2)——Spearman Rank(斯皮尔曼等级)相关系数及MATLAB实现
转载:http://blog.youkuaiyun.com/wsywl/article/details/5859751Spearman Rank(斯皮尔曼等级)相关系数 1、简介在统计学中,斯皮尔曼等级相关系数以Charles Spearman命名,并经常用希腊字母ρ(rho)表示其值。斯皮尔曼等级相关系数用来估计两个变量X、Y之间的相关性,其中变量间的相关性可以使用单调函数来描述。如转载 2017-09-13 19:49:07 · 5955 阅读 · 0 评论 -
梯度下降法介绍及python实现
梯度下降(Gradient Descent)算法是机器学习中使用非常广泛的优化算法。当前流行的机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现。本文主要以线性回归算法损失函数求极小值来说明如何使用梯度下降算法并给出python实现。若有不正确的地方,希望读者能指出。 梯度下降梯度下降原理:将函数比作一座山,我们站在某个山坡上,往四周看,从哪个方向向下走一小步,能够下降的最快。在线性回归算转载 2018-01-19 10:57:00 · 883 阅读 · 0 评论