统计建模
APRIL_HU
twenty minutes equal two hours ,this depends on your ability!!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
腾讯笔试题之协变量中重要变量的衡量
问题描述:对于一个目标变量而言,当存在有多个自变量(协变量)时,如何确定其中的重要的变量,并且排序?我的解题思路:1,对于目标变量而言,可以参考协变量与目标变量之间的相关性的强弱 2,依据于协变量在拟合目标函数时,对于目标变量的方差的解释力度,可以以拟合优度作为衡量标准 3,原创 2015-09-07 15:31:34 · 1328 阅读 · 0 评论 -
样本有偏时的思考
如何避免样本抽样有偏的情况发生在关联规则中,对于辛普森悖论的出现,即是由于样本有偏所导致规则提取的错误,在进行抽样时,如果没有比较客观地反映原始总体的信息,那么基于此,所得到的统计分析的结论以及假设检验,都是有错误的。对于这个问题的解决方案,1, 多次抽样,将多次抽样的分布绘制出来,取相对集中部分的均值或者众数2, 对于大的样本按照可利用的商业信息进行分层,再按照恰当比例在每个原创 2015-09-14 10:54:57 · 2901 阅读 · 0 评论 -
分类算法中重要变量划分的实质
在分类算法中,确定对于分类效果好坏的变量的重要性时,并不一定需要从变量与分类标签的相关性出发,实际上,决定分类效果好坏的是不同类别的同一变量的差异性,此时,该变量的差异越大,基于此变量的分类效果就会越好。之前,讨论过,如何确定变量的重要性,有基于决策树分类划分的变量,也有基于逐步回归拟合的效果,其实质,在分类中,应是不同类别中具有较大差异的变量,分类的差异实际上就是靠这些变量体现出来的。原创 2016-01-20 10:12:07 · 802 阅读 · 0 评论 -
The imbalanced data
在机器学习中,比较侧重于算法的设计和实施,随着计算机的发展,想着如何更快更安全地处理数据,不过,在运用在各种机器学习的算法之前,需要首先对数据有一个比较好的考量。这里研究的问题是样本的不均衡性问题。 对于常规的机器学习算法,决策树类的,如ID3,C4.5,CART等,在最终划分出子集之后,子集的类别是依据于“少数服从多数”的原则,也即是说,少数的数据效应被忽略,大叔的数据效应被放原创 2015-12-26 11:06:51 · 368 阅读 · 0 评论 -
统计学中条件概率之于贝叶斯思想
贝叶斯公式的对象是条件概率的子集。贝叶斯中的较多对于先验信息的估计方法,对于实际的问题解决具有更好的作用,相对于传统统计学而言。原创 2016-07-23 16:34:23 · 2776 阅读 · 0 评论 -
关于Maximum Likelihood Estimate(极大似然估计)的思考
一、MLE提出的背景 通过维基百科查询得知,MLE由遗传学家及统计学家罗纳德.费雪在1912年至1922年间开始使用。由此联想到MLE的遗传学背景,在遗传学中,显性研究即为最大可能性研究,通过对于各独立个体计算发生或者存活概率,来确定最后显著表达的群体。 在多个独立个体求集体存活的概率时,即为数学中的样本相互独立条件下,求此组样本的联合概率分布。通过当联合概率分布达到最大值时,求得对应的...原创 2018-02-27 20:33:01 · 1056 阅读 · 0 评论
分享