
统计学
大胖头leo
这个作者很懒,什么都没留下…
展开
-
回归分析标准化系数
标准化的回归系数是指将数据标准化(减均值除方差)后计算得到的回归系数。因为数据进行了标准化,因此就取消了量纲的影响。假设因变量为y,自变量为x,标准回归系数为a。那么在解释时就要说,当x变化1个标准差是,y变化a个标准差。标准化后的回归系数在不同自变量之间是可比的,没有标准化之前是不可比的。举一个例子:假设因变量是一个人的外貌给人的印象(y),自变量有身高(x1)、体重(x2)假如未标准化的回归系...原创 2018-07-30 11:21:41 · 31443 阅读 · 3 评论 -
回归模型中的哑变量
在构建回归模型时,如果自变量X为连续性变量,回归系数β可以解释为:在其他自变量不变的条件下,X每改变一个单位,所引起的因变量Y的平均变化量;如果自变量X为二分类变量,例如是否饮酒(1=是,0=否),则回归系数β可以解释为:其他自变量不变的条件下,X=1(饮酒者)与X=0(不饮酒者)相比,所引起的因变量Y的平均变化量。但是,当自变量X为多分类变量时,例如职业、学历、血型、疾病严重程度等等,此时仅用一...原创 2018-05-15 12:10:59 · 34819 阅读 · 0 评论 -
logistic回归 z-value 参数
The z value is the Wald statistic for testing the hypothesis that the corresponding parameter (regression coefficient) is zero. Under the null hypothesis it has an approximately N(0,1) distribution. ...翻译 2018-05-15 12:04:48 · 7272 阅读 · 0 评论 -
逻辑回归中的Z值
The z-value is the regression coefficient divided by its standard error. It is also sometimes called the z-statistic. It is usually given in the third column of the logistic regression regression coef...转载 2018-05-15 12:03:51 · 11159 阅读 · 0 评论 -
什么是T检验
很多的检验和我们的直觉是一致的,前阵子在一个群里,有管理学院的人问说想看两个样本是不是来自于同一个分布,我叫他画两个CDF,一看就知道。对方说不要看图,我就让他用Kolmogorov-Smirnov Tests。我自己搜了一下,发现ks.test检验的就是拿两个CDF的距离做为统计量,虽然计算很复杂,但是和intuition那是相当一致啊。最简单也最常用的,莫过于T检验,用我们的直觉就可以理解...原创 2018-07-30 11:22:16 · 31282 阅读 · 0 评论 -
线性回归标准化 R^2, T检验, F检验
1、标准化对于多元线性回归需要对各个自变量进行标准化,排除单位的影响。标准化方法:即将原始数据减去相应变量的均数后再除以该变量的标准差,而标准化得到的回归方程称为标准化回归方程,相应得回归系数为标准化回归系数。2、T检验T检验是对各个回归系数的检验,绝对值越大,sig就越小,sig代表t检验的显著性,在统计学上,sig<0.05一般被认为是系数检验显著,显著的意思就是你的回归系数的绝对值显著...转载 2018-05-13 16:29:46 · 40332 阅读 · 0 评论 -
T 检验 (T test)
数据出来了要做三件事:1,检验一下数据是否符合正态分布;2,如果符合正态分布,就进行T检验,看P值是否小于0.05;3,如果数据不符合正态分布,就用另外的“非参数检验”。但是我完全不明白这些名词背后是什么原理。这些原理是这样的:举个例子:好比我们有一个H0假设(不希望出现的假设)说:“抽烟人群的肺活量和非抽烟人群没有差异”。我们已经知道非抽烟人群的肺活量均值是u0。因此H0假设就意味着:如果在抽烟...转载 2018-05-13 16:28:13 · 14349 阅读 · 2 评论 -
RMSE 和 R^2
SSE该统计参数计算的是拟合数据和原始数据对应点的误差的平方和MSE(均方差)=SSE/n该统计参数是预测数据和原始数据对应点误差的平方和的均值RMSE(均方根)该统计参数,也叫回归系统的拟合标准差,是MSE的平方根,***************************以上都是预测数据与原始数据对应点的评价,就是点与点的差别以下都与与原始数据均值相比较的************...原创 2018-07-30 11:22:05 · 10326 阅读 · 0 评论 -
P 检验, T检验
t指的是T检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料 P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P...原创 2018-07-30 11:21:52 · 10677 阅读 · 0 评论 -
KNN 同时使用离散和连续变量 作为训练数据
KNN是通过计算距离,获得最近的K个邻居 而完成分类, 所以说,他本质上是要用numeric 来完成分类。 所以可以通过将分类变量转换为numeric 来进行KNN分类:衣服大小 编码 S 1 M 2 L 3 如果是这样的转化 没有问题, 因为本身 categorical data 就是有顺序的,(ordinal da...原创 2019-04-25 21:37:35 · 4757 阅读 · 4 评论