
统计
文章平均质量分 70
我不爱机器学习
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
如何理解多元回归(多因变量)?(python)
【代码】如何理解多元回归(多因变量)?(python)原创 2024-11-26 09:38:03 · 1052 阅读 · 0 评论 -
《应用多元统计分析》(附代码链接)
R代码:原创 2024-11-26 09:37:40 · 325 阅读 · 0 评论 -
如何理解岭回归模型?(python)
值的选取原则:如下图所示,当。原创 2024-11-19 17:43:06 · 324 阅读 · 0 评论 -
如何处理多重共线性?(python)
若变量x1和x2的相关性增强,则β1和β2的方差会逐渐增大。当两者完全相关r=1时,方差变得无穷大。注意,多重共线性不影响拟合效果,但会造成系数的估计值不稳定,在回归方程高度显著的情况下,有些与因变量高度相关的自变量回归系数通不过显著性检验,甚至出现回归系数的正负号得不到合理解释的情况,变量间的经济结构关系产生了扭曲。原创 2024-11-19 09:22:48 · 696 阅读 · 0 评论 -
如何处理异常值和强影响点?(python)
异常值分为两种情况:因变量异常和自变量异常。原创 2024-11-17 10:46:45 · 904 阅读 · 0 评论 -
如何处理回归模型中的异方差性和自相关性问题?(python)
在回归模型中,一般假设误差的均值为0,且不同误差项之间的方差相等、独立或者不相关但实际建模过程中,误差项的方差可能不等,即异方差性或者误差项间的协方差不为0,即存在自相关性这里的自相关不是指两个或两个以上的变量之间的相关关系,而是指一个变量前后期数值之间的相关关系。原创 2024-11-16 12:32:40 · 1544 阅读 · 0 评论 -
Python实现BOX-COX变换
参考:https://blog.youkuaiyun.com/DL11007/article/details/128670981。BOX-COX变换是由博克斯与考克斯在1964年提出的一种应用非常广泛的变换,是对因变量。时,对数据做对数变换后其就服从正态分布。从数据看,如果数据中一些数值很大,但是。从概率分布角度看,当数据本身服从。,可以尝试对其做对数变换。BOX-COX变换是一个。对于回归问题,可以考虑。,则认为无异方差性。原创 2024-11-16 16:01:36 · 814 阅读 · 0 评论 -
如何利用残差对数据进行诊断?
如有异常值出现、周期性因素干扰等。的,或者说线性回归方程是有效的,但。一个线性回归方程通过了。时,才能运用回归模型。原创 2024-11-13 10:59:20 · 511 阅读 · 0 评论 -
如何对回归方程进行统计(显著性)检验?
在多元回归中,F检验显著,说明y对所有自变量的整体的线性回归效果是显著的,但不等于y对每个自变量x的回归效果都显著。反之,某个或几个x的系数不显著,回归方程的F检验仍有可能是显著的。基于Python回归模型的BOX-COX变换和强影响点分析https://blog.youkuaiyun.com/DL11007/article/details/128670981。对于多元线性回归,三者不一致。一般表示样本相关系数,总体样本相关系数一般用。注意,相关系数的t检验,只是表示。,其将平方和公式进行分解,得到。原创 2024-11-11 09:37:55 · 5335 阅读 · 1 评论 -
如何从头开始建立回归模型?
比如,因变量与某些自变量的偏回归系数应该是正的,但是模型中却是负的,那这个模型即使通过了统计检验,也是没有意义的,更不能应用。对于一个具体的问题,当研究目的确定后,被解释变量容易确定,其一般直接表达研究的目的。通常,希望因变量(内生变量、被解释变量)和自变量(外生变量、解释变量)之间存在。,可以理解为同一时间采集的不同(随机)样本数据可能存在较大的差异。不论哪种数据,样本量的多少都要与设置的解释变量的数目匹配。建立初步模型后,不能直接拿来应用,需要对模型进行。时序数据的收集需要注意数据的。原创 2024-11-11 09:36:27 · 1446 阅读 · 0 评论 -
如何理解回归分析和相关分析以及两者的区别?
回归分析的基本思想和方法以及回归的名称是由英国统计学家F·高尔顿提出。,如下图1-2所示。这种对应点不能分布在一条直线上的变量间的关系,即。回归方程的建立依赖于观察或实验积累的数据,又称为经验回归方程。,如下图1-1所示,统计上将这种关系的研究称为回归分析。,将这种变量间的关系称为相关关系或统计关系。:可以看到确定性的函数关系,参考:《应用回归分析》原创 2024-11-09 11:31:09 · 2202 阅读 · 0 评论 -
python实现各种描述统计/概率分布/假设检验/置信区间/回归/方差分析/卡方检验
最近在学习统计方面的知识,看到一个不错的学习网站,分享给大家,网址链接在文末。原创 2024-11-09 11:30:50 · 868 阅读 · 0 评论 -
如何看方差分析表格?
案例:分析结果:原创 2024-10-25 14:48:34 · 300 阅读 · 0 评论 -
测量误差相关知识(四)
平方俗称“二乘”,因此得名最小二乘。其原理是在测量误差无偏(排除了系统误差影响)、正态分布和相互独立的条件下推导出的,但在不严格服从正态分布的情况下也常被使用。最小二乘可用于线性参数以及非线性参数处理。其中,线性参数处理流程首先根据具体问题列出误差方程式再按最小二乘法原理,利用求极值(最大和最小)的方法将误差方程转化为正规方程然后求解正规方程,得到待求的估计量最后给出精度估计(标准差)对于非线性参数,可先将其线性化,然后按上述线性参数的最小二乘法处理程序去处理。原创 2024-10-24 09:52:14 · 983 阅读 · 0 评论 -
测量误差相关知识(三)
这一节主要讲解误差的合成与分配。原创 2024-10-24 09:51:56 · 1041 阅读 · 0 评论 -
测量误差相关知识(二)
对自然界的任何量进行实验和测量时,由于参与测量的5个要素–测量装置(测量仪器)、测量人员、测量方法、测量环境和被测对象自身都不够做到完美无缺,使得测量结果与其真实值之间存在差异,这个差异在数学上叫做测量误差。任何测量必然会产生误差,不含误差的测量结果是不存在的。原创 2024-10-15 17:40:19 · 1403 阅读 · 0 评论 -
测量误差相关知识(一)
误差=测得值-真值。原创 2024-10-15 17:40:05 · 977 阅读 · 0 评论 -
《空间计量经济学:从横截面数据到空间面板》(书籍推荐)
这种数据类型的主要特点是所有观测对象的数据都是在同一时间截面上获取的,从而允许对不同统计单位(如国家、地区、公司、个人等)在同一时间点上的相同统计指标进行比较和分析。之间潜在的相互依赖性。Tobler的“地理学第一定律”指出:“任何东西与别的东西之间都是相关的,但近处的东西比远处的东西相关性更强”,这正是空间自相关概念的基础。可以使用最大似然估计得到。是空间计量经济学中的一个重要模型,它将空间滞后模型(SAR)和杜宾模型(Durbin Model)的特点结合起来,同时考虑了空间滞后项和空间误差项的影响。原创 2024-09-28 11:01:32 · 973 阅读 · 0 评论 -
一元高斯分布(Univariate Gaussian Distribution)(详细说明,便于理解)
1、一元高斯分布的定义高斯分布也叫正态分布,主要用于连续变量的分布。假设有一变量,则其高斯分布形式为: 式中是均值(mean),是方差(variance),方差的平方根叫做标准误(standard deviation),方差的倒数叫做精度(precision)。高斯分布满足:高斯分布是归一化的(...原创 2020-01-15 11:16:01 · 10228 阅读 · 0 评论 -
多元高斯分布(Multivariate Gaussian Distribution)(详细说明,便于理解)
在深入了解多元高斯分布前,可以先了解一下一元高斯分布。接下来对多元高斯分布进行详细的说明与推导。对于 维的向量(连续变量),多变量(多元, multivariate Gaussian)高斯分布形式为: 式中的是 维的均值向量,是的协方差矩阵(covariance matrix),是的行列式(determinan...原创 2020-01-15 11:17:06 · 28391 阅读 · 6 评论 -
python3 自编线性回归(4种方法)
1、数据准备:import numpy as npx = np.array([0, 1, 2, 3])y = np.array([-1, 0.2, 0.9, 2.1])X, Y = x, y2、直线回归方程,适用于一元线性回归# 直线回归方程求解(y=bx+a+e)def regressgion(x, y): x_mean = np.mean(x) y_...原创 2019-11-13 10:31:58 · 975 阅读 · 2 评论 -
时间序列分析和预测(含实例及代码)
导论研究时间序列主要目的:进行预测,根据已有的时间序列数据预测未来的变化。时间序列预测关键:确定已有的时间序列的变化模式,并假定这种模式会延续到未来。时间序列预测法的基本特点 假设事物发展趋势会延伸到未来 预测所依据的数据具有不规则性 不考虑事物发展之间的因果关系 时间序列数据用于描述现象随时间发展变化的特征。时间序列分析就其发展历史阶段和所使...原创 2018-09-17 21:37:34 · 229441 阅读 · 45 评论 -
指数
一、基本问题1、指数概念指数,或称统计指数,是分析社会经济现象数量变化的一种重要统计方法。 指数是测定多项内容数量综合变动的相对数。概念要点:一是指数的实质是测定多项内容,如零售价格指数反映的是零售市场几百种商品价格变化 的整体状况。指数方法论核心是研究如何将多项内容合在一起,从整体上进行反映。二是其表现形式为动态相对数,既然是动态相对数,涉及指标的基期对比,不同要素基期的选择就成为指数...原创 2018-10-14 00:05:12 · 4993 阅读 · 0 评论 -
统计导论
统计学(statistics) 是收集、处理、分析、解释数据并从数据中得出结论的科学。 统计学是关于数据的科学,它所提供的是一套有关数据收集、处理、分析、解释并从数据中得出结论的方法,统计研究的是来自各领域的数据。 数据收集:取得统计数据 数据处理:将数据用图表等形式展示出来 数据分析:选择适当的统计方法研究数据,并从数据中提取有用信息进而得出结论。...原创 2018-10-20 14:51:02 · 1239 阅读 · 0 评论 -
广义模型与线性模型 & 判别分析
线性模型 广义线性模型:Y不是正态分布 一般线性模型:X不是连续或正态分布 变量类型 模型选择 广义线性模型 广义线性模型:在广义线性模型中,均假定观察值y具有指数族 Logistic模型: 对数线性模型: poisson分布 一般线性模型 单因素随机区组试...原创 2018-10-20 20:04:24 · 2177 阅读 · 0 评论 -
数据的搜集
一、数据的来源1、间接来源定义:数据由别人通过调查或实验的方式搜集,使用者只是找到它们并加以使用优点:二手资料搜集容易,采集数据成本低,很快得到局限:二手资料不是为特定的研究问题而产生的,所以在回答所研究的问题方面有欠缺对二手资料评估:资料是谁搜集的?考察数据搜集者的实力和社会信誉度。政府或机构 为什么目的而搜集?为了某个集团利益而搜集数据是值的怀疑的 数据是怎样搜集的...原创 2018-10-19 18:35:01 · 10535 阅读 · 0 评论 -
聚类分析
一、聚类分析介绍基本概念:cluster analysis 是研究物以类聚的一种现代统计分析方法,在众多的领域中,都需要采用聚类分析作分类研究。 分析方法:系统聚类法(hclust)和快速聚类法(kmeans). 聚类分析的类型:Q型聚类:对样品的聚类;R型聚类:对变量的聚类 聚类统计量: 二、系统聚类法基本思...原创 2018-10-21 11:01:02 · 8884 阅读 · 0 评论 -
主成分分析
一、概念主成分分析的提出:principal component analysis,是将多个指标化为少数几个综合指标的一种统计分析方法,即通过降维技术把多个变量化为少数几个主成分的方法。 基本思想:将原来众多具有一定相关性的指标,重新组合成一组新的相互无关的综合指标来代替原来指标。 数学处理:就是将原来p个指标作线性组合,作为新的指标。x1和x2相关性高,正交变换成y1和y2,相关性变低,...原创 2018-10-21 13:30:32 · 1207 阅读 · 0 评论 -
因子分析
一、与主成分的联系与区别区别 主成分是通过线性组合将原变量综合成几个主成分 因子分析通过构建若干意义比较明确的公因子 主成分分析是变异数导向的方法 因子分析是共变异数导向的方法 联系 因子分析是主成分分析的推广 二、因子分析思想特点 因子变量数远少于原变量数 因子变量是一种新的综合 因子变量之间没有相...原创 2018-10-21 16:56:22 · 7898 阅读 · 0 评论 -
对应分析
对应分析的提出:因子分析的不足 因子分析法分为R型因子分析和Q型因子分析。R型因子分析研究变量(指标)之间的相关关系,Q型因子分析研究样本之间的相关关系。 有时不仅关心变量之间或样本之间的相关关系,还关心变量和样本之间的对应关系,这是因子分析方法不能解释的。 对应分析(correspondence analysis)概念 定义:研究样本和变量之间的关...原创 2018-10-21 17:58:45 · 19746 阅读 · 0 评论 -
典型相关分析
概念 探讨一组变量与另一组变量间的相互关系,canonical correlation analysis ,是简单相关和多元相关的延伸。 比较 分析原理 ...原创 2019-05-26 21:41:01 · 1234 阅读 · 2 评论 -
多维标度法
MDS基本概念 定义:多维标度法是利用客体间的相似性数据去揭示他们之间的空间关系的统计分析方法 种类: 度量化模型:若模型所需要的相似性数据是用距离尺度或比率尺度测得的 非度量化模型:若模型需要顺序量表水平的相似数据,称为非度量化模型 基本理论与方法 ...原创 2019-05-26 21:41:35 · 7607 阅读 · 0 评论 -
均方根值(RMS)+ 均方根误差(RMSE)+标准差(Standard Deviation)
均方根值(RMS)+ 均方根误差(RMSE)+标准差(Standard Deviation) 1、均方根值(RMS)也称作为效值,它的计算方法是先平方、再平均、然后开方。 2、均方根误差,它是观测值与真值偏差的平方和观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值只能用最可信赖(最佳)值来代替.方根误差对一组测量中的特大或特小误差反映非常敏感,所以...转载 2019-01-19 21:07:20 · 21850 阅读 · 0 评论 -
多元回归与相关------(二)多元相关和偏相关
在 M=m+1 个变数中,m个变数的综合和一个变数的相关,叫做多元相关或负相关(multiple correlation);其余M-2个变数皆固定时,指定的两个变数间相关,叫做偏相关(partial correalation)。从相关关系的性质看,多元相关和偏相关的M个变数都是随机变数,并无自变数和依变数之分。多元相关和偏相关的统计数也常用于有自变数和依变数之分的资料,并作为回归显著性...原创 2018-08-31 19:17:40 · 17973 阅读 · 3 评论 -
理论分布和抽样分布------(四)抽样分布
统计学的一个主要任务就是研究总体和样本之间的关系。这种关系可以从两个方向进行:(1)从总体到样本的方向,目的是要研究从总体中抽出的所有可能样本统计量的分布及其与原总体的关系,即抽样分布(2)从样本到总体的方向,从总体中随机抽取样本,并用样本对总体作出推论,即统计推断问题。抽样分布(sampling distribution)是统计推断的基础。一、统计数的抽样及其分布参数从总体中...原创 2018-09-08 11:43:30 · 8430 阅读 · 4 评论 -
科学试验及其误差控制
一、科学研究的基本过程和方法1、基本过程科学研究的目的在于探求新的知识、理论、方法、技术和产品。基本过程包括3个环节:a、根据本人的观察了解或前人的观察(文献)对所研究的命题形成一种认识或假说b、根据假说所涉及的内容安排相斥性试验或抽样调查c、根据试验或调查所获的资料进行推理,肯定或否定或修改假说,从而形成结论,或开始新一轮的试验以验证修改完善后的假说,如此循环发展,使所获得的...原创 2018-09-10 16:58:38 · 3238 阅读 · 0 评论 -
统计假设测验------(五)卡平方测验
一、卡平方()测验定义和分布是相互独立的多个正态离差平方值的总和 。服从真高分布N(,),不一定来自同一个正态总体,即,可以是来自不同正态分布的参数。若研究对象属于同一个总体,则=,=。所研究的总体不知时,用替代。这一分布的自由度为独立的正态离差的个数,此处v=n,其分布图形为一组具不同自由度v值的曲线。值最小为0,最大为,因而在坐标轴的右面。自由度小时呈偏态,随着自由度增加,...原创 2018-08-24 20:47:29 · 1900 阅读 · 0 评论 -
统计假设测验------(二)平均数的假设测验(t测验原理与公式)
1、t分布(t distribution)从一个平均数为、方差为的正态总体重抽样,或者在一个非正态总体里抽样只要样本容量有足够大,则所得一系列样本平均数的分布必趋于正态分布,具有,且遵循正态分布。测验,这类测验称u测验。但是测验只有在总体方差为已知,或者未知但样本容量相当大,可用直接作为估计值应用。当样本容量不太大(n<30)且未知时,样本均方估计总体方差,则其标准化离差u的分布不呈...原创 2018-08-21 22:22:31 · 7088 阅读 · 0 评论 -
直线回归和相关------(六)协方差分析
一、协方差分析的意义协方差(covariance)是两个变数的互变异数。对于一个具有N对(X,Y)的有限总体,定义: 对于由n对(x,y)组成的样本,则可定义为: 由上可知,样本协方差是乘积和与自由度的商,平均的乘积和。又称为均积(mean product)或协方,记作MP,是总体cov的估值。协方差分析(analysis of va...原创 2018-08-30 17:18:01 · 14497 阅读 · 3 评论 -
统计假设测验------(一)基本原理(假设测验的两类错误)
1、导论:一个试验相当于一个样本,由一个样本平均数可以对总体平均数做出估计,但样本平均数是因不同样本而变化的,即样本平均数有抽样误差。用存在误差的样本平均数来推断总体,其结论并不是绝对正确的。把试验的表面效应与误差大小相比较并由表面效应可能属于误差的概率(抽样分布)而做出推论的方法称为统计推断。计算表面效应由误差造成的概率首先必须假设表面效应是由误差造成的,有了事先的假设,才能计算概率,这种先...原创 2018-08-21 18:26:00 · 8069 阅读 · 0 评论