
数据分析与挖掘
文章平均质量分 66
嘉木空青
工科硕士,从事信号处理,数据分析,人工智能算法研究。19年入职场,现从事机器学习工作。
展开
-
假设检验之T检验
假设检验也叫显著性检验,是以小概率反证法的逻辑进行推理,是判断假设是否成立的统计方法。一般,首先假设样本对应的总体参数或分布是与已知的总体参数或分布相同的,然后根据统计量的分布规律来分析样本数据,利用样本信息判断是否支持当前假设,并对检验假设作出取舍抉择。该方法作出的结论是概率性的,不是绝对的肯定或否定。[]T检验的概念:T检验是用于两个样本(或样本与总体)平均值差异程度的...原创 2019-06-15 19:57:58 · 8571 阅读 · 0 评论 -
ADF单位根检验-时间序列平稳性检验
ADF检验全称是 Augmented Dickey-Fuller test,顾名思义,ADF是 Dickey-Fuller检验的增广形式。DF检验只能应用于一阶情况,当序列存在高阶的滞后相关时,可以使用ADF检验,所以说ADF是对DF检验的扩展。单位根(unit root)在做ADF检验,也就是单位根检验时,需要先明白一个概念,也就是要检验的对象——单位根。当一个自回归过程中:,如果滞后项系数b为1,就称为单位根。当单位根存在时,自变量和因变量之间的关系具有欺骗性,因为残差序列的任何误差都不会.原创 2022-03-05 23:45:29 · 8354 阅读 · 0 评论 -
卡方分布(Chi-squared Distribution)与卡方检验(Chi-square Test)
卡方分布概念:具有k个自由度的卡方分布是一个由k个独立标准正态随机变量的和所构成的分布。卡方分布经常用于我们常见的卡方检验中。卡方检验一方面可以用来衡量观测分布和理论分布之间的拟合程度,另一方面也可以测量定性数据两个分类标准间的独立性。定义:如果,,...,是标准正态随机变量,那么这些变量的平方和就表现出k个自由度的卡方分布:通常表示成如下形式:另,需要注意,卡方分...原创 2018-10-04 10:48:52 · 23882 阅读 · 0 评论 -
概率统计与随机过程(二)统计假设检验
统计假设检验的步骤先假设总体具有某种统计特性(如具有某种参数,或遵从某种分布)然后再检验这个假设是否可信以上两步称为统计假设检验,或假设检验。具体:假设 选取统计量,明确其分布 给出显著性水平 查出置信限 计算统计量 统计推断例如:Pearson积矩相关系数的假设检验:Pearson相关性分析的前提假设是数据样本服从正态分布,但数据样本仅仅是总体中的一组样本...原创 2019-03-20 22:01:25 · 581 阅读 · 0 评论 -
TDigest算法原理
起因一般的聚合分析中较为常见的 percentiles 百分位数分析:n 个数据按数值大小排列,处于 p% 位置的值称第 p 百分位数。当数据量较小或者数据集中存储在同一位置时,用上述类似的百分位数分析方法就很容易。但当数据量不断增长时,对于数据进行聚合分析就需要在数据量,精确度和实时性三个方面进行取舍,只能满足其中两项。T-Digest算法TDigest就是一种简单,快速,精确度高,可并行化的近似百分位算法,被Spark,ES,Kylin等系统使用。TDigest主要有两种实现算法,一原创 2022-03-15 10:46:56 · 3100 阅读 · 0 评论 -
Python数据分析与挖掘:数据探索(一)
数据质量分析:脏数据检查脏数据: 缺失值异常值不一致的值重复数据及含有特殊符号(#,&,¥)的数据缺失值分析:1、缺失值产生的原因1)有些信息暂时无法获取,或者获取信息的代价太大2)某些信息被遗漏:有些信息被人为因素或设备故障而被遗漏3)属性值不存在:对某些对象来说某些属性值是不存在的2、缺失值的影响1)数据挖掘建模将会丢失大量的有用信息...原创 2019-02-15 16:26:17 · 718 阅读 · 0 评论 -
拉格朗日插值法
概念:在数值分析中,拉格朗日插值法是一种多项式插值方法。许多实际问题中都用函数来表示某种内在联系或规律,而不少函数都只能通过实验和观测来了解。如对实践中的某个物理量进行观测,在若干个不同的地方得到相应的观测值,拉格朗日插值法可以找到一个多项式,其恰好在各个观测的点取到观测到的值。这样的多项式称为拉格朗日(插值)多项式。定义:对于给定的个点,其中对应着自变量,对应着该函数的取值。定义拉格...原创 2018-11-05 19:46:25 · 1547 阅读 · 0 评论 -
数据相关性分析
相关性分析主要用来描述变量之间的线性相关程度。在二元变量的相关性分析过程中,常用的有Pearson相关系数,Spearman秩相关系数以及判定系数。Pearson积矩相关系数Pearson 相关评估两个连续变量之间的线性关系。当一个变量中的变化与另一个变量中的成比例变化相关时,这两个变量具有线性关系。参考资料适用条件:两个变量均应由测量得到的连续变量 两个变量所来自的总体...原创 2019-03-19 22:02:16 · 8789 阅读 · 0 评论