
统计学
文章平均质量分 84
k_wzzc
wzzc
展开
-
水塘抽样算法及其代码实现(Scala)
水塘抽样算法及其代码实现(Scala)原创 2022-11-12 23:01:57 · 699 阅读 · 0 评论 -
spark做描述性统计
spark datafram 的 “summary”在做数据探索性分析的时候,有几个比较重要的数值,,它们能简要的概括数据的分布情况,它们包括分位数、均值、最值等。在R语言中,有个summary函数,可以返回这些数据摘要本文所使用的数据集以鸢尾花数据集为例 summary(iris) Sepal.Length Sepal.Width Petal.Length P...原创 2018-11-13 23:22:39 · 3149 阅读 · 0 评论 -
大数据时代的“小数据 系列3 --Shapiro-Wilk检验
什么是Shapiro-Wilk检验Shapiro-Wilk检验用来检验小样本数据是否数据符合正态分布。类似于回归的方法一样,计算一个相关系数,它越接近1就越表明数据和正态分布拟合得越好。构建检验统计量W建立原假设与备择假设原假设为H0:数据集符合正态分布;备择假设H1:数据集不符合正态分布。计算p值非正态分布的小样本数据在检验时也可能出现较大的W值。因此需要通过模拟或者查表来估计其概率。由于原假设是其符合正态分布,如果p值小于所选择的α水平,则拒绝零假设,如果p值大于所选择的α水平原创 2020-05-13 13:35:25 · 3894 阅读 · 0 评论 -
大数据时代的“小数据”系列1 cox-stuart趋势检验
大数据时代的“小数据”什么是趋势检验为什么要用趋势检验/** * CoxSturt趋势检验 * @param timeSeries * @param AlternativeHypothesis * @return */ def CoxSturt(timeSeries: Seq[Double], Alternati...原创 2018-08-11 01:06:02 · 4648 阅读 · 1 评论 -
大数据时代的“小数据”系列2 随机游程检验
什么是游程检验游程检验的作用scala实现随机游程检验 /** * RunsTest * @param serise **/ def runsTest(serise: Seq[Int]) = { if (serise.distinct.length > 2) { println("the serise need 0-1 de...原创 2018-09-09 01:17:45 · 2141 阅读 · 0 评论 -
大数据之统计学基础(二):随机变量及其概率分布
随机变量及其概率分布随机变量(r.v)是研究随机试验中的一串事件:比如掷一颗骰子,用X表示骰子的点数,由于X的取值我们无法确定,所以称X是一个随机变量,随机变量的取值随机会而定。1.随机变量的类型:1.1离散型:1.1.1 离散型r.v.X :离散型 r.v.X取有限或可数多个值:离散型随机变量的分布 (1)P(X=xk)=Pk k=1,2,3...nP(X...原创 2019-08-06 21:08:12 · 2914 阅读 · 0 评论