统计学基础
描述性统计
数据类型
数据可分为两类:
1、定性数据:对事物性质进行描述的数据,通常只具有有限个取值,往往用于描述类别
2、定量数据:呈现事物数量特征的数据,是由不同数字组成的,数字取值是可以比较大小的
数据的位置
- 样本平均数 mean()
- 中位数 mdedian()
- 众数 mode() 返回Series类型数据,第二个数是众数
- 百分位数 quantile(i) for i in [0.25,0.75] 返回下四分位数和上四分位数
数据的离散度
- 极差 max()-min()
- 平均绝对偏差 mad()
- 方差 var()
- 标准差 std()
随机变量简介
概率与概率分布
概率(Probability)是用来刻画事物不确定性的一种测度,根据概率的大小,我们可以判断不确定性的高低。概率的取值介于0和1之间,表明一个特定事件以多大的可能性发生。
离散型随机变量
在Python中,通过NumPy包的random模块中的choice()来生成特定的概率质量函数的随机数
choice(a,size=None,replace=True,p=None)
- 参数a:指明随机变量所有可能的取值
- 参数size:表示所要生成的随机数数组的大小
- 参数replace:决定了生成随机数时是否是有放回的
- 参数p:为了一个与x等长的向量,指定了每种结果出现的可能性
RandomNumber = np.random.choice([1,2,3,4,5],size=100,replace=True,p=[0.1,0.1,0.3,0.3,0.2])
连续型随机变量
概率密度函数 和 累计分布函数 都是用来刻画随机变量之不确定性的,描述的是总体的特征。用Python实现
from scipy import stats
- 概率密度函数 gaussian_kde()
- 累计分布函数 cumsum()
期望值与方差
二项分布
Numpy库中
binomial(n,p,size=None)
- 参数n:表示进行伯努利试验的次数
- 参数p:表示伯努利变量取值为1的概率;
- 参数siza:表示生产的随机数的数量
例子:np.random.binomial(100,0.5,size=20)
正态分布
normal(loc=0.0,scale=1.0,size=None)
- 参数scale:表示正态分布的 标准差,默认为1
- 参数loc:表示正态分布的均值;
- 参数siza:表示生产的随机数的数量
概率密度值和累计密度值童谣可以使用SciPy的stats模块中函数来计算
#生产5个标准正态分布随机数
Normal = np.random.normal(size=8)
from scipy import stats
stats

本文介绍了Python在统计学中的应用,包括描述性统计(数据类型、位置、离散度)、随机变量(概率分布、期望与方差)、推断统计(区间估计、t检验、方差分析)以及回归分析(一元、多元线性回归)。详细讲解了各种统计概念并提供了Python实现代码。
最低0.47元/天 解锁文章
736

被折叠的 条评论
为什么被折叠?



