数据科学每日总结--Day5--统计学

统计学

在现实生活中,估算样本集的均值和方差的问题经常能看到,例如教学评估,产品抽样,医学研究等。通过抽取的样本数量可以估算原样本集的均值和方差的置信区间,从而提前做出应对,甚至是在一些一定要做严格计算的时候也可以这么做。(因为提前预估数量可以提前做好大概的措施,在一定程度上节省时间成本)

T分布
  • 原理:描述了当总体方差未知,用样本方差估计总体方差时,样本均值的标准化分布,计算公式是t = \frac{\bar{x}-\mu}{s/\sqrt{n}} ,其中, \bar{x}是样本均值,μ为总体均值,s为样本标准差,n为样本容量。

  • 用途:小样本均值推断(用于样本量较小(一般n<30)时,对总体均值进行推断和假设检验);未知总体方差(当总体方差未知,只能用样本方差估计时,采用t分布)。

  • 应用条件:样本来自正态分布总体;总体方差未知;样本量较小(n<30),但大样本时t分布趋近于正态分布;各样本之间独立

  • 优点:推断更为稳健,避免低估标准误;计算简单,广泛应用于各类科学研究。

  • 缺点:对正态性要求较高,样本分布偏离正态时结果不可靠;仅适用于均值推断,不适合方差或比例的推断;样本量极小时,结果易受异常值影响。

中心极限定理
  • 原理:假设有一个总体,其均值为μ,方差为σ²,从中随机抽取n个样本,计算样本均值。随着n增大,样本均值的分布会越来越接近于均值为μ、方差为σ²/n的正态分布。计算公式为 \bar{x} = \frac{1}{n} \sum_{i=1}^{n}{x_{i}},其中 \bar{x}是样本均值,这里算得的样本均值认为趋近于原样本集的均值。t是随机变量,代表样本均值与总体均值之间的标准化距离,是为了衡量样本均值与总体均值的偏离程度,用于查找概率或临界值,决定是否拒绝原假设。

  • 用途:统计推断(在实际问题中,很多总体分布未知,但可以通过样本均值近似为正态分布,进行参数估计和假设检验);置信区间计算(利用正态分布性质,计算均值、比例等参数的置信区间);抽样分布分析(为各种统计量的分布提供理论基础)

  • 应用条件:独立性(样本必须相互独立);同分布(样本来自同一分布(同总体));样本容量足够大(一般认为n≥30时,中心极限定理效果较好;但如果原始分布极度偏斜,可能需要更大的n);有限方差(总体方差必须有限)

  • 优点:适用范围广,几乎所有实际抽样问题都能用;为统计推断提供理论基础

  • 缺点:对样本独立性和同分布有要求;样本容量太小或原始分布极度偏斜时,近似效果不佳;只适用于均值等线性统计量,某些复杂统计量不适用。

卡方分布
  • 原理:假设有k个独立的标准正态变量满足 x^{2} = Z_{1}^{2} + Z_{2}^{2} + ... + Z_{k}^{2},则称服从自由度为k的卡方分布。

  • 用途:方差检验(用于总体方差的推断和假设检验);卡方检验(用于分类变量的独立性检验(如列联表)、拟合优度检验(如观察频数与理论频数的比较);方差分析(在方差分析(ANOVA)中用于检验组间方差);置信区间估计(用于总体方差的置信区间估计)。其中,k是自由度,表示参与统计量计算的独立变量个数(或约束条件数)。

  • 应用条件:数据为计数型或分类变量(如频数、类别);各样本之间独立;理论频数一般要求大于5(尤其在列联表检验中);对于方差检验,要求样本来自正态分布总体。

  • 优点:适用于分类数据,能检验变量间的独立性;计算简单,广泛用于医学、社会科学、市场调查等领域;可用于多组数据的拟合优度检验。

  • 缺点:对样本量有要求,理论频数过小时检验结果不可靠;仅适用于计数型数据,不适合连续型变量;对正态性和独立性有一定要求,违背时结果不准确。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值