数据科学 6 参数估计与统计推断(概念)

本文深入探讨统计学的关键概念,包括参数估计、假设检验、单样本与两样本T检验、方差分析、相关分析及卡方检验。涵盖点估计、置信区间、中心极限定理、t检验流程、ANOVA分析、相关系数计算与卡方检验的应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


主要内容:

  • 假设检验与单样本T检验
  • 两样本T检验
  • 方差分析(分类变量和连续变量关系检验)
  • 相关分析(两连续变量关系检验)
  • 卡方检验(两分类变量关系检验)

6.1 参数估计

6.1.1 概念

1、总体与样本
  • 总体 – 研究所感兴趣的所有个体组成总体
  • 样本 – 从总体抽取的部分个体组成样本,样本用于对总体的某些指标作推断使用
2、参数和统计量
  • 统计量由样本获取,用于对总体的参数进行估计
    在这里插入图片描述
3、点估计

在这里插入图片描述

4、置信区间

在这里插入图片描述
95% 的置信区间代表参数估计值落在相应区间范围内的概率为95%,即总体参数值有95%的可能在估计值的置信区间内。

5、均值的标准误差
  • 均值的标准误差是衡量估计的均值的变异程度
  • 均值的标准误差随样本的标准差变化而变化
    • 样本的标准差用于衡量样本数据的变异程度
    • 均值的标准误差是衡量样本均值的变异程度
      在这里插入图片描述
6、均值的置信区间

在这里插入图片描述

7、中心极限定理
  • 为满足正态性假设,可以:
    • 验证总体分布是近似正态的
    • 应用中心极限定理.
      • 中心极限定理阐述了若样本的数据量足够大,样本均值的分布是近似正态的
      • “足够大” 表示大于30 个样本.
        如果数据严重偏态,则需要更多的样本,如果数据本身是对称则不用

6.2 假设检验与单样本T检验

  • 经验公式:
    k样本数与置信度α:
    k<100 α取10%
    100<k<500 α取5%
    500<k<100 α取1%
    2000左右 α取1‰
    数据再大,置信度就没有意义
    建立评分卡或统计模型,样本量不超过5000

统计学通过什么检验两个变量是否有关系?
检验均值差值是否为0(均值的差是否为0)

6.2.1 概念

1、t检验

• 检验0假设H0: μ = μ0, 首先计算t统计量:
在这里插入图片描述
• 再根据t统计量相应的P值来判断是否拒绝原假设

2、拒绝域与接收域

在这里插入图片描述

6.3 两样本T检验

6.3.1 两独立样本t检验

在这里插入图片描述

6.4 方差分析

(多分类,ANOVA)

6.4.1 ANOVA分析的组间变异、组内变异和总变异

在这里插入图片描述

1、均值

(总体均值)
在这里插入图片描述

2、总变异

(样本值减均值的平方和)
在这里插入图片描述

3、组内变异

(组内样本值减组内均值平方和)
在这里插入图片描述

4、组间变异

分组均值减总体均值平方乘以组内样本数,再求和

在这里插入图片描述

6.4.2 F统计量与显著水平 α \alpha α=0.05

在这里插入图片描述

6.4.3 单因素方差分析模型

在这里插入图片描述

  • 评估单因素方差分析结果
    • 注意数据中不同组的数据要服从独立性假设
    • 数据服从正态分布
    • 方差齐性要求

6.5 相关分析

(连续与连续)

6.5.1 三种相关系数

	相关关系是一种不完全确定的随机关系,当一个或几个变量的数值 被确定后,与之相应的另一个变量的值虽然不能确定,但是仍按照 某种依赖关系在一定的范围内变化。简单相关分析是研究两个变量 之间相关关系的方法。 

在这里插入图片描述

  • PEARSON相关系数:参数方法、连续变量之间的相关
  • SPEARMAN相关系数:非参方法、又称秩相关系数
  • KENDALL相关系数:非参方法,序数变量之间的相关系数
  • 在这里插入图片描述

6.5.2 连续变量的线性相关分析

在这里插入图片描述

6.5.3 线性相关程度

在这里插入图片描述

6.5.3 相关系数的检验

在这里插入图片描述

6.6 卡方检验

(分类变量与分类变量)

6.6.1 列联表

在这里插入图片描述

图片名称 图片名称

无相关性 与 存在相关性

6.6.2 列联分析的原假设与备选假

列联分析的原假设

  • 客户重要性等级与是否成功入网无关系
  • 即各级别客户入网的概率都一样
    列联分析的备择假设
  • 客户重要性等级与是否成功入网有关系
  • 即各级别客户入网的概率不一样

6.6.3 列联表分析

在这里插入图片描述

6.6.4 卡方检验

无关

  • 实际频数= 期望频数

有关

  • 实际频数 ≠ \not= = 期望频数

                             期望频数计算公式:(行总* 列总) / 样本量
    

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

irober

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值