数据科学每日总结--Day22--统计学

样本划分方法

重采样

核心思想:

  • 使用原始数据的不同子集来训练和测试模型,使我们能够估计模型在未见数据上的表现

  • 不直接依赖于单次划分(如一次训练集-测试集切分),而是多次抽样,避免评估结果过于依赖某个特定划分的偶然性

主要用途:

  • 模型评估:估计模型的测试误差和泛化误差

  • 参数评估:估计统计量的偏差与方差(Bootstrap)

K折交叉验证

步骤:

  1. 将数据随机分成K个大小大致相等的折(folds)

  2. 依次将其中一个折作为验证集,其余K-1折作为训练集,训练并评估模型

  3. 计算K次验证误差的平均值作为模型的性能指标

特点:

  • 常用的选择:K=5 或 K=10

  • 在每次划分中,每个样本在验证集中的机会是均等的

  • 相比单次验证集法,方差更小,评估更稳定

Leave-One-Out Cross-Validation

步骤:

  1. 与一般的K折交叉验证一样分成K个折,特殊的是K = 样本量 N

  2. 每次留出1个样本作为验证集,其余 N-1 个样本作为训练集

  3. 所有样本都做一次,被留出的样本的验证误差求平均 特点:

  • 使用了几乎全部的数据做训练,因此偏差较小

  • 方差可能偏大(因为训练集几乎一样,只差一个点)

  • 计算代价高(需要拟合N次模型)

分层K折交叉验证

应用前提:常用于分类任务,尤其是在类别分布不均衡的情况下 步骤:

  1. 在数据划分时保持各折的类别比例与原始数据集一致(分层采样)

  2. 其他步骤与K折交叉验证相同 优点:

  • 避免某些折类别比例失衡,评估更稳定可靠

  • 尤其适合二分类或多分类中类别稀少的情况

模型选择指标

AIC
  • 用途:用于选择在信息损失上最小的模型,注重平衡拟合度与模型复杂度

  • 公式:AIC = -2ln(\hat{L})+2k\hat{L}是模型的最大似然估计值,k是模型的参数总数(包含截距)

  • 解释:
    • 第一项衡量模型的拟合程度(越小越好)

    • 第二项是对模型复杂度的惩罚项(参数越多惩罚越大)

    • AIC越小,模型越优(但只能在相同数据集、相同因变量的模型间比较)

  • 特点:
    • 偏向寻找泛化性能更好的模型

    • 惩罚力度相对温和,容易选择稍微复杂的模型

BIC
  • 用途:类似于AIC,但惩罚力度更大,更倾向于选择简单模型

  • 公式:BIC = -2ln(\hat{L})+kln(n),其中n是样本量,其他符号同AIC

  • 解释:
    • 相比AIC,惩罚项由2k替换为kln(n),当样本量较大时,惩罚力度要大得多

    • BIC越小越好

    • 通常在样本量很大时,BIC会更偏向选择参数少的模型

  • 特点对比:
    • AIC:惩罚项固定(与n无关),模型会略复杂

    • BIC:惩罚项随样本量增大而变大,更容易选择简单模型

Adjusted R-squared

背景前提: 普通的R^{2}衡量的是模型对数据的解释比例:R^{2}=1-\frac{RSS}{TSS},,RSS是残差平方和,TSS是总平方和,但问题是增加自变量时,R^{2}永远不会下降,哪怕该变量不显著(可能导致过拟合)。而调整后的公式: \bar{R}^{2}= 1 - (\frac{1-R^{2}}{n-p-1})(n-1),n是样本量,p是自变量个数(不包含截距) 解释:

  • 加入新变量后,若该变量对模型没有显著提升拟合度,调整后的R^{2}会下降

  • 可以更合理地比较不同数量自变量的模型

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值