样本划分方法
重采样
核心思想:
-
使用原始数据的不同子集来训练和测试模型,使我们能够估计模型在未见数据上的表现
-
不直接依赖于单次划分(如一次训练集-测试集切分),而是多次抽样,避免评估结果过于依赖某个特定划分的偶然性
主要用途:
-
模型评估:估计模型的测试误差和泛化误差
-
参数评估:估计统计量的偏差与方差(Bootstrap)
K折交叉验证
步骤:
-
将数据随机分成K个大小大致相等的折(folds)
-
依次将其中一个折作为验证集,其余K-1折作为训练集,训练并评估模型
-
计算K次验证误差的平均值作为模型的性能指标
特点:
-
常用的选择:K=5 或 K=10
-
在每次划分中,每个样本在验证集中的机会是均等的
-
相比单次验证集法,方差更小,评估更稳定
Leave-One-Out Cross-Validation
步骤:
-
与一般的K折交叉验证一样分成K个折,特殊的是K = 样本量 N
-
每次留出1个样本作为验证集,其余 N-1 个样本作为训练集
-
所有样本都做一次,被留出的样本的验证误差求平均 特点:
-
使用了几乎全部的数据做训练,因此偏差较小
-
方差可能偏大(因为训练集几乎一样,只差一个点)
-
计算代价高(需要拟合N次模型)
分层K折交叉验证
应用前提:常用于分类任务,尤其是在类别分布不均衡的情况下 步骤:
-
在数据划分时保持各折的类别比例与原始数据集一致(分层采样)
-
其他步骤与K折交叉验证相同 优点:
-
避免某些折类别比例失衡,评估更稳定可靠
-
尤其适合二分类或多分类中类别稀少的情况
模型选择指标
AIC
-
用途:用于选择在信息损失上最小的模型,注重平衡拟合度与模型复杂度
-
公式:
,
是模型的最大似然估计值,k是模型的参数总数(包含截距)
- 解释:
-
第一项衡量模型的拟合程度(越小越好)
-
第二项是对模型复杂度的惩罚项(参数越多惩罚越大)
-
AIC越小,模型越优(但只能在相同数据集、相同因变量的模型间比较)
-
- 特点:
-
偏向寻找泛化性能更好的模型
-
惩罚力度相对温和,容易选择稍微复杂的模型
-
BIC
-
用途:类似于AIC,但惩罚力度更大,更倾向于选择简单模型
-
公式:
,其中n是样本量,其他符号同AIC
- 解释:
-
相比AIC,惩罚项由2k替换为kln(n),当样本量较大时,惩罚力度要大得多
-
BIC越小越好
-
通常在样本量很大时,BIC会更偏向选择参数少的模型
-
- 特点对比:
-
AIC:惩罚项固定(与n无关),模型会略复杂
-
BIC:惩罚项随样本量增大而变大,更容易选择简单模型
-
Adjusted R-squared
背景前提: 普通的衡量的是模型对数据的解释比例:
,,RSS是残差平方和,TSS是总平方和,但问题是增加自变量时,
永远不会下降,哪怕该变量不显著(可能导致过拟合)。而调整后的公式:
,n是样本量,p是自变量个数(不包含截距) 解释:
-
加入新变量后,若该变量对模型没有显著提升拟合度,调整后的
会下降
-
可以更合理地比较不同数量自变量的模型
289

被折叠的 条评论
为什么被折叠?



