机器学习笔记 - 评估方法

最新推荐文章于 2025-01-14 20:11:59 发布

原创最新推荐文章于 2025-01-14 20:11:59 发布 · 500 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

29 篇文章

订阅专栏

本文介绍了三种常用的数据集划分方法：HoldOut、CrossValidation和Bootstrapping。这些方法用于创建训练集和测试集，以评估机器学习模型的性能。

数据集 $D$ = $\{ (x_1, y_1), (x_2, y_2), ... , (x_m, y_m) \}$ , 一共 $m$ 个样本. 可以对 $D$ 进行适当处理, 从中产生训练集 $S$ 和测试集 $T$ . 下面介绍几种常见的做法.

Hold Out

将数据集 $D$ 划分为两个互斥的集合，其中一个作为训练集 $S$ , 另一个作为测试集T, 即 $D=S \cup T$ , $S \cap T= \emptyset$ . 训练集和测试集的划分要尽量保持数据分布的一致性，至少要保证样本的类别比例相似。另一个需要注意的问题是，在给定测试/训练集比例后，仍然存在多种划分方式对数据集 $D$ 进行分割，不同的划分方式将导致不同的模型评估结果，所以在使用Hold Out方法时，一般要采用若干次随机划分，重复实验评估后取平均值作为评估结果。

Cross Validation

将数据集 $D$ 划分为 k 个大小相似的互斥子集, 即 $D=D_1 \cup D_2 \cup ... \cup D_k$ , $D_1 \cap D_2 \cap ... \cap D_k= \emptyset$ , 然后，每次用 $k-1$ 个子集的并集作为训练集，余下的那个子集作为测试集，这样可以获得 $k$ 组训练集和测试集，从而进行 $k$ 次训练和测试，最终返回 $k$ 个测试结果的均值。
跟Hold Out 方法类似，将数据集 $D$ 划分为 $k$ 个子集也存在多种方式，为减少因样本划分引入的差异， $k$ 次Cross Validation 通常要随机使用不同的划分重复 $p$ 次。常见的有10次10折Cross Validation.

Bootstrapping

给定 $m$ 个样本的数据集 $D$ , 对其进行采样，每次随机挑选一个样本，复制后将其放回，这样重复 $m$ 次，可以得到包含 $m$ 个样本的测试集 $S$ , 显然， $D$ 中会有一部分样本在 $S$ 中多次出现，而有另一部分则不出现，而样本在 $m$ 次采样中部出现的概率为 $p = (1-\frac{1}{m})^m$ .