机器学习中的样本、数据划分与模型评估指标
1. 抽样误差与样本统计
在进行统计调查时,抽样误差是一个重要概念。例如,为了估计一个小镇居民的平均年龄,我们随机抽取了 50 名居民作为样本,得到以下统计数据:
- 样本均值($\bar{x}$):35 岁
- 样本标准差(s):10 岁(对总体标准差的估计)
- 样本大小(n):50 名居民
通过公式 $SE = \frac{10}{\sqrt{50}} \approx 1.42$ 岁,可计算出样本均值的标准误差约为 1.42 岁。这意味着,如果从总体中多次抽取相同大小的随机样本并计算每个样本的均值,这些样本均值会在 35 岁左右波动,平均波动幅度为 1.42 岁。
标准误差常用于构建置信区间。比如,我们可以利用这个标准误差来计算小镇居民平均年龄的 95% 置信区间,从而以 95% 的置信度估计总体真实平均年龄所在的范围。
抽样误差并非由单一公式表示,它反映了在尝试从样本数据推断总体信息时,估计或测量的变异性和不确定性。具体的抽样误差公式取决于所估计的统计量或参数以及数据的特征。在实际应用中,我们通常会使用统计软件或工具来计算感兴趣的特定参数或估计值的标准误差。
2. 机器学习中的训练数据和测试数据
当我们没有大量涵盖所研究现象的历史数据时,前面提到的确定样本大小的方法会很有效。但在很多情况下,我们拥有大量数据集,并希望从这些历史数据中生成训练数据集和测试数据集。训练数据集用于训练机器学习模型,而测试数据集则用于验证模型的准确性,它们是机器学习中的关键概念。
我们可以利用功效分析和抽样来创建训练和测试数据集。不过,如果样本
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



