数据处理与准备:从理论到实践
1. 数据核心概念
1.1 父分布
- 数据应能代表所建模的类别,背后假设是数据存在父分布,即生成特定数据集的未知数据生成器。
- 如同古希腊哲学家柏拉图认为存在理想的椅子,现实中的椅子是其或多或少的完美复制品,数据集与父分布的关系也是如此,我们期望数据集是理想状态的体现。
- 可将数据集视为从按父分布产生数据的未知过程中抽取的样本,数据类型(特征的值和范围)遵循某种未知统计规则。例如掷骰子,长期来看每个值出现的概率相等,这是均匀父分布;测量成年人身高时,分布会有两个峰值,分别围绕男性和女性的平均身高。
- 训练数据、测试数据以及用于模型决策的数据都必须来自同一父分布,这是模型的基本假设。但有时容易混淆,用来自一个父分布的数据训练模型,却用来自不同父分布的数据进行测试或使用模型(“领域适应”是当前活跃的研究领域)。
1.2 先验类别概率
- 先验类别概率指数据集中每个类别在实际环境中出现的概率。通常,我们希望数据集能匹配类别的先验概率。
- 然而存在例外情况。若某类别很罕见,如每 10000 个输入中仅出现 1 次,严格按照实际先验概率构建数据集,模型可能无法获得足够的该罕见类别的示例来学习有用信息。
- 以寻找四叶草的机器人为例,已知约每 5000 株三叶草中才有 1 株四叶草。若按此比例构建数据集,一个简单判定所有输入都是三叶草的模型平均每 5000 次中有 4999 次正确,但这是个无用的模型,因为它永远找不到我们感兴趣的四叶草类别。
- 解决方法有:使用 10:1
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



