8、数据处理与准备:从理论到实践

数据处理与准备:从理论到实践

1. 数据核心概念

1.1 父分布

  • 数据应能代表所建模的类别,背后假设是数据存在父分布,即生成特定数据集的未知数据生成器。
  • 如同古希腊哲学家柏拉图认为存在理想的椅子,现实中的椅子是其或多或少的完美复制品,数据集与父分布的关系也是如此,我们期望数据集是理想状态的体现。
  • 可将数据集视为从按父分布产生数据的未知过程中抽取的样本,数据类型(特征的值和范围)遵循某种未知统计规则。例如掷骰子,长期来看每个值出现的概率相等,这是均匀父分布;测量成年人身高时,分布会有两个峰值,分别围绕男性和女性的平均身高。
  • 训练数据、测试数据以及用于模型决策的数据都必须来自同一父分布,这是模型的基本假设。但有时容易混淆,用来自一个父分布的数据训练模型,却用来自不同父分布的数据进行测试或使用模型(“领域适应”是当前活跃的研究领域)。

1.2 先验类别概率

  • 先验类别概率指数据集中每个类别在实际环境中出现的概率。通常,我们希望数据集能匹配类别的先验概率。
  • 然而存在例外情况。若某类别很罕见,如每 10000 个输入中仅出现 1 次,严格按照实际先验概率构建数据集,模型可能无法获得足够的该罕见类别的示例来学习有用信息。
  • 以寻找四叶草的机器人为例,已知约每 5000 株三叶草中才有 1 株四叶草。若按此比例构建数据集,一个简单判定所有输入都是三叶草的模型平均每 5000 次中有 4999 次正确,但这是个无用的模型,因为它永远找不到我们感兴趣的四叶草类别。
  • 解决方法有:使用 10:1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值