20、机器学习训练数据的关键要素与创建方法

机器学习训练数据的关键要素与创建方法

1. 伦理与隐私考量

在机器学习中,并非所有监督数据都存在偏差问题。例如,草莓采摘数据集在伦理和隐私方面的问题就相对较少。但在某些特定场景下,伦理问题十分严峻。虽然这并非专门探讨伦理的内容,但了解这些问题有助于更好地处理训练数据。

2. 偏差的类型

2.1 技术偏差

在机器学习建模里,“偏差”含义多样。技术偏差一方面指在计算中添加到变量部分的固定值,比如想让模型在权重和为 0 时返回 3,就可添加 3.6 的偏差;另一方面,它也指与真实分布均值的距离所衡量的估计偏差,不过这并非我们关注的重点,我们更在意的是人为偏差。

2.2 类别不平衡偏差

类别不平衡指的是一个标签的样本数量多于另一个标签。以机场扫描仪的威胁检测系统为例,“前臂”和“威胁”这两个类别,“前臂”的变异性小,可能只需少量样本就能构建出色的模型;而“威胁”的放置方式多样且可能被刻意隐藏,需要更多样本。这就导致“前臂”和“威胁”样本数量看似不平衡,但实际上这是合理的,因为“威胁”问题更具挑战性。解决此问题的一种方法是将“威胁”细分为更小的类别。

2.3 期望的人为偏差和不期望的人为偏差

模型需要朝着我们期望检测的方向“有偏差”,即让模型理解我们对数据的认知。但同时,也要避免引入不期望的人为偏差。

偏差难以避免

即便我们仅使用近六个月内修正的数据重新训练模型,旧模型的偏差仍可能存在。这就如同系统架构,修正一个函数相对容易,但判断该函数是否应存在却较难,即便修正后的函数每个字符都改变了,仍可能带有旧函数的“影子”。此外,标签模板也

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值