机器学习训练数据的关键要素与创建方法
1. 伦理与隐私考量
在机器学习中,并非所有监督数据都存在偏差问题。例如,草莓采摘数据集在伦理和隐私方面的问题就相对较少。但在某些特定场景下,伦理问题十分严峻。虽然这并非专门探讨伦理的内容,但了解这些问题有助于更好地处理训练数据。
2. 偏差的类型
2.1 技术偏差
在机器学习建模里,“偏差”含义多样。技术偏差一方面指在计算中添加到变量部分的固定值,比如想让模型在权重和为 0 时返回 3,就可添加 3.6 的偏差;另一方面,它也指与真实分布均值的距离所衡量的估计偏差,不过这并非我们关注的重点,我们更在意的是人为偏差。
2.2 类别不平衡偏差
类别不平衡指的是一个标签的样本数量多于另一个标签。以机场扫描仪的威胁检测系统为例,“前臂”和“威胁”这两个类别,“前臂”的变异性小,可能只需少量样本就能构建出色的模型;而“威胁”的放置方式多样且可能被刻意隐藏,需要更多样本。这就导致“前臂”和“威胁”样本数量看似不平衡,但实际上这是合理的,因为“威胁”问题更具挑战性。解决此问题的一种方法是将“威胁”细分为更小的类别。
2.3 期望的人为偏差和不期望的人为偏差
模型需要朝着我们期望检测的方向“有偏差”,即让模型理解我们对数据的认知。但同时,也要避免引入不期望的人为偏差。
偏差难以避免
即便我们仅使用近六个月内修正的数据重新训练模型,旧模型的偏差仍可能存在。这就如同系统架构,修正一个函数相对容易,但判断该函数是否应存在却较难,即便修正后的函数每个字符都改变了,仍可能带有旧函数的“影子”。此外,标签模板也
超级会员免费看
订阅专栏 解锁全文
4538

被折叠的 条评论
为什么被折叠?



