20、机器学习训练数据的关键要素与创建方法

最新推荐文章于 2025-12-11 12:02:01 发布

云朵来信

最新推荐文章于 2025-12-11 12:02:01 发布

阅读量26

点赞数

CC 4.0 BY-SA版权

分类专栏：训练数据的艺术与科学文章标签：机器学习训练数据数据标注

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/b0c1d2/article/details/152113844

训练数据的艺术与科学专栏收录该内容

30 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习训练数据的关键要素与创建方法

1. 伦理与隐私考量

在机器学习中，并非所有监督数据都存在偏差问题。例如，草莓采摘数据集在伦理和隐私方面的问题就相对较少。但在某些特定场景下，伦理问题十分严峻。虽然这并非专门探讨伦理的内容，但了解这些问题有助于更好地处理训练数据。

2. 偏差的类型

2.1 技术偏差

在机器学习建模里，“偏差”含义多样。技术偏差一方面指在计算中添加到变量部分的固定值，比如想让模型在权重和为 0 时返回 3，就可添加 3.6 的偏差；另一方面，它也指与真实分布均值的距离所衡量的估计偏差，不过这并非我们关注的重点，我们更在意的是人为偏差。

2.2 类别不平衡偏差

类别不平衡指的是一个标签的样本数量多于另一个标签。以机场扫描仪的威胁检测系统为例，“前臂”和“威胁”这两个类别，“前臂”的变异性小，可能只需少量样本就能构建出色的模型；而“威胁”的放置方式多样且可能被刻意隐藏，需要更多样本。这就导致“前臂”和“威胁”样本数量看似不平衡，但实际上这是合理的，因为“威胁”问题更具挑战性。解决此问题的一种方法是将“威胁”细分为更小的类别。

2.3 期望的人为偏差和不期望的人为偏差

模型需要朝着我们期望检测的方向“有偏差”，即让模型理解我们对数据的认知。但同时，也要避免引入不期望的人为偏差。

偏差难以避免

即便我们仅使用近六个月内修正的数据重新训练模型，旧模型的偏差仍可能存在。这就如同系统架构，修正一个函数相对容易，但判断该函数是否应存在却较难，即便修正后的函数每个字符都改变了，仍可能带有旧函数的“影子”。此外，标签模板也

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。