边缘AI数据集:数据漂移、误差处理与标注策略
1. 数据漂移问题
1.1 数据漂移的定义与影响
数据集只是某个时间点的快照,代表了数据收集期间系统的状态。然而,现实世界是不断变化的,即使是高质量的数据集也会随着时间变得过时,这种变化过程被称为漂移、概念漂移或偏移。当漂移发生时,数据集不再能代表现实世界系统的当前状态,基于该数据集开发的模型或算法可能对系统的理解出现偏差,部署后性能不佳。
1.2 数据漂移的类型
- 突然变化 :现实世界条件可能会突然改变。例如,工人将振动传感器移动到机器的不同部位,会突然改变传感器捕捉的运动性质。
- 逐渐变化 :信号可能随时间逐渐改变。如机器的运动部件随着时间逐渐磨损,其振动性质也会慢慢改变。
- 周期性变化 :变化通常呈周期性或季节性。例如,机器的振动可能随所在位置的环境温度变化,而环境温度在夏季和冬季有所不同。
1.3 数据漂移的管理
由于变化不可避免,漂移是AI项目常见的问题,可能出现在物理配置(如传感器的放置)到文化演变(如语言和发音的逐渐变化)等各个方面。管理漂移需要及时更新数据集,并在实际应用中监控模型的性能。一个边缘AI项目很难真正“完成”,通常需要持续的监控或维护。
以下是数据漂移类型的表格总结:
| 漂移类型 | 描述 | 示例 |
| ---- | ---- | ---- |
| 突然变化 | 现实世界条件突然改变 | 工人移动振动
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



