6、机器学习中的数据挑战与算法实践-优快云博客

本文链接：https://blog.youkuaiyun.com/fire9/article/details/152287173

机器学习中的数据挑战与算法实践

1. 数据挑战

1.1 输出值噪声

输出值中的噪声会对训练产生负面影响。若因未知或不可控因素导致输出噪声影响过大，会使模型容易欠拟合，从而导致建模无效或低效。例如，白色传送带上的白色糖果会给机械臂的图像检测模型带来噪声，导致机械臂无法检测到糖果。

1.2 数据异质性

在机器学习过程中，数据异质性处理难度逐渐增大。统计学中，异质性指数据总体、样本或结果不同，与同质性相反。数据异质性增加会导致模型复杂度显著提高，最终降低模型输出效率。样本多样性越大，就越需要进行特征工程来分离可能的样本差异。例如，圆形糖果直径在 1 - 5 厘米之间就是异质的，若都为 2 厘米则是同质的，机器学习处理所有圆形且大小相同的糖果更容易，因为只需检测糖果的二元结果。

1.3 维度灾难

维度是跟踪或描述生态系统中特定对象所需的方差特征结果。对象越复杂，模型跟踪其真实特征所需的维度就越多。维度灾难指在高维空间分析和组织数据时出现的现象，会导致动态优化问题，因为维度数量使处理变得过于复杂和昂贵，且缺乏共同特征。随着维度增加，基本维度的体积增长过快，可用数据变得稀疏，这对需要统计显著性的方法构成挑战。为获得统计上合理可靠的结果，支持结果所需的数据量通常随维度呈指数增长。例如，在最简单的 d 个二元变量情况下，潜在组合数量为 O(2d)。