机器学习中的数据挑战与算法实践
1. 数据挑战
1.1 输出值噪声
输出值中的噪声会对训练产生负面影响。若因未知或不可控因素导致输出噪声影响过大,会使模型容易欠拟合,从而导致建模无效或低效。例如,白色传送带上的白色糖果会给机械臂的图像检测模型带来噪声,导致机械臂无法检测到糖果。
1.2 数据异质性
在机器学习过程中,数据异质性处理难度逐渐增大。统计学中,异质性指数据总体、样本或结果不同,与同质性相反。数据异质性增加会导致模型复杂度显著提高,最终降低模型输出效率。样本多样性越大,就越需要进行特征工程来分离可能的样本差异。例如,圆形糖果直径在 1 - 5 厘米之间就是异质的,若都为 2 厘米则是同质的,机器学习处理所有圆形且大小相同的糖果更容易,因为只需检测糖果的二元结果。
1.3 维度灾难
维度是跟踪或描述生态系统中特定对象所需的方差特征结果。对象越复杂,模型跟踪其真实特征所需的维度就越多。维度灾难指在高维空间分析和组织数据时出现的现象,会导致动态优化问题,因为维度数量使处理变得过于复杂和昂贵,且缺乏共同特征。随着维度增加,基本维度的体积增长过快,可用数据变得稀疏,这对需要统计显著性的方法构成挑战。为获得统计上合理可靠的结果,支持结果所需的数据量通常随维度呈指数增长。例如,在最简单的 d 个二元变量情况下,潜在组合数量为 O(2d)。
1.4 数据冗余
数据冗余会导致无效的因果关系。当同一数据项存在于两个独立维度时,数据集中就会产生冗余,这会增加数据维度并导致数据维度之间的错误关联。例如,在同一数据记录中同时以厘米和米记录糖果大小会导致两个维度之间产生关联,应只使用其中一种来避免错误关联。
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



