无监督学习与数据预处理:从理论到实践
1. 无监督学习的挑战与应用场景
在组织图片时,为了将展示同一人的图片归为一组,一种可行的方法是提取所有面部,然后将相似的面部进行分组。然而,无监督学习面临着一个重大挑战,即评估算法是否学到了有用的信息。由于无监督学习算法通常应用于不包含标签信息的数据,我们往往不清楚正确的输出应该是什么,因此很难判断模型是否表现良好。
例如,一个聚类算法可能会将所有侧面面部图片和正面面部图片分别分组,这虽然是一种可能的分组方式,但并非我们所期望的。而且,我们无法直接告诉算法我们的需求,通常只能手动检查无监督算法的结果。
无监督算法常用于探索性分析,帮助数据科学家更好地理解数据,也常作为监督算法的预处理步骤。学习数据的新表示有时可以提高监督算法的准确性,或者减少内存和时间消耗。
2. 数据预处理与缩放
2.1 不同的预处理方法
一些算法,如神经网络和支持向量机(SVM),对数据的缩放非常敏感。因此,常见的做法是调整特征,使数据表示更适合这些算法。常见的预处理方法有以下几种:
- StandardScaler :确保每个特征的均值为 0,方差为 1,使所有特征具有相同的量级,但不保证特征的特定最小值和最大值。
- RobustScaler :与 StandardScaler 类似,确保每个特征具有统计特性,保证它们在同一尺度上。但它使用中位数和四分位数,而不是均值和方差,因此可以忽略与其他数据点差异很大的数据点(即异常值)。
- MinMaxScaler
超级会员免费看
订阅专栏 解锁全文
566

被折叠的 条评论
为什么被折叠?



