数据挖掘中的无监督学习与推荐系统
1. 异常值与数据洞察
在数据分析中,异常值是需要关注的潜在问题。异常值是指那些与平均值相差甚远的观测值。少量的大异常值可能会导致模型失真,使其无法很好地代表典型的平均观测值。
以一个图表为例,一个轴似乎代表网页开发,另一个轴对比了 Ruby/Rails 和 Python/Django。靠近原点有一大群人对这些主题都不感兴趣,但当向左侧移动时,人群会分为两组。这表明 Ruby 和 Python 网页应用开发者虽然有一些共同感兴趣的技术(如 JSON、JavaScript),但在语言和框架方面存在不可调和的差异。
2. 主成分分析(PCA)与聚类分析
主成分分析和聚类分析都是无监督学习的方法,它们有相似之处,都能在没有监督的情况下对数据进行有效的总结。但它们解决问题的方式有很大不同。
聚类分析(如 k - 均值算法)试图将具有相似行为的观测值分组。理想情况下,同一簇内的项目彼此接近,而不同簇之间尽可能不同。k - 均值算法会确定质心,这些质心本质上是“原型”,足以描述一大类观测值。
主成分分析则会重新组织数据,创建新的特征,将原始特征重新组合成能描述观测值之间广泛行为差异的新特征。在这个过程中,它会创建一个高层次、全面的数据集“地图”,通过使用更少但更有信息量的特征来更有效地描述数据。
下面是它们的对比表格:
| 方法 | 关注重点 | 结果 |
| ---- | ---- | ---- |
| 聚类分析(k - 均值) | 观测值之间的相似性 | 分组,确定质心 |
| 主成分分析 | 特征的共同变化和与平均值的差异 | 创
超级会员免费看
订阅专栏 解锁全文
2637

被折叠的 条评论
为什么被折叠?



