19、数据聚类与特征分析:从k - 均值到主成分分析

数据聚类与特征分析:从k - 均值到主成分分析

1. 特征缩放的重要性及方法

在处理数据时,若特征处于不同的尺度,会对距离函数产生影响,导致数据比较出现偏差。为解决这一问题,需要对数据进行转换,使相同量级的差异在所有特征上具有可比性。

一种常见的特征缩放方法是使用公式 (x’ = \frac{x - \min}{\max - \min}),将每个特征重新缩放到 0 到 1 的区间。不过,这并非唯一的缩放方法,具体选择应根据数据情况而定。

2. 数据集重缩放以改善聚类效果

初始聚类虽然能提取一些有意义的信息,但存在明显问题,如聚类数量不足导致结果不稳定,以及特征尺度差异的影响。为解决这些问题,我们先从数据集的重缩放入手。

在初始聚类中,检测到的峰值对应着使用频率最高的标签,如 JavaScript、Java、C#、Python 等。这是因为高流量标签会在距离计算中产生较大差异,使得算法主要关注高流量标签,而忽略了低流量标签的细微差异。

以 StackOverflow 数据为例,不同标签的活动量差异很大,如 JavaScript 的平均使用量比 iPhone 标签高出 20 多倍。为了消除用户活动水平的差异,我们可以按用户进行缩放,即将每行中最大的标签值设为 100%,并相应地划分其他标签值。

以下是实现按行归一化的代码:

let rowNormalizer (obs:Observation) : Observation =
    let max = obs |> Seq.max
    obs |> Ar
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值