27、使用k-means聚类发现数据组

使用k-means聚类发现数据组

1. k值设定与聚类洞察

设定k值的过程有时能带来有趣的洞察。通过观察随着k值变化,聚类的特征如何改变,我们可以推断数据自然形成的边界在哪里。聚类紧密的组变化较小,而不太同质的组则会随时间形成和解散。通常,不必过于纠结k值的精确性。下面我们将通过一个例子展示,即使借鉴一部好莱坞电影中的少量主题知识,也能设定合适的k值,从而找到有实际意义且有趣的聚类。

2. 案例背景:青少年市场细分

在社交网络服务(SNS)上与朋友互动,如在Facebook、Tumblr和Instagram上,已成为全球青少年成长过程中的一部分。这些青少年有相对较多的可支配收入,是希望销售零食、饮料、电子产品和卫生用品的企业眼中极具吸引力的目标群体。数百万使用这些社交网站的青少年消费者吸引了营销人员的注意,他们在竞争日益激烈的市场中努力寻找优势。一种获得优势的方法是识别具有相似品味的青少年细分群体,这样企业就可以避免向对所售产品不感兴趣的青少年投放广告。例如,向对体育不感兴趣的青少年推销运动服装可能会很困难。

3. 数据收集

为了进行分析,我们将使用一个数据集,该数据集代表了2006年在一个知名社交网络服务上有个人资料的30,000名美国高中生的随机样本。为保护用户的匿名性,该社交网络服务将不具名。但在数据收集时,它是美国青少年常用的网站,因此可以合理假设这些个人资料代表了2006年美国青少年的广泛情况。
数据在四个高中毕业年份(2006 - 2009年)均匀采样,分别代表了数据收集时的高年级、中年级、低年级和新生班级。使用自动网络爬虫下载了社交网络个人资料的全文,并记录了每个青少年的性别、年龄和社交网络好友数量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值