情景:
某超市想对顾客进行分类,但不知道该怎么分。他们收集了最近一周内所有顾客的购买记录,包括买了什么、花了多少钱、逛了哪些区域等信息。
第一步:观察原始数据
假设有10位顾客的购买记录如下:
- 小明:买了牛奶、鸡蛋、全麦面包 → 总消费50元
- 小红:买了薯片、可乐、巧克力 → 总消费80元
- 小刚:买了新鲜蔬菜、水果、酸奶 → 总消费60元
- 小芳:买了咖啡、蛋糕、曲奇 → 总消费70元
- 小强:买了啤酒、烧烤食材、零食 → 总消费90元
- 小美:买了婴儿奶粉、尿布、奶瓶 → 总消费120元
- 小刘:买了大米、食用油、酱油 → 总消费40元
- 小张:买了手机壳、耳机、充电宝 → 总消费200元
- 小陈:买了健身器材、蛋白粉 → 总消费150元
- 小丽:买了口红、香水、护肤品 → 总消费180元
第二步:聚类分析的作用
超市老板想把这些顾客分成几类,但没有任何预设的标准(比如“老年人”“年轻人”)。这时候聚类分析就能派上用场——它会根据顾客的购买行为,自动发现隐藏的共同规律。
结果可能分成3类:
-
“家庭主妇型”:小明、小刚、小刘
- 共同点:买生活必需品(牛奶、鸡蛋、蔬菜、米油)。
- 应用:推出“家庭套餐折扣”。
-
“年轻潮流型”:小红、小芳、小丽
- 共同点:买零食、咖啡、化妆品、甜点。
- 应用:在收银台附近摆放网红零食和限量款护肤品。
-
“实用主义者”:小强、小美、小张、小陈
- 共同点:要么买大量低价日用品(小强、小刘),要么买高单价专业用品(手机、健身器材)。
- 应用:对小强这类顾客推送“批量采购优惠”,对小张推荐“电子产品以旧换新”。
第三步:为什么是聚类?
- 无需提前定义标签:老板不需要告诉算法“家庭主妇有哪些特征”,算法自己通过数据观察总结出类别。
- 发现潜在规律:可能发现原本没注意到的细分群体(比如“健身爱好者”和“囤货党”)。
- 灵活应用:同一批数据未来可以按“消费金额”“停留时长”等其他维度重新聚类。
类比:就像整理书架
想象你要整理家里的书架,但没有分类标准。你可能会根据书的:
- 厚度(厚书 vs 薄书)
- 颜色(彩色书 vs 黑白书)
- 内容(小说 vs 科技书)
聚类分析会自动把相似的书放在一起,比如:
- 《哈利波特》《小王子》(都是故事类、较薄)
- 《相对论》《时间简史》(都是科普类、较厚)
- 《五年高考三年模拟》《GRE核心词汇》(都是工具类、中等厚度)
最终你会得到一个清晰的分类,即使一开始没有明确的规则。