探究用户对物品类别的喜好细分

原创已于 2024-02-05 11:30:57 修改 · 668 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#paddlepaddle #机器学习

于 2024-02-05 11:29:46 首次发布

本文介绍了如何使用Python中的sklearn库，通过K-means聚类算法对Instacart市场篮子分析数据进行商品类别聚类，首先进行了数据预处理和特征工程，包括PCA降维，然后应用K-means算法并评估模型效果，利用Silhouette_score衡量聚类质量。

使用k-means算法实现聚类模型

数据集地址：

https://www.kaggle.com/competitions/instacart-market-basket-analysis/overview

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
# 1. 读取数据
order_product = pd.read_csv("./data/order_products__train.csv")
products = pd.read_csv("./data/products.csv")
orders = pd.read_csv("./data/orders.csv")
aisles = pd.read_csv("./data/aisles.csv")
# 2. 数据基本处理
#2.1 合并表格
# on：标签或列表。要连接的列或索引级别名称。这些必须在两个 DataFrame 中都能找到。
#如果 on 为 None 并且未在索引上合并，则默认为两个 DataFrame 中列的交集。
table_1 = pd.merge(order_product, products, on=["product_id", "product_id"])
table_2 = pd.merge(table_1, orders, on=["order_id", "order_id"])
table = pd.merge(table_2, aisles, on=["aisle_id", "aisle_id"])
#交叉表（Cross Tabulations）是一种常用的分类汇总表格，用于频数分布统计，主要价值在于描述了变量间关系的深刻含义。
#2.2 交叉表合并
table = pd.crosstab(table["user_id"], table["aisle_id"])
table.head()
#2.3 数据截取
table_clip = table[:1000]
table_clip.head()
#3. 特征工程：PCA主成分分析
transfer = PCA(n_components=0.9)  # 保留90%的信息
data = transfer.fit_transform(table_clip)
data
print("降维前特征数量为：", table_clip.shape)
print("降维后特征数量为：", data.shape)
import os
os.environ["OMP_NUM_THREADS"] = "4"

# 4. 机器学习：K-means聚类
estimator = KMeans(n_clusters=8, random_state=22)  # 分为8类
pred = estimator.fit_predict(data)

# 5. 模型评估
score = silhouette_score(data, pred)
score