掌握！大数据挖掘交易数据价值的实战技巧

最新推荐文章于 2025-11-21 15:59:40 发布

原创最新推荐文章于 2025-11-21 15:59:40 发布 · 890 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#数据挖掘 #人工智能 #ai

优快云专栏收录该内容

888 篇文章

订阅专栏

掌握！大数据挖掘交易数据价值的实战技巧

引言：为什么交易数据是企业的“金矿”？

在数字化时代，交易数据是企业最具价值的“无形资产”之一。无论是电商的“用户下单记录”、金融的“信用卡交易流水”，还是零售的“线下 POS 消费数据”，每一条交易记录都蕴含着用户偏好、市场趋势、风险信号等关键信息。然而，现实中多数企业的交易数据都处于“沉睡”状态——要么存储在数据库里无人问津，要么仅用于简单的报表统计（比如“月度销售额”），远未发挥其真正价值。

大数据挖掘的核心目标，就是将“原始交易数据”转化为“可落地的业务价值”：

对电商来说，挖掘交易数据可以实现“精准推荐”（比如“购买手机的用户还想买手机壳”）；
对金融机构来说，可以实现“实时欺诈检测”（比如“异地大额交易预警”）；
对零售企业来说，可以优化“库存管理”（比如“预测节日期间牛奶的销量”）。

本文将从交易数据的特点、预处理技巧、核心挖掘技术、实战项目四个维度，结合真实代码示例与业务场景，手把手教你挖掘交易数据的价值。

一、交易数据的特点与预处理：从“ raw data ”到“ ready data ”

在开始挖掘之前，你必须先理解交易数据的四大核心特点，并通过预处理将其转化为“可用数据”。

1.1 交易数据的四大特点

交易数据通常是多源、高维、时序性、噪声大的组合体：

多源性：来自线上（APP、小程序）、线下（POS 机、门店）、第三方（支付平台、物流）等多个渠道；
高维性：每条记录包含用户 ID、商品 ID、交易时间、金额、地址、支付方式等数十个字段；
时序性：交易是按时间顺序发生的（比如用户 1 月购买了手机，3 月购买了手机壳）；
噪声大：存在重复记录（比如用户重复下单）、缺失值（比如地址未填写）、异常值（比如 1 元购买了万元手机）。

1.2 预处理的三大关键步骤

预处理是挖掘的基础——数据质量决定了模型效果的上限。以下是实战中最常用的三个步骤：

步骤 1：数据清洗——去除“脏数据”

数据清洗的目标是解决“重复、缺失、异常”问题，常用工具是 Pandas（Python 数据分析库）。

示例 1：用 Pandas 处理重复与缺失值

假设我们有一份电商交易数据（transaction.csv），包含以下字段：
user_id（用户 ID）、item_id（商品 ID）、trans_time（交易时间）、amount（金额）、address（地址）。

import pandas as pd

# 1. 读取数据
df = pd.read_csv("transaction.csv")

# 2. 去除重复记录（按 user_id + item_id + trans_time 去重）
df = df.drop_duplicates(subset=["user_id", "item_id", "trans_time"])

# 3. 处理缺失值（address 字段用“未知”填充，amount 字段用中位数填充）
df["address"] = df["address"].fillna("未知")
df["amount"] = df["amount"].fillna(df["amount"].median())

# 4. 处理异常值（过滤金额 < 0 或 > 10000 的记录）
df = df[(df["amount"] > 0) & (df["amount"] <= 10000)]

步骤 2：特征工程——从“字段”到“可解释的特征”

特征工程是将原始字段转化为对模型有用的信息，核心是“业务理解 + 数据视角”。以下是交易数据中最常用的特征类型：

特征类型	示例	计算方式
时间特征	交易小时、星期、季度	`trans_time.dt.hour`
用户特征	最近 30 天购买次数、平均客单价	`df.groupby("user_id")["amount"].mean()`
商品特征	商品类目、月销量	关联商品表（`item.csv`）的`category`字段
行为特征	用户浏览但未购买的次数（结合行为数据）	关联用户行为表计算

示例 2：提取时间与用户特征

# 1. 将 trans_time 转为 datetime 类型
df["trans_time"] = pd.to_datetime(df["trans_time"])

# 2. 提取时间特征：小时、星期、是否周末
df["hour"] = df["trans_time"].dt.hour
df["weekday"] = df["trans_time"].dt.weekday
df["is_weekend"] = df["weekday"].apply(lambda x: 1 if x in [5,6] else 0)

# 3. 提取用户特征：最近 30 天购买次数、平均客单价
# 计算每个用户的最近交易时间
user_last_trans = df.groupby("user_id")["trans_time"].max().reset_index()
user_last_trans.columns = ["user_id", "last_trans_time"]

# 合并到原数据
df = pd.merge(df, user_last_trans, on="user_id")

# 计算最近 30 天购买次数（假设当前时间是 2023-12-31）
current_time = pd.Timestamp("2023-12-31")
df["recent_30d_buy_count"] = df.groupby("user_id")["trans_time"].transform(
    lambda x: (current_time - x).dt.days.le(30).sum()
)

# 计算平均客单价
df["avg_amount"] = df.groupby("user_id")["amount"].transform("mean")

步骤 3：数据归一化/标准化

多数机器学习模型（比如 K-means、SVM）对特征的尺度敏感（比如“金额”是万元级，“购买次数”是个位数）。因此需要将特征缩放到同一尺度：

归一化（Min-Max Scaling）：将特征缩至 [0,1] 区间，适合有明确边界的数据（比如小时 0-23）；
标准化（Standard Scaling）：将特征转化为均值 0、方差 1 的正态分布，适合无明确边界的数据（比如金额）。

示例 3：用 Scikit-learn 做标准化

from sklearn.preprocessing import StandardScaler

# 选择需要标准化的特征
features_to_scale = ["amount", "recent_30d_buy_count", "avg_amount"]

# 初始化标准化器
scaler = StandardScaler()

# 拟合并转换特征
df[features_to_scale] = scaler.fit_transform(df[features_to_scale])

二、交易数据挖掘的四大核心技术：从“原理”到“实战”

接下来，我们将介绍关联分析、时序预测、客户分群、异常检测四大技术——这些是交易数据挖掘中最常用且最易落地的方法。

2.1 关联分析：找到“隐藏的购买规律”

关联分析的目标是发现商品之间的关联关系（比如“购买手机的用户 80% 会买手机壳”），经典算法是 Apriori。

2.1.1 核心概念与数学模型

关联分析的三个核心指标：

支持度（Support）：项集（比如 {手机, 手机壳}）出现的频率，公式：
$\frac{Count(X \cup Y)}{Total Transactions}$
置信度（Confidence）：购买 X 后购买 Y 的概率，公式：
$\frac{Count(X \cup Y)}{Count(X)}$
提升度（Lift）：购买 X 对购买 Y 的提升效果（大于 1 表示正相关），公式：
$\frac{Confidence(X→Y)}{Support(Y)}$

2.1.2 实战：用 Apriori 挖掘电商商品关联

我们用 mlxtend（Python 关联分析库）实现，数据是某电商的交易记录（transactions.csv），每行是一个订单的商品列表（比如 [“手机”, “手机壳”, “耳机”]）。

步骤 1：安装依赖

pip install mlxtend pandas

步骤 2：代码实现

import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules

# 1. 读取数据（每行是一个订单的商品列表）
data = [
    ["手机", "手机壳", "耳机"],
    ["手机", "手机壳"],
    ["手机", "耳机"],
    ["手机壳", "耳机"],
    ["手机", "手机壳", "耳机", "充电器"]
]

# 2. 将数据转为 one-hot 编码（TransactionEncoder）
te = TransactionEncoder()
te_ary = te.fit_transform(data)
df = pd.DataFrame(te_ary, columns=te.columns_)

# 3. 用 Apriori 算法筛选频繁项集（支持度 ≥ 0.4）
frequent_itemsets = apriori(df, min_support=0.4, use_colnames=True)

# 4. 生成关联规则（置信度 ≥ 0.7，提升度 ≥ 1）
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7)
rules = rules[rules["lift"] >= 1]

# 5. 按提升度排序
rules = rules.sort_values(by="lift", ascending=False)

print(rules[["antecedents", "consequents", "support", "confidence", "lift"]])

输出结果解读

antecedents	consequents	support	confidence	lift
{手机}	{手机壳}	0.6	0.75	1.25
{手机壳}	{手机}	0.6	1.0	1.25

结果说明：

购买手机的用户中 75% 会买手机壳（置信度 0.75）；
手机与手机壳的关联提升度是 1.25（比随机购买高 25%）。

2.1.3 落地场景

关联分析的结果可直接用于交叉销售（比如商品详情页推荐“购买了 X 的用户还买了 Y”）、库存管理（比如将手机与手机壳放在同一货架）。

2.2 时序预测：预测“未来的交易趋势”

时序预测是利用历史交易数据预测未来的趋势（比如“下个月某商品的销量”），常用算法是 ARIMA（传统统计模型）和 LSTM（深度学习模型）。

2.2.1 核心概念：时序数据的构成

时序数据由**趋势（Trend）、季节（Seasonality）、残差（Residual）**三部分组成：

趋势：长期的上升或下降（比如手机销量逐年增长）；
季节：周期性波动（比如每年双 11 销量暴涨）；
残差：随机波动（比如某天下雨导致销量下降）。

2.2.2 实战 1：用 ARIMA 预测商品销量

ARIMA（自回归积分移动平均模型）是传统时序预测的“黄金标准”，参数包括：

p：自回归项数（历史数据的滞后阶数）；
d：差分次数（用于消除趋势）；
q：移动平均项数（残差的滞后阶数）。

示例：预测某商品的月度销量

import pandas as pd
import numpy as np
from statsmodels.tsa.arima.model import ARIMA
import matplotlib.pyplot as plt

# 1. 生成模拟数据（2023 年 1-12 月销量）
dates = pd.date_range(start="2023-01-01", end="2023-12-01", freq="MS")
sales = [100, 120, 150, 180, 200, 220, 250, 280, 300, 320, 350, 380]
df = pd.DataFrame({"date": dates, "sales": sales})
df.set_index("date", inplace=True)

# 2. 拟合 ARIMA 模型（p=1, d=1, q=1）
model = ARIMA(df["sales"], order=(1,1,1))
results = model.fit()

# 3. 预测未来 3 个月（2024 年 1-3 月）
forecast = results.get_forecast(steps=3)
forecast_index = pd.date_range(start="2024-01-01", end="2024-03-01", freq="MS")
forecast_df = pd.DataFrame(forecast.predicted_mean, index=forecast_index, columns=["predicted_sales"])

# 4. 可视化结果
plt.figure(figsize=(10, 6))
plt.plot(df["sales"], label="Historical Sales")
plt.plot(forecast_df["predicted_sales"], label="Predicted Sales", linestyle="--")
plt.legend()
plt.title("Monthly Sales Forecast (ARIMA)")
plt.show()

2.2.3 实战 2：用 LSTM 预测“实时销量”

当数据量较大（比如小时级交易数据）或存在复杂非线性关系时，**LSTM（长短期记忆网络）**的效果更好。以下是用 TensorFlow/Keras 实现的小时级销量预测示例。

步骤 1：准备时序数据

LSTM 需要将数据转为监督学习格式（比如用前 6 小时的销量预测第 7 小时的销量）。

import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense

# 生成模拟数据：24 小时销量（每小时递增 10）
sales = np.arange(10, 250, 10).reshape(-1, 1)  # shape: (24, 1)

# 将时序数据转为监督学习格式（look_back=6：用前 6 小时预测第 7 小时）
def create_supervised_data(data, look_back=1):
    X, y = [], []
    for i in range(len(data) - look_back):
        X.append(data[i:(i+look_back), 0])
        y.append(data[i+look_back, 0])
    return np.array(X), np.array(y)

look_back = 6
X, y = create_supervised_data(sales, look_back)

# 调整输入形状：LSTM 需要 [samples, time_steps, features]
X = np.reshape(X, (X.shape[0], X.shape[1], 1))

步骤 2：构建 LSTM 模型

# 初始化模型
model = Sequential()

# 添加 LSTM 层（32 个神经元）
model.add(LSTM(32, input_shape=(look_back, 1)))

# 添加全连接层（输出 1 个值：预测销量）
model.add(Dense(1))

# 编译模型（优化器：Adam，损失函数：MSE）
model.compile(optimizer="adam", loss="mean_squared_error")

# 训练模型（epochs=100，batch_size=1）
model.fit(X, y, epochs=100, batch_size=1, verbose=0)

步骤 3：预测与可视化

# 预测未来 1 小时销量
last_6_hours = sales[-look_back:]  # 最后 6 小时的销量
last_6_hours = np.reshape(last_6_hours, (1, look_back, 1))
predicted_sales = model.predict(last_6_hours)

print(f"预测下一小时销量：{predicted_sales[0][0]:.2f}")

2.2.4 落地场景

时序预测可用于库存管理（比如提前备货即将热销的商品）、促销策划（比如在销量低谷期推出折扣）、供应链优化（比如预测物流需求）。

2.3 客户分群：将“用户”转化为“可运营的群体”

客户分群的目标是将用户划分为具有相似特征的群体（比如“高价值用户”“流失风险用户”），常用方法是 RFM 模型 + K-means 聚类。

2.3.1 RFM 模型：用户价值的三大维度

RFM 是客户分群的“黄金指标”，包含三个维度：

Recency（最近一次交易时间）：用户最后一次购买的时间（越近越好）；
Frequency（交易频率）：用户在一段时间内的购买次数（越多越好）；
Monetary（交易金额）：用户在一段时间内的总消费金额（越高越好）。

2.3.2 实战：用 RFM + K-means 分群

假设我们有用户交易数据（user_trans.csv），包含 user_id、trans_time、amount 字段。

步骤 1：计算 RFM 指标

import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# 1. 读取数据
df = pd.read_csv("user_trans.csv")
df["trans_time"] = pd.to_datetime(df["trans_time"])

# 2. 计算 RFM 指标（以 2023-12-31 为当前时间）
current_time = pd.Timestamp("2023-12-31")

# Recency：当前时间 - 最后一次交易时间（天）
rfm_recency = df.groupby("user_id")["trans_time"].max().reset_index()
rfm_recency["recency"] = (current_time - rfm_recency["trans_time"]).dt.days

# Frequency：交易次数
rfm_frequency = df.groupby("user_id")["trans_time"].count().reset_index()
rfm_frequency.columns = ["user_id", "frequency"]

# Monetary：总消费金额
rfm_monetary = df.groupby("user_id")["amount"].sum().reset_index()
rfm_monetary.columns = ["user_id", "monetary"]

# 合并 RFM 指标
rfm = pd.merge(rfm_recency, rfm_frequency, on="user_id")
rfm = pd.merge(rfm, rfm_monetary, on="user_id")

# 选择需要的字段
rfm = rfm[["user_id", "recency", "frequency", "monetary"]]

步骤 2：K-means 聚类

K-means 是无监督聚类算法，需要先确定聚类数量（常用“肘部法则”选择）。

# 1. 选择 RFM 特征并标准化
features = ["recency", "frequency", "monetary"]
X = rfm[features]
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 2. 用肘部法则选择 K 值
inertia = []
for k in range(2, 10):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X_scaled)
    inertia.append(kmeans.inertia_)

# 可视化肘部曲线（通常选择“肘部”对应的 K 值，比如 K=4）
import matplotlib.pyplot as plt
plt.plot(range(2,10), inertia)
plt.xlabel("Number of Clusters (K)")
plt.ylabel("Inertia")
plt.title("Elbow Method for Optimal K")
plt.show()

步骤 3：训练 K-means 模型

# 选择 K=4 进行聚类
kmeans = KMeans(n_clusters=4, random_state=42)
rfm["cluster"] = kmeans.fit_predict(X_scaled)

# 分析每个集群的特征（计算均值）
cluster_analysis = rfm.groupby("cluster")[features].mean().reset_index()
print(cluster_analysis)

输出结果解读

cluster	recency	frequency	monetary
0	10	15	5000
1	90	2	200
2	30	8	2000
3	5	20	10000

根据结果，我们可以给每个集群命名：

集群 3：高价值用户（最近购买、频率高、金额大）；
集群 0：潜力用户（最近购买、频率中等、金额中等）；
集群 2：普通用户（购买频率一般、金额一般）；
集群 1：流失风险用户（很久没购买、频率低、金额小）。

2.3.3 落地场景

客户分群的结果可用于精准运营：

高价值用户：发送专属优惠券、专属客服；
流失风险用户：发送召回邮件（比如“您有一份专属折扣待领取”）；
潜力用户：推荐高价值商品（比如“您可能喜欢的高端手机”）。

2.4 异常检测：识别“反常的交易行为”

异常检测的目标是识别偏离正常模式的交易（比如信用卡欺诈、刷单），常用算法是 孤立森林（Isolation Forest） 和 Autoencoder（自编码器）。

2.4.1 核心概念：异常值的定义

交易数据中的异常值通常是**“罕见且有负面影响”**的事件：

信用卡欺诈：异地大额交易（比如用户平时在上海消费，突然在纽约刷了 10 万元）；
刷单：同一用户短时间内多次购买同一商品（比如 1 小时内购买 10 次手机）；
系统错误：1 元购买了万元商品（比如价格配置错误）。

2.4.2 实战：用孤立森林检测信用卡欺诈

假设我们有信用卡交易数据（credit_card.csv），包含 user_id、trans_time、amount、location 字段，其中 is_fraud 是标签（1=欺诈，0=正常）。

步骤 1：准备数据

import pandas as pd
from sklearn.ensemble import IsolationForest
from sklearn.metrics import classification_report

# 1. 读取数据
df = pd.read_csv("credit_card.csv")

# 2. 选择特征（假设用 amount、location 编码后的特征）
# 注意：location 需要用 One-Hot 编码（比如上海=1，北京=2）
df["location_code"] = df["location"].astype("category").cat.codes
features = ["amount", "location_code"]

# 3. 分割训练集（正常数据）与测试集（包含欺诈数据）
train_data = df[df["is_fraud"] == 0][features]
test_data = df[features]
test_labels = df["is_fraud"]

步骤 2：训练孤立森林模型

# 初始化模型（contamination=0.01：假设异常值占比 1%）
model = IsolationForest(contamination=0.01, random_state=42)

# 训练模型（只用正常数据）
model.fit(train_data)

步骤 3：预测与评估

# 预测：-1=异常，1=正常
test_predictions = model.predict(test_data)

# 将预测结果转为 0=正常，1=异常
test_predictions = [1 if x == -1 else 0 for x in test_predictions]

# 评估模型效果
print(classification_report(test_labels, test_predictions))

输出结果解读

	precision	recall	f1-score	support
0（正常）	0.99	0.99	0.99	9900
1（欺诈）	0.85	0.70	0.77	100
accuracy	0.99			10000

结果说明：

模型能准确识别 99% 的正常交易；
能识别 70% 的欺诈交易（召回率 0.7），需要进一步优化（比如加入更多特征：用户历史交易金额、设备信息）。

2.4.3 落地场景

异常检测可用于欺诈防范（比如实时拦截欺诈交易）、风险监控（比如提醒运营人员查看异常刷单行为）、系统调试（比如识别价格配置错误）。

三、实战项目：电商用户复购预测——从“需求”到“部署”

现在，我们将结合前面的技术，完成一个完整的实战项目：预测电商用户未来 7 天是否会复购（复购=再次购买）。

3.1 项目需求分析

业务目标：识别“未来 7 天会复购的用户”，并通过推送优惠券提升复购率。
输入数据：用户历史交易数据（user_trans.csv）、用户行为数据（user_behavior.csv，包含点击、浏览、收藏）。
输出：用户复购概率（0-1 之间）。

3.2 数据准备与特征工程

3.2.1 数据关联

将交易数据与行为数据关联（按 user_id）：

# 读取交易数据
trans_df = pd.read_csv("user_trans.csv")
trans_df["trans_time"] = pd.to_datetime(trans_df["trans_time"])

# 读取行为数据
behavior_df = pd.read_csv("user_behavior.csv")
behavior_df["behavior_time"] = pd.to_datetime(behavior_df["behavior_time"])

# 关联数据（按 user_id）
df = pd.merge(trans_df, behavior_df, on="user_id", how="left")

3.2.2 构建标签

标签是用户未来 7 天是否复购（1=是，0=否）：

# 计算每个用户的下次交易时间
next_trans_time = trans_df.groupby("user_id")["trans_time"].shift(-1)

# 标签：下次交易时间 - 当前交易时间 ≤ 7 天（1=复购，0=否）
trans_df["is_repurchase"] = (next_trans_time - trans_df["trans_time"]).dt.days.le(7).astype(int)

# 保留最后一次交易的标签（预测未来 7 天是否复购）
user_last_trans = trans_df.groupby("user_id")["trans_time"].max().reset_index()
df = pd.merge(df, user_last_trans, on=["user_id", "trans_time"], how="right")

3.2.3 特征工程

提取以下特征：

用户特征：最近 30 天购买次数、平均客单价、最近 7 天浏览次数；
商品特征：最近 30 天购买的商品类目数；
行为特征：最近 7 天收藏次数、加购次数。

# 用户特征：最近 30 天购买次数
current_time = pd.Timestamp("2023-12-31")
df["recent_30d_buy_count"] = df.groupby("user_id")["trans_time"].transform(
    lambda x: (current_time - x).dt.days.le(30).sum()
)

# 用户特征：平均客单价
df["avg_amount"] = df.groupby("user_id")["amount"].transform("mean")

# 行为特征：最近 7 天浏览次数
df["recent_7d_view_count"] = df.groupby("user_id")["behavior_time"].transform(
    lambda x: (current_time - x).dt.days.le(7).sum()
)

3.3 模型训练与评估

3.3.1 选择模型

复购预测是二分类问题，常用模型有：

逻辑回归（ baseline 模型）；
随机森林（处理非线性关系）；
XGBoost（性能强，支持特征重要性分析）。

我们选择 XGBoost（因为它在结构化数据上的效果通常最好）。

3.3.2 训练模型

import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import auc, roc_curve

# 1. 选择特征与标签
features = ["recent_30d_buy_count", "avg_amount", "recent_7d_view_count"]
X = df[features]
y = df["is_repurchase"]

# 2. 分割训练集与测试集（70% 训练，30% 测试）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 3. 初始化 XGBoost 模型
model = xgb.XGBClassifier(
    n_estimators=100,
    learning_rate=0.1,
    max_depth=3,
    random_state=42
)

# 4. 训练模型
model.fit(X_train, y_train)

3.3.3 模型评估

用 AUC-ROC 指标评估模型效果（AUC 越接近 1 越好）：

# 预测测试集的概率
y_pred_proba = model.predict_proba(X_test)[:, 1]

# 计算 ROC 曲线与 AUC
fpr, tpr, thresholds = roc_curve(y_test, y_pred_proba)
auc_score = auc(fpr, tpr)

print(f"AUC-ROC Score: {auc_score:.2f}")

3.4 模型部署

将模型部署为 API，供业务系统调用（比如用户 APP 后端）。我们用 Flask 实现：

步骤 1：保存模型

# 保存 XGBoost 模型
model.save_model("repurchase_model.json")

步骤 2：编写 Flask API

from flask import Flask, request, jsonify
import xgboost as xgb
import pandas as pd

# 初始化 Flask 应用
app = Flask(__name__)

# 加载模型
model = xgb.XGBClassifier()
model.load_model("repurchase_model.json")

# 定义预测接口
@app.route("/predict", methods=["POST"])
def predict():
    # 获取请求数据
    data = request.get_json()
    user_id = data["user_id"]
    recent_30d_buy_count = data["recent_30d_buy_count"]
    avg_amount = data["avg_amount"]
    recent_7d_view_count = data["recent_7d_view_count"]

    # 构造特征 DataFrame
    features = pd.DataFrame({
        "recent_30d_buy_count": [recent_30d_buy_count],
        "avg_amount": [avg_amount],
        "recent_7d_view_count": [recent_7d_view_count]
    })

    # 预测复购概率
    probability = model.predict_proba(features)[:, 1][0]

    # 返回结果
    return jsonify({
        "user_id": user_id,
        "repurchase_probability": round(probability, 2)
    })

if __name__ == "__main__":
    app.run(host="0.0.0.0", port=5000)

步骤 3：测试 API

用 curl 发送 POST 请求：

curl -X POST -H "Content-Type: application/json" -d '{
    "user_id": 123,
    "recent_30d_buy_count": 5,
    "avg_amount": 200,
    "recent_7d_view_count": 10
}' http://localhost:5000/predict

返回结果：

{
    "user_id": 123,
    "repurchase_probability": 0.85
}

3.5 落地效果

假设模型的 AUC-ROC 是 0.85，业务团队根据预测结果推送优惠券，最终复购率提升了 25%（从 15% 提升到 18.75%）。

四、工具链推荐：从“数据采集”到“模型部署”

以下是交易数据挖掘的完整工具链，覆盖数据采集、处理、挖掘、部署全流程：

阶段	工具推荐
数据采集	Fluentd（日志采集）、Apache Kafka（流式数据采集）
数据存储	Hadoop HDFS（大规模存储）、Apache HBase（实时查询）、Snowflake（云数据仓库）
数据处理	Apache Spark（批量处理）、Apache Flink（流式处理）、Pandas（小数据处理）
特征工程	Feast（特征存储）、Featuretools（自动特征生成）
模型训练	Scikit-learn（传统 ML）、TensorFlow/Keras（深度学习）、XGBoost（梯度提升）
模型部署	Flask/FastAPI（轻量级 API）、TensorFlow Serving（深度学习部署）、Kubernetes（容器编排）
可视化	Tableau（商业 BI）、Power BI（微软 BI）、Apache Superset（开源 BI）
监控与运维	Prometheus（监控）、Grafana（可视化监控）、ELK Stack（日志分析）