双塔模型在工业界的部署方法_双塔模型faiss-优快云博客

本文链接：https://blog.youkuaiyun.com/goTsHgo/article/details/144292102

双塔模型在工业界的部署需要遵循以下步骤，从训练到上线到生产环境的推理，重点在于如何让模型高效、准确地完成用户和物品的匹配任务。

以下将逐步从数据准备、模型训练、向量化离线部署、实时匹配服务、优化与监控五个方面详细说明，并附带详细的代码，易于理解和实现。

1. 工业级双塔模型的部署流程

工业界的双塔模型部署主要分为以下几个步骤：

模型训练与保存：
- 训练用户塔和物品塔，生成用户和物品的向量表示。
- 保存训练好的模型用于离线向量化和实时推理。
离线向量化：
- 将所有物品特征通过物品塔生成向量并保存，用于快速检索。
在线召回与匹配服务：
- 实时获取用户特征，通过用户塔计算用户向量。
- 在已保存的物品向量中查找最匹配的物品（向量检索）。
部署到生产环境：
- 部署服务端 RESTful API 或 gRPC 服务，用于实时查询和检索。
- 使用高效的向量检索工具（如 FAISS 或 Annoy）加速匹配。
优化与监控：
- 不断优化模型，分析召回率、点击率等指标，并进行实时监控。

2. 实现步骤与代码

以下是一个完整的实现流程，适用于工业界的推荐场景。

2.1 模型训练与保存

训练双塔模型，保存用户塔和物品塔。

import tensorflow as tf
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.models import Model
import numpy as np

# Step 1: 定义用户塔
user_input = Input(shape=(3,), name="user_input")  # 用户特征输入：性别、年龄、历史行为
user_embedding = Dense(64, activation="relu")(user_input)  # 用户嵌入层
user_output = Dense(32, activation="relu")(user_embedding)  # 用户特征最终向量
user_model = Model(inputs=user_input, outputs=user_output, name="user_model")

# Step 2: 定义物品塔
item_input = Input(shape=(2,), name="item_input")  # 物品特征输入：类别、热度
item_embedding = Dense(64, activation="relu")(item_input)  # 物品嵌入层
item_output = Dense(32, activation="relu")(item_embedding)  # 物品特征最终向量
item_model = Model(inputs=item_input, outputs=item_output, name="item_model")

# Step 3: 定义匹配层
user_vec = user_model(user_input)
item_vec = item_model(item_input)
similarity = tf.keras.layers.Dot(axes=-1, normalize=True)([user_vec, item_vec])  # 余弦相似度
model = Model(inputs=[user_input, item_input], outputs=similarity)

# Step 4: 编译和训练模型
model.compile(optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"])

# 模拟用户特征和物品特征
user_features = np.array([[1, 25, 101], [0, 30, 102]])  # 用户特征：性别、年龄、历史行为
item_features = np.array([[0, 0.8], [1, 0.5]])  # 物品特征：类别、热度
labels = np.array([1, 0])  # 是否匹配（1为正样本）

# 模型训练
model.fit([user_features, item_features], labels, epochs=10, batch_size=2)

# 保存用户塔和物品塔
user_model.save("user_model.h5")
item_model.save("item_model.h5")

说明：

用户塔和物品塔是独立的模型，分别用于计算用户和物品的特征向量。
保存的模型将在离线向量化和实时推理中使用。

2.2 离线向量化

使用物品塔对所有物品进行离线向量化，并保存为向量文件（如 .npy）。

import numpy as np
from tensorflow.keras.models import load_model

# 加载物品塔模型
item_model = load_model("item_model.h5")

# 模拟物品特征数据
item_features = np.array([
    [0, 0.9],  # 物品1
    [1, 0.7],  # 物品2
    [0, 0.4],  # 物品3
])

# 生成物品向量
item_vectors = item_model.predict(item_features)

# 保存向量到文件
np.save("item_vectors.npy", item_vectors)  # 保存物品向量
np.save("item_features.npy", item_features)  # 保存物品特征

说明：

物品塔用于离线生成所有物品的向量，并保存为文件，供后续检索使用。
这一步可以定期运行，例如每天更新一次物品向量。

2.3 在线召回与匹配服务

使用用户塔实时生成用户向量，并基于物品向量进行最近邻检索。

2.3.1 启用向量检索工具

使用 FAISS（Facebook AI Similarity Search）进行高效的向量检索。

import faiss

# 加载离线物品向量
item_vectors = np.load("item_vectors.npy")

# 构建FAISS索引
index = faiss.IndexFlatL2(item_vectors.shape[1])  # L2距离（欧氏距离）
index.add(item_vectors)  # 添加物品向量到索引

2.3.2 部署 RESTful API 服务

使用 Flask 提供在线服务。

from flask import Flask, request, jsonify
import numpy as np
from tensorflow.keras.models import load_model

app = Flask(__name__)

# 加载用户塔模型
user_model = load_model("user_model.h5")

# 加载物品向量和特征
item_vectors = np.load("item_vectors.npy")
item_features = np.load("item_features.npy")
index = faiss.IndexFlatL2(item_vectors.shape[1])  # 重新加载FAISS索引
index.add(item_vectors)

@app.route("/recommend", methods=["POST"])
def recommend():
    # Step 1: 获取用户特征
    user_data = request.json  # 例如：{"user_features": [1, 28, 101]}
    user_features = np.array([user_data["user_features"]])
    
    # Step 2: 生成用户向量
    user_vector = user_model.predict(user_features)
    
    # Step 3: 检索最近邻物品
    _, indices = index.search(user_vector, k=5)  # 返回最近的5个物品
    recommended_items = item_features[indices.flatten()]  # 获取对应的物品特征
    
    # Step 4: 返回推荐结果
    return jsonify({"recommended_items": recommended_items.tolist()})

if __name__ == "__main__":
    app.run(host="0.0.0.0", port=5000)

说明：

用户通过 HTTP POST 请求发送特征，服务端返回推荐的物品列表。
FAISS 高效实现向量检索，适合大规模物品库。

2.4 优化与监控

2.4.1 性能优化

批量检索：
- 对同时访问的用户进行批量推理，提高 GPU/CPU 的使用效率。
向量量化：
- 使用 FAISS 的量化功能（如 IndexIVFFlat），减少内存占用。

2.4.2 监控指标

召回率：推荐的物品是否出现在用户实际点击的物品中。
点击率（CTR）：推荐物品的点击比例。
时延监控：记录从请求到返回推荐结果的时间，优化服务响应。

示例代码（监控时延）：

import time

@app.route("/recommend", methods=["POST"])
def recommend_with_monitoring():
    start_time = time.time()  # 记录开始时间
    
    user_data = request.json
    user_features = np.array([user_data["user_features"]])
    user_vector = user_model.predict(user_features)
    _, indices = index.search(user_vector, k=5)
    recommended_items = item_features[indices.flatten()]
    
    end_time = time.time()  # 记录结束时间
    latency = end_time - start_time
    print(f"Request latency: {latency:.4f} seconds")  # 打印时延
    
    return jsonify({"recommended_items": recommended_items.tolist()})

3. 小结

通过上述步骤，我们可以实现一个工业级双塔模型部署，主要包括：
1. 训练用户塔和物品塔，生成共享语义空间中的向量表示。
2. 离线生成所有物品的向量，并用 FAISS 加速检索。
3. 部署在线服务，通过 RESTful API 提供实时推荐。
4. 优化服务性能，监控关键指标，持续改进模型效果。

通过遵循上面步骤即可实现从零到生产的双塔模型部署。