FAISS 使用量化和蒸馏模型加速 SentenceTransformer的推理

最新推荐文章于 2025-07-03 14:47:39 发布

原创最新推荐文章于 2025-07-03 14:47:39 发布 · 679 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#faiss #机器学习 #人工智能

方法 1：使用 FAISS 量化加速大规模搜索

适用场景： 你有 百万级以上向量，需要高效搜索。

FAISS 主要有以下量化方法：

PQ（Product Quantization）：适用于大规模向量，存储更少，加速搜索。
IVF（Inverted File Index）+ PQ：适用于海量数据，先聚类再量化，提高搜索效率。
HNSW（Hierarchical Navigable Small World）：适用于 小数据量但要高查询速度（几百万以内）。

代码示例

1. 用 Product Quantization (PQ) 降低向量存储和计算

import faiss
import numpy as np

# 生成随机向量（示例数据）
d = 384  # 向量维度，MiniLM 的默认输出维度
n = 1000000  # 向量数量
database_embeddings = np.random.rand(n, d).astype('float32')

# 创建 FAISS PQ 索引 (d=384，使用 32 个子空间量化)
m = 32  # 设定 PQ 子空间数量
index = faiss.IndexPQ(d, m, 8)  # 8-bit 量化
index.train(database_embeddings)  # 训练索引
index.add(database_embeddings)  # 添加向量

# 查询
query_vector = np.random.rand(1, d).astype('float32')
distances, ids = index.search(query_vector, 5)  # 查找最相似的 5 个向量

print(f"最近的索引: {ids}, 相似度: {distances}")

✅ 适用于百万级向量，存储更少，计算更快。
❌ 量化后有一定 信息损失，但一般影响不大。

2. 用 IVF+PQ（适合大规模数据）

quantizer = faiss.IndexFlatL2(d)  # 先用 L2 索引做量化器
index = faiss.IndexIVFPQ(quantizer, d, 100, 32, 8)  # IVF + PQ (100 个聚类，32 维量化)
index.train(database_embeddings)
index.add(database_embeddings)

# 启用搜索加速
index.nprobe = 10  # 只搜索 10 个聚类，提升速度

# 查询
distances, ids = index.search(query_vector, 5)
print(f"最近的索引: {ids}, 相似度: {distances}")

✅ 适用于 千万级向量，查询更快。
❌ 需要先 train()，训练数据量要足够。

方法 2：使用知识蒸馏（Distillation）加速 SentenceTransformer

适用场景： 你希望 加速模型推理，减少 CPU/GPU 计算压力。

思路

SentenceTransformer 默认使用 MiniLM-L6-v2（6 层 Transformer），但可以蒸馏成 更小的模型（如 3 层 Transformer）。
目标：减少计算量，仍然保持较好的语义匹配效果。

1. 直接用 Hugging Face 轻量模型

你可以换更小的 SentenceTransformer 模型，比如：

from sentence_transformers import SentenceTransformer

# TinyBERT 或 DistilBERT 变体
model = SentenceTransformer('sentence-transformers/paraphrase-MiniLM-L3-v2')  # 只有 3 层

✅ 比 MiniLM-L6 快 30%-50%，但语义理解稍微下降。

2. 训练自己的蒸馏模型

如果你要 自定义蒸馏模型，可以这样做：

from sentence_transformers import SentenceTransformer, losses
from sentence_transformers.datasets import ParallelSentencesDataset
from torch.utils.data import DataLoader

# 加载教师模型（更大更准确）
teacher_model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')

# 加载学生模型（更小更快）
student_model = SentenceTransformer('sentence-transformers/paraphrase-MiniLM-L3-v2')

# 训练数据
train_data = [
    ("我要订酒店", "我想预订一个房间"),
    ("查余额", "查询账户里的钱"),
    # 更多训练数据...
]
train_dataset = ParallelSentencesDataset(train_data, teacher_model, batch_size=16)

# 训练损失（让学生模型学习教师模型）
train_loss = losses.MSELoss(student_model, teacher_model)

# 训练
train_dataloader = DataLoader(train_dataset, batch_size=16)
student_model.fit(train_objectives=[(train_dataloader, train_loss)], epochs=3)

# 保存模型
student_model.save("distilled_sentence_transformer")

✅ 训练后，推理速度可以快 2-3 倍。
✅ 仍然保持较好的语义匹配效果。
❌ 需要额外的 GPU 训练资源。

方法 3：用 ONNX 加速推理

如果你用 CPU 部署，可以把模型转换成 ONNX（优化计算图），加速推理速度。

1. SentenceTransformer 转 ONNX

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
model.save('onnx_model')  # 先保存模型

# 转换成 ONNX（要安装 transformers-onnx）
!python -m transformers.onnx --model=onnx_model onnx_output/

然后在 CPU 上使用 ONNX Runtime：

import onnxruntime as ort
import numpy as np

# 加载 ONNX 模型
session = ort.InferenceSession("onnx_output/model.onnx")

# 推理
input_ids = np.array([[101, 2023, 2003, 1037, 2742, 1012, 102]])  # 示例输入
outputs = session.run(None, {"input_ids": input_ids})
print(outputs)

✅ CPU 计算加速 30%-50%
✅ 适合低端服务器

最佳方案总结

方案	适用场景	优势	适用数据量
FAISS PQ 量化	百万级向量	低存储，高查询速度	> 1M
FAISS IVF+PQ	千万级向量	更快的索引搜索	> 10M
HNSW	小规模高性能	适合小型数据集	< 5M
知识蒸馏（Distillation）	语义匹配加速	训练小模型，加快推理	10K - 1M
ONNX 加速	CPU 部署	提高推理速度	10K - 1M

最佳选择

✅ 如果数据量 < 100W：直接用 MiniLM-L6-v2 + FAISS FlatIP，搜索足够快。
✅ 如果数据量 > 100W：FAISS PQ/IVF-PQ 量化，减少存储和计算量。
✅ 如果模型推理慢：用 MiniLM-L3-v2（3 层），或自己蒸馏小模型。
✅ 如果只在 CPU 运行：用 ONNX 加速推理。