Model2Vec 开源项目教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00047/article/details/146899519

Model2Vec 开源项目教程

model2vec The Fastest State-of-the-Art Static Embeddings in the World 项目地址: https://gitcode.com/gh_mirrors/mo/model2vec

1. 项目介绍

Model2Vec 是一种将任意句子转换器模型转化为小型静态模型的技术，可以显著减少模型大小（最高可达50倍），并提高模型速度（最高可达500倍），同时性能损失很小。Model2Vec 的最佳模型是世界上性能最优秀的静态嵌入模型。

Model2Vec 通过对词汇表进行前向传递，创建单个令牌的静态嵌入，然后通过一系列后续处理步骤来优化模型。该技术支持创建子词嵌入，且性能优于其他静态嵌入模型如 GloVe。

2. 项目快速启动

首先，安装 Model2Vec 的基础包：

pip install model2vec

接下来，你可以从 HuggingFace hub 中加载预训练的旗舰模型。以下是如何加载模型并进行嵌入的代码示例：

from model2vec import StaticModel

# 从 HuggingFace hub 中加载模型（以 potion-base-8M 为例）
model = StaticModel.from_pretrained("minishlab/potion-base-8M")

# 制作嵌入
embeddings = model.encode([
    "单独行动是危险的！",
    "这是每个人的秘密。"
])

# 制作令牌嵌入序列
token_embeddings = model.encode_as_sequence([
    "单独行动是危险的！",
    "这是每个人的秘密。"
])

如果你想要蒸馏自己的 Model2Vec 模型，首先需要安装蒸馏扩展：

pip install model2vec[distill]

然后，可以在 CPU 上无需数据集，仅用约30秒蒸馏一个模型：

from model2vec.distill import distill

# 蒸馏一个句子转换器模型（以 BAAI/bge-base-en-v1.5 为例）
m2v_model = distill(model_name="BAAI/bge-base-en-v1.5", pca_dims=256)

# 保存模型
m2v_model.save_pretrained("m2v_model")