使用Intel®扩展工具量化文本嵌入加速NLP模型推理

最新推荐文章于 2025-11-25 00:15:54 发布

原创最新推荐文章于 2025-11-25 00:15:54 发布 · 304 阅读

CC 4.0 BY-SA版权

文章标签：

在本文中，我们将深入探讨如何使用Intel® Extension for Transformers生成的量化BGE（Better General Embeddings）模型，以加速自然语言处理（NLP）模型的推理，同时保持高准确性。我们将详细介绍如何加载这些量化模型，并使用ITREX Neural Engine作为高性能的NLP后端。有关更多信息，请参阅我们的博客文章《Efficient Natural Language Embedding Models with Intel Extension for Transformers》和BGE优化示例。

技术背景介绍

量化模型是通过降低模型中的权重和激活的精度来减小内存使用并提高推理速度的方法。这在部署到资源受限的环境（如嵌入式设备或移动平台）时尤为重要。Intel® Extension for Transformers提供了一种简单有效的方法来生成此类量化模型，并通过ITREX Neural Engine的优化支持，使推理过程更高效。

核心原理解析

Intel® Extension for Transformers利用静态和动态量化技术对Transformers模型进行优化。这不仅减少了模型大小，还能在推理过程中显著提高速度。ITREX Neural Engine是一个高性能的NLP后端，专门优化以支持量化模型的高效推理。

代码实现演示

以下是如何使用QuantizedBgeEmbeddings类加载和使用量化模型的代码示例：

from langchain_community.embeddings import QuantizedBgeEmbeddings

# 定义模型名称和编码参数
model_name = "Intel/bge-small-en-v1.5-sts-int8-static-inc"
encode_kwargs = {"normalize_embeddings": True}  # 设置为True以计算余弦相似度

# 创建量化嵌入模型实例
model = QuantizedBgeEmbeddings(
    model_name=model_name,
    encode_kwargs=encode_kwargs,
    query_instruction="Represent this sentence for searching relevant passages: ",
)

# 嵌入查询和文档示例
text = "This is a test document."
query_result = model.embed_query(text)  # 嵌入查询文本
doc_result = model.embed_documents([text])  # 嵌入文档文本

print("Query Result:", query_result)
print("Document Result:", doc_result)