在Intel GPU上使用IPEX-LLM进行本地BGE嵌入的实战指南

最新推荐文章于 2025-04-26 21:03:53 发布

fgayif

最新推荐文章于 2025-04-26 21:03:53 发布

阅读量366

点赞数 3

文章标签： python

本文链接：https://blog.youkuaiyun.com/fgayif/article/details/146450160

版权

在计算机领域，低延迟运行大语言模型（LLM）是一个重要的挑战，特别是对于需要快速响应的应用场景，如RAG（检索增强生成）和文档问答（QA）等。Intel推出了IPEX-LLM，一个专为Intel CPU和GPU（如iGPU和独显Arc系列）优化的PyTorch库，为我们提供了一个高效的解决方案。本示例将演示如何在Intel GPU上通过LangChain结合IPEX-LLM进行嵌入任务的优化。

技术背景介绍

IPEX-LLM是一个PyTorch库，通过针对Intel CPU和GPU的优化技术，加速大语言模型的推理过程。借助这种优化，我们可以在本地PC或Intel独立显卡（如Arc, Flex和Max系列）上实现非常低的延迟。在特定硬件上，尤其是在Windows系统的Intel Arc A系列GPU上运行效果最为显著。

核心原理解析

核心在于利用Intel的底层硬件加速功能来减少模型推理时的计算延迟，通过预加载和优化的环境配置，将模型部署在xpu（Intel GPU）上运行，并进行优化。

代码实现演示(重点)

下面的示例代码展示了如何在Python环境下配置和使用IPEX-LLM进行文档嵌入。注意，这些代码直接在Intel GPU上运行，以实现加速效果。

import os
from langchain_community.embeddings import IpexLLMBgeEmbeddings

# 配置环境变量，以优化运行时性能
os.environ["SYCL_CACHE_PERSISTENT"] = "1"
# 对于Intel Core Ultra集成显卡用户，还可以设置：os.environ["BIGDL_LLM_XMX_DISABLED"] = "1"

# 初始化嵌入模型并设置为xpu设备（Intel GPU）
embedding_model = IpexLLMBgeEmbeddings(
    model_name="BAAI/bge-large-en-v1.5",
    model_kwargs={"device": "xpu"},
    encode_kwargs={"normalize_embeddings": True},
)

# 定义待嵌入的文档和查询
sentence = "IPEX-LLM is a PyTorch library for running LLM on Intel CPU and GPU with very low latency."
query = "What is IPEX-LLM?"

# 执行嵌入生成
text_embeddings = embedding_model.embed_documents([sentence, query])
print(f"text_embeddings[0][:10]: {text_embeddings[0][:10]}")
print(f"text_embeddings[1][:10]: {text_embeddings[1][:10]}")

query_embedding = embedding_model.embed_query(query)
print(f"query_embedding[:10]: {query_embedding[:10]}")