基于OpenVINO和LlamaIndex构建智能代理式RAG系统-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00704/article/details/148758424

基于OpenVINO和LlamaIndex构建智能代理式RAG系统

openvino_notebooks openvino_notebooks: 这是OpenVINO Toolkit的Jupyter笔记本集合，提供了一系列关于深度学习模型推理、模型训练和实时演示的交互式教程和示例。项目地址: https://gitcode.com/gh_mirrors/op/openvino_notebooks

什么是代理式RAG？

代理式RAG（Agentic RAG）是传统检索增强生成（RAG）系统的进阶版本，它在标准RAG的基础上引入了智能代理（Agent）的概念。与仅能处理简单查询的传统RAG不同，代理式RAG通过AI代理的决策能力，能够执行更复杂的多步骤推理任务。

核心区别：

传统RAG：直接检索+生成，适用于简单问答
代理式RAG：具备自主决策能力，可以分解复杂问题、选择工具、规划执行步骤

系统架构与关键技术

1. 核心组件

1.1 大型语言模型（LLM）

作为系统的"大脑"，负责：

理解用户查询
制定执行策略
生成最终响应

本示例支持两种模型选择：

Phi-3-mini-instruct：微软开发的3.8B参数轻量级模型
Meta-Llama-3-8B-Instruct：Meta开发的8B参数多语言对话模型

1.2 嵌入模型

用于将文本转换为语义向量，支持检索功能。本示例使用bge-small-en-v1.5模型。

1.3 工具系统

代理可以调用多种工具，包括：

数学计算工具（乘法、除法）
RAG查询引擎
其他自定义功能

2. OpenVINO优化

通过OpenVINO工具套件对模型进行优化和加速：

将模型转换为OpenVINO中间表示（IR）格式
支持多种硬件加速（CPU/GPU）
提供低延迟推理能力

实现步骤详解

1. 环境准备

首先需要安装必要的Python依赖：

pip install llama-index openvino transformers optimum-intel

2. 模型下载与转换

2.1 下载LLM模型

from huggingface_hub import snapshot_download
from cmd_helper import optimum_cli

# 下载Phi-3模型
snapshot_download("OpenVINO/Phi-3-mini-4k-instruct-int4-ov", local_dir="Phi-3-mini-4k-instruct-int4-ov")

# 或下载Llama-3模型
optimum_cli("meta-llama/Meta-Llama-3-8B-Instruct", "Meta-Llama-3-8B-Instruct", 
           additional_args={"task": "text-generation-with-past", "weight-format": "int4"})

2.2 下载嵌入模型

optimum_cli("BAAI/bge-small-en-v1.5", "bge-small-en-v1.5", 
           additional_args={"task": "feature-extraction"})

3. 模型初始化

3.1 LLM初始化

from llama_index.llms.openvino import OpenVINOLLM

llm = OpenVINOLLM(
    model_id_or_path="Phi-3-mini-4k-instruct-int4-ov",
    context_window=3900,
    max_new_tokens=1000,
    device_map="CPU"  # 可改为"GPU"使用显卡加速
)

3.2 嵌入模型初始化

from llama_index.embeddings.huggingface_openvino import OpenVINOEmbedding

embedding = OpenVINOEmbedding(
    model_id_or_path="bge-small-en-v1.5",
    device="CPU"
)

4. 工具定义

定义代理可以使用的工具：

from llama_index.core.tools import FunctionTool

# 乘法工具
def multiply(a: float, b: float) -> float:
    """Multiply two numbers and returns the product"""
    return a * b

multiply_tool = FunctionTool.from_defaults(fn=multiply)

# 除法工具
def divide(a: float, b: float) -> float:
    """Divide two numbers and returns the quotient"""
    return a / b

divide_tool = FunctionTool.from_defaults(fn=divide)

5. 代理创建与使用

创建ReAct代理并执行查询：

from llama_index.core.agent import ReActAgent

# 创建代理
agent = ReActAgent.from_tools(
    [multiply_tool, divide_tool],
    llm=llm,
    verbose=True
)

# 执行数学计算
response = agent.chat("What is 123 multiplied by 456?")
print(response)

# 执行多步骤计算
response = agent.chat("Calculate (123 * 456) / 789")
print(response)