深度解析：如何在DeepEval中使用自定义LLM进行评估-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00842/article/details/148465296

深度解析：如何在DeepEval中使用自定义LLM进行评估

deepeval The Evaluation Framework for LLMs 项目地址: https://gitcode.com/gh_mirrors/de/deepeval

前言

在当今大模型技术快速发展的背景下，评估模型性能变得尤为重要。DeepEval作为一个强大的评估框架，默认使用OpenAI的GPT模型进行评估，但实际应用中，开发者可能需要使用自定义的大语言模型(LLM)。本文将详细介绍如何在DeepEval框架中集成各种自定义LLM进行评估，并解决实际应用中可能遇到的JSON输出约束问题。

为什么需要自定义LLM评估

DeepEval的评估指标都依赖于LLM进行判断，虽然默认使用GPT模型，但在以下场景中，开发者可能需要自定义LLM：

数据隐私考虑，不希望使用第三方API
需要使用特定领域微调的模型
成本控制，使用开源模型降低评估开销
特定功能需求，如本地化部署

自定义LLM基础实现

核心实现原则

在DeepEval中实现自定义LLM需要遵循6个基本原则：

继承DeepEvalBaseLLM基类
实现get_model_name()方法返回模型名称
实现load_model()方法返回模型对象
实现generate()方法处理prompt生成
实现异步版本a_generate()方法
确保方法返回正确的字符串格式

基础实现示例

以Llama-3 8B模型为例：

import transformers
import torch
from transformers import BitsAndBytesConfig, AutoModelForCausalLM, AutoTokenizer
from deepeval.models import DeepEvalBaseLLM

class CustomLlama3_8B(DeepEvalBaseLLM):
    def __init__(self):
        # 量化配置
        quantization_config = BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_compute_dtype=torch.float16,
            bnb_4bit_quant_type="nf4",
            bnb_4bit_use_double_quant=True,
        )

        # 加载模型和tokenizer
        model_4bit = AutoModelForCausalLM.from_pretrained(
            "meta-llama/Meta-Llama-3-8B-Instruct",
            device_map="auto",
            quantization_config=quantization_config,
        )
        tokenizer = AutoTokenizer.from_pretrained(
            "meta-llama/Meta-Llama-3-8B-Instruct"
        )

        self.model = model_4bit
        self.tokenizer = tokenizer

    def load_model(self):
        return self.model

    def generate(self, prompt: str) -> str:
        model = self.load_model()
        pipeline = transformers.pipeline(
            "text-generation",
            model=model,
            tokenizer=self.tokenizer,
            use_cache=True,
            device_map="auto",
            max_length=2500,
            do_sample=True,
            top_k=5,
            num_return_sequences=1,
            eos_token_id=self.tokenizer.eos_token_id,
            pad_token_id=self.tokenizer.eos_token_id,
        )
        return pipeline(prompt)

    async def a_generate(self, prompt: str) -> str:
        return self.generate(prompt)

    def get_model_name(self):
        return "Llama-3 8B"

使用自定义模型进行评估

实现自定义LLM后，可以将其应用于各种评估指标：

from deepeval.metrics import AnswerRelevancyMetric

custom_llm = CustomLlama3_8B()
metric = AnswerRelevancyMetric(model=custom_llm)
metric.measure(...)

不同平台模型集成示例

Azure OpenAI集成

from langchain_openai import AzureChatOpenAI
from deepeval.models.base_model import DeepEvalBaseLLM

class AzureOpenAI(DeepEvalBaseLLM):
    def __init__(self, model):
        self.model = model

    def load_model(self):
        return self.model

    def generate(self, prompt: str) -> str:
        return self.model.invoke(prompt).content

    async def a_generate(self, prompt: str) -> str:
        res = await self.model.ainvoke(prompt)
        return res.content

    def get_model_name(self):
        return "Custom Azure OpenAI Model"

Mistral 7B集成

from transformers import AutoModelForCausalLM, AutoTokenizer
from deepeval.models.base_model import DeepEvalBaseLLM

class Mistral7B(DeepEvalBaseLLM):
    def __init__(self, model, tokenizer):
        self.model = model
        self.tokenizer = tokenizer

    def generate(self, prompt: str) -> str:
        model_inputs = self.tokenizer([prompt], return_tensors="pt").to("cuda")
        self.model.to("cuda")
        generated_ids = self.model.generate(**model_inputs, max_new_tokens=100)
        return self.tokenizer.batch_decode(generated_ids)[0]

Google VertexAI集成

from langchain_google_vertexai import ChatVertexAI
from deepeval.models.base_model import DeepEvalBaseLLM

class GoogleVertexAI(DeepEvalBaseLLM):
    def __init__(self, model):
        self.model = model

    def generate(self, prompt: str) -> str:
        return self.model.invoke(prompt).content

JSON输出约束解决方案

问题背景

使用自定义LLM进行评估时，常会遇到JSON格式错误，这是因为：

开源模型对JSON格式遵循能力较弱
评估需要严格的JSON输出提取关键信息
简单的prompt engineering无法保证格式正确

解决方案：Pydantic模式强制

通过修改generate()方法签名，接受Pydantic的BaseModel参数，可以强制模型输出符合要求的JSON格式。

from pydantic import BaseModel

class CustomLlama3_8B(DeepEvalBaseLLM):
    def generate(self, prompt: str, schema: BaseModel) -> BaseModel:
        # 使用schema约束输出格式
        pass

使用lm-format-enforcer

这是一个专门用于约束LLM输出的库：

from lmformatenforcer import JsonSchemaParser

def generate(self, prompt: str, schema: BaseModel) -> BaseModel:
    parser = JsonSchemaParser(schema.schema())
    # 将parser集成到生成过程中
    output = self.model.generate(..., parser=parser)
    return schema.parse_raw(output)