DeepEval项目指南：构建自定义LLM评估指标的技术实践-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00813/article/details/148465289

DeepEval项目指南：构建自定义LLM评估指标的技术实践

deepeval The Evaluation Framework for LLMs 项目地址: https://gitcode.com/gh_mirrors/de/deepeval

引言

在大型语言模型(LLM)应用开发过程中，评估模型输出质量是至关重要的环节。DeepEval作为一个专业的LLM评估框架，不仅提供了丰富的内置评估指标，还允许开发者创建自定义评估指标。本文将深入探讨如何在DeepEval中构建自定义LLM评估指标，帮助开发者实现更精准的模型评估。

为什么需要自定义评估指标

在LLM应用开发中，开发者可能需要创建自定义评估指标的原因包括：

更精细的控制需求：当内置评估指标无法满足特定业务场景的评估要求时
非LLM评估需求：希望使用传统NLP方法而非LLM进行评分
组合评估需求：需要将多个评估指标组合成一个复合指标

构建自定义指标的核心步骤

1. 继承BaseMetric基类

所有自定义指标必须继承自DeepEval的BaseMetric类：

from deepeval.metrics import BaseMetric

class CustomMetric(BaseMetric):
    ...

BaseMetric类提供了与DeepEval生态系统集成所需的基础功能。

2. 实现初始化方法

在__init__方法中，可以配置指标的关键参数：

def __init__(
    self,
    threshold: float = 0.5,  # 通过阈值
    evaluation_model: str = None,  # 评估模型名称
    include_reason: bool = True,  # 是否包含评分原因
    strict_mode: bool = False,  # 严格模式
    async_mode: bool = True  # 异步模式
):
    self.threshold = threshold
    self.evaluation_model = evaluation_model
    self.include_reason = include_reason
    self.strict_mode = strict_mode
    self.async_mode = async_mode

3. 实现评估方法

核心评估逻辑在measure和a_measure方法中实现：

def measure(self, test_case: LLMTestCase) -> float:
    try:
        # 实现评分逻辑
        self.score = calculate_score(test_case)
        if self.include_reason:
            self.reason = generate_reason(test_case)
        self.success = self.score >= self.threshold
        return self.score
    except Exception as e:
        self.error = str(e)
        raise

async def a_measure(self, test_case: LLMTestCase) -> float:
    # 异步实现，逻辑应与measure一致
    ...

4. 实现成功判定方法

is_successful方法用于判断评估是否通过：

def is_successful(self) -> bool:
    if self.error is not None:
        self.success = False
    else:
        return self.success

5. 命名自定义指标

通过__name__属性为指标命名：

@property
def __name__(self):
    return "我的自定义指标"

实战案例

案例1：构建基于ROUGE的非LLM评估指标

from deepeval.scorer import Scorer

class RougeMetric(BaseMetric):
    def __init__(self, threshold=0.5):
        self.threshold = threshold
        self.scorer = Scorer()

    def measure(self, test_case):
        self.score = self.scorer.rouge_score(
            prediction=test_case.actual_output,
            target=test_case.expected_output,
            score_type="rouge1"
        )
        self.success = self.score >= self.threshold
        return self.score

    @property
    def __name__(self):
        return "ROUGE指标"

案例2：构建复合评估指标

class FaithfulRelevancyMetric(BaseMetric):
    def __init__(self, threshold=0.5, model="gpt-4"):
        self.threshold = threshold
        self.evaluation_model = model
        
    def measure(self, test_case):
        relevancy = AnswerRelevancyMetric()
        faithfulness = FaithfulnessMetric()
        
        relevancy.measure(test_case)
        faithfulness.measure(test_case)
        
        self.score = min(relevancy.score, faithfulness.score)
        self.reason = f"相关性: {relevancy.reason}\n忠实度: {faithfulness.reason}"
        self.success = self.score >= self.threshold
        return self.score