DeepEval项目指南：使用Synthesizer生成LLM应用的合成测试数据-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00671/article/details/148465321

DeepEval项目指南：使用Synthesizer生成LLM应用的合成测试数据

deepeval The Evaluation Framework for LLMs 项目地址: https://gitcode.com/gh_mirrors/de/deepeval

在大型语言模型(LLM)应用的开发过程中，测试数据的质量直接影响着模型评估的准确性。传统手动创建测试数据的方式不仅耗时费力，而且往往难以覆盖各种边缘场景。DeepEval项目提供的Synthesizer工具能够高效生成高质量的合成测试数据(Goldens)，极大简化了LLM应用的测试流程。

什么是合成测试数据(Goldens)

在DeepEval框架中，Golden是一种特殊的测试用例，它不需要在初始化时提供actual_output和retrieval_context。Goldens主要用于评估LLM在特定上下文下的预期表现，是构建全面测试集的基础。

合成数据生成的核心流程

DeepEval的Synthesizer通过以下关键步骤将原始文档转化为高质量的测试数据：

文档加载：读取并处理知识库中的各类文档
文档分块：将文档分割为适当大小的文本块
上下文生成：基于相似度将相关文本块组合成有意义的上下文
Golden生成：从上下文中创建合成测试数据
进化处理：通过多种方法增加测试数据的复杂度

文档分块策略详解

文档分块是生成高质量测试数据的关键步骤，DeepEval提供了灵活的配置选项：

from deepeval.synthesizer import Synthesizer

synthesizer = Synthesizer()
synthesizer.generate_goldens_from_docs(
    document_paths=['example.txt', 'example.docx', 'example.pdf'],
    chunk_size=1024,  # 每个块的大小(以token计)
    chunk_overlap=0   # 块之间的重叠token数
)

分块参数最佳实践

与检索器对齐：分块大小应与LLM管道中检索器的预期输入大小匹配
平衡大小与重叠：对于内容关联性强的文档，建议设置50-100个token的重叠
考虑文档结构：保持自然分段(如章节、标题)的完整性
验证分块设置：可通过公式计算文档的分块数量，确保设置合理

数据进化技术

DeepEval提供了7种数据进化方法，通过增加测试数据的复杂度来更全面地评估LLM：

推理进化：要求多步逻辑思考
多上下文进化：充分利用所有相关上下文信息
具体化进化：将抽象概念转化为具体细节
约束进化：引入特定条件或限制
比较进化：需要对比不同选项或上下文
假设进化：考虑并回应假设场景
广度进化：扩展到相关或相邻主题

evolutions={
    Evolution.REASONING: 0.1,
    Evolution.MULTICONTEXT: 0.1,
    Evolution.CONCRETIZING: 0.1,
    Evolution.CONSTRAINED: 0.1,
    Evolution.COMPARATIVE: 0.1,
    Evolution.HYPOTHETICAL: 0.1,
    Evolution.IN_BREADTH: 0.4,
}

进化策略建议

根据测试目标选择进化类型：逻辑测试侧重推理和比较进化
平衡复杂度与覆盖率：混合使用垂直复杂度和水平扩展
渐进式增加复杂度：从少量进化步骤开始，逐步增加
针对性边缘测试：使用约束和假设进化发现边缘情况
监控进化分布：避免过度依赖单一进化类型

测试数据质量保障

为确保生成的测试数据质量，DeepEval在三个关键阶段实施质量控制：

上下文过滤：基于清晰度、深度、结构和相关性评分(0-1分制)
输入过滤：评估自包含性和清晰度
最终质量检查：综合评估生成测试数据的可用性

质量评分可通过以下方式访问：

# 通过DataFrame访问
goldens_dataframe = synthesizer.to_pandas()

# 直接访问单个Golden的质量评分
goldens[0].additional_metadata["synthetic_input_quality"]
goldens[0].additional_metadata["context_quality"]