【限时优惠】TinyUniverse项目中的TinyEval：手把手实现轻量级LLM评测系统-优快云博客

【限时优惠】TinyUniverse项目中的TinyEval：手把手实现轻量级LLM评测系统

【免费下载链接】tiny-universe 《大模型白盒子构建指南》：一个全手搓的Tiny-Universe 项目地址: https://gitcode.com/datawhalechina/tiny-universe

痛点：大模型评测的四大困惑

还在为大语言模型（LLM）评测而头疼吗？面对五花八门的评测指标、复杂的评测流程、难以统一的标准，你是否也有这样的困惑：

指标看不懂：Rouge、BLEU、F1-score...各种评测指标让人眼花缭乱，初学者难以理解
评测不会做：除了常见的文本生成指标，不知道如何评估选择题、判别式任务
结果不可比：不同模型输出格式各异，难以进行公平的横向对比
定制化困难：想要针对特定领域任务进行评测，却不知从何下手

今天，我们就来手把手教你使用TinyUniverse项目中的TinyEval，构建一个轻量级但功能强大的LLM评测系统！

TinyEval：双阶段评测体系架构

TinyEval采用推理（Inference） + 评测（Evaluation） 的双阶段架构，完整覆盖LLM评测的全流程：

mermaid

核心功能特性

功能模块	支持能力	技术实现
多类型评测	生成式、判别式、选择题	统一的评测框架
多指标支持	F1-score、Rouge、Accuracy	模块化指标计算
多语言适配	中文、英文评测	语言特定的预处理
自定义扩展	任意SFT格式数据	灵活的配置系统

手把手实战：构建你的第一个评测任务

环境准备与安装

首先确保你的环境满足以下要求：

# 基础依赖
pip install torch transformers peft tqdm jieba rouge-chinese

# 克隆TinyUniverse项目
git clone https://gitcode.com/datawhalechina/tiny-universe
cd tiny-universe/content/TinyEval

数据集配置

TinyEval支持多种标准数据集格式：

// 示例：multifieldqa_zh数据集格式
{
    "input": "全国美国文学研究会的第十八届年会在哪所大学举办的？",
    "context": "全国美国文学研究会\n受组委会委托...",
    "answers": ["厦门大学。"],
    "length": 9593,
    "dataset": "multifieldqa_zh"
}

Prompt模板配置

TinyEval通过配置文件管理不同数据集的Prompt模板：

// config/dataset2prompt.json
{
    "multifieldqa_zh": "阅读以下文字并用中文简短回答：\n\n{context}\n\n现在请基于上面的文章回答下面的问题，只告诉我答案，不要输出任何其他字词。\n\n问题：{input}\n回答：",
    "multi_news": "You are given several news passages. Write a one-page summary...",
    "trec": "Please determine the type of the question below..."
}

模型推理实现

TinyEval的核心推理类提供了统一的接口：

class BaseLLM:
    def __init__(self, path: str, model_name: str, adapter_path: str) -> None:
        self.path = path
        self.model_name = model_name
        self.adapter_path = adapter_path

    def get_pred(self, data: list, max_length: int, max_gen: int, 
                prompt_format: str, device, out_path: str):
        # 实现模型推理的核心逻辑
        pass

智能截断策略

为了解决长文本输入的问题，TinyEval实现了智能截断：

# 在中间截断，保留两头的关键信息
tokenized_prompt = tokenizer(prompt, truncation=False, return_tensors="pt").input_ids[0]
if len(tokenized_prompt) > max_length:
    half = int(max_length/2)
    prompt = tokenizer.decode(tokenized_prompt[:half], skip_special_tokens=True) + \
             tokenizer.decode(tokenized_prompt[-half:], skip_special_tokens=True)

评测指标深度解析

F1-score在文本生成中的应用

传统上F1-score用于分类任务，但TinyEval创新性地将其应用于文本生成评测：

def f1_score(prediction, ground_truth, **kwargs):
    # Counter以dict的形式存储各个句子对应的词与其对应个数
    common = Counter(prediction) & Counter(ground_truth)  
    num_same = sum(common.values())  # 显示prediction与gt的共同元素的个数
    if num_same == 0:
        return 0
    precision = 1.0 * num_same / len(prediction)  # 精确率
    recall = 1.0 * num_same / len(ground_truth)   # 召回率
    f1 = (2 * precision * recall) / (precision + recall)
    return f1

中文F1-score的特殊处理

针对中文文本，TinyEval进行了专门优化：

def qa_f1_zh_score(prediction, ground_truth, **kwargs):
    # 中文分词 + 标准化处理
    prediction_tokens = list(jieba.cut(prediction, cut_all=False))
    ground_truth_tokens = list(jieba.cut(ground_truth, cut_all=False))
    
    # 标准化：小写化、删除标点、删除空格
    prediction_tokens_norm = [normalize_zh_aswer(t) for t in prediction_tokens]
    ground_truth_tokens_norm = [normalize_zh_aswer(t) for t in ground_truth_tokens]
    
    prediction_tokens = [t for t in prediction_tokens_norm if len(t) > 0]
    ground_truth_tokens = [t for t in ground_truth_tokens_norm if len(t) > 0]
    
    return f1_score(prediction_tokens, ground_truth_tokens)

选择题评测策略

对于选择题，TinyEval实现了智能的选项提取算法：

def GAOKAO_math(prediction, ground_truth, **kwargs):
    score = 0
    # 判断是单选还是多选
    if len(ground_truth) > 1:
        # 多选：从后往前匹配大写字母，且满足之间长度不超过10个字符的条件
        pattern = r"[A-D]"
        matches = re.findall(pattern, prediction)
        # 复杂的选项提取和评分逻辑...
    else:
        # 单选：直接匹配最后一个选项
        pattern = r"[A-D]"
        matches = re.findall(pattern, prediction)
        if matches and matches[-1] == ground_truth:
            score = 1
    return score

实战演练：完整评测流程

步骤1：模型推理

python inference.py --model Qwen2 --dataset multifieldqa_zh

步骤2：结果评测

python eval.py --model Qwen2

步骤3：查看结果

评测结果以JSON格式保存，包含各数据集的得分：

{
    "multifieldqa_zh": 78.45,
    "multi_news": 82.13,
    "trec": 91.27
}

自定义评测任务扩展

TinyEval支持自定义数据集评测，只需遵循标准格式：

// custom_zh.jsonl
{
    "instruction": "假设你是古代宫廷中的一位女性角色",
    "input": "你是谁?",
    "output": "我是甄嬛，家父是大理寺少卿。"
}

然后在配置文件中添加对应的评测指标：

dataset2metric = {
    'multifieldqa_zh': qa_f1_zh_score,
    'multi_news': rouge_score,
    'trec': classification_score,
    'custom_zh': rouge_zh_score,  # 新增自定义任务
    "GAOKAO_math": GAOKAO_math
}

性能优化技巧

内存优化策略

# 使用BF16精度减少内存占用
model = AutoModelForCausalLM.from_pretrained(
    path, 
    trust_remote_code=True, 
    torch_dtype=torch.bfloat16  # 使用BF16精度
).to(device)

批量处理优化

# 使用tqdm显示进度条
for json_obj in tqdm(data):
    # 处理每个样本
    prompt = prompt_format.format(**json_obj)
    # ...后续处理

常见问题与解决方案

问题1：长文本处理困难

解决方案：使用智能截断策略，保留关键信息

问题2：评测指标选择困难

解决方案：参考TinyEval的指标映射表：

任务类型	推荐指标	适用场景
短文本问答	F1-score	事实性问答
长文本摘要	Rouge	内容摘要
选择题	Accuracy	分类任务
生成式任务	Rouge系列	创意写作

问题3：模型输出格式不一致

解决方案：实现统一的后处理函数

def post_process(self, response):
    response = response.split("<|im_end|>")[0]  # 去除多余内容
    return response

总结与展望

TinyEval作为一个轻量级的LLM评测系统，具有以下核心优势：

模块化设计：各个组件高度解耦，易于扩展和维护
统一接口：提供标准化的评测流程，支持多种模型和任务
智能处理：针对中文等特殊场景进行了优化处理
灵活扩展：支持自定义数据集和评测指标

通过本文的手把手教程，你应该已经掌握了：

✅ TinyEval的整体架构和设计理念
✅ 如何配置和运行标准评测任务
✅ 评测指标的原理和实现细节
✅ 如何扩展自定义评测任务
✅ 性能优化和问题排查技巧

未来，TinyEval将继续完善以下功能：

更多评测指标：加入BERTScore、MoverScore等先进指标
多模态支持：扩展支持图像、音频等多模态任务评测
自动化评测：实现一键式的端到端评测流水线
可视化界面：提供Web界面的评测结果展示和分析

现在就开始你的LLM评测之旅吧！使用TinyEval，让大模型评测变得简单、高效、可重复。

温馨提示：如果觉得本文对你有帮助，请点赞、收藏、关注，我们下期将带来更多TinyUniverse项目的深度解析！

【免费下载链接】tiny-universe 《大模型白盒子构建指南》：一个全手搓的Tiny-Universe 项目地址: https://gitcode.com/datawhalechina/tiny-universe

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考