学习几种LLM的评分方法

原创已于 2025-04-06 11:51:15 修改 · 245 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #语言模型 #nlp

于 2025-04-06 11:01:24 首次发布

BLEU（Bilingual Evaluation Understudy）评分

BLEU（Bilingual Evaluation Understudy）是一种广泛用于评估机器翻译和自然语言生成任务质量的指标。BLEU-4评分是基于四个n-gram（从单个词到四词组合）匹配度的加权几何平均值，旨在衡量生成文本与参考文本之间的相似性

n-gram 精确度

对于每个n-gram（n=1,2,3,4），计算生成文本中n-gram在参考文本中出现的比例。例如：

Unigram (1-gram)：单独词汇的匹配比例。

Bigram (2-gram)：两个连续词汇的匹配比例。

Trigram (3-gram)：三个连续词汇的匹配比例。

Four-gram (4-gram)：四个连续词汇的匹配比例。

 from nltk.translate.bleu_score import sentence_bleu
 reference = [['this', 'is', 'a', 'test'], ['this', 'is' 'test']]
 candidate = ['this', 'is', 'a', 'test']
 score = sentence_bleu(reference, candidate)
 print(score)
1.0

ROUGE

ROUGE指标是在机器翻译、自动摘要、问答生成等领域常见的评估指标。
ROUGE（Recall-Oriented Understudy for Gisting Evaluation）是比BLEU更适合的评估指标，尤其擅长评估临床报告生成、医学摘要等任务。

ROUGE-L

Clinical Accuracy Score

Drug-Drug Interaction (DDI) Detection

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Timy_bai

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

BLEU-4、ROUGE-1是什么

ZJQ的博客

03-13

771

BLEU-4、ROUGE-1、ROUGE-2和ROUGE-L是用于评估模型性能的重要指标。

biggram

tattarrattat的专栏

05-26

1574

采用Bigram 方法[4]进行字符串相似性度量，设有字符串属性r1 和r2，令Gr1 和Gr2 分别表示字符串的Bigram 集合，则2 个字符串的相似性分数计算公式为 http://en.wikipedia.org/wiki/BigramFrom Wikipedia, the free encyclopediaJump to: navigation, search

参与评论您还未登录，请先登录后发表或查看评论

【机器学习&深度学习】NLP评价指标 BLEU 和 ROUGE

qq_62223405的博客

07-27

1527

BLEU：如果你和别人玩“找出相同的单词”游戏，你找到的相同单词越多，得分越高。 ROUGE：如果你和别人玩“找出包含相似意思的单词”游戏，你找到的相似意思单词越多，得分越高。

BLEU、ROUGE详解-语言模型的常用评价指标-举例附代码实现

小王的博客

08-19

2934

ROUGE指标与BLEU指标非常类似，均可用来衡量生成结果和标准结果的匹配程度，不同的是ROUGE基于召回率，BLEU更看重准确率。其中k表示在候选句子(candidate)中出现的第k个词语,Ck则代表在候选句子中这个词语出现的次数，而Sk则代表在参考文本(reference)中这个词语出现的次数。 2.公式:candidate和reference中匹配的 n-gram 的个数 /candidate中n-gram 的个数.：评价一种语言翻译成另一种语言的文本质量的指标。

大语言模型(LLM)入门学习路线图

热门推荐

weixin_36751401的博客

02-28

2万+

Github项目上有一个，它涵盖了大语言模型基础学习，LLM前沿算法和架构学习，以及如何将大语言模型进行工程化，是一个很好的帮助初学者入门大语言模型的路线图。

LLM之学习笔记（一）

weixin_44598554的博客

11-27

1519

记录一下自己的学习历程，也怕自己忘掉了某些知识点。

浅析LLM训练（Training）几种典型模式

Q2024107的博客

07-15

648

本文通俗解析了大模型训练的关键概念和流程：预训练获得通用基座模型，后训练针对特定场景优化。后训练包含监督微调（SFT）和强化学习（RL）两个方向——SFT使用标注数据精细调整参数，RL通过奖励机制引导模型行为。通过DeepSeek和Qwen案例，文章展示了V3/R1模型如何从基座模型分化，以及数学模型的训练链条（预训练→SFT→RL）。特别说明强化学习的核心是奖励模型设计，而不同训练方法会产出适应不同场景的模型特性（如V3即时响应、R1深度推理）。全文以信息化从业者视角，将复杂技术术语转化为易理解的类比说明

大模型学习| LLM中20种提示词策略

2401_85375186的博客

10-17

1314

模型生成文本的摘要。

综述：LLM的上下文学习

yorkhunter的博客

07-11

1077

23年6月来自北大、上海AI实验室和UCSB的综述论文“A Survey on In-context Learning“。

LLM 学习之「向量数据库」

2401_85782938的博客

06-21

948

向量数据库是一种以向量或数据点的数学表示形式存储数据的数据库。人工智能和机器学习使非结构化数据能够转换为捕获意义和上下文的数字表示（向量），这得益于自然语言处理和计算机视觉的进步。矢量相似性搜索（VSS）是矢量数据库的关键功能。它是查找与向量数据库中给定查询向量相似的数据点的过程。常用的 VSS 用途包括推荐系统、图像和视频搜索、自然语言处理和异常检测。例如，如果构建推荐系统，则可以使用 VSS 查找（并建议）与用户以前表现出兴趣的产品类似的产品。信息有多种形式。

智能教育:LLM如何促进个性化学习和智能辅导

AI天才研究院

04-30

735

智能教育:LLM如何促进个性化学习和智能辅导 1.背景介绍 1.1 教育领域的挑战在当今快节奏的数字时代,教育领域面临着前所未有的挑战。学生的学习需求日益多样化,教师需要满足每个学生的独特需求,提供个性化的学习体验。然而,传统的一

使用Python实现LLM的强化学习结合：离线RL与在线RL

二进制的梦想

01-20

1154

强化学习是一种通过与环境交互来学习策略的机器学习方法。智能体（Agent）在环境中采取行动，环境根据行动返回奖励和新的状态。智能体的目标是通过最大化累积奖励来学习最优策略。

两种利用 LLM 进行摘要质量评估的方法：GPTScore 和 GPTRank

AI_Conf的博客

08-06

1970

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

LLM与强化学习结合的对话系统优化

二进制的梦想

01-21

1082

随着大型语言模型（LLM）在自然语言处理领域的广泛应用，对话系统的性能得到了显著提升。然而，现有的LLM在对话连贯性和用户满意度方面仍存在不足。本文提出了一种将LLM与强化学习（RL）结合的方法，通过使用近端策略优化（PPO）算法优化LLM的对话策略，并引入细粒度奖励机制，以提升对话系统的连贯性和用户满意度。实验结果表明，该方法在多个对话任务中均取得了显著的性能提升。本文提出的框架将LLM与RL结合，通过PPO算法优化LLM的对话策略。具体而言，我们将LLM作为策略网络，通过PPO算法优化其生成的对话响应。

基于学习的人工智能（1）为什么学习？

致力于大数据+AI 的应用创新。

11-24

272

学习是人类最重要的认知活动之一，贯穿我们的一生。出生后，我们无时无刻不在学习：从父母那里学说话，自己尝试走路，从小伙伴那里学会折纸飞机，从老师那里学到语文、数学等各种知识。研究人员始终将光源和风扇放在同一侧，经由学习，玉米幼苗逐渐学会了“有风的地方就会有光”的规律。之后，研究人员移去光源，并改变风扇方向，玉米幼苗依然按照所学知识，向风扇方向生长。1959 年，美国计算机学家亚瑟·塞缪尔设计了一款可以自我学习的跳棋程序，并将这一新方法称为“机器学习”，从而开启了机器自我学习的道路。

【Betaflight源码学习】Betaflight 嵌入式操作系统架构解析：与 FreeRTOS 的深度对比

曾记否@

11-23

1126

Betaflight飞控系统采用轻量级自研调度机制，与FreeRTOS形成鲜明对比。该系统基于时间片的非抢占式调度，通过scheduler()函数顺序执行任务，确保飞控关键任务获得确定性执行时间。其核心taskDescriptor_t结构体包含任务函数指针、执行频率等参数，所有任务在枚举列表中明确定义。这种高度优化的调度方式为无人机控制提供了低延迟保障，但牺牲了部分系统灵活性。两种架构在任务调度策略、实时性保障等方面存在根本差异，直接影响飞控系统性能表现。

学习笔记——基础hash思想及其简单C++实现

2502_91790308的博客

11-23

941

哈希表是一种查找时间复杂度为O(1)的高效数据结构，通过哈希函数将数据映射到固定位置实现快速查询。本文介绍了哈希表的核心概念，包括哈希函数（重点讲解除留余数法）、负载因子和哈希冲突。针对冲突问题，详细阐述了开放定址法（含线性探测、二次探测）和链地址法两种解决方案。文章还通过计数排序示例说明哈希思想，并探讨了实现中的关键问题，如扩容策略、处理非整数类型键值的方法等。哈希表性能优异但需合理设计，否则可能退化为O(n)复杂度。

DeepSeek少样本学习

最新发布

2509_93939072的博客

11-25

412

二是学会一个“距离度量”的尺度，知道在特征空间里，怎样算“像”，怎样算“不像”。除了常规的裁剪、翻转、变色，可以尝试Mixup、CutMix等混类增强，甚至用一些AutoAugment策略，凭空创造出海量的“新”样本，让模型见识更多的多样性，增强鲁棒性。它的核心在于，不再执着于记忆海量数据中那些细枝末节的特征，而是着力于学习一个“好的特征空间”，并掌握一种“比较和区分”的通用能力。它的目标就是上面说的，学习一个映射函数，把数据投影到一个新的特征空间，在这个空间里，相似样本靠得极近，不相似样本离得足够远。

LLM3.2语言大模型评估方法

03-16

### LLM3.2 语言大模型性能评估的方法与指标 #### 方法概述对于LLM3.2这样的大型语言模型，其性能评估通常涉及多个方面。具体来说，可以从以下几个维度展开分析： 1. **评估方法的选择** 针对LLM3.2的语言模型特性，可以选择多种评测手段来全面衡量其性能。一种常见的方式是通过设计实验验证模型在不同任务上的表现，例如文本生成、翻译、问答等[^1]。此外，还可以采用无监督和有监督两种模式下的评测策略。无监督评测侧重于考察模型的泛化能力和上下文理解力；而有监督评测则更多关注模型在特定任务中的精确度。 2. **鲁棒性提升的方向** 在未来的评测体系改进中，开发更加稳健的评测标准是一个重要的趋势。这意味着需要减少外部因素干扰（如输入噪声），从而让评测结果更为可靠。同时，探索能够适应复杂环境变化的新一代评测工具也是当前研究的重点之一[^2]。 3. **结合人类判断与自动化评分** 考虑到单一依靠机器打分可能存在局限性，因此尝试融合人工评价意见成为优化方案之一。这种方法不仅提高了最终结论的信任程度，同时也弥补了一些传统量化指标难以捕捉细微差异之处。 #### 主要评估指标及其应用场景以下是几种广泛应用于现代NLP领域内的核心评估指标： - **BLEU (Bilingual Evaluation Understudy)** BLEU是一种用于测量机器翻译质量的经典指标，在对比候选译文与参考译文之间匹配程度时非常有效。它特别适合用来检验短语级相似度。 - **ROUGE (Recall-Oriented Understudy for Gisting Evaluation)** ROUGE系列主要用于总结任务的效果评定上，通过对重叠n元组数量统计得出分数，反映摘要内容覆盖范围广度及准确性。 - **METEOR (Metric for Evaluation of Translation with Explicit ORdering)** METEOR综合考虑词形变换等因素计算得分，相较于其他同类工具有更强灵活性，尤其适用于多义项处理场合下。 - **Perplexity** 迷惑度(perplexity)作为衡量语言建模优劣的重要尺度，表示给定序列预测难度大小。数值越低表明模型对该分布掌握得越好。除了上述通用型外，还有针对特殊需求定制化的专用版本可供选用，比如专门面向对话系统的DSTC(Dialog State Tracking Challenges)相关参数集合等等[^4]。 ```python import numpy as np def calculate_perplexity(probabilities): """ 计算困惑度(Perplexity) 参数: probabilities (list): 各单词概率列表返回值: float: 困惑度值 """ log_probs = [-np.log(p) for p in probabilities if p !=0 ] perplexity_value = np.exp(np.mean(log_probs)) return perplexity_value ``` --- #### 数据集支持为了更好地完成以上各项检测操作，往往还需要借助高质量的数据资源辅助实施过程。目前已有不少公开可用的标准库被整理出来供开发者们取用，其中就包含了适配各类子领域的专项素材包。例如GitHub项目`LLM-evaluation-datasets`提供了详尽文档说明以及定期维护更新机制，极大地方便了研究人员快速定位目标材料并开展相应试验活动。 ---