通过BLEU得分评价LLM模型

最新推荐文章于 2025-06-19 00:34:04 发布

ex_wangwei020

最新推荐文章于 2025-06-19 00:34:04 发布

阅读量244

点赞数 3

CC 4.0 BY-SA版权

文章标签： prompt 自然语言处理 nlp

本文链接：https://blog.youkuaiyun.com/ex_wangwei020/article/details/139500855

在使用LLM模型处理任务时，经常需要判断模型的输出是否达到了业务的要求。这里就需要一个验证集以及一个自动验证的工具。对于生成式的模型BLEU是一个简单好用的评判方式。

BLEU指标的优点包括：

简单、易用和可解释性强。它基于文本相似度计算方法，可以直观地反映出机器输出文本的质量

BLEU也存在一些局限性：

只考虑了文本的表面相似度，而忽略了语义层面的匹配度。对于一些语义复杂的句子，BLEU可能无法准确地反映出它的质量。
对参考答案的数量和质量非常敏感。如果参考文本质量不高或者数量不足，BLEU分数的可靠性可能会受到影响。

通过业务给定一批任务和任务处理的标准答案。设置一个完整的比对流程，对模型和prompt进行评判，并优化prompt，提升模型输出。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ex_wangwei020

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

机器学习笔记 - 什么是BLEU分数?

学以致用知行合一

05-31

5424

从企业使用和价值的背景下讨论机器翻译质量，其中语言质量很重要，但不是结构化机器翻译技术评估过程中适用性的唯一决定因素。作为企业使用随着机器翻译的扩展，用户和从业者以相关、有意义和准确的方式理解机器翻译质量问题变得越来越重要。所以需要仔细研究BLEU分数。 BLEU或双语评估研究是一种基于分数的方法，用于评估由自然语言处理 (NLP) 系统执行的翻译工作的质量。基本上，BLEU将机器翻译生成的文本与人类执行并被认为是正确的参考翻译进行比较。

LLM - 计算大模型评估指标 BLEU 的工具 (NLTK/Evaluate) 教程

AGI

01-02

1389

BLEU(Bilingual Evaluation Understudy)，即双语评估替补，通过比较，机器翻译的句子和参考翻译句子之间的 n-gram (n元语法) 重叠情况来衡量翻译质量，也可用于评估大语言模型的输出质量。

参与评论您还未登录，请先登录后发表或查看评论

Bleu 得分-选修（Bleu Score-optional）

csdn_xmj的博客

07-31

1680

来源：Coursera吴恩达深度学习课程机器翻译（machine translation）的一大难题是一个法语句子可以有多种英文翻译而且都同样好，所以当有多个同样好的答案时，怎样评估一个机器翻译系统呢？图像识别（image recognition）只有一个正确答案，测量准确性（measure accuracy）就可以。如果有多个不错的答案，要怎样衡量准确性呢? 常见的解决办法是，通过一个叫做BLEU得分（the BLEU score）的东西来解决。接着让我们了解BLEU得分是怎样工作的。假如有一

5.3.6Bleu得分

dqefd2e4f1的博客

12-16

365

问题： 1 平均分前面的BP参数是什么意思？ 2 BP参数有什么作用？ 3 BP参数中，当机器翻译的词数小于参考翻译的词数时为什么会有这样的规定？备注：我认为吴恩达教授的PPT中的BP表达式可能有误，正确的表达式应该是 BP = 1 if MT>R BP = otherwise 解决办法：看博客，学习别人对Bleu得分的理解。附链接：https://blog.c...

深度学习基础—Bleu得分

sniper_fandc的博客

11-16

681

在二元组中，假设机器翻译的结果为：The cat the cat on the mat，则二元组有：The cat、cat the、the cat、cat on、on the、the mat（忽略大小写），the cat在参考翻译中出现的最大次数是1，cat the在参考翻译中出现的最大次数是0，cat on在参考翻译中出现的最大次数是1，on the在参考翻译中出现的最大次数是1，the mat在参考翻译中出现的最大次数是1，因此计算的准确率为所有二元组最大次数之和/二元组数量：4/6。

3.6 Bleu得分-深度学习第五课《序列模型》-Stanford吴恩达教授

赵继超的笔记

06-09

1214

Bleu得分 (Bleu Score) 机器翻译（machine translation）的一大难题是一个法语句子可以有多种英文翻译而且都同样好，所以当有多个同样好的答案时，怎样评估一个机器翻译系统呢？不像图像识别（image recognition），只有一个正确答案，就只要测量准确性就可以了。如果有多个不错的答案，要怎样衡量准确性呢? 常见的解决办法是，通过一个叫做BLEU得分（the BLEU score）的东西来解决。所以，在这个选修视频中，我想与你分享，我想让你了解BLEU得分是怎样工作的。假如

如何评估一个LLM（大型语言模型）的好坏？

最新发布

AI天才研究院

06-19

126

基于统计模式的生成机制，在训练数据缺陷、流畅性优先目标、上下文处理限制的共同作用下，将语言模式的"表面正确"误判为"事实正确"。要减少幻觉，需从数据质量提升、事实校验机制引入、模型对知识边界的识别能力等多方面优化。明确问题关键点：需要解释LLM幻觉现象与概率论之间的内在联系。这需要深入理解LLM作为概率模型的本质，以及概率计算如何导致或影响幻觉的产生。可能的解释方向LLM作为概率模型的基本原理条件概率分布与token预测最大似然估计与幻觉的关系不确定性表示与幻觉采样策略对概率分布的影响。

自研CPM-4大模型LLM -模型案例：由专业研究报告生成无结构文本

02-27

- 腾讯AI Lab通过反向翻译与数据蒸馏，实现藏语等低资源语言翻译BLEU得分85+； - 字节跳动嵌入情感向量，完成营销文案的个性化风格控制。 *工程突破*：混合精度训练（FP16+FP32）与模型并行技术，千亿参数模型...

从零构建 AI Agent：LLM 大模型应用开发实践

AI天才研究院

12-03

1195

AI Agent（人工智能代理）是一个能够感知环境、做出决策并采取行动以实现特定目标的智能系统。它是人工智能研究和应用的核心概念之一，代表了我们在创造能够自主运作的智能实体方面的努力。感知器（Sensors）：用于感知环境状态的组件。执行器（Actuators）：用于在环境中执行动作的组件。决策单元（Decision-making unit）：根据感知到的信息做出决策的核心组件。数学上，我们可以将 AI Agent 表示为一个函数ffffP→AfP→A其中PPP。

[LLM评测/评价指标]用 Python 计算文本 BLEU 分数和 ROUGE 值

强化学习曾小健

06-28

2041

文本生成是自然语言处理 (NLP) 中常见的一类任务，例如机器翻译、自动摘要、图片标题生成等等。如何评估生成文本的质量，或者说衡量生成文本与参考文本之间的差异，是一个必须考虑的问题。目前比较常见的评估方法就是计算 BLEUBLEU 分数和 ROUGEROUGE 值。

【吴恩达deeplearning.ai】Course 5 - 3.7 注意力模型直观理解

qq_42994177的博客

03-14

353

注意力模型直观理解 (Attention Model Intuition) 在本周大部分时间中，你都在使用这个编码解码的构架（a Encoder-Decoder architecture）来完成机器翻译。当你使用RNN读一个句子，于是另一个会输出一个句子。我们要对其做一些改变，称为注意力模型（the Attention Model），并且这会使它工作得更好。注意力模型或者说注意力这种思想（The attention algorithm, the attention idea）已经是深度学习中最重要的思想之一

LLM - 大模型评估指标之 BLEU

BITDDD小栈

08-17

2151

LLM 指标评估之 BLEU 双语评估替身。

文本生成评估指标详解及计算（BLEU）

arvinChen的博客

06-07

7945

BELU详解及计算实例

【深度学习】序列生成模型（五）：评价方法计算实例：计算BLEU-N得分【理论到程序】

天地玄黄魑魅魍魉风花雪月商角徵羽

12-20

1696

本文介绍了计算BLEU-N得分的具体过程及其python实现

BLEU分数(bilingual evaluation understudy(双语替换测评)) —衡量机器翻译质量(BLEUScore)(pycocoevalcap)

hxxjxw的博客

04-24

5198

BLEU 是双语替换测评 https://cloud.tencent.com/developer/article/1042161

怎么计算大模型生成回答的准确率

ZJQ的博客

04-24

309

怎么计算大模型生成回答的准确率 BLEU 计算demo ROUGE 计算demo BLEU和 ROUGE 区别应用场景计算方法侧重点取值范围和解读示例对比 BLEU，ROUGE是按位置匹配吗 BLEU ROUGE

【深度学习】序列生成模型（四）：评价方法

天地玄黄魑魅魍魉风花雪月商角徵羽

12-19

906

序列生成模型的评价方法

python中计算BLEU分数