[NLP笔记] 评价指标

最新推荐文章于 2025-07-27 19:03:50 发布

原创最新推荐文章于 2025-07-27 19:03:50 发布 · 464 阅读

0 ·

CC 4.0 BY-SA版权

NLP笔记专栏收录该内容

8 篇文章

订阅专栏

本文回顾了2019年的人工智能技术进展，并介绍了多个用于评估AI模型性能的标准，包括GLUE、SuperGLUE、SQuAD和RACE等，这些指标涵盖了从自然语言理解到因果推理的广泛任务。

评价指标：

GLUE
SuperGLUE（DeepMind、纽约大学、华盛顿大学联合Facebook提出了新的测试标准SuperGLUE，加入了更难的因果推理任务）
SQuAD
RACE

参考

一文看尽2019全年AI技术突破量子位

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

天南星南十字星

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

NLP模型笔记2022-10：nlp句法分析模型评价标准UAS/LAS

源代码杀手的博客

05-28

1411

1、UAS/LAS解释 NLP中常见的树结构有两种，一种是Dependency Tree即依存树，另一种是Constituency Tree(即短语结构树，为了提高准确率，Constituency Tree往往以二叉形式给出)。 UAS/LAS这是依赖树解析的评价指标，把算法标的依赖树的边和标准答案对比，标对的边的百分比就是准确率。论文参考：https://aclanthology.org/K15-1033.pdf 相关原理学习资料PDF/PPT下载参考：http://web.stanford.edu/~

《深度学习进阶：自然语言处理(第5章)》-读书笔记

weixin_52128497的博客

04-13

1628

CBOW 模型本来的目的“从上下文预测目标词”是否可以用来做些什么呢？给出了单词序列发生的概率。具体来说，就是使用概率来评估一个单词序列发生的可能性，即在多大程度上是自然的单词序列。比如，对于“you say goodbye”这一单词序列，语言模型给出高概率（比如 0.092）；对于“you say good die”这一单词序列，模型则给出低概率（比如 0.0000000000032）。

参与评论您还未登录，请先登录后发表或查看评论

NLP评价指标

xzq_qzx_的博客

03-04

2698

1，2，3，4这四种评估指标是基础评估指标；5，6两种评估指标主要用来辨别一句话是否是人话的概率；7，8两种指标经常用于机器翻译、文章摘要评价任务指标；9，10两种指标经常应用于机器翻译任务指标。如果还有其他比较重要或者常用的指标也欢迎大家分享，相互学习！！！以上均为笔者在学习和研究过程中参考过的资料,并非原创,在此表明。笔者目前也正在学习和研究大模型对此领域还不太熟练,欢迎与我讨论,提出宝贵的意见和建议。

nlp评价指标

qq_18310041的博客

03-20

1778

F1-score, PPL, MRR, MAP, BLUE

【机器学习&深度学习】NLP评价指标 BLEU 和 ROUGE

最新发布

qq_62223405的博客

07-27

1584

BLEU：如果你和别人玩“找出相同的单词”游戏，你找到的相同单词越多，得分越高。 ROUGE：如果你和别人玩“找出包含相似意思的单词”游戏，你找到的相似意思单词越多，得分越高。

NLP攻击评价指标

qq_38156951的博客

04-17

2102

进行NLP对抗攻击的实验中可能会使用的攻击评价指标（持续更新）。目录基于机器的评价指标攻击成功率原始精度（original accuracy）攻击后精度（ after-attack accuracy）对抗文本和原始文本语义相似程度（SemanticSimilarity）扰动单词百分比（perturbed word percentage）语义相似性（USE）攻击模型的效率攻击系统对目标模型查询次数（QueryNumber）基于人的评价指标基于机器的评价指标攻击成功率通过对比原始精度和攻击后的精度得到，

【学习3】一些NLP评价指标及其计算

iviyandyssg的博客

07-24

2716

参考 1、https://zhuanlan.zhihu.com/p/223048748 2、https://www.cnblogs.com/xinbaby829/p/6955687.html 3、https://zhuanlan.zhihu.com/p/37639563 1、bleu BLEU (全称为Bilingual Evaluation Understudy)的意思是双语评估替补。尽管最开始作为翻译的指标而被发明，但bleu也可以用于image caption的评估。假如给定标准译文

精选资源

自然语言处理-基于预训练模型的方法-笔记

09-01

《自然语言处理-基于预训练模型的方法》是一本深入探讨NLP领域中预训练模型的著作，由车万翔、郭江、崔一鸣合著。该书详细介绍了预训练模型在自然语言处理中的重要性和广泛应用，涵盖了从基础知识到前沿技术的多个...

精选资源

简单的基于自然语言处理（NLP）的项目示例，用于情感分析

03-23

自然语言处理（NLP）是计算机科学领域的一个重要分支，主要研究如何使计算机理解、解析、生成和操作人类自然语言。在本项目中，我们关注的是一个基础的情感分析任务，这是NLP应用的一个典型场景，它涉及到识别和提取...

深度学习NLP笔记：词向量评价与内部任务分析

这篇学习笔记深入探讨了深度学习在自然语言处理中的应用，特别是词向量的生成、评价和优化，以及它们在构建高效NLP系统中的关键作用。通过理解和掌握这些知识，读者将能够更好地设计和实现自己的深度学习NLP模型。

NLP文本生成的评价指标有什么？

u012744245的博客

03-19

7088

文章目录NLP文本生成的评价指标有什么？1. BLEU2. ROUGE2.1 ROUGE-N （将BLEU的精确率优化为召回率）2.2 ROUGE-L （将BLEU的n-gram优化为公共子序列）2.3 ROUGE-W （ROUGE-W 是 ROUGE-L 的改进版）2.4 ROUGE-S （Skip-Bigram Co-Occurrence Statistics）3. METEOR4. 参考 NLP文本生成的评价指标有什么？ NLP文本生成任务的评价指标有哪些？怎么判断模型好坏呢？如何解读指标的意义？例如

【NLP】常见衡量指标(metrics)

程序的尽头是数学，一日不推导赶不上买买提

07-29

1758

NLP常见任务及评估指标

热门推荐

ph12345687的博客

04-21

1万+

整理了一些常见的NLP任务评价指标

NLP学习记录（五）最大期望值算法（EM算法）

丁小飞的博客

06-26

2827

概念：在统计学中，最大期望（EM）算法是在概率（probabilistic）模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variable） 1）计算期望（E），利用概率模型参数的现有估计值，计算隐藏变量的期望； 2）最大化（M），利用E 步上求得的隐藏变量的期望，对参数模型进行最大似然估计。 3）M 步上找到的参数估计值被用于下一...

NLP-EM算法

码python的Vinsmoke

11-17

705

初识EM算法 EM算法也称期望最大化（Expectation-Maximum,简称EM）算法。它是一个基础算法，是很多机器学习领域算法的基础，比如隐式马尔科夫算法（HMM）等等。 EM算法是一种迭代优化策略，由于它的计算方法中每一次迭代都分两步，其中一个为期望步（E步），另一个为极大步（M步），所以算法被称为EM算法（Expectation-Maximization Algorithm）。 EM算法受到缺失思想影响，最初是为了解决数据缺失情况下的参数估计问题，其算法基础和收敛有效性等...

nlp基础—6.EM算法

柳杰的博客

07-01

630

文章目录一、EM算法二、EM算法的应用—高斯混合模型GMM1.高斯混合模型下的EM算法三、HMM算法1.隐马尔科夫模型的定义2. 隐马尔可夫模型的两个假设3.隐马尔科夫模型的三个参数4.隐马尔科夫模型的三个基本问题四、如何解决隐马尔科夫模型的三个基本问题？1.HMM概率计算问题1.1 直接计算法1.2 前向算法1.3 后向算法1.4 一些概率与期望值的计算2.HMM概率学习问题2.1 监督学习方法2.2 非监督方法一、EM算法 EM算法是一种迭代算法，EM算法的每次迭代由两步组成：E步，求期望；M步：

NLP学习笔记34-EM算法

bohu83的博客

03-14

519

一序本文属于贪心NLP训练营学习笔记系列。从隐变量到EM算法。二数据表示传统的数据表示，如图片、文本等是人能直观理解。但是不一定是好的表示，可能有冗余的特征，有噪音等。是不是转换为低维的空间会更好？很多算法包括机器学习都是为了寻找一个更好的表示方法。三隐变量模型隐变量生成的例子： Complete Caseand Incomplete Case Complete Case ：用最大似然MLE来求解 Incomplete Case：使用EM算...

GLUE Benchmark：自然语言处理（NLP）模型评估的基准测试集

彬彬侠的博客

03-09

2069

GLUE（General Language Understanding Evaluation）是一个用于自然语言处理（NLP）模型评估的基准测试集，用于衡量预训练语言模型（如 BERT、GPT、T5、RoBERTa）在多个NLP 任务上的表现。GLUE 测试的是模型的通用语言理解能力，涵盖情感分析、文本蕴含、语义相似度、语法错误判断等多个任务。Hugging Face提供了GLUE数据集，可以用于快速训练和测试Transformer模型。

NLP基准数据 —— GLUE

weixin_45828972的博客

12-29

2632

NLP基准数据（Benchmark Dataset）—— GLUE，包含九项NLU任务