Perplexity(PPL)和大模型评测

一. PPL评测

大模型推理:

forward时,计算每一个token的生成概率:

整个句子,所有N个token的概率相乘,再开N次方,可视为每个token的“平均概率”,越大越好(“确信度”);

再求倒数,即为困惑度perplexity(PPL),越小越好。

(可以视为,生成这个句子的可能性,相当于从PPL个选项里蒙对的可能性,越小表示越确定)

上例,大模型1和大模型2,“是”之前的token,概率相差不大,“北“、”京“的概率,明显看出2个大模型的能力差异了!模型2看来是不懂这条知识的。

连乘:联合概率。开N次方:为了让“平均”概率不受句子长度的影响。

痛点:计算的时候,连乘的话,数值太小,精度不够了。

解决:使用log,先求对数再求指数:

局限性:

只能反映模型是否“倾向”被测文本。如果被测文本本身质量很烂,而大模型能力很好,则PPL是高的。例如大模型是擅长高质量写作,但被测文本是一段小孩子作文,则PPL很高。

### LLaMA-Factory 微调后的大规模模型评估指标与方法 对于大规模语言模型(LLMs),尤其是经过微调的模型,其性能可以通过多种定量定性的评价标准来衡量。以下是针对 LLaMA-Factory 微调后的大型模型可能适用的主要评估指标方法: #### 1. **困惑度 (Perplexity)** 困惑度是一种常用的自然语言处理中的概率统计量,用于测量语言模型预测下一个词的能力。较低的困惑度表示更好的预测能力[^1]。具体来说,可以使用以下公式计算困惑度: \[ PPL = \exp\left(-\frac{1}{N} \sum_{i=1}^{N} \log P(w_i|w_1, w_2, ..., w_{i-1})\right) \] 其中 \( N \) 是语料库中的总词数,\( P(w_i|\cdot) \) 表示给定上下文条件下单词的概率。 #### 2. **BLEU Score** BLEU(Bilingual Evaluation Understudy)分数通常用来比较机器翻译系统的输出质量参考译文的质量。尽管 BLEU 主要应用于翻译领域,但它也可以被扩展到其他生成任务中,例如文本摘要或评论生成。该评分基于 n-gram 的精确匹配率以及惩罚机制以避免过短的回答得分过高[^1]。 #### 3. **ROUGE Scores** ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一系列专门设计用于自动总结评测的标准之一。它主要关注召回率而非精度,并且支持字符级别、词级别甚至句级别的相似性分析。这对于像 paper-review 这样的特定应用场景非常有用。 ```python from rouge_score import rouge_scorer scorer = rouge_scorer.RougeScorer(['rouge-1', 'rouge-l'], use_stemmer=True) scores = scorer.score("generated review", "reference review") print(scores) ``` #### 4. **F1-Score Accuracy** 当涉及到分类问题时,例如判断某篇论文是否应该接受还是拒绝,则 F1-score 或者 accuracy 成为了重要的评判依据。这些数值能够直观反映模型在二元或多类别决策上的表现如何。 #### 5. **Human Evaluation** 除了自动化指标之外,人类评审也是不可或缺的一部分。邀请领域专家对生成的内容进行主观打分可以帮助我们了解模型的实际应用价值及其局限所在。 #### 6. **Specific Domain Metrics** 考虑到您提到的是关于学术文章审查的任务,因此还可以引入一些更具体的域内指标,如科学论证强度、逻辑连贯性术语准确性等方面的表现测评。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值