自然语言处理中的评估指标与互信息应用
1. 语言模型评估指标 - 困惑度
在语言建模中,给定一个部分句子,对于“正确”的下一个单词并没有单一的绝对答案,因为句子有多种完成方式。不同答案之间的差异很微妙,取决于语法正确性和语义合理性。因此,困惑度是一个更好的评估指标。
1.1 基本概念
困惑度的基本思想是测试语言模型 Q 在看到一组人类编写的句子 D 时的“惊讶程度”。给定一组测试数据,其中每个句子是人类编写的,语言模型 Q 的困惑度可以根据特定公式计算。
1.2 句子级困惑度和词级困惑度
- 句子级困惑度 :由于句子的稀疏性,句子级困惑度通常是非常大的数字。
- 词级困惑度 :更常用的评估指标是词级困惑度。假设被评估的语言模型可以根据单词的句子上下文给出每个单词的概率,我们将测试数据视为一组处于句子上下文中的单词,然后计算语言模型的困惑度。对于新闻英语,n - 元语言模型的词级困惑度约为 250,这意味着该模型在处理数据时的困惑程度,就好像在写每个单词时必须在 250 个不同的单词中均匀选择一样。如今,最好的英语语言模型可以将这个数字降低到 30 甚至更低。
2. 互信息
KL 散度和交叉熵用于衡量对同一随机变量进行编码的两个分布之间的相关性,因此可用于在标准数据上训练或评估概率模型。而互信息则关注两个不同随机变量的编码。
2.1 条件熵与互信息的关系
两个随机变量 y 和 x 之间的条件熵衡量了当已知 x 的结果时,对随机变量
超级会员免费看
订阅专栏 解锁全文
2149

被折叠的 条评论
为什么被折叠?



