数学与语言学基础:信息论、词性及形态学解析
1. 数学基础:信息论相关概念
1.1 熵率与平稳遍历过程
期望是所有可能序列的加权平均,但在某些公式中,我们会使用极限并观察越来越长的语言使用序列。直观来讲,如果我们接触了大量的语言内容,那么所看到的就是“典型”的。此时,无需对语言的所有样本进行平均,特定样本给出的熵率值大致是正确的。
从形式上看,如果假设((X_i))是一个平稳遍历过程,就能证明上述结果,这是香农 - 麦克米伦 - 布雷曼定理(也称为渐近等分性)的推论。
- 遍历过程 :大致来说,遍历过程是指不会陷入无法逃脱的不同状态的过程。例如,一个非遍历过程可能在开始时从两种状态中选择其一:一种是永远生成 0,另一种是永远生成 1。如果一个过程不是遍历的,那么即使观察一个非常长的序列,也不一定能了解其典型行为(例如,重新启动时可能发生的情况)。
- 平稳过程 :平稳过程是指不随时间变化的过程。对于语言而言,这显然是不正确的,因为新的表达不断进入语言,而其他表达则逐渐消失。因此,在语言应用中使用此结果来计算交叉熵的值并不完全准确。不过,对于某一特定时期的文本快照(如一年的新闻专线),我们可以假设语言几乎不变,所以这是一个可以接受的近似。
1.2 英语的熵
一般来说,英语不是一个平稳遍历过程,但我们可以用各种随机近似模型来对其进行建模,特别是 n - 元语法模型或马尔可夫链。这些模型假设具有有限的记忆,即下一个单词的概率仅取决于输入中的前 k 个单词。
例如,在字符层面上,我们
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



