目录
1. Probabilities: Joint to Conditional 概率:从联合到条件
1.1 The Markov Assumption 马尔可夫假设
1.2 Maximum Likelihood Estimation 最大似然估计
1.3 Book-ending Sequences 书籍结尾序列
2.1 Laplacian (Add-one) Smoothing
2.8 Interpolated Kneser-Ney Smoothing
如今,预训练的语言模型是现代NLP系统的骨干
1. Probabilities: Joint to Conditional 概率:从联合到条件
我们的目标是得到一个任意的m个词的序列的概率
第一步是应用链式规则,将联合概率转换为条件概率
1.1 The Markov Assumption 马尔可夫假设
还是很棘手,所以做一个简单的假设:
1.2 Maximum Likelihood Estimation 最大似然估计
我们如何计算概率?根据语料库中的计数进行估计:
1.3 Book-ending Sequences 书籍结尾序列
用于表示序列的开始和结束的特殊标记
- <s> = sentence start
- </s> = sentence end
1.4 Trigram example
1.5 Several Problems
- 语言具有长距离效应ー 需要大的 n
- 上周的讲座是关于预处理的。