词序列概率模型及平滑技术详解
1. 语料库标记
大多数语料库会使用某种标记语言。N - 元语法模型最常见的标记是句子分隔符 <s> 和 </s> ,分别用于标记句子的开始和结束。例如: <s> It was a bright cold day in April </s> 。
根据应用场景,这两个符号既可以像其他标记一样计入 N - 元语法频率,也可以作为上下文提示。上下文提示是出现在概率条件部分但从不被预测的词汇项,即它们不会出现在右侧部分。在许多模型中, <s> 是上下文提示,而 </s> 是词汇表的一部分。
2. 词汇表
在实际应用中,语言模型需要处理超出词汇表(OOV)的单词。训练语料库通常包含数百万甚至数十亿个单词,但无论语料库规模多大,都无法完全覆盖所有词汇。训练语料库中未出现的单词可能会在测试集中出现,而且稀有单词的频率统计也不可靠。
处理 OOV 单词主要有两种方法:
- 封闭词汇表 :假设训练集和测试集中的所有单词都是已知的。根据语言模型的设置,词汇表外的任何单词将被丢弃或导致错误。这种方法常用于设备的语音控制等应用。
- 开放词汇表 :使用特定符号 <UNK> (未知标记)来处理新出现的单词。在训练集和测试集中,所有 OOV 单词都被映射到 <U
超级会员免费看
订阅专栏 解锁全文
35

被折叠的 条评论
为什么被折叠?



