为了弥补 One-Hot 独热编码的维度灾难和语义鸿沟以及 BOW 词袋模型丢失词序信息和稀疏性这些缺陷,将词表示成一个低维的实数向量,且相似的词的向量表示是相近的,可以用向量之间的距离来衡量相似度。
N-gram 统计语言模型是用来计算句子概率的概率模型,即某一个词的出现由其前面每一个词出现的概率决定。假设一个长度为N的句子,句子 S=(X1,...,XN),那么这个句子的概率(也就是这 N 个词共同出现的概率)如下:
| N的取值 | 名称 | 含义 |
| 1 |
本文介绍了N-gram语言模型用于计算句子概率的方法,强调了词向量表示在克服One-Hot编码缺点上的优势。文章通过实例展示了如何使用Bigram进行概率计算,并讨论了模型的精度与复杂性trade-off和数据稀疏问题。
为了弥补 One-Hot 独热编码的维度灾难和语义鸿沟以及 BOW 词袋模型丢失词序信息和稀疏性这些缺陷,将词表示成一个低维的实数向量,且相似的词的向量表示是相近的,可以用向量之间的距离来衡量相似度。
N-gram 统计语言模型是用来计算句子概率的概率模型,即某一个词的出现由其前面每一个词出现的概率决定。假设一个长度为N的句子,句子 S=(X1,...,XN),那么这个句子的概率(也就是这 N 个词共同出现的概率)如下:
| N的取值 | 名称 | 含义 |
| 1 |
1317
1026
1348
2703

被折叠的 条评论
为什么被折叠?