一. 词向量表示形式
在使用神经网络模型进行文本分类或者机器翻译时,前提工作是要对整理好的文本数据进行词向量化 (Word Embedding) ,既使用向量形式代表词。
1.1 One-hot representation
表示形式:向量维度的大小为数据中词汇表的大小,每个单词对应的位置置为1。例如 { I love china } ,love 的词向量为 [ 0, 1, 0 ] 。该表达形式最为简单,缺点是当词汇表特别大时,所占存储空间也特别大。
1.2 Dristributed representation
表示形式:以稠密的低维向量表示每个词。
二. 语言模型 ( Language Model )
如何判断一个句子是否流畅?例如 我在学习 而不是 我玩学习 ,语言模型可以解决这个问题。
2.1 统计语言模型
2.1.1 背景
给定一段文本序列,符号表达形式为:
s=w1 w2 w3 ... wm s = w 1 w 2 w 3 . . . w m
wi w i 通常是已经分好词的“词语”,称为统计基元。那么这段文本的概率为:
P(S)=p(w1) p(w1|w2) p(w3|w1w2)...p(wm|w1...wm−1)=∏i=1m p(wi|w1w2...wi−1) P ( S ) = p ( w 1 ) p ( w 1 | w 2 ) p ( w 3 | w 1 w 2 ) . . . p ( w m | w 1 . . . w m − 1 ) = ∏ i = 1 m p ( w i | w 1 w 2 . . . w i − 1 )
为方便计算,每个词只考虑与它前 n 个词有关,这便是语言模型中经典的 n 元文法 (N-gram) 模型,一般 n⩽3 n ⩽ 3 。求文本的概率公式变为:
P(S)=∏i